Trends und Prognosen in der Verarbeitung natürlicher Sprache

Trends und Prognosen im Bereich NLP (Natural Language Processing)


In diesem Artikel geht es um Trends und Prognosen aus unserem September-Almanach „Künstliche Intelligenz“ Nr. 2, der sich mit einem Überblick über den Markt von Technologien und Unternehmen im Bereich NLP und Spracherkennungssynthese in Russland befasst.

Für diese Studie haben wir eine Expertenumfrage in der Branche durchgeführt und insbesondere nach Prognosen zur Entwicklung beider Technologien und zum Einsatz von KI in verschiedenen Bereichen gefragt. Es gab nicht so viele Antworten, aber dennoch kann ein allgemeiner Trend formuliert werden. In diesem Artikel haben wir diese Antworten zusammengefasst und die wichtigsten Trends aufgezeigt.

Allgemeine Technologietrends


End-to-End-NLP-Problemlösung


Immer mehr Lösungen werden auf dem End-to-End-Ansatz basieren. Beispielsweise empfängt das neuronale Netzwerkmodell ein akustisches Signal (Schallwellen) am Eingang und erzeugt am Ausgang ein akustisches Signal ohne Zwischenphase des Textes. Dies wird die Ausführung von Modellen und deren Qualität erheblich beschleunigen und gleichzeitig die "Transparenz" und unser Verständnis von "was drin ist" verschlechtern.

Annäherung an die Qualität der Spracherkennung und -generierung an den Menschen


In den kommenden Jahren wird eine deutliche Verbesserung der Spracherkennungsqualität erreicht. Die Anzahl der Erkennungsfehler nähert sich der menschlichen Ebene. Die Erkennung der gemischten Sprache mehrerer Personen, die in einer lauten Umgebung mit unterschiedlichen Akzenten sprechen, wird verbessert. Eine Analyse von Tonszenen unter Berücksichtigung des Geschlechts und des Alters der Sprecher, der emotionalen Färbung ihrer Sprache und der Art der Umgebung wird hinzugefügt.

Synthetisierte Sprache ist nicht von menschlicher Sprache zu unterscheiden, und es wird möglich sein, die Stimme jeder Person zu synthetisieren.

Mehrsprachigkeit


In naher Zukunft werden mehrsprachige Übersetzungsmodelle erscheinen, unter anderem aufgrund des Einsatzes von Transferlernen und aufgrund des Einsatzes signifikant größerer Monokorpusse neben parallelen Fällen. Infolgedessen wird die Qualität der Übersetzung für Sprachen mit geringen Ressourcen erheblich zunehmen (mit relativ kleinen Anordnungen von Trainingsmustern).

Die manuelle Übersetzung wird durch maschinelle Übersetzung aufgrund eines tieferen maschinellen Verständnisses des Kontexts und des Gegenstands von Dokumenten vollständig ersetzt. Mit dem Wachstum der Spracherkennungs- und Sprachsynthesetechnologien wird die maschinelle Simultanübersetzung am Horizont von 5 bis 10 Jahren erscheinen.

Die Bedeutung von Texten verstehen


Andere Anwendungen, die auf dem Verständnis der kontextspezifischen Bedeutung basieren, werden in 5-10 Jahren am selben Horizont erscheinen: verschiedene Arten von Dialogen und Hilfsdiensten, die den Kontext des Dialogs verstehen, Benutzerfragen intelligent beantworten und den Dialog in die richtige Richtung lenken können. Ein tieferes maschinelles Verständnis der Sprache wird die automatische Verarbeitung von Textströmen im Internet und in sozialen Netzwerken auf eine neue Ebene bringen: das Sammeln und Zusammenstellen von Fakten, deren Analyse auf Konsistenz und Zuverlässigkeit.

Texterzeugung


End-to-End-Neuronale Netze werden die klassische NLG-Pipeline universell ersetzen. Die Verwendung von GPT2-Level-Modellen ermöglicht es bereits, ziemlich lange Artikel zu beliebigen Themen in einem bestimmten Bereich mit kontrolliertem Inhalt zu erstellen. In einem Zeitraum von 5 Jahren können neuronale Netzwerkmodelle Texte generieren, die nicht schlechter sind als Menschen. Und dann werden automatische Inhalte die Welt überfluten.

Plattformen und plattformübergreifend


Viele Lösungen werden zum Standard, es wird viele Plattformen zum Erstellen von Anwendungen geben, die auf Sprachschnittstellen basieren. Cloud-Plattformen werden sich in Bezug auf Reaktionszeit, Arbeitslast und Sicherheit verbessern. Das Investitionswachstum wird nicht in separaten interaktiven Diensten (Chatbots) prognostiziert, sondern in multifunktionalen Plattformen und plattformübergreifenden Lösungen, dank derer der Sprachassistent auf verschiedenen Geräten gleichermaßen arbeiten kann. Auf diese Weise können wir ein Gespräch mit unserem Assistenten im „Smart Home“ beginnen, es im Auto auf der Straße fortsetzen und dann am Arbeitsplatz mit unserem Computer arbeiten, ohne den Kommunikationskontext zu verlieren.

Small Data-Technologien


Der Wert von Methoden des maschinellen Lernens, die unter Bedingungen einer kleinen Menge von Rohdaten effektiv funktionieren, wird steigen: Transferlernen, Wissenstransfer. In solchen Anwendungen wird auch die breitere Verwendung von GAN (Generative Adversarial Networks) zum Generieren von Daten für das Modelltraining erwartet.

Architekturen mit weniger Rechenaufwand


Mit dem Übergang von neuronalen Netzwerkmodellen von den Wänden von Labors zu kommerziellen Rechenzentren werden die Anforderungen an deren Energieeffizienz steigen. Neue, effizientere Computerarchitekturen werden erwartet. Zum Beispiel spärliche Netzwerke, die die besten Eigenschaften verteilter und symbolischer Berechnungen kombinieren, deren Komplexitätsmodelle sich an die Menge der Trainingsdaten anpassen.

Markttrends


Allgegenwärtige Implementierung von Sprachschnittstellen


Die Entwicklung von Sprach-zu-Text-Technologien ist der erste Schritt zur Vereinfachung von Büroaufgaben (z. B. Planung der Managerzeit, Suche nach Dokumenten, Verarbeitung vertraulicher Informationen). Mit zunehmender Erkennungsgenauigkeit, Tiefe des Verständnisses und Qualität der Sprachsynthese werden Sprachschnittstellen in fast alle Geräte integriert: Dialogsysteme in einem Smart Home, Auto, Haushaltsgeräte, Avatar-Bots, Assistenten-Bots.

Explosives Wachstum von Sprachrobotern


Wir warten auf das explosive Wachstum der Anzahl intelligenter Assistenten in verschiedenen Geschäftsbereichen, einschließlich kommerzieller Dienstleistungen von Banken, Einzelhändlern, Telekommunikationsunternehmen und anderen Unternehmen, die aktiv mit Kunden interagieren. Die gesamte verbale Kommunikation mit einem Massenpublikum in den beliebtesten Diensten wird von Robotern durchgeführt. Roboter lernen, Emotionen sensibel zu erkennen, einschließlich der multimodalen Bewertung von Emotionen, und verwenden selbst die emotionale Komponente im Gespräch.

Suche nach Informationen in natürlicher Sprache


Es besteht eine wachsende Nachfrage nach intelligenter Suche mit der Fähigkeit, Abfragen in einer natürlichen Sprache durchzuführen. Immer mehr Unternehmen möchten schnell unstrukturierte Daten in allen internen Quellen finden, deren Inhalt automatisch ermitteln und wichtige Fakten in speziellen rechtlichen oder finanziellen Texten hervorheben. Durch die Entwicklung tiefer Modelle zum Extrahieren von Fakten aus Texten und zum Abstrahieren ihrer Inhalte wird sich die Qualität des Informationsabrufs erheblich verbessern.

Zu Hause


Höchstwahrscheinlich werden große Unternehmen - Banken, Telekommunikation, Industrie - ihr eigenes Fachwissen auf dem Gebiet der KI entwickeln und erweitern, einschließlich Gesprächen mit ihrem eigenen Team aus Linguisten, Datenwissenschaftlern, NLP-Ingenieuren usw. Beispiele für das Outsourcing einzelner Aufgaben in naher Zukunft werden klein bleiben. Wir sehen ein schnelles Wachstum in den KI-Teams vieler großer Unternehmen. Gut oder schlecht ist ein Thema für einen separaten Artikel, aber dies ist ein klarer Trend.

Branchentrends


Finanzen und Versicherungen


Kurzfristig werden sich die Banken darauf konzentrieren, den Nutzen von Daten zu maximieren, die bereits von Banken gesammelt wurden, die AI im Allgemeinen und NLP im Besonderen verwenden. Langfristig gibt es einen stetigen Trend zur Vereinheitlichung und Vereinfachung von Bankprozessen, die ohne oder ohne Person durchgeführt werden können (Kontoeröffnung, Risikobewertung, Erstellung eines Kreditdossiers, Bewertung usw.). NLP wird mit anderen Technologien (Computer Vision, RPA, Fernidentifikation usw.) kombiniert.

Industrie und Logistik


Dank der NLP-Technologien kann man eine neue Generation von Designern der Projektdokumentation sowie die Entstehung von Systemen erwarten, die die Konsistenz von Dokumenten bewerten, die komplexe technische Objekte beschreiben. Darüber hinaus ist es möglich, die Entstehung automatisierter Steuerungsplanungssysteme anhand einer Analyse der Projektdokumentation und -standards mithilfe von NLP vorherzusagen.

Mit dem Aufkommen von Systemen zum Verständnis der Bedeutung von Texten am Horizont von 5 bis 10 Jahren wird eine endgültige Lösung für das Problem der Normalisierung von Nomenklaturen erwartet.

Medizin


Die weit verbreitete Einführung von Sprachschnittstellen befreit den Arzt erheblich von Texteingaben und erstellt automatisch markierte Krankenakten. Das Erscheinen eines großen markierten Textkorpus wird die Entstehung von SPPVR (Medical Decision Support Systems) einer neuen Klasse ermöglichen, die auf NLP-Technologien basiert.

IT und Telekommunikation


Es wird erwartet, dass der weit verbreitete Einsatz von Sprachbiometrie-Technologien (Authentifizierung und Autorisierung einer Person per Sprache) Dienste bereitstellt, die auf personalisierten Daten basieren. Telekommunikationsbetreiber haben die Möglichkeit, eine einzigartige Position im Ökosystem digitaler Dienste einzunehmen und über einen Sprachkanal für die Kommunikation mit dem Kunden zu verfügen. Andererseits stützen sich Voice Messenger für die Spracherkennung und -synthese auf dieselben grundlegenden Technologien. Wir warten auf eine interessante Zeit der Kämpfe der Giganten der Telekommunikationsbranche mit Instant Messenger über den Sprachkanal mit dem Kunden.

Rechtspraxis


In den nächsten drei bis fünf Jahren können wir mit einer breiten Akzeptanz von Technologien zur automatischen Überprüfung von Verträgen und allgemein zur Automatisierung vertraglicher Arbeiten, einschließlich der Überprüfung der Erfüllung von Verpflichtungen usw., rechnen.

In den nächsten 5-10 Jahren können wir das Auftreten von Modellen zum Verständnis von Rechtstexten erwarten. Auf dieser Grundlage erwarten wir die Entstehung von Systemen, die die Frage eines Benutzers in einer natürlichen Sprache stellen. Diese Antwort ist eine kurze Zusammenfassung der vorhandenen rechtlichen Dokumentation, einschließlich Inkonsistenzen und verschiedener Versionen.

Ein Computer für einen Anwalt ist keine Referenz mehr und wird zu einem vollwertigen Tool zur Entscheidungsunterstützung. Eine der Hauptaufgaben des Computers eines Anwalts besteht darin, den Ausgang der Klage mit der Erstellung eines probabilistischen Entscheidungsbaums auf der Grundlage der bestehenden Praxis vorherzusagen. Der größte Teil dieser Arbeit wird wahrscheinlich in der Cloud an trainierten Modellen von enormer Größe stattfinden.

Das massive Aufkommen von Punktdiensten, Produkten und Unternehmen, die ein bestimmtes Problem auf rechtlicher Ebene lösen.

Wir können eine tiefere Integration von RPA-Lösungen in NLP-Technologien erwarten, die zur Übertragung von Routineaufgaben für die Verarbeitung von Informationen und die Eingabe von Daten an Softwareroboter führen wird.
Und schließlich sieht die Aussicht auf intelligente Verträge in der Blockchain, die automatisch auf der Grundlage der Analyse rechtsverbindlicher Dokumente wie Verträge oder NDAs generiert werden, absolut bezaubernd aus. Eine solche Kombination von Technologien kann selbstausführende Rechtsdokumente zum Leben erwecken, was an sich bisher wie Science-Fiction klingt, aber nicht weit von der Umsetzung entfernt ist.

Medien und Werbung


Wir warten auf die weit verbreitete Einführung von personalisiertem Marketing auf der Grundlage einer Online-Analyse des digitalen Fußabdrucks einer Person. Es wird eine eingehende Analyse menschlicher Texte und ihrer Tonalität beinhalten: Eine negative, positive Bewertung des Textes erfolgt nicht im Allgemeinen, sondern in Bezug auf ein bestimmtes Produkt oder eine bestimmte Marke.

Jede Person hat einen persönlichen Einkaufsassistenten, der bis zu 90% der Routinekäufe übernimmt.

Es wird Dienste für die automatische Nachrichtengenerierung für ein bestimmtes Unternehmen geben, basierend auf seiner Geschichte, internen und externen Ereignissen.

Wissenschaft und Bildung


In den nächsten 5 bis 10 Jahren können Modelle für das Verständnis wissenschaftlicher Texte entstehen. Wir erwarten die Entstehung von Systemen, die eine Antwort auf die Frage eines Benutzers in einer natürlichen Sprache geben. Dies ist eine kurze Zusammenfassung der vorhandenen wissenschaftlichen Literatur zu diesem Thema, einschließlich gefundener Widersprüche und verschiedener Versionen. Eine weitere Anwendung solcher Modelle sind Empfehlungssysteme für die Forschung oder Patentlandschaftsanalyse.

Solche Systeme werden die technologische Landschaft radikal verändern und den Technologietransfer beschleunigen, indem Experten und Expertengemeinschaften in einem bestimmten Bereich auf der Grundlage einer Analyse der Quellen wissenschaftlicher Informationen und Patentinformationen analysiert und identifiziert werden.

Ebenfalls am Horizont von 5 bis 10 Jahren erwarten wir die Entstehung vollwertiger Lehrerassistenten für jede Disziplin und im Allgemeinen für Bildungseinrichtungen. Auf der anderen Seite erscheinen die persönlichen Assistenten des Schülers, die die Person während des gesamten Lebens auf dem persönlichen Bildungsweg führen. Die Interaktion dieser intelligenten Agenten erfolgt wahrscheinlich auch in natürlicher Sprache.

Staat und Sicherheit


Staaten verlagern ihre Aktivitäten zunehmend in den Medienraum und in soziale Netzwerke. Das in den letzten Jahren entstandene Konzept der „Informationskriege“ hat völlig konkrete Formen angenommen und erfordert neue Arten von „Waffen“ und „Schutz“. Ein starker Trend ist bereits zu beobachten und die Nachfrage nach gefälschten Nachrichten wird nur noch zunehmen. Leider kann man auch die steigende Nachfrage nach automatisierter Erzeugung verschiedener Arten von gefälschten Nachrichten zuversichtlich vorhersagen. Der Einsatz von KI wird sich sowohl zum Erstellen als auch zum Identifizieren von Bots in sozialen Netzwerken entwickeln.

Nicht weniger wichtig ist die Intelligenz. KI wird zunehmend verwendet, um große Mengen an Informationen über Unternehmen, Personen und Transaktionen in verschiedenen Formen zu analysieren, um angewandte Probleme wie das Finden von Zugehörigkeiten und impliziten Beziehungen zwischen Unternehmen und Einzelpersonen zu lösen.

Mit der Zunahme der Zahl der Menschen wird die Aufgabe, die Kommunikation mit einem Bürger zu automatisieren, um ihn mit bestimmten Dienstleistungen zu versorgen, für den Staat immer dringlicher. KI, wahrscheinlich in Form intelligenter Agenten, wird aktiv eingesetzt, um staatliche und kommunale Dienste für jeden Bürger zu personifizieren und zu personalisieren - die sogenannten „kognitiven Städte“ und „State-as-Service“.

Der vollständige Almanach "Künstliche Intelligenz" zu NLP und Spracherkennung / -synthese kann hier heruntergeladen werden.

Source: https://habr.com/ru/post/de469463/


All Articles