
Was machen sie in der Forschungs- und Entwicklungsabteilung von ABBYY? Um diese Frage zu beantworten, beginnen wir mit einer Reihe von Veröffentlichungen darüber, wie unsere Entwickler neue Technologien entwickeln und bestehende Lösungen verbessern. Heute werden wir über die NLP-Linie (
Natural Language Processing ) sprechen.
Wir bei ABBYY forschen auf dem Gebiet der Verarbeitung natürlicher Sprache und befassen uns mit komplexen wissenschaftlichen Problemen, für die es keine vorgefertigten Lösungen gibt. So schaffen wir Innovationen, die die Basis von Produkten bilden und unseren Kunden helfen, und wir kommen voran. Übrigens
wird Ivan Smurov, Leiter der NLP Advanced Research Group in der Abteilung F & E ABBYY, am 24. November in einem Vortrag an der
School of Deep Learning des Moskauer Instituts für Physik und Technologie erläutern, welche Probleme die Textanalyse in der Welt hat und wie moderne neuronale Netze sie lösen können. Und in diesem Beitrag erzählte Ivan uns von den drei Aufgaben, an denen er gerade arbeitet.
Für Kollegen der NLP Advanced Research Group ist es wichtig, isolierte Aufgaben auszuwählen, die nicht sehr eng mit den vorhandenen ABBYY-Technologien und -Lösungen zusammenhängen. Manchmal finden unsere Mitarbeiter selbst solche Aufgaben, manchmal spricht unsere Forschung und Entwicklung über sie und bittet um Hilfe bei ihrer Lösung und dann bei der Veröffentlichung der Ergebnisse in wissenschaftlichen Fachzeitschriften. Also die erste Aufgabe.
Sammarisierung: nicht komplizierter als Nacherzählen?

Mit dieser Textanalysetechnik können Sie daraus eine Nacherzählung oder Anmerkung machen. In dieser Form verwenden die Menschen seit langem die Sammarisierung. Wir bei ABBYY versuchen, die Techniken der Sammarisierung in einem erweiterten Sinne anzuwenden: Wir versuchen, jene Probleme zu lösen, die traditionell nicht mit Hilfe der Sammarisierung gelöst werden, um beispielsweise die integralen Eigenschaften des Textes zu erhalten und die Ereignisse hervorzuheben, die im Text auftreten.
Sammarisierung kann eine herkömmliche Pipeline vereinfachen. Um beispielsweise die Namen der an der Vereinbarung beteiligten Unternehmen aus dem Dokument zu extrahieren, werden traditionell viele sequentielle NLP-Aufgaben gelöst, von der Identifizierung von Entitäten bis zur Filterung der extrahierten Fakten. Alle diese Aufgaben hängen voneinander ab, und vor allem erfordert jede von ihnen ein eigenes Referenz-Markup. Das Erstellen von Markups beim maschinellen Lernen ist eines der teuersten Dinge.
Mit Hilfe der Sammarisierung ist es möglich, Fakten durchgängig zu extrahieren, dh ohne Zwischenschritte, Unteraufgaben und Markups. Und es wird so einfach und schnell sein wie das Nacherzählen des Textes. Und vielleicht billiger.
Syntaktische Analyse: Suche nach Auslassungspunkten
Denken Sie daran, dass wir in der Schule Sätze analysiert haben: Thema, Prädikat, Addition? In sprachlicher Hinsicht ist das Parsen eines Satzes komplexer und detaillierter. Alles kann als Abhängigkeit dargestellt werden, wobei die Hauptsache ein Prädikat oder Verb ist und das Thema, die Ergänzungen usw. davon abhängen. Der syntaktische Parser befasst sich mit dieser Analyse von Sätzen in modernen Programmen. Normalerweise verbringt der syntaktische Parser einen erheblichen Teil der Zeit damit, die syntaktischen Nullen zu erstellen und zu verwerfen, die während der
Auslassungspunkte auftreten .

Hier ist ein Beispiel:
Mischa aß eine Birne und Mascha aß einen Apfel . Sowohl in der mündlichen als auch in der schriftlichen Rede überspringen wir einfach das Verb „aß“ und die Bedeutung für uns ändert sich nicht. Für die Computerlinguistik ist die Definition syntaktischer Nullen jedoch ein komplexes Problem. Es gibt viele Arten von Auslassungspunkten, die sich an verschiedenen Stellen von Sätzen befinden können. Infolgedessen ist der Parser gezwungen, viele Hypothesen zu überprüfen: Gab es eine Null, die eigentlich nicht Null ist?
Eine solche erneute Überprüfung erschwert und verlangsamt die Arbeit des Parsers, außerdem ist viel Rechenleistung erforderlich. Daher erfinden wir neue Methoden, um nach Stellen zu suchen, an denen Syntaxnullen wahrscheinlich auftreten. Dadurch wird die Zeit verkürzt, in der der Parser die Auslassungspunkte ermittelt.
Das Interesse an Ellipsen in der Computerlinguistik hat in diesem Jahr übrigens erheblich zugenommen. Der Forschungsartikel „
Sätze mit Lücken: Analyse und Rekonstruktion elidierter Prädikate “ wurde von den größten Computerlinguisten unserer Zeit,
Sebastian Schuster ,
Joachim Nivre und
Christopher Mining, veröffentlicht . Daher ist das Studium der Ellipse eine gute Aufgabe, deren Lösung sowohl für die wissenschaftliche Gemeinschaft als auch für die praktische Anwendung Ergebnisse liefern kann.
Lexikalische Begriffsklärung

Was ist ein "Stopp"? Dies kann das Objekt sein, an dem der Bus angekommen ist, oder es kann eine Unterbrechung des Prozesses oder eine Unterbrechung der Sprache sein. Das Wort ist eins, aber er hat viele Bedeutungen.
Viele Unternehmen haben Thesauri, in denen diese Bedeutungen beschrieben werden. Es ist praktisch, automatisch aus einer Folge von Wörtern, Wortformen oder Token eine Folge von Bedeutungen oder semantischen Klassen zu empfangen. Bei ABBYY versuchen wir, ein isoliertes Modell zu erstellen, das die Bedeutung eines Wortes mit guter Qualität und Geschwindigkeit genau definiert. Wenn Sie lexikalische Mehrdeutigkeiten schnell entfernen, können Sie die Arbeit anständig beschleunigen - sei es beim Parsen oder Extrahieren benannter Entitäten / Fakten.
Und was haben das neuronale Netzwerk und die School of Deep Learning damit zu tun?
Alle diese Aufgaben werden mithilfe neuronaler Netze gelöst. Nicht dass sie ohne Netze nicht gelöst werden können, aber jetzt ist es die modernste Methode. Rekursive neuronale Netze liefern bessere Ergebnisse für NLP-Aufgaben. Dies ist also nicht nur ein abstraktes Modephänomen, sondern das, was in der Praxis zur Lösung einer Vielzahl von NLP-Aufgaben verwendet wird.
Ivan Smurov wird Ihnen in einem
Vortrag an der School of Deep Learning am Moskauer Institut für Physik und Technologie mehr darüber erzählen, welche Aufgaben für die Textanalyse, wie moderne neuronale Netze zur Lösung solcher Probleme in Russland und in der Welt eingesetzt werden. Der Vortrag findet an diesem Samstag, dem 24. November, um 17:00 Uhr um 9 Uhr Dmitrovskoye Shosse statt.