Dmitry Muromtsev, Leiter des internationalen
Labors „Intelligente Informationsverarbeitungsmethoden und semantische Technologien“ ITMO und Leiter
der IPM-Abteilung , sprach über die Essenz der ontologischen Modellierung, die Verwendung von Wissensgraphen in Geschäftsprozessen und die Arbeit zur Erstellung von Konversationsintelligenz.
Interviewer: Anna Angelova (A.A.)
Befragter: Dmitry Muromtsev (D.M.)
AA: Was ist die Essenz der ontologischen Modellierung und wie läuft die Zusammenstellung von Wissensgraphen ab?
DM: Ontologische Modellierung ist die Zusammenstellung von Informationsmodellen in Form von konzeptionellen Beschreibungen von Themenbereichen, die bestimmten Standards entsprechen. Es gibt spezielle Sprachen für Ontologien, sie sind standardisiert und werden bereits in der Industrie verwendet. Das Hauptziel von Ontologien ist die Beschreibung von Daten und Wissensschemata, die in einer Vielzahl von Quellen existieren können. Das Problem ist, dass es viele dieser Quellen gibt, sie unterscheiden sich stark in der Art der Datenspeicherung, in der Softwarearchitektur usw. Um sie in einem einzigen Informationsraum zu verbinden, sind spezielle Integrationsmechanismen erforderlich - sie sind genau die Ontologien. Sie werden verwendet, um Datenbanken zu integrieren, schlecht strukturierte Daten im Internet zu beschreiben, um Wissensdatenbanken zu einem bestimmten Thema oder nicht thematische, große Wissensdatenbanken zu erstellen - beispielsweise basierend auf Wikipedia-Informationen.
Der Erstellungsprozess selbst impliziert die Teilnahme von Domain-Experten: Experten sind immer an den Themen beteiligt, für die Daten in der Wissensspalte dargestellt werden. Dies können beispielsweise Probleme im Zusammenhang mit dem kulturellen Erbe, der Medizin, der Bildung oder einer Produktion sein.
Diese Experten identifizieren Schlüsselkonzepte - Objekte, die für einen bestimmten Themenbereich von entscheidender Bedeutung sind. Zum Beispiel ist das kulturelle Erbe die Kunstgegenstände, die Schöpfer dieser Objekte, der Schöpfungsprozess, die Restaurierungsprozesse oder irgendeine Art von Modifikation (wenn es sich um ein architektonisches Objekt handelt, könnte es wieder aufgebaut werden), dies sind Fragen der Ausstellung, Lagerung usw. Alles, was für eine vollständige Beschreibung des Themas wichtig ist von einem Experten formulierte Bereiche. Weiterhin bezeichnet die Beziehung die Beziehung zwischen diesen Objekten. Diese formalisierte Beschreibung ermöglicht es, anschließend Anfragen zu Wissensgraphen zu stellen.
Technologisch kann das Transformationsverfahren sehr komplex sein und viele Werkzeuge umfassen: Werkzeuge zur Verarbeitung natürlicher Sprache, maschinelles Lernen, Mustererkennung und eine Reihe anderer Werkzeuge. Letztendlich erhalten wir ein Netzwerk oder eine Grafik miteinander verbundener Objekte. Das Hauptmerkmal eines solchen Systems ist im Gegensatz zu Datenbanken, dass dieses Netzwerk selbstbeschreibend und selbstdokumentierend ist. Es sind keine zusätzlichen Erklärungen
des Entwicklers erforderlich.
AA: Was ist der Umfang von Wissensgraphen?
D.M .: Fast jeder. Jetzt gibt es Wissensgraphen mit universellen Inhalten (das bekannteste ist Google), es gibt Wikidata, Dbpedia, die in Bezug auf die Berichterstattung eher an Wikipedia erinnern. Es gibt spezielle Wissensgraphen: zur Medizin, zum kulturellen Erbe nach offenen Staatsdaten. Es gibt Spalten mit Unternehmenswissen - sie sind gemeinfrei.
AA: Erzählen Sie uns von dem Projekt für DataFabric. Was brauchten sie und welche Ergebnisse wurden erzielt?
DM: Lassen Sie uns
die Frage etwas weiter stellen. Das Projekt für DataFabric ist ein Beispiel, wir hatten mehrere davon. Wir haben unsere Tätigkeit vor ungefähr 8 Jahren begonnen. Wir verbringen einen erheblichen Teil der Zeit mit der Popularisierung semantischer Technologien, der Durchführung verschiedener
wissenschaftlicher und pädagogischer Veranstaltungen , Hackathons usw. Wir treffen uns regelmäßig mit Vertretern der Industrie. Jährlich finden Dutzende solcher Treffen statt, und einige Branchenvertreter sind interessiert.
In der Situation mit DataFabric arbeiteten hauptsächlich deren Spezialisten, die wir methodisch konsultierten und bestimmte Technologien und Tools empfahlen. Wir haben auch ihre Ergebnisse überprüft - eine Analyse, wie alles richtig gemacht wurde. Das Projekt dieses Unternehmens selbst ist insofern interessant, als es das erste Beispiel in Russland ist, in dem ein Unternehmen seine eigenen Mittel in die Entwicklung von Wissensgraphen, in die Entwicklung verwandter Datentechnologien investiert und bewiesen hat, dass es rentabel sein kann. Soweit ich weiß, verwendet das Unternehmen weiterhin das erstellte Wissensdiagramm und plant, es weiterzuentwickeln. Aus den Reden seiner Vertreter können wir schließen, dass sie dank des Wissensgraphen eine große Menge an Handarbeit automatisieren konnten. Für genauere Informationen ist es jedoch besser, sich direkt an das Unternehmen zu wenden.
Sergey Isaev,
CEO DataFabric
Wir wollten ein intelligentes System zur Überprüfung von Gegenparteien schaffen und Unternehmensinformationen sammeln. Wir waren ein sehr kleines Unternehmen und wollten uns einen Wettbewerbsvorteil verschaffen. Unsere Konkurrenten - Spark Interfax, Kontur.Fokus - sind sehr groß, leistungsstark, seit vielen Jahren auf dem Markt und einfach so, „frontal“, ist es unmöglich, mit ihnen zu konkurrieren.
Wir sammeln dieselben Informationen über das Unternehmen wie unsere Wettbewerber: Daten vom Federal Tax Service, Rosstat und anderen Quellen. Wir laden sie in eine einzige Datenbank. Da wir ein Diagramm haben, werden darin Verbindungen zwischen allen Objekten angezeigt. Das System verwendet die ontologische Modellierung: Wir beschreiben dafür den Wert absolut aller Daten, mit denen es arbeitet. Daher beginnt sie den Kontext zu verstehen, die semantische Belastung bestimmter Daten. Dank dessen können ihr sogar offene Fragen gestellt werden, zum Beispiel: "Zeigen Sie mir alle Unternehmen, die voraussichtlich nächstes Jahr pleite gehen werden." Da sie die Bedeutung jedes Wortes in dieser Angelegenheit versteht, wird sie eine Liste herausgeben.
Ich weiß nicht, wie viel Zeit, Geld und Energie Wettbewerber für die Lösung ihrer Probleme aufwenden. Aber ich weiß, dass sie Hunderte von Entwicklern haben, und wir haben nur 12 Leute, und wir haben unser System in anderthalb Jahren hergestellt. Jetzt können Sie schnell neue Fälle und neue Services prototypisieren, da diese intelligenter und flexibler sind.
AA: Auf dem Gelände des Labors, das Sie leiten, gibt es viele Partner. Welche von ihnen arbeiten an laufenden Projekten zusammen?
DM: Wenn wir im weitesten Sinne des Wortes zusammenarbeiten, wird der Rat für offene Daten der Russischen Föderation die wichtigste Zeit sein. Wir versuchen dort methodische und Forschungsarbeiten durchzuführen, um Wissensgraphen bei Bundesbehörden und anderen Strukturen zu fördern, die für die Veröffentlichung offener Daten erforderlich sind. Jetzt ist das Erfordernis des Gesetzes für die Veröffentlichung offener Daten recht formal und begrenzt. Wir versuchen zu beweisen, dass dies viel effizienter möglich ist, und dies wird der Wirtschaft viel größere Vorteile bringen. Wir arbeiten auch aktiv an pädagogischen E-Learning-Technologien mit unterschiedlichen Strukturen zusammen. Es gibt Forschungsprojekte mit mehreren Universitäten in Deutschland, Finnland und Österreich.
AA: Welche Aktivitäten von Unternehmen in der Branche sollten überwacht werden?
DM: Für die gesamte Community. Es ist klar, dass große Unternehmen in gewisser Weise ein Indikator dafür sind, wie ausgereift Technologien sind. Bei der letzten
ISWC- Konferenz in Österreich - und dies ist die weltweit größte Konferenz zu semantischen Technologien - warf ein Bericht von Google viele Fragen auf: Die Probleme, die sie sich stellten, wurden oft bereits von mehr Forschungsunternehmen gelöst.
Charakteristischerweise forschen große Spieler in der Regel nicht von Grund auf neu. Sie stellen ein bestimmtes Problem dar, finden dann ein Team, das dieses Problem lösen kann, und beginnen, mit ihm zusammenzuarbeiten oder es zu kaufen, wenn es sich um eine Art Startup handelt. Das heißt, große Spieler spielen eher eine systemische Rolle.
Und wenn Sie der Community als Ganzes folgen, sehen Sie viele verschiedene interessante Forschungsgruppen, Unternehmen und Startups, die die innovativsten Lösungen anbieten. Zum Beispiel gibt es jetzt einen sehr ernsten Trend
bei der Entwicklung von Chat-Bots , Sprachschnittstellen und anderen Systemen, die nach einer Weile praktisch vollwertige Assistenten, Assistenten sein werden.
AA: Ihr Labor entwickelt auch Sprachverarbeitungsprojekte. Zwei davon sind auf der Website angegeben: einer ist abgeschlossen, der andere fährt fort. Erzähl uns davon.[Anmerkung: „Entwicklung der Computermorphologie für Fallstudien eines variablen Textes“, 2015–2016; „Entwicklung eines syntaktischen Analysators für russische Spontansprache mithilfe von Data-Mining-Methoden unter Verwendung semantischer Wissensdatenbanken“, 2015–2018]DM: Das erste Projekt wurde vom Zentrum für Sprachtechnologien initiiert - die Schaffung eines intelligenten Dialogmanagers. Die Lösungen, die jetzt existieren, sind ziemlich primitiv. Sie sind damit konfrontiert, wenn ein Kunde eine Organisation oder eine Bank anruft und für lange Zeit von einer Leitung zur anderen wechseln muss. Fortgeschrittenere Systeme können den Text analysieren, der während der Erkennung erhalten wird - zum Beispiel Siri, Amazon Alexa. Der Inhalt dieses Textes für die Maschine bleibt jedoch unbekannt. In Russland wurde übrigens kürzlich das iPavlov-Projekt gestartet, aber bisher liegen nur wenige Daten zu ihren Ergebnissen vor.
Sobald wir das Sprachsignal erkennen, müssen wir verstehen, welche Art von Frage es enthält. Das Problem ist, dass bei der Kommunikation der Sprachkanal der Interaktion nur einer von vielen ist. Informativ ist er nicht der am meisten geladene. Es gibt Kanäle für nonverbale Kommunikation, es gibt allgemeines Wissen über die Welt, einen Kontext, den eine Person versteht usw. Ohne zusätzliche Informationen ist es fast unmöglich zu verstehen, worum es geht. Wenn wir die Transkripte der Texte nehmen und versuchen, sie jemandem zu geben, ohne den Kontext vollständig auszuschließen, wird höchstwahrscheinlich sogar eine Person sie nicht verstehen können. Daher versuchen wir jetzt, Analysegeräte zu erstellen, die Sprache effektiv verarbeiten und Objekte und die Beziehungen zwischen ihnen identifizieren - dh Informationsmodelle der im Text enthaltenen Nachricht erstellen. Weitere Arbeiten sind geplant, um diese Modelle mit Informationen aus anderen Quellen zu bereichern.
AA: Können Sie das näher erläutern? Was ist der Unterschied zwischen den Forschungsrichtungen des abgeschlossenen Projekts und dem derzeit laufenden Projekt?
DM: Dies sind miteinander verbundene Richtungen. Ohne Fallstudien ist eine qualitative Analyse nicht möglich, da Sie die Algorithmusmuster zur Erkennung von Mustern im Text vermitteln müssen. Dies haben wir im ersten Projekt gemacht. Der zweite untersucht die Prinzipien der Objektbildung. Der Text enthält eine Beschreibung bestimmter Konzepte. Diese Konzepte selbst sind möglicherweise informativer als die Informationen, die im Text über sie enthalten sind. Dementsprechend müssen Sie andere Wissensdatenbanken und Grafiken kontaktieren und versuchen, diese Informationen aus anderen Quellen zu ergänzen.
Angenommen, ein Kunde ruft den Support an und spricht über ein Problem. Möglicherweise benennt er das Gerät oder den Prozess der korrekten Verwendung des Systems nicht. Der Benutzer muss nicht über die Vollständigkeit der technischen Informationen verfügen. Wenn das System den Kontext versteht, kann es die Benutzerdaten mit Informationen aus seinen Quellen ergänzen. Dies vereinfacht den Prozess der Problemidentifizierung erheblich.
Das erste Projekt war klein und wurde in Zusammenarbeit mit dem Zentrum für Sprachtechnologie durchgeführt. Wir haben darin bewiesen, dass die kombinierte Verwendung von Ontologie, einem Spracherkennungssystem und einem Textparser zur Bildung der sogenannten Konversationsintelligenz führen kann. Wir haben sehr erfolgreich gezeigt, wie das funktioniert. Die nächste Stufe ist eine eingehendere Forschung in jedem dieser Bereiche. Im Bereich der ontologischen Modellierung haben wir nicht mehr allgemein mit Sprache gearbeitet, sondern mit Informationen aus dem Internet im Bereich des kulturellen Erbes: wie man sie modelliert, bereichert und wie man strukturiert nach diesen Informationen sucht. Im Bereich Parsing wird weiter gearbeitet. Bei der Qualität der Textverarbeitung haben wir gute Ergebnisse erzielt.
Die nächste Stufe ist die Kombination dieser Bereiche und die Schaffung eines Systems zur Anreicherung von Daten aus verschiedenen Quellen, einschließlich Nicht-Text-Modalitäten.
AA: Letzte Frage: Woran soll das Labor im nächsten Jahr arbeiten?
DM: In uns kristallisierten sich zwei Richtungen heraus: das Internet der Dinge und die Gesprächsintelligenz. Die zweite Richtung wird dominant. Das Internet der Dinge ist eine unterstützende Richtung: Es ist die Schaffung von Sprach- und Textschnittstellen (Chat-Bots) für die Interaktion mit verschiedenen Geräten, Robotern und Informationssystemen.
All dies wird die menschliche Interaktion mit Informationsobjekten transparenter und natürlicher machen.