🤲🏽 👸🏾 👐🏾 Wie Methodius zu Anna wurde: die Erfahrung, Sprachnachrichten-Klassifikatoren zu entwickeln und zu starten. Teil 1 👍🏾 〽️ 👩🏾‍🏫

Ziel und Ziel

In einer Reihe von Artikeln betrachten wir die Klassifikatoren von Sprachanrufen, warum sie benötigt werden und wie sie schnell produktiv gemacht werden können. Ich erzähle Ihnen von Ansätzen, die die Zeit vom Festlegen einer Aufgabe bis zum Starten eines Modells und dem Erhalten eines Geschäftsergebnisses verkürzen.
Für diesen Artikel können Sie den Bericht unter dem Link sehen

Wie Methodius Anna wurde. Serie Nr. 1

Fangen wir an!

Mein Name ist Julia, ich bin Ingenieurin in der Abteilung für maschinelles Lernen eines großen Anbieters. Pro Tag kommen rund 3.000 Anrufe von Kunden in unserem Callcenter an. Jeder Betreiber erhält durchschnittlich 100 Anrufe pro Tag. Na und? Es scheint, dass dies 100 Anrufe akzeptiert. Es gibt jedoch viele Themen, bei denen das Unternehmen angerufen wird. Der Betreiber muss alle Produkte, Dienstleistungen und Prozesse des Unternehmens verstehen. Wenn wir die typischsten Kundenanfragen annehmen, können sie in 40 (!) Themen gruppiert werden, und es gibt immer noch atypische Anwendungen, die ebenfalls verarbeitet werden müssen.
Bild

Aufgrund der Themenvielfalt dauerte die Bedienerschulung drei Monate. Zuerst müssen Sie alle Anweisungen studieren und erst dann dürfen Anrufe entgegengenommen werden. Es wird eine enorme Menge an Ressourcen aufgewendet, um einen neuen kompetenten Betreiber zu schaffen. So entstand die Idee, den Bediener schrittweise in eine Linie zu bringen. Das heißt, er erhält Anrufe nur zu den Themen, die er beherrscht, und verbessert im Laufe der Zeit seine Fähigkeiten, um andere Themen zu studieren.

Gute Idee, warum nicht ... eine einfache IVR machen? (Ein System von aufgezeichneten Sprachnachrichten, das Anrufe innerhalb des Callcenters mithilfe von Informationen weiterleitet, die der Client über die Tonwahl über die Tonwahl eingegeben hat. Wiki )

Bild

Aber nur wenige Menschen hören gerne lange Zeit eine aufgenommene Stimme, um zu warten, welche Zahl gedrückt werden muss, aber am Ende erhalten sie immer noch nicht die erforderlichen Informationen.

Wir wollten unsere Kunden nicht mit IVR quälen und haben uns die Aufgabe gestellt, die Anfrage des Abonnenten nach dem ersten Satz zu klassifizieren. Entsprechend der stimmhaften Anforderung erfolgt somit ein Routing zwischen Betreibern.

Daten

Die Betreiber des technischen Supports über das Ergebnis jedes Anrufs legen das Thema des Anrufs seit etwa 10 Jahren offen. Wir haben die zahlreichsten 16 Gruppen identifiziert, und aus diesen Themen sind Markups hervorgegangen. Anschließend haben wir Aufzeichnungen von 120.000 Konversationen zu verschiedenen Themen hochgeladen, die Konversationsaufzeichnung des Kunden mit Yandex.SpeechKit erkannt und diese durch Schweigen in Phrasen unterteilt. Also haben wir Audio-Stücke mit separaten Phrasen.

Ich möchte Sie daran erinnern, dass mein Ziel darin bestand, die ursprüngliche Anfrage des Kunden zu klassifizieren, sodass bei jedem Anruf nur die erste Phrase ausgewählt wurde. Insgesamt waren die Daten 120.000 Kundenphrasen im Textformat mit Markup von Betreibern. Standard-Textvorverarbeitung: Stoppwörter entfernen, Text normalisieren (Tricks: Anhängen eines „Nicht“ -Partikels an das nächste Wort) und die Daten sind fertig. In einem anderen Artikel werde ich Ihnen mehr über unsere Vorverarbeitungspipeline erzählen.

Klassifizierung

Nachdem wir den verarbeiteten Text erhalten hatten, führten wir viele Experimente durch, sortiert nach verschiedenen Konfigurationen von Modellen und Einbettungen.

Tabelle mit Vergleich der experimentellen Ergebnisse

	Naive Bayes	SVM	Logistische Regression	Zufälliger Wald	Lightgbm	XGBoost	Neuronales Netz
TF-IDF-Unigramm	66.9	69.6	69.7	64.3	68.2	68.2	70.3
TF-IDF Bigram	68.4	70.4	70,5	64.3	68.4	68.3	70,5
TF-IDF-Trigramm	68.4	70.3	70,5	64.2	68.3	68.1	70,5
Word2vec	67.9	69.3	69.6	68.7	70.2	69.3	70.7
Word2Vec + TF-IDF	66.4	69,8	69.4	68.3	70.2	69.9	70.3
TF-IDF + Kontext	70.6	71.7	72.4	67.3	71.3	70.3	71.2
Word2Vec + Kontext	69.2	71.8	71.1	69.2	71.4	70.9	72.1
Word2Vec + TF-IDF + Kontext	69.7	70.4	71,0	70.3	71.2	71.3	71.8

Das beste Ergebnis wurde mit dem Standardsatz von TF-IDF und logistischer Regression erzielt. Die Tabelle zeigt die f-Score-Metrik. In einigen Experimenten wurden zusätzlich zum Text zum Zeitpunkt des Anrufs weitere 11 Zeichen zum Client (Kontext) hinzugefügt. In der Hoffnung, dass dies irgendwie die Qualität erhöht. Kontext - Dies sind Boolesche Zeichen, ob der Client jetzt einen negativen Saldo hat, ob die Reparatur der Adresse zugewiesen ist und andere, die den Client im Moment charakterisieren. Aber selbst im Kontext ist die Qualität schlecht, nur 72% wurden erreicht.

Fehleranalyse

Ohne Fehleranalyse könnte die Qualität der Klassifizierung nicht verbessert werden. Nachdem wir die Fälle untersucht haben, in denen die Modelle falsch sind, haben wir die folgenden typischen Probleme identifiziert:

schlechtes Markup
Klassenungleichgewicht
Es fällt den Menschen schwer, einen Gedanken zu formulieren
Spracherkennung

Markup

Das Markup war oft falsch, da das Gespräch mit einem Thema beginnen und mit einem anderen enden konnte und der Bediener das Thema des Anrufs festlegte, das ganz am Ende des Dialogs gesagt wurde. Manuelle Verteilung solcher Fälle und das Problem verschwand.

Klassenbilanz

Es gibt verschiedene Ansätze, um Klassen auszugleichen.

Weitere Details

Unterabtastung. Zufälliges Entfernen von Beispielen aus großen Klassen.
Überabtastung. Zufällige Hinzufügung von Beispielen aus Nebenklassen.
Überabtastung synthetischer Minderheiten. Zufällige Hinzufügung von Beispielen aus den kleinsten Klassen, aber geringfügige Änderung.

Welcher Ansatz gewählt werden soll, hängt von der Aufgabe und der Datenmenge ab. Im Rahmen dieser Aufgabe war es möglich, den Datensatz auszugleichen, indem Beispiele aus den meisten Frequenzklassen auf den Medianwert der Anzahl der Beispiele entfernt wurden. Die Nebenklassen blieben jedoch unverändert.

Es fällt den Menschen schwer, Gedanken zu formulieren

Nachdem wir die ersten paar Sätze gelesen hatten, stellten wir fest, dass 36% der Anfragen nicht informativen Text enthielten, zum Beispiel: "Hallo, hallo" oder "Hallo, ich habe eine Frage". Erst nachdem der Bediener gefragt hatte: „Was ist Ihre Frage?“, Formulierte der Kunde das Problem.

Daher war es falsch, nur den ersten Satz des Kunden aus dem Gespräch zu nehmen, da jemand einfach nicht in der Lage war, eine Anfrage sofort zu formulieren. Daher wurde für jeden ersten Satz die „Informativität“ berechnet. Wenn das Modell die Anforderung keiner der Klassen mit hoher Sicherheit zugeordnet hat, dh alle Klassen einen gleichen Wahrscheinlichkeitswert erhalten haben, ist die Nachricht nicht informativ und Sie müssen die zweite Phrase verwenden. Und wenn die Klasse bereits mit hoher Wahrscheinlichkeit bestimmt ist, reicht der erste Satz aus.

Hier mag die richtige Frage auftauchen, aber was ist mit dem Produkt zu tun, da es die gleichen nicht informativen Abfragen geben wird. Ich werde später im nächsten Artikel darüber sprechen.

Spracherkennung

Bei der Analyse von Fehlern haben wir Ungenauigkeiten bei der Texterkennung festgestellt, aufgrund derer die Klasse falsch definiert wurde. Zum Beispiel wurde das Wort "Gleichgewicht" manchmal durch "Banane" ersetzt. Wir haben uns entschlossen, die Anerkennung von Yandex und Google zu vergleichen. Google hat sich bei unseren Daten besser gezeigt, aber nicht zu viel, um dafür zu viel zu bezahlen. Der Preis ist fast doppelt so hoch.

Vergleich der Spracherkennung zwischen zwei Systemen.

Bild

Zusammenfassung der Fehleranalyse

Nach der Analyse und Korrektur von Fehlern konnten wir die Qualität auf einen durchschnittlichen f-Score von 84% verbessern. Die beste Qualität war immer noch das Ergebnis einer logistischen Regression.

Qualitätsgewinn für jede Klasse

Klasse	War	Ist geworden
Probleme mit dem Internet	59,97	86,5
Probleme mit KTV	86,71	89.02
Gegensprechanlagen	51.5	85,74
Vertrag	57,81	69,13
Zahlung	46,81	74,26
...	...	...
Durchschn	72,44	84,39

Schlussfolgerungen

Zusammenfassend können wir die folgende Entwicklungsstufe zusammenfassen.

Zunächst müssen Sie sich mit Daten und Markups befassen. Sie sollten neuronale Netze nicht sofort trainieren, da bei falschen Daten nicht viel davon profitiert. Um Zeit- und Energieverschwendung zu vermeiden, reicht es aus, Fehler an „einfachen“ Modellen zu analysieren.

Wir sehen uns in der zweiten Serie , in der wir darüber sprechen, wie ein trainiertes Modell in einem produktiven Modell ausgeführt wird. Wir werden uns Beispiele anhören, wie Methodius, der Roboter, Anrufe erhält, und wir werden verstehen, warum er Anna wurde.

Wie Methodius zu Anna wurde: die Erfahrung, Sprachnachrichten-Klassifikatoren zu entwickeln und zu starten. Teil 1