📠 👹 🍱 Tiefe neuronale Netze für die automatische Anrufbewertung 🕵🏿 💚 🤸🏾

Die Anrufbewertung ist ein wesentlicher Bestandteil der Qualitätskontrolle für Call Center. Unternehmen können damit ihren Workflow optimieren, sodass Bediener schneller und effizienter arbeiten und bedeutungslose Routinen vermeiden können.

In dem Bewusstsein, dass das Call Center effektiv sein sollte, haben wir an der Automatisierung der Anrufergebnisse gearbeitet. Als Ergebnis haben wir einen Algorithmus entwickelt, der Anrufe verarbeitet und in zwei Gruppen verteilt: verdächtig und neutral. Alle verdächtigen Anrufe wurden sofort an das Qualitätsbewertungsteam gesendet.

Wie wir ein tiefes neuronales Netzwerk trainiert haben

Für die Samples haben wir 1700 Audiodateien genommen, auf denen wir das Netzwerk trainiert haben. Da das Neuron anfangs nicht wusste, was als verdächtig und was als neutral anzusehen war, haben wir alle Dateien manuell entsprechend markiert.

In neutralen Stichproben haben die Bediener:

erhoben ihre Stimmen nicht;
Stellen Sie den Kunden alle angeforderten Informationen zur Verfügung.
reagierte nicht auf Provokationen des Kunden.

In verdächtigen Mustern haben die Bediener häufig Folgendes getan:

benutzte obszöne Sprache;
ihre Stimmen erheben oder Kunden anschreien;
ging zu der Person;
weigerte sich, in Fragen zu beraten.

Als der Algorithmus die Verarbeitung der Dateien beendet hatte, markierte er 200 Dateien als ungültig. Diese Dateien enthielten keine verdächtigen oder neutralen Anzeichen. Wir haben herausgefunden, was in diesen 200 Dateien enthalten ist:

Der Kunde legte sofort auf, nachdem der Betreiber ihm geantwortet hatte.
der Klient sagte nichts, nachdem er beantwortet worden war;
Es gab zu viel Lärm auf der Client- oder Bedienerseite.

Beim Löschen dieser Dateien haben wir die verbleibenden 1.500 in Schulungs- und Testfälle unterteilt. In Zukunft haben wir diese Datensätze zum Trainieren und Testen eines tiefen neuronalen Netzwerks verwendet.

Schritt 1: Features extrahieren

Die Extraktion von Merkmalen auf hoher Ebene spielt eine wichtige Rolle beim maschinellen Lernen Dies wirkt sich direkt auf die Effizienz des Algorithmus aus. Nachdem wir alle möglichen Quellen analysiert hatten, wählten wir die folgenden Symptome aus:

Zeitstatistik

Nulldurchgangsrate : Die Geschwindigkeit, mit der sich das Signal von Plus nach Minus und umgekehrt ändert.
Mittlere Rahmenenergie : Die Summe der Signale, die quadriert und auf die entsprechende Rahmenlänge normiert sind.
Subframe-Energieentropie : Die Entropie der normalisierten Subframe-Energie. Es kann als Maß für drastische Veränderungen interpretiert werden.
Der Durchschnitt / Median / Standardabweichung des Rahmens .

Spektralstatistik (mit Frequenzintervallen)

Spektralschwerpunkt.
Spektralverteilung.
Spektrale Entropie.
Spektrale Strahlung.
Spektrale Dämpfung.

Die Cepstralkoeffizienten der Tonfrequenz und des Sättigungsvektors sind abhängig von der Länge des Eingangssignals. Wir könnten sie gleichzeitig aus der gesamten Datei extrahieren, würden jedoch die Entwicklung des Merkmals rechtzeitig verpassen. Da diese Methode nicht zu uns passte, haben wir beschlossen, das Signal in „Fenster“ (Zeitblöcke) zu unterteilen.

Um die Qualität des Zeichens zu verbessern, haben wir das Signal in Stücke zerlegt, die sich teilweise überlappten. Als nächstes extrahierten wir das Tag nacheinander für jeden Block. Daher wurde die Attributmatrix für jede Audiodatei berechnet.

Fenstergröße - 0,2 s; Fensterschritt - 0,1 s.

Schritt 2: Definieren Sie den Tonfall in separaten Sätzen

Unser erster Ansatz zur Lösung des Problems besteht darin, jede Phrase im Stream separat zu definieren und zu verarbeiten.

Zuerst haben wir die Diarisierung durchgeführt und alle Phrasen mithilfe der LIUM- Bibliothek isoliert . Die Eingabedateien waren von schlechter Qualität, daher haben wir bei der Ausgabe auch Glättung und adaptive Schwellenwerte für jede Datei angewendet.

Verarbeitungsunterbrechungen und lange Stille

Als wir die Fristen für jede Phrase (sowohl für den Kunden als auch für den Operator) festgelegt haben, haben wir sie einander überlagert und Fälle aufgedeckt, in denen beide Personen gleichzeitig sprechen, sowie Fälle, in denen beide schweigen. Es blieb nur die Bestimmung des Schwellenwertes. Wir waren uns einig, dass wenn 3 oder mehr Sekunden die Teilnehmer gleichzeitig sprechen, dies als Unterbrechung angesehen wird. Für die Stille wurde genau ein Schwellenwert von 3 Sekunden eingestellt.

Der Punkt ist, dass jede Phrase ihre eigene Länge hat. Folglich ist die Anzahl der extrahierten Merkmale für jede Phrase unterschiedlich.

Das neuronale LSTM- Netzwerk könnte dieses Problem lösen. Netzwerke dieser Art können nicht nur Sequenzen unterschiedlicher Länge verarbeiten, sondern auch Feedback enthalten, mit dem Sie Informationen speichern können. Diese Funktionen sind sehr wichtig, da zuvor gesprochene Phrasen Informationen enthalten, die sich auf die danach gesprochenen Phrasen auswirken.

Dann haben wir unser LSTM-Netzwerk trainiert, um die Intonation jeder Phrase zu bestimmen.

Als Trainingsset haben wir 70 Dateien mit durchschnittlich 30 Phrasen (15 Phrasen für jede Seite) genommen.

Das Hauptziel war es, die Phrasen des Call-Center-Betreibers zu bewerten, sodass wir die Client-Sprache nicht für Schulungen verwendeten. Wir haben 750 Sätze als Trainingsdatensatz und 250 Sätze als Test verwendet. Infolgedessen lernte das Neuron, Sprache mit einer Genauigkeit von 72% zu klassifizieren.

Letztendlich waren wir jedoch mit der Leistung des LSTM-Netzwerks nicht zufrieden: Die Arbeit damit hat zu lange gedauert, während die Ergebnisse alles andere als perfekt sind. Daher wurde beschlossen, einen anderen Ansatz zu verwenden.

Es ist Zeit zu erzählen, wie wir den Ton der Stimme mit XGBoost plus einer Kombination aus LSTM und XGB bestimmt haben.

Bestimmen Sie den Sprachton für die gesamte Datei

Wir haben Dateien als verdächtig markiert, wenn sie mindestens einen Satz enthielten, der gegen die Regeln verstieß. Also haben wir 2500 Dateien markiert.

Um Attribute zu extrahieren, haben wir dieselbe Methode und dieselbe ANN- Architektur verwendet, jedoch mit einem Unterschied: Wir haben die Architektur so skaliert, dass sie den neuen Dimensionen der Attribute entspricht.

Bei optimalen Parametern ergab das neuronale Netzwerk eine Genauigkeit von 85%.

XGBoost

Das XGBoost-Modell erfordert eine feste Anzahl von Attributen für jede Datei. Um diese Anforderung zu erfüllen, haben wir verschiedene Signale und Parameter erstellt.

Die folgenden Statistiken wurden verwendet:

Der Durchschnittswert des Signals.
Der Durchschnittswert der ersten 10 Sekunden des Signals.
Der Durchschnittswert der letzten 3 Sekunden des Signals.
Der Durchschnittswert der lokalen Maxima im Signal.
Der Durchschnittswert der lokalen Maxima in den ersten 10 Sekunden des Signals.
Der Durchschnittswert der lokalen Maxima in den letzten 3 Sekunden des Signals.

Alle Indikatoren wurden für jedes Signal separat berechnet. Die Gesamtzahl der Attribute beträgt 36, mit Ausnahme der Länge des Datensatzes. Als Ergebnis hatten wir 37 numerische Vorzeichen für jeden Datensatz.

Die Vorhersagegenauigkeit dieses Algorithmus beträgt 0,869.

Kombination von LSTM und XGB

Um die Klassifikatoren zu kombinieren, haben wir diese beiden Modelle gekreuzt. Am Ausgang erhöhte dies die Genauigkeit um 2%.

Das heißt, wir konnten die Vorhersagegenauigkeit auf 0,9 ROC - AUC (Area Under Curve) erhöhen.

Ergebnis

Wir haben unser tiefes neuronales Netzwerk an 205 Dateien getestet (177 neutral, 28 verdächtig). Das Netzwerk musste jede Datei verarbeiten und entscheiden, zu welcher Gruppe sie gehört. Das Folgende sind die Ergebnisse:

170 neutrale Dateien wurden korrekt identifiziert;
7 neutrale Dateien wurden als verdächtig identifiziert;
13 verdächtige Dateien wurden korrekt identifiziert;
15 verdächtige Dateien wurden als neutral identifiziert.

Um den Prozentsatz der korrekten / falschen Ergebnisse abzuschätzen, haben wir die Fehlermatrix in Form einer 2x2-Tabelle verwendet.

Suchen Sie eine bestimmte Phrase in einem Gespräch

Wir wollten diesen Ansatz unbedingt ausprobieren, um Wörter und Phrasen in Audiodateien zu erkennen. Ziel war es, Dateien zu finden, in denen der Callcenter-Betreiber den Kunden in den ersten 10 Sekunden des Gesprächs nicht präsentiert wurde.

Wir haben 200 Sätze mit einer durchschnittlichen Länge von 1,5 Sekunden verwendet, in denen die Betreiber ihren Namen und Firmennamen nennen.

Das manuelle Suchen nach solchen Dateien hat lange gedauert, weil Ich musste mir jede Datei anhören, um zu überprüfen, ob sie die erforderlichen Sätze enthielt. Um das weitere Training zu beschleunigen, haben wir den Datensatz „künstlich“ vergrößert: Wir haben jede Datei sechsmal zufällig geändert - Rauschen hinzugefügt, Frequenz und / oder Lautstärke geändert. Wir haben also einen Datensatz von 1.500 Dateien erhalten.

Zusammenfassung

Wir haben die ersten 10 Sekunden der Antwort des Bedieners verwendet, um den Klassifikator zu trainieren, da in diesem Intervall die gewünschte Phrase ausgesprochen wurde. Jede solche Passage wurde in Fenster unterteilt (Fensterlänge 1,5 s, Fensterschritt 1 s) und vom neuronalen Netzwerk als Eingabedatei verarbeitet. Als Ausgabedatei haben wir die Wahrscheinlichkeit erhalten, jede Phrase im ausgewählten Fenster auszusprechen.

Wir haben weitere 300 Dateien durch das Netzwerk geleitet, um herauszufinden, ob die gewünschte Phrase in den ersten 10 Sekunden gesprochen wurde. Für diese Dateien betrug die Genauigkeit 87%.

Wofür ist das alles eigentlich?

Die automatische Anrufbewertung hilft dabei, klare KPIs für Call Center-Betreiber zu ermitteln, Best Practices hervorzuheben und zu befolgen sowie die Call Center-Leistung zu steigern. Es ist jedoch anzumerken, dass Spracherkennungssoftware für ein breiteres Spektrum von Aufgaben verwendet werden kann.

Im Folgenden finden Sie einige Beispiele, wie die Spracherkennung Organisationen helfen kann:

Sammeln und Analysieren von Daten zur Verbesserung der Sprach-UX;
Anrufaufzeichnungen analysieren, um Beziehungen und Trends zu identifizieren;
Menschen durch Stimme erkennen;
Finden und identifizieren Sie Kundenemotionen, um die Benutzerzufriedenheit zu verbessern
Steigerung des durchschnittlichen Umsatzes pro Anruf;
Abfluss reduzieren;
und vieles mehr!

Tiefe neuronale Netze für die automatische Anrufbewertung