😄 🍚 🕵🏿 "Es scheint, als wäre das schon passiert?" Suchen Sie nach ähnlichen Vorfällen und Ansprüchen 🎈 ⛏️ 📖

Jeder, der eine bestimmte Zeit damit verbracht hat, die Systeme zu unterstützen, ist mit dem Déjà-vu-Gefühl vertraut, als er eine neue Bewerbung erhielt: "Es war so, es wurde aussortiert, aber ich kann mich nicht erinnern, wie genau". Sie können Zeit verbringen, sich mit früheren Anwendungen befassen und versuchen, ähnliche zu finden. Dies hilft: Der Vorfall wird schneller geschlossen, oder es kann sogar möglich sein, die Grundursache zu erkennen und das Problem ein für alle Mal zu schließen.

Die „jungen“ Mitarbeiter, die gerade dem Team beigetreten sind, haben keine solche Geschichte im Kopf. Höchstwahrscheinlich wissen sie nicht, dass sich ein ähnlicher Vorfall beispielsweise vor sechs Monaten bis zu einem Jahr ereignete. Und der Kollege aus dem Nebenzimmer entschied diesen Vorfall.

Höchstwahrscheinlich werden die "jungen" Mitarbeiter in der Vorfalldatenbank nicht nach etwas Ähnlichem suchen, sondern Probleme von Grund auf lösen. Verbringen Sie mehr Zeit, sammeln Sie Erfahrung und kommen Sie beim nächsten Mal schneller zurecht. Oder vielleicht vergessen sie es sofort unter dem Strom neuer Anwendungen. Und beim nächsten Mal wird alles wieder passieren.

Wir verwenden bereits ML-Modelle zur Klassifizierung von Vorfällen . Um unser Team bei der effizienteren Bearbeitung von Anträgen zu unterstützen, haben wir ein weiteres ML-Modell erstellt, um eine Liste mit „zuvor abgeschlossenen ähnlichen Vorfällen“ zu erstellen. Details - unter dem Schnitt.

Was brauchen wir

Für jeden eingehenden Vorfall müssen „ähnliche“ geschlossene Vorfälle in der Historie gefunden werden. Die Definition von „Ähnlichkeit“ sollte zu Beginn des Vorfalls erfolgen, vorzugsweise bevor das Support-Personal mit der Analyse begonnen hat.

Zum Vergleichen von Vorfällen müssen die vom Benutzer bei der Kontaktaufnahme bereitgestellten Informationen verwendet werden: eine kurze Beschreibung, eine detaillierte Beschreibung (falls vorhanden) sowie Attribute des Benutzerdatensatzes.

Das Team unterstützt 4 Systemgruppen. Die Gesamtzahl der Vorfälle, mit denen ich nach ähnlichen Vorfällen suchen möchte, beträgt ungefähr 10.000.

Erste Entscheidung

Es liegen keine überprüften Informationen zur "Ähnlichkeit" der vorliegenden Vorfälle vor. Daher müssen die hochmodernen Optionen für das Training siamesischer Netzwerke vorerst verschoben werden.
Das erste, was mir in den Sinn kommt, ist eine einfache Ansammlung einer "Tüte mit Wörtern", die sich aus dem Inhalt der Berufungen zusammensetzt.

In diesem Fall ist der Prozess zur Behandlung von Vorfällen wie folgt:

Hervorheben der erforderlichen Textfragmente
Textvorverarbeitung / -reinigung
TF-IDF-Vektorisierung
Finden Sie Ihren nächsten Nachbarn

Es ist klar, dass bei dem beschriebenen Ansatz die Ähnlichkeit auf einem Vergleich von Wörterbüchern basiert: Die Verwendung derselben Wörter oder n-Gramm in zwei verschiedenen Vorfällen wird als „Ähnlichkeit“ angesehen.

Dies ist natürlich ein ziemlich vereinfachter Ansatz. Denken Sie jedoch daran, dass wir die Texte von Benutzertreffern auswerten, wenn das Problem in ähnlichen Worten beschrieben wird - höchstwahrscheinlich sind die Vorfälle ähnlich. Zusätzlich zum Text können Sie den Namen der Benutzerabteilung hinzufügen, wobei Sie erwarten, dass Benutzer derselben Abteilungen in verschiedenen Organisationen ähnliche Probleme haben.

Hervorheben der erforderlichen Textfragmente

Ereignisdaten erhalten wir auf einfachste Weise von service-now.com - indem wir Benutzerberichte programmgesteuert starten und ihre Ergebnisse in Form von CSV-Dateien erhalten.

Daten zu Nachrichten, die im Rahmen des Vorfalls zwischen Support und Benutzern ausgetauscht werden, werden in diesem Fall in Form eines großen Textfelds mit dem gesamten Verlauf der Korrespondenz zurückgegeben.

Die Informationen über den ersten Aufruf aus einem solchen Feld mussten durch reguläre Ausdrücke "herausgeschnitten" werden.

Alle Nachrichten sind durch eine Kennlinie <wenn> - <wer> getrennt.
Nachrichten enden häufig mit formellen Unterschriften, insbesondere wenn der Einspruch per E-Mail eingelegt wurde. Diese Informationen sind in der Liste der wichtigen Wörter merklich "fonil", daher musste auch die Signatur gelöscht werden.

Es stellte sich ungefähr so heraus:

def get_first_message(messages): res = "" if len(messages) > 0: # take the first message spl = re.split("\d{2}-\d{2}-\d{4} \d{2}:\d{2}:\d{2} - ((\w+((\s|-)\w+)?,(\s\w+)+)|\w{9}|guest)\s\(\w+\s\w+\)\n", messages.lower()) res = spl[-1] # cut off "mail footer" with finalization statements res = re.split("(best|kind)(\s)+regard(s)+", res)[0] # cut off "mail footer" with embedded pictures res = re.split("\[cid:", res)[0] # cut off "mail footer" with phone prefix res = re.split("\+(\d(\s|-)?){7}", res)[0] return res

Vorverarbeitung von Vorfalltexten

Um die Qualität der Klassifizierung zu verbessern, wird der Berufungstext vorverarbeitet.

Unter Verwendung einer Reihe regulärer Ausdrücke in den Vorfallbeschreibungen wurden charakteristische Fragmente gefunden: Daten, Servernamen, Produktcodes, IP-Adressen, Webadressen, falsche Namensformen usw. Solche Fragmente wurden durch die entsprechenden Konzeptmarken ersetzt.

Am Ende wurde Stottern verwendet, um Wörter zu einer gemeinsamen Form zu bringen. Dies ermöglichte es uns, die Pluralformen und Endungen von Verben loszuwerden. Der bekannte snowballstemmer wurde als Stemmer verwendet.

Alle Verarbeitungsprozesse werden zu einer Transformationsklasse zusammengefasst, die in verschiedenen Prozessen verwendet werden kann.

Übrigens stellte sich (natürlich experimentell) heraus, dass die Methode stemmer.stemWord() nicht threadsicher ist. Wenn Sie versuchen, eine parallele Textverarbeitung in der Pipeline zu implementieren, z. B. mit joblib Prallel / verzögert, muss der Zugriff auf die allgemeine Instanz des Stemmer daher durch Sperren geschützt werden.

 __replacements = [ ('(\d{1,3}\.){3}\d{1,3}', 'IPV4'), ('(?<=\W)((\d{2}[-\/ \.]?){2}(19|20)\d{2})|(19|20)\d{2}([-\/ \.]?\d{2}){2}(?=\W)', 'YYYYMMDD'), ('(?<=\W)(19|20)\d{2}(?=\W)', 'YYYY'), ('(?<=\W)(0|1)?\d\s?(am|pm)(?=\W)', 'HOUR'), ('http[s]?:\/\/(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', 'SOMEURL') #      ] __stemmer_lock = threading.Lock() __stemmer = snowballstemmer.stemmer('english') def stem_string(text: str): def stem_words(word_list): with __stemmer_lock: res = __stemmer.stemWords(word_list) return res return " ".join(stem_words(text.split())) def clean_text(text: str): res = text for p in __replacements: res = re.sub(p[0], '#'+p[1]+'#', res) return res def process_record(record): txt = "" for t in record: t = "" if t == np.nan else t txt += " " + get_first_message(str(t)) return stem_string(clean_text(txt.lower())) class CommentsTextTransformer(BaseEstimator, TransformerMixin): _n_jobs = 1 def __init__(self, n_jobs=1): self._n_jobs = n_jobs def fit(self, X, y=None): return self def transform(self, X, y=None): features = Parallel(n_jobs=self._n_jobs)( delayed(process_record)(rec) for i, rec in enumerate(X.values) ) return np.array(features, dtype=object).reshape(len(X),)

Vektorisierung

Die Vektorisierung wird vom Standard- TfidfVectorizer mit den folgenden Einstellungen durchgeführt:

max_features = 10000
ngram = (1,3) - in dem Versuch, stabile Kombinationen und semantische Konnektiva zu fangen
max_df / min_df - standardmäßig verlassen
stop_words - eine Standardliste mit englischen Wörtern sowie eine eigene zusätzliche Wortgruppe. Einige Benutzer erwähnten beispielsweise Analystennamen, und Eigennamen wurden häufig zu wichtigen Attributen.

TfidfVectorizer selbst führt standardmäßig eine L2-Normalisierung durch, sodass einfallende Vektoren bereit sind, den Kosinusabstand zwischen ihnen zu messen.

Suchen Sie nach ähnlichen Vorfällen

Die Hauptaufgabe des Prozesses besteht darin, eine Liste der nächsten N Nachbarn zurückzugeben. Die Klasse sklearn.neighbors.NearestNeighbors ist dafür gut geeignet. Ein Problem besteht darin, dass die transform nicht implementiert wird, ohne die sie nicht in der pipeline .

Daher war es notwendig, es auf Transformer basieren, was es erst dann in den letzten Schritt der pipeline :

 class NearestNeighborsTransformer(NearestNeighbors, TransformerMixin): def __init__(self, n_neighbors=5, radius=1.0, algorithm='auto', leaf_size=30, metric='minkowski', p=2, metric_params=None, n_jobs=None, **kwargs): super(NearestNeighbors, self).__init__(n_neighbors=n_neighbors, radius=radius, algorithm=algorithm, leaf_size=leaf_size, metric=metric, p=p, metric_params=metric_params, n_jobs=n_jobs) def transform(self, X, y=None): res = self.kneighbors(X, self.n_neighbors, return_distance=True) return res

Verarbeitungsprozess

Wenn wir alles zusammenfügen, erhalten wir einen kompakten Prozess:

 p = Pipeline( steps=[ ('grp', ColumnTransformer( transformers=[ ('text', Pipeline(steps=[ ('pp', CommentsTextTransformer(n_jobs=-1)), ("tfidf", TfidfVectorizer(stop_words=get_stop_words(), ngram_range=(1, 3), max_features=10000)) ]), ['short_description', 'comments', 'u_impacted_department'] ) ] )), ("nn", NearestNeighborsTransformer(n_neighbors=10, metric='cosine')) ], memory=None)

Nach dem Training kann die pipeline mit pickle in einer Datei gespeichert und zur Behandlung eingehender Vorfälle verwendet werden.
Zusammen mit dem Modell speichern wir die erforderlichen Vorfallfelder, um sie später in der Ausgabe zu verwenden, wenn das Modell ausgeführt wird.

 # inc_data - pandas.Dataframe,     # ref_data - pandas.Dataframe,    . #     .    # inc_data["recommendations_json"] = "" #   . # column_list -  ,          nn_dist, nn_refs = p.transform(inc_data[column_list]) for idx, refs in enumerate(nn_refs): nn_data = ref_data.iloc[refs][['number', 'short_description']].copy() nn_data['distance'] = nn_dist[idx] inc_data.iloc[idx]["recommendations_json"] = nn_data.to_json(orient='records') #     , .     -. inc_data[['number', 'short_description', 'recommendations_json']].to_json(out_file_name, orient='records')

Erste Anwendungsergebnisse

Die Reaktion der Kollegen auf die Einführung eines Systems von "Hinweisen" war im Allgemeinen sehr positiv. Wiederkehrende Vorfälle wurden schneller behoben, und wir begannen mit der Fehlerbehebung.

Von dem unbeaufsichtigten Lernsystem konnte man jedoch kein Wunder erwarten. Kollegen beschwerten sich, dass das System manchmal völlig irrelevante Links bietet. Manchmal war es sogar schwierig zu verstehen, woher solche Empfehlungen stammen.

Es war klar, dass das Feld zur Verbesserung des Modells riesig ist. Einige der Mängel können behoben werden, einschließlich oder ohne einige Attribute des Vorfalls. Teil - durch Auswahl eines angemessenen Grenzwerts für den Abstand zwischen dem aktuellen Vorfall und der „Empfehlung“. Andere Vektorisierungsmethoden können in Betracht gezogen werden.

Das Hauptproblem war jedoch das Fehlen von Qualitätsmetriken für Empfehlungen. Und wenn ja, war es unmöglich zu verstehen, "was gut und was schlecht ist und wie viel" und einen Vergleich der Modelle darauf aufzubauen.

Wir hatten keinen Zugriff auf http-Protokolle, da das Dienstsystem remote (SaaS) arbeitet. Wir haben Nutzerbefragungen durchgeführt - aber nur qualitativ. Es war notwendig, mit quantitativen Bewertungen fortzufahren und auf deren Grundlage klare Qualitätsmetriken aufzubauen.

Aber mehr dazu im nächsten Teil ...

"Es scheint, als wäre das schon passiert?" Suchen Sie nach ähnlichen Vorfällen und Ansprüchen