Hallo allerseits!
Im Rahmen unseres
Data Scientist-Kurses haben wir eine offene Lektion zum Thema „Naive Bayes Classifier“ durchgeführt. Die Lektion wurde
vom Kurslehrer Maxim Kretov unterrichtet , einem führenden Forscher im Labor für neuronale Netze und Deep Learning (MIPT). Wir bieten Ihnen an, sich mit dem Video und einer Zusammenfassung vertraut zu machen.
Vielen Dank im Voraus.
EintragStellen Sie sich vor, Sie haben tausend Immobilien. In der Regel kann jeder von ihnen durch einen bestimmten Satz von Merkmalen charakterisiert werden, zum Beispiel:
- Bereich des Hauses;
- die seit der letzten Reparatur verstrichene Zeit;
- Entfernung von der nächsten Haltestelle der öffentlichen Verkehrsmittel.
Somit kann jedes Haus als x mit der Dimension 3 dargestellt werden. Das heißt, x = (150; 5; 600), wobei 150 die Fläche des Hauses in Quadratmetern ist, 5 die Anzahl der Jahre nach der Reparatur ist, 600 die Entfernung zum Stopp in Metern ist. Der Preis, zu dem dieses Haus auf dem Markt verkauft werden kann, wird mit y bezeichnet.
Als Ergebnis haben wir eine Reihe von Vektoren, wobei jedem Objekt eine Variable entspricht. Und wenn wir über den Preis sprechen, kann man nur lernen, ihn mit den Fähigkeiten des maschinellen Lernens vorherzusagen.
Grundlegende Klassifizierung von Methoden des maschinellen LernensDas obige Beispiel ist recht typisch und bezieht sich auf maschinelles Lernen mit einem Lehrer (es gibt eine Zielvariable). Wenn letzteres fehlt, können wir über maschinelles Lernen ohne Lehrer sprechen. Dies sind die beiden wichtigsten und häufigsten Arten des maschinellen Lernens. In diesem Fall ist die Aufgabe, mit einem Lehrer zu unterrichten, wiederum in zwei Gruppen unterteilt:
- Klassifizierung. Die Zielvariable ist eine der C-Klassen, d. H. Jedes Objekt erhält eine Klassenbezeichnung (Cottage, Gartenhaus, Nebengebäude usw.).
- Regression. Die Zielvariable ist eine reelle Zahl.
Welche Aufgaben löst maschinelles Lernen?Mit maschinellen Lernmethoden werden heute folgende Aufgaben gelöst:
1. Syntaktisch:
- Markup durch Teile der Sprache und morphologische Zeichen;
- Unterteilung von Wörtern im Text in Morpheme (Präfix, Suffix usw.);
- Suche nach Namen und Titeln im Text ("Erkennung benannter Entitäten");
- Auflösung der Bedeutung von Wörtern in einem bestimmten Kontext (ein typisches Beispiel ist eine Burg oder eine Burg).
2. Aufgaben zum Verständnis des Textes, in dem sich ein "Lehrer" befindet:
- maschinelle Übersetzung;
- interaktive Modelle (Chat-Bots).
3. Andere Aufgaben (Bildbeschreibung, Spracherkennung usw.).
Die Schwierigkeit, mit Text zu arbeitenDas Arbeiten mit Text aus Sicht des maschinellen Lernens bringt immer gewisse Schwierigkeiten mit sich. Denken Sie dazu einfach an die beiden Sätze:
- Mutter wusch den Rahmen und jetzt scheint es;
- Mama hat den Rahmen gewaschen und jetzt ist sie müde.
Wenn der Klassifikator, der maschinelles Lernen durchführt, keinen gesunden Menschenverstand hat, gilt dies auch für ihn, wenn der Rahmen glänzend und müde ist, da der Wortrahmen im zweiten Satz syntaktisch näher am Pronomen liegt.
Praktische AufgabeNachdem der Lehrer allgemeine Informationen zu einigen Aspekten des maschinellen Lernens bereitgestellt hatte, ging er reibungslos zur praktischen Aufgabe des Webinars über - der Klassifizierung von E-Mails in Spam und Qualität.
Zunächst wurde ein Beispiel gezeigt, wie Eingabetext in einen Zahlenvektor konvertiert wird. Dafür:
- ein Wörterbuch der Größe K wurde festgelegt;
- Jedes Wort im Text wurde in der folgenden Form dargestellt: (0, 0, 0, ... 0, 1, 0, ... 0).
Dieser Ansatz wird als 1-Hot-Codierung bezeichnet, und Wörter in seinem Kontext werden als Token bezeichnet.
Basierend auf den Ergebnissen dieser Datenverarbeitungsphase wurde ein Wörterbuch erstellt und für jeden Text eine Wortzählung durchgeführt. Als Ergebnis wurde für jeden Text ein Vektor fester Länge erhalten. Ein einfacherer Ansatz der Booleschen Maske wurde ebenfalls in Betracht gezogen.
Vorstellung des Bayesian ClassifierDer naive Bayes-Klassifikator basiert auf der Anwendung des Bayes-Theorems mit strengen (naiven) Annahmen über die Unabhängigkeit. Sein Vorteil ist die geringe Menge an Trainingsdaten, die zur Bewertung der für die Klassifizierung erforderlichen Parameter benötigt werden.
Bei der Interpretation der Aufgabe der Klassifizierung von E-Mails war die Hauptidee wie folgt:
- Alle Wörter im Text werden unabhängig voneinander betrachtet.
- Wenn Wörter in Spam häufiger vorkommen als in guten Buchstaben, gelten diese Wörter als Zeichen der Zugehörigkeit des Buchstabens zu Spam.
Unter Berücksichtigung des Bayes-Theorems wurden die entsprechenden Formeln für mehrere Variablen geschrieben und die Merkmale der Berechnung zusätzlicher Annahmen berücksichtigt. Ein Pseudocode wurde verwendet, um die Parameter zu berechnen, wonach ein detailliertes Modellbeispiel generiert wurde, in dem a priori Wahrscheinlichkeiten und Wahrscheinlichkeiten der Zugehörigkeit zu Klassen für ein neues Objekt x berechnet wurden. Die letzte Phase der praktischen Arbeit ist die Konstruktion und Schulung des Modells sowie die Messung der Qualität.
DAS ENDE
Wie immer warten wir hier auf Fragen und Kommentare, oder Sie können sie direkt an den
Lehrer richten,
indem Sie zum
Tag der offenen Tür gehen .