Buch "Maschinelles Lernen fĂŒr Wirtschaft und Marketing"

Bild Die Datenwissenschaft wird zu einem integralen Bestandteil jeder MarketingaktivitĂ€t, und dieses Buch ist ein lebendiges PortrĂ€t der digitalen Transformation im Marketing. Datenanalyse und intelligente Algorithmen automatisieren zeitaufwĂ€ndige Marketingaufgaben. Der Entscheidungsprozess wird nicht nur perfekter, sondern auch schneller, was in einem sich stĂ€ndig beschleunigenden Wettbewerbsumfeld von großer Bedeutung ist.

„Dieses Buch ist ein lebendiges PortrĂ€t der digitalen Transformation im Marketing. Es zeigt, wie Data Science zu einem integralen Bestandteil jeder MarketingaktivitĂ€t wird. Es wird detailliert beschrieben, wie auf Datenanalyse und intelligenten Algorithmen basierende AnsĂ€tze zur tiefgreifenden Automatisierung traditionell arbeitsintensiver Marketingaufgaben beitragen. Der Entscheidungsprozess wird nicht nur fortschrittlicher, sondern auch schneller, was in unserem sich stĂ€ndig beschleunigenden Wettbewerbsumfeld wichtig ist. Dieses Buch muss von Datenverarbeitungs- und Marketingfachleuten gelesen werden, und es ist besser, wenn sie es gemeinsam lesen. “ Andrey Sebrant, Direktor fĂŒr strategisches Marketing, Yandex.

Auszug. 5.8.3. Modelle mit versteckten Faktoren


In den bisher diskutierten gemeinsamen Filteralgorithmen basieren die meisten Berechnungen auf den einzelnen Elementen der Bewertungsmatrix. Proximity-basierte Methoden bewerten fehlende Bewertungen direkt anhand bekannter Werte in der Bewertungsmatrix. Modellbasierte Methoden fĂŒgen der Bewertungsmatrix eine Abstraktionsschicht hinzu und erstellen ein Vorhersagemodell, das bestimmte Beziehungsmuster zwischen Benutzern und Elementen erfasst. Das Modelltraining hĂ€ngt jedoch weiterhin stark von den Eigenschaften der Bewertungsmatrix ab. Infolgedessen sind diese kollaborativen Filtertechniken normalerweise mit den folgenden Problemen konfrontiert:

Die Bewertungsmatrix kann Millionen von Benutzern, Millionen von Elementen und Milliarden bekannter Bewertungen enthalten, was zu ernsthaften Problemen hinsichtlich der KomplexitĂ€t und Skalierbarkeit der Berechnungen fĂŒhrt.

Die Bewertungsmatrix ist normalerweise sehr spĂ€rlich (in der Praxis fehlen möglicherweise 99% der Bewertungen). Dies wirkt sich auf die RechenstabilitĂ€t der Empfehlungsalgorithmen aus und fĂŒhrt zu unzuverlĂ€ssigen SchĂ€tzungen, wenn der Benutzer oder das Element keine wirklich Ă€hnlichen Nachbarn hat. Dieses Problem wird hĂ€ufig durch die Tatsache verschĂ€rft, dass die meisten grundlegenden Algorithmen entweder benutzer- oder elementorientiert sind, was ihre FĂ€higkeit einschrĂ€nkt, alle Arten von Ähnlichkeiten und Beziehungen aufzuzeichnen, die in der Bewertungsmatrix verfĂŒgbar sind.

Die Daten in der Bewertungsmatrix sind aufgrund von Ähnlichkeiten zwischen Benutzern und Elementen normalerweise stark korreliert. Dies bedeutet, dass die in der Bewertungsmatrix verfĂŒgbaren Signale nicht nur spĂ€rlich, sondern auch redundant sind, was zur VerschĂ€rfung des Skalierbarkeitsproblems beitrĂ€gt.

Die obigen Überlegungen weisen darauf hin, dass die ursprĂŒngliche Bewertungsmatrix möglicherweise nicht die optimalste Darstellung von Signalen ist, und andere alternative Darstellungen, die fĂŒr die gemeinsame Filterung besser geeignet sind, sollten in Betracht gezogen werden. Um diese Idee zu untersuchen, kehren wir zum Ausgangspunkt zurĂŒck und denken ein wenig ĂŒber die Art der Empfehlungsdienste nach. TatsĂ€chlich kann der Empfehlungsdienst als ein Algorithmus betrachtet werden, der Bewertungen basierend auf einem gewissen Maß an Ähnlichkeit zwischen dem Benutzer und dem Element vorhersagt:

Bild

Eine Möglichkeit, dieses Ähnlichkeitsmaß zu bestimmen, besteht darin, den Hidden-Factor-Ansatz zu verwenden und Benutzer und Elemente auf Punkte in einem k-dimensionalen Raum abzubilden, sodass jeder Benutzer und jedes Element durch einen k-dimensionalen Vektor dargestellt wird:

Bild

Vektoren mĂŒssen so konstruiert sein, dass die entsprechenden Dimensionen p und q miteinander vergleichbar sind. Mit anderen Worten kann jede Dimension als Zeichen oder Konzept betrachtet werden, dh puj ist ein Maß fĂŒr die NĂ€he von Benutzer u und Konzept j, und qij ist ein Maß fĂŒr Element i und Konzept j. In der Praxis werden diese Dimensionen hĂ€ufig als Genres, Stile und andere Attribute interpretiert, die gleichzeitig fĂŒr Benutzer und Elemente gelten. Die Ähnlichkeit zwischen dem Benutzer und dem Element und dementsprechend die Bewertung kann als das Produkt der entsprechenden Vektoren definiert werden:

Bild

Da jede Bewertung in ein Produkt aus zwei Vektoren zerlegt werden kann, die zu einem Konzeptraum gehören, der in der ursprĂŒnglichen Bewertungsmatrix nicht direkt beobachtet wird, werden p und q als versteckte Faktoren bezeichnet. Der Erfolg dieses abstrakten Ansatzes hĂ€ngt natĂŒrlich ganz davon ab, wie die verborgenen Faktoren bestimmt und konstruiert werden. Um diese Frage zu beantworten, stellen wir fest, dass der Ausdruck 5.92 wie folgt in Matrixform umgeschrieben werden kann:

Bild

wobei P die aus den Vektoren p zusammengesetzte n × k-Matrix ist und Q die aus den Vektoren q zusammengesetzte m × k-Matrix ist, wie in Fig. 1 gezeigt. 5.13. Das Hauptziel eines gemeinsamen Filtersystems besteht normalerweise darin, die Vorhersagefehler der Bewertung zu minimieren, wodurch Sie das Optimierungsproblem in Bezug auf die Matrix der verborgenen Faktoren direkt bestimmen können:

Bild

Bild

Unter der Annahme, dass die Anzahl der verborgenen Dimensionen k fest ist und k ≀ n und k ≀ m ist, reduziert sich das Optimierungsproblem 5.94 auf das in Kapitel 2 berĂŒcksichtigte niedrigrangige Approximationsproblem. Um den Lösungsansatz zu demonstrieren, nehmen wir fĂŒr einen Moment an, dass die Bewertungsmatrix vollstĂ€ndig ist. In diesem Fall hat das Optimierungsproblem eine analytische Lösung hinsichtlich der Singular Value Decomposition (SVD) der Bewertungsmatrix. Insbesondere kann unter Verwendung des Standard-SVD-Algorithmus die Matrix in das Produkt von drei Matrizen zerlegt werden:

Bild

wobei U die durch Spalten orthonormalisierte n × n-Matrix ist, ÎŁ die n × m-Diagonalmatrix ist und V die durch Spalten orthonormalisierte m × m-Matrix ist. Eine optimale Lösung fĂŒr Problem 5.94 kann in Bezug auf diese Faktoren erhalten werden, abgeschnitten auf die k wichtigsten Dimensionen:

Bild

Folglich können versteckte Faktoren, die hinsichtlich der Vorhersagegenauigkeit optimal sind, durch singulÀre Zerlegung erhalten werden, wie unten gezeigt:

Bild

Dieses SVD-basierte Hidden-Factor-Modell hilft bei der Lösung der am Anfang dieses Abschnitts beschriebenen Co-Filtering-Probleme. Erstens ersetzt es die große n × m-Bewertungsmatrix durch n × k- und m × k-Faktormatrizen, die normalerweise viel kleiner sind, da in der Praxis die optimale Anzahl versteckter Dimensionen k hĂ€ufig klein ist. Es gibt zum Beispiel einen Fall, in dem die Bewertungsmatrix mit 500.000 Benutzern und 17.000 Elementen mit 40 Messungen ziemlich gut angenĂ€hert werden konnte [Funk, 2016]. Ferner eliminiert SVD die Korrelation in der Bewertungsmatrix: Die durch 5,97 definierten Latentfaktormatrizen sind in Spalten orthonormal, d. H. Versteckte Dimensionen sind nicht korreliert. Wenn SVD, was in der Praxis normalerweise der Fall ist, auch das Problem der SpĂ€rlichkeit löst, weil das in der ursprĂŒnglichen Bewertungsmatrix vorhandene Signal effektiv konzentriert ist (denken Sie daran, dass wir k Dimensionen mit der höchsten Signalenergie auswĂ€hlen) und die Matrix der verborgenen Faktoren nicht dĂŒnn ist. Abbildung 5.14 zeigt diese Eigenschaft. Der benutzerbasierte NĂ€herungsalgorithmus (5.14, a) reduziert spĂ€rliche Bewertungsvektoren fĂŒr ein bestimmtes Element und einen bestimmten Benutzer, um eine Bewertungsbewertung zu erhalten. Das Hidden-Factor-Modell (5.14, b) schĂ€tzt dagegen die Bewertung durch Faltung zweier Vektoren mit reduzierter Dimension und höherer Energiedichte.

Bild

Der soeben beschriebene Ansatz scheint eine kohĂ€rente Lösung fĂŒr das Problem der versteckten Faktoren zu sein, hat jedoch aufgrund der Annahme, dass die Ratingmatrix vollstĂ€ndig ist, einen schwerwiegenden Nachteil. Wenn die Bewertungsmatrix dĂŒnn ist, was fast immer der Fall ist, kann der Standard-SVD-Algorithmus nicht direkt angewendet werden, da er fehlende (undefinierte) Elemente nicht verarbeiten kann. Die einfachste Lösung in diesem Fall besteht darin, die fehlenden Bewertungen mit einem Standardwert zu fĂŒllen. Dies kann jedoch zu einer ernsthaften Verzerrung der Prognose fĂŒhren. DarĂŒber hinaus ist es rechnerisch ineffizient, da die rechnerische KomplexitĂ€t einer solchen Lösung gleich der SVD-KomplexitĂ€t fĂŒr die vollstĂ€ndige n × m-Matrix ist, wĂ€hrend es wĂŒnschenswert ist, ein Verfahren mit einer KomplexitĂ€t zu haben, die proportional zur Anzahl bekannter Bewertungen ist. Diese Probleme können mit den in den folgenden Abschnitten beschriebenen alternativen Zerlegungsmethoden gelöst werden.

5.8.3.1. Unbegrenzte Zersetzung


Der Standard-SVD-Algorithmus ist eine analytische Lösung fĂŒr das niedrigrangige Approximationsproblem. Dieses Problem kann jedoch als Optimierungsproblem betrachtet werden, und es können auch universelle Optimierungsmethoden darauf angewendet werden. Einer der einfachsten AnsĂ€tze besteht darin, die Gradientenabstiegsmethode zu verwenden, um die Werte versteckter Faktoren iterativ zu verfeinern. Ausgangspunkt ist die Definition der Kostenfunktion J als verbleibender Prognosefehler:

Bild

Bitte beachten Sie, dass wir diesmal der Matrix der versteckten Faktoren keine EinschrÀnkungen wie OrthogonalitÀt auferlegen. Wenn wir den Gradienten der Kostenfunktion in Bezug auf versteckte Faktoren berechnen, erhalten wir das folgende Ergebnis:

Bild

wobei E die Restfehlermatrix ist:

Bild

Der Gradientenabstiegsalgorithmus minimiert die Kostenfunktion, indem er sich bei jedem Schritt in die negative Richtung des Gradienten bewegt. Daher können Sie versteckte Faktoren finden, die den quadratischen Fehler der Bewertungsvorhersage minimieren, indem Sie die Matrizen P und Q iterativ Ă€ndern, um gemĂ€ĂŸ den folgenden AusdrĂŒcken zu konvergieren:

Bild

wobei α die Lerngeschwindigkeit ist. Der Nachteil der Gradientenabstiegsmethode ist die Notwendigkeit, die gesamte Matrix der Restfehler zu berechnen und gleichzeitig alle Werte der verborgenen Faktoren in jeder Iteration zu Ă€ndern. Ein alternativer Ansatz, der möglicherweise besser fĂŒr große Matrizen geeignet ist, ist der stochastische Gradientenabstieg [Funk, 2016]. Der stochastische Gradientenabstiegsalgorithmus verwendet die Tatsache, dass der Gesamtprognosefehler J die Summe der Fehler fĂŒr einzelne Elemente der Bewertungsmatrix ist, daher kann der allgemeine Gradient J durch einen Gradienten an einem Datenpunkt angenĂ€hert werden und die verborgenen Faktoren können elementweise geĂ€ndert werden. Die vollstĂ€ndige Umsetzung dieser Idee ist in Algorithmus 5.1 dargestellt.

Bild

Die erste Stufe des Algorithmus ist die Initialisierung der Matrix versteckter Faktoren. Die Wahl dieser Anfangswerte ist nicht sehr wichtig, aber in diesem Fall wird eine gleichmĂ€ĂŸige Verteilung der Energie bekannter Bewertungen unter zufĂ€llig erzeugten versteckten Faktoren gewĂ€hlt. Dann optimiert der Algorithmus nacheinander die Dimensionen des Konzepts. Bei jeder Messung werden alle Bewertungen im Trainingssatz wiederholt umgangen, jede Bewertung anhand der aktuellen Werte der verborgenen Faktoren vorhergesagt, der Fehler geschĂ€tzt und die Werte der Faktoren gemĂ€ĂŸ den AusdrĂŒcken 5.101 korrigiert. Die Messoptimierung ist abgeschlossen, wenn die Konvergenzbedingung erfĂŒllt ist, wonach der Algorithmus mit der nĂ€chsten Messung fortfĂ€hrt.

Algorithmus 5.1 hilft, die EinschrĂ€nkungen der Standard-SVD-Methode zu ĂŒberwinden. Es optimiert versteckte Faktoren durch Durchlaufen einzelner Datenpunkte und vermeidet so Probleme mit fehlenden Bewertungen und algebraischen Operationen mit riesigen Matrizen. Der iterative Ansatz macht den stochastischen Gradientenabstieg fĂŒr praktische Anwendungen auch bequemer als den Gradientenabstieg, bei dem ganze Matrizen unter Verwendung der AusdrĂŒcke 5.101 modifiziert werden.

BEISPIEL 5.6


TatsÀchlich ist ein Ansatz, der auf verborgenen Faktoren basiert, eine ganze Gruppe von Methoden zum Unterrichten von Darstellungen, mit denen Muster, die in der Bewertungsmatrix enthalten sind, identifiziert und explizit in Form von Konzepten dargestellt werden können. Manchmal haben Konzepte eine völlig bedeutungsvolle Interpretation, insbesondere solche mit hoher Energie, obwohl dies nicht bedeutet, dass alle Konzepte immer eine bedeutungsvolle Bedeutung haben. Wenn Sie beispielsweise den Matrixzerlegungsalgorithmus auf eine Filmbewertungsdatenbank anwenden, können Faktoren erzeugt werden, die ungefÀhr den psychografischen Dimensionen entsprechen, z. B. Melodram, Komödie, Horror usw. Lassen Sie uns dieses PhÀnomen anhand eines kleinen numerischen Beispiels veranschaulichen, das die Bewertungsmatrix aus Tabelle verwendet. 5.3:

Bild

Subtrahieren Sie zuerst den globalen Durchschnitt ÎŒ = 2,82 von allen Elementen, um die Matrix zu zentrieren, und fĂŒhren Sie dann den Algorithmus 5.1 mit k = 3 versteckten Messungen und der Lernrate α = 0,01 aus, um die folgenden zwei Faktorenmatrix zu erhalten:

Bild

Jede Zeile in diesen Matrizen entspricht einem Benutzer oder einem Film, und alle 12 Zeilenvektoren sind in Fig. 4 gezeigt. 5.15. Bitte beachten Sie, dass die Elemente in der ersten Spalte (der erste Vektor von Konzepten) die grĂ¶ĂŸten Werte haben und die Werte in den nachfolgenden Spalten allmĂ€hlich abnehmen. Dies wird durch die Tatsache erklĂ€rt, dass der erste Konzeptvektor so viel Signalenergie erfasst, wie mit einer Messung erfasst werden kann, der zweite Konzeptvektor nur einen Teil der Restenergie erfasst usw. Beachten Sie ferner, dass das erste Konzept semantisch als Dramaachse interpretiert werden kann - Actionfilm, wobei die positive Richtung dem Actionfilm-Genre und die negative - dem Drama-Genre entspricht. Die Bewertungen in diesem Beispiel sind stark korreliert, so dass deutlich zu sehen ist, dass die ersten drei Benutzer und die ersten drei Filme im ersten Vektorkonzept (Dramafilme und Benutzer, die solche Filme mögen) große negative Werte aufweisen, wĂ€hrend die letzten drei Benutzer und die letzten drei Filme haben in derselben Spalte große positive Bedeutungen (Actionfilme und Benutzer, die dieses Genre bevorzugen). Die zweite Dimension in diesem speziellen Fall entspricht hauptsĂ€chlich der Tendenz des Benutzers oder Elements, die als psychografisches Attribut interpretiert werden kann (KritikalitĂ€t der Urteile des Benutzers? FilmpopularitĂ€t?). Andere Konzepte können als Rauschen betrachtet werden.

Bild

Die resultierende Matrix von Faktoren ist in den Spalten nicht vollstÀndig orthogonal, sondern tendenziell orthogonal, da dies aus der OptimalitÀt der SVD-Lösung folgt. Dies lÀsst sich anhand der Produkte von PTP und QTQ erkennen, die nahe an den Diagonalmatrizen liegen:

Bild

Die Matrizen 5.103 sind im Wesentlichen ein Vorhersagemodell, mit dem sowohl bekannte als auch fehlende Bewertungen bewertet werden können. SchÀtzungen können erhalten werden, indem zwei Faktoren multipliziert und der globale Durchschnitt addiert werden:

Bild

Die Ergebnisse geben die bekannten genau wieder und prognostizieren die fehlenden Bewertungen gemĂ€ĂŸ den intuitiven Erwartungen. Die Genauigkeit der SchĂ€tzungen kann durch Ändern der Anzahl der Messungen erhöht oder verringert werden, und die optimale Anzahl von Messungen kann in der Praxis durch GegenprĂŒfung und Auswahl eines angemessenen Kompromisses zwischen RechenkomplexitĂ€t und Genauigkeit bestimmt werden.

»Weitere Informationen zum Buch finden Sie auf der Website des Herausgebers
» Inhalt
» Auszug

25% Rabatt-Gutschein fĂŒr StraßenhĂ€ndler - Maschinelles Lernen

Nach Bezahlung der Papierversion des Buches wird ein elektronisches Buch per E-Mail verschickt.

Source: https://habr.com/ru/post/de460375/


All Articles