🍤 🕡 👞 Anatomie von Empfehlungssystemen. Teil zwei 🚋 🙅🏻 ☂️

Vor einer Woche habe ich hier einen Überblick über bestehende Empfehlungsalgorithmen gegeben. In diesem Artikel werde ich diesen Aufsatz fortsetzen: Ich werde über die artikelbasierte Variante der kollaborativen Filterung sprechen, über Methoden, die auf Matrixzerlegungen basieren, Testprobleme und auch über weniger „ungedrehte“ (aber nicht weniger interessante) Algorithmen.

Kollaboratives Filtern (Artikelbasierte Option)

Der artikelbasierte Ansatz ist eine natürliche Alternative zum im ersten Teil beschriebenen klassischen benutzerbasierten Ansatz und wiederholt ihn bis auf einen Punkt fast vollständig - er gilt für die transponierte Präferenzmatrix. Das heißt, auf der Suche nach verwandten Produkten, nicht nach Benutzern.

Ich möchte Sie daran erinnern, dass die benutzerbasierte kollaborative Filterung (benutzerbasierte CF) für jeden Kunden eine Gruppe von Kunden sucht, die ihm am ähnlichsten sind (in Bezug auf frühere Einkäufe), und deren Präferenzen mittelt. Diese durchschnittlichen Präferenzen dienen als Empfehlungen für den Benutzer. Bei der kollaborativen Warenfilterung (artikelbasierte CF) werden die nächsten Nachbarn in der Produktgruppe - Spalten der Präferenzmatrix - gesucht. Und die Mittelung erfolgt genau auf ihnen.

Wenn die Produkte im Wesentlichen ähnlich sind, werden sie höchstwahrscheinlich gleichzeitig gemocht oder nicht gemocht. Wenn wir also sehen, dass zwei Produkte starke Korrelationen aufweisen, kann dies darauf hinweisen, dass es sich um ähnliche Produkte handelt.

Vorteile von Item-based gegenüber User-based:

Wenn es viele Benutzer gibt (fast immer), wird die Aufgabe, den nächsten Nachbarn zu finden, schlecht berechenbar. Für 1 Million Benutzer müssen Sie beispielsweise berechnen und speichern $\ frac {1} {2} 10 ^ 6 * 10 ^ 6$ ~ 500 Milliarden Entfernungen. Wenn die Entfernung mit 8 Bytes codiert ist, ergibt dies 4 TB für die Entfernungsmatrix allein. Wenn wir artikelbasiert arbeiten, nimmt die Komplexität der Berechnungen mit ab $O (N ^ 2n)$ vorher $O (n ^ 2N)$ und die Distanzmatrix hat nicht mehr eine Dimension (1 Million pro 1 Million), sondern zum Beispiel (100 pro 100) durch die Anzahl der Waren.
Die Näherungsbewertung ist viel genauer als die Näherungsbewertung. Dies ist eine direkte Folge der Tatsache, dass es normalerweise viel mehr Benutzer als Waren gibt und daher der Standardfehler bei der Berechnung der Korrelation von Waren viel geringer ist. Wir haben nur mehr Informationen, um eine Schlussfolgerung zu ziehen.
In der benutzerbasierten Version sind Benutzerbeschreibungen normalerweise sehr spärlich (es gibt viele Produkte, wenige Bewertungen). Dies hilft einerseits, die Berechnung zu optimieren - wir multiplizieren nur die Elemente, bei denen es einen Schnittpunkt gibt. Auf der anderen Seite - wie viele Nachbarn Sie nicht nehmen, ist die Liste der Waren, die Sie eventuell empfehlen können, sehr klein.
Die Benutzereinstellungen können sich im Laufe der Zeit ändern, aber die Artikelbeschreibung ist viel stabiler.

Der Rest des Algorithmus wiederholt die benutzerbasierte Option fast vollständig: der gleiche Kosinusabstand wie das Hauptmaß für die Nähe, der gleiche Bedarf an Datennormalisierung. Die Anzahl der Nachbargüter N wird üblicherweise im Bereich von 20 gewählt.

Aufgrund der Tatsache, dass die Korrelation von Produkten bei einer größeren Anzahl von Beobachtungen berücksichtigt wird, ist es nicht so wichtig, sie nach jeder neuen Bewertung neu zu berechnen, und Sie können dies regelmäßig im Kampfmodus tun.

Mehrere mögliche Verbesserungen des Algorithmus:

Eine interessante Modifikation besteht darin, die „Ähnlichkeit“ von Produkten nicht als typische Kosinusabstände zu betrachten, sondern ihren Inhalt zu vergleichen (inhaltsbasierte Ähnlichkeit). Wenn gleichzeitig die Benutzereinstellungen in keiner Weise berücksichtigt werden, ist eine solche Filterung nicht mehr „kollaborativ“. Darüber hinaus ändert sich der zweite Teil des Algorithmus - das Erhalten gemittelter Schätzungen - in keiner Weise.
Eine weitere mögliche Änderung besteht darin, Benutzer bei der Berechnung der Artikelähnlichkeit zu wiegen. Je mehr Benutzer beispielsweise Bewertungen abgeben, desto mehr Gewicht haben sie beim Vergleich zweier Produkte.
Anstatt einfach die Schätzungen benachbarter Produkte zu mitteln, können Gewichte durch eine lineare Regression ausgewählt werden.

Bei Verwendung des artikelbasierten Ansatzes sind Empfehlungen eher konservativ. In der Tat ist die Streuung der Empfehlungen geringer und zeigt daher weniger wahrscheinlich nicht standardisierte Produkte.

Wenn wir in der Präferenzmatrix die Produktbeschreibungsansicht als Bewertung verwenden, handelt es sich bei den empfohlenen Produkten höchstwahrscheinlich um Analoga - Produkte, die häufig zusammen betrachtet werden. Wenn wir die Bewertungen in der Präferenzmatrix basierend auf Einkäufen berechnen, sind die empfohlenen Produkte höchstwahrscheinlich Zubehör - Waren, die häufig zusammen gekauft werden.

Bewertung der Systemqualität

Das Testen des Empfehlungssystems ist ein schwieriger Prozess und wirft immer viele Fragen auf, hauptsächlich aufgrund der Mehrdeutigkeit des Begriffs „Qualität“.

Im Allgemeinen gibt es bei maschinellen Lernaufgaben zwei Hauptansätze zum Testen:

Offline-Test des Modells auf historischen Daten unter Verwendung von Retro-Tests,
Testen des fertigen Modells mithilfe von A / B-Tests (wir starten verschiedene Optionen, um herauszufinden, welche das beste Ergebnis liefert).

Beide Ansätze werden aktiv bei der Entwicklung von Empfehlungssystemen eingesetzt. Beginnen wir mit dem Offline-Testen.

Die Hauptbeschränkung, der Sie sich stellen müssen, besteht darin, die Genauigkeit der Prognose zu bewerten, die wir nur für die Produkte verwenden können, die der Benutzer bereits bewertet hat.

Der Standardansatz ist die Kreuzvalidierung mit Leave-One-Out- und Leave-P-Out-Methoden. Die wiederholte Wiederholung des Tests mit Mittelung der Ergebnisse ermöglicht eine stabilere Qualitätsbewertung.

Auslassen - Das Modell wird an allen vom Benutzer bewerteten Objekten mit Ausnahme eines Objekts trainiert und an diesem einen Objekt getestet. Dies erfolgt für alle n Objekte und der Durchschnitt wird aus den erhaltenen n Qualitätsschätzungen berechnet.
Das Auslassen von p ist das gleiche, aber p-Punkte werden bei jedem Schritt ausgeschlossen.

Alle Qualitätsmetriken können in drei Kategorien unterteilt werden:

Vorhersagegenauigkeit - Bewerten Sie die Genauigkeit der vorhergesagten Bewertung.
Entscheidungsunterstützung - Bewertung der Relevanz von Empfehlungen,
Ranggenauigkeitsmetriken - Bewerten Sie die Qualität des Rankings der ausgegebenen Empfehlungen.

Leider gibt es keine einzige empfohlene Metrik für alle Gelegenheiten, und jeder, der am Testen des Empfehlungssystems beteiligt ist, wählt sie für seine eigenen Zwecke aus.

Wenn Bewertungen auf einer kontinuierlichen Skala (0-10) bewertet werden, sind die Metriken der Vorhersagegenauigkeitsklasse normalerweise ausreichend.

Titel	Formel	Beschreibung
MAE (mittlerer absoluter Fehler)	$E (\| P-R \|)$	Die durchschnittliche absolute Abweichung
MSE (Mean Squared Error)	$E (\| P-R \| ^ 2)$	Standardfehler
RMSE (Root Mean Squared Error)	$\ sqrt {E (\| P-R \| ^ 2)}$	Die Wurzel des mittleren quadratischen Fehlers

Entscheidungsunterstützungsklassenmetriken arbeiten mit Binärdaten (0 und 1, Ja und Nein). Wenn in unserer Aufgabe die Bewertungen zunächst auf einer kontinuierlichen Skala verschoben werden, können sie durch Anwendung der entscheidenden Regel in ein Binärformat konvertiert werden. Wenn die Bewertung weniger als 3,5 beträgt, betrachten wir die Bewertung als „schlecht“ und wenn sie höher ist, als „gut“.

Titel	Formel	Beschreibung
Präzision	$\ frac {TP} {TP + FP}$	Prozentsatz der Benutzerempfehlungen
Rückruf	$\ frac {TP} {TP + FN}$	Der Prozentsatz der Produkte, die für den Benutzer von Interesse sind.
F1-Maßnahme	$\ frac {2PR} {P + R}$	Harmonische Mittelwertmetriken Präzision und Rückruf. Es ist nützlich, wenn es unmöglich ist, im Voraus zu sagen, welche Metrik wichtiger ist.
ROC AUC		Wie hoch ist die Konzentration interessanter Produkte ganz oben auf der Liste der Empfehlungen?
Präzision @ N.		Präzisionsmetrik in Top-N-Datensätzen
Rückruf @ N.		Rückrufmetrik, die auf Top-N-Datensätzen gezählt wird
Durchschnittp		Präzisionsdurchschnitt über die gesamte Liste der Empfehlungen

Empfehlungen werden in der Regel in einer Liste mit mehreren Positionen angezeigt (zuerst oben, dann in absteigender Reihenfolge der Priorität). Die Metriken der Ranggenauigkeitsklasse messen, wie korrekt die Reihenfolge ist, in der Empfehlungen in einer sortierten Liste angezeigt werden.

Titel	Formel	Beschreibung
Mittlerer wechselseitiger Rang	$E (\ frac {1} {pos})$	An welcher Stelle in der Liste der Empfehlungen findet der Benutzer die erste nützlich
Spearman-Korrelation	$E (\| P-R \| ^ 2)$	Korrelation (Spearman) von realen und vorhergesagten Reihen von Empfehlungen
nDCG	$\ sum {\ frac {R (i)} {max (1, log (i))}}$	Informativität des Themas unter Berücksichtigung der Rangfolge der Empfehlungen
Bruchteil der Konkordanzpaare	$P (X_ {R}> X_ {P})$	Wie hoch ist die Konzentration interessanter Produkte ganz oben auf der Liste der Empfehlungen?

Wenn wir im Online-Geschäft Empfehlungssysteme verwenden, haben diese in der Regel zwei (manchmal widersprüchliche) Ziele:

den Benutzer über ein interessantes Produkt informieren,
Ermutigen Sie ihn, einen Kauf zu tätigen (durch Versenden, Zusammenstellen eines persönlichen Angebots usw.).

Wie in jedem Modell, das den Benutzer zum Handeln motivieren soll, sollte nur eine schrittweise Erhöhung der Zielaktion bewertet werden. Das heißt, wenn wir beispielsweise Einkäufe nach Empfehlung berechnen, müssen wir diejenigen ausschließen, die der Benutzer selbst ohne unser Modell getan hätte. Andernfalls wird der Effekt der Einführung des Modells stark überschätzt.

Der Auftrieb ist ein Indikator dafür, wie oft die Genauigkeit eines Modells einen bestimmten Basisalgorithmus überschreitet. In unserem Fall kann der Basisalgorithmus einfach das Fehlen von Empfehlungen sein. Diese Metrik erfasst den Anteil inkrementeller Einkäufe gut und ermöglicht es Ihnen, verschiedene Modelle effektiv zu vergleichen.

Benutzertests

Quelle

Das Benutzerverhalten ist schlecht formalisiert und keine einzige Metrik beschreibt die Denkprozesse in seinem Kopf bei der Auswahl eines Produkts vollständig. Die Entscheidung wird von vielen Faktoren beeinflusst. Das Klicken auf einen Link mit einem empfohlenen Produkt hat noch keine hohe Bewertung oder gar kein Interesse. Online-Tests helfen dabei, die Logik des Clients teilweise zu verstehen. Im Folgenden sind einige Szenarien für solche Tests aufgeführt.

Das erste und naheliegendste Szenario ist die Analyse von Site-Ereignissen. Wir schauen uns an, was der Benutzer auf der Website tut, ob er auf unsere Empfehlungen achtet, ob er ihnen folgt, welche Funktionen des Systems gefragt sind, welche nicht, welche Produkte besser empfohlen werden, welche schlechter. Um zu verstehen, welcher der Algorithmen insgesamt besser funktioniert, oder einfach eine neue vielversprechende Idee auszuprobieren, führen wir A / B-Tests durch und sammeln das Ergebnis.

Das zweite Szenario besteht darin, Feedback von Benutzern in Form von Umfragen und Umfragen zu erhalten. In der Regel sind dies allgemeine Fragen, um zu verstehen, wie Kunden den Service nutzen - was wichtiger ist: Relevanz oder Vielfalt, ob es möglich ist, doppelte Produkte anzuzeigen, oder ob es zu ärgerlich ist. Der Vorteil des Skripts besteht darin, dass es eine direkte Antwort auf all diese Fragen bietet.

Solche Tests sind eine komplizierte Sache, aber für große Empfehlungsdienste ist sie einfach notwendig. Fragen können komplizierter sein, z. B. "Welche der Listen scheint für Sie relevanter zu sein", "Wie vollständig sieht das Blatt aus?", "Werden Sie diesen Film sehen / ein Buch lesen?".

Implizite Bewertungen und unäre Daten

Zu Beginn seiner Entwicklung wurden Empfehlungssysteme in Diensten verwendet, bei denen der Benutzer das Produkt eindeutig bewertet, indem er ihn bewertet - dies sind Amazon, Netflix und andere Online-Handelsseiten. Angesichts der Beliebtheit von Empfehlungssystemen bestand jedoch die Notwendigkeit, sie auch dort einzusetzen, wo es keine Ratings gibt - dies können Banken, Autowerkstätten, Kioske mit Döner und andere Dienstleistungen sein, bei denen es aus irgendeinem Grund unmöglich ist, ein Bewertungssystem einzurichten. In diesen Fällen können die Interessen des Benutzers nur durch indirekte Zeichen berechnet werden. Bestimmte Aktionen mit dem Produkt weisen auf Benutzerpräferenzen hin, z. B. Anzeigen der Beschreibung auf der Website, Hinzufügen des Produkts zum Warenkorb usw. Es verwendet das Prinzip "gekauft - es bedeutet Liebe!". Ein solches implizites Bewertungssystem wird als implizite Bewertungen bezeichnet.

Implizite Bewertungen funktionieren offensichtlich schlechter als explizite, da sie eine Größenordnung mehr Rauschen hinzufügen. Schließlich könnte ein Benutzer ein Produkt als Geschenk für seine Frau kaufen oder auf eine Seite mit einer Beschreibung des Produkts gehen, um dort einen Kommentar im Stil von „Was für eine Gemeinheit ist das alles gleich“ zu hinterlassen oder um seine natürliche Neugier zu befriedigen.

Wenn wir bei expliziten Bewertungen das Recht haben zu erwarten, dass mindestens eine negative Bewertung Nein, Nein und Ja ist, werden wir von keiner Stelle aus eine negative Bewertung abgeben. Wenn der Benutzer das Buch „Fifty Shades of Grey“ nicht gekauft hat, kann er dies aus zwei Gründen tun:

sie interessiert sich wirklich nicht für ihn (dies ist ein negativer Fall),
sie interessiert sich für ihn, aber er weiß einfach nichts über sie (dies ist ein übersehener positiver Fall).

Wir haben jedoch keine Daten, um den ersten Fall vom zweiten zu unterscheiden. Das ist schlecht, denn wenn wir ein Modell trainieren, müssen wir es in positiven und in negativen Fällen verstärken, und so werden wir fast immer in Ordnung sein, und infolgedessen wird das Modell voreingenommen sein.

Der zweite Fall ist die Fähigkeit, nur positive Bewertungen zu hinterlassen. Ein markantes Beispiel ist der Like-Button in sozialen Netzwerken. Die Bewertung hier ist bereits explizit angegeben, aber wie im vorherigen Beispiel haben wir keine negativen Beispiele - wir wissen, welche Kanäle der Benutzer mag, aber wir wissen nicht, welche er nicht mag.

In beiden Beispielen wird die Aufgabe zu einer Aufgabe zur Klassifizierung unärer Klassen .

Die naheliegendste Lösung besteht darin, einem einfachen Weg zu folgen und das Fehlen einer Bewertung als negative Bewertung zu betrachten. In einigen Fällen ist dies mehr gerechtfertigt, in anderen weniger. Wenn wir beispielsweise wissen, dass der Benutzer das Produkt höchstwahrscheinlich gesehen hat (wir haben ihm beispielsweise die Produktliste gezeigt und er zu dem Produkt gewechselt, das ihm folgt), kann der fehlende Übergang wirklich auf ein mangelndes Interesse hinweisen.

Quelle

Faktorisierungsalgorithmen

Es wäre großartig, die Interessen des Benutzers in größeren „Strichen“ zu beschreiben. Nicht im Format „er liebt Filme X, Y und Z“, sondern im Format „er liebt moderne russische Komödien“. Neben der Tatsache, dass dies die Generalisierbarkeit des Modells erhöht, wird auch das Problem einer großen Dimensionalität von Daten gelöst - da Interessen nicht durch einen Warenvektor, sondern durch einen wesentlich kleineren Präferenzvektor beschrieben werden.

Solche Ansätze werden auch als spektrale Zerlegung oder Hochpassfilterung bezeichnet (da wir Rauschen entfernen und ein nützliches Signal hinterlassen). In der Algebra gibt es viele verschiedene Zerlegungen von Matrizen, und eine der am häufigsten verwendeten ist die SVD-Zerlegung (Singularwertzerlegung).

Die SVD-Methode wurde Ende der 80er Jahre verwendet, um Seiten auszuwählen, deren Bedeutung ähnlich, aber nicht inhaltlich war, und wurde dann für Empfehlungsaufgaben verwendet. Die Methode basiert auf der Zerlegung der anfänglichen Bewertungsmatrix ® in ein Produkt aus 3 Matrizen:

R = U * D * S

$R = U * D * S$ wo die Größen der Matrizen

(k, m) = (k, r) * (r, r) * (r, m)

$(k, m) = (k, r) * (r, r) * (r, m)$ und r ist
Zerlegungsrang - ein Parameter, der den Grad der Zerlegungsdetails kennzeichnet.

Wenn wir diese Zerlegung auf unsere Präferenzmatrix anwenden, erhalten wir zwei Faktorenmatrizen (abgekürzte Beschreibungen):

U - kompakte Beschreibung der Benutzereinstellungen,
S ist eine kompakte Beschreibung der Produktmerkmale.

Es ist wichtig, dass wir bei diesem Ansatz nicht wissen, welche Merkmale den Faktoren in den reduzierten Beschreibungen entsprechen, für uns sind sie mit einigen Zahlen codiert. Daher ist SVD ein nicht interpretiertes Modell.

Um eine Annäherung an die Präferenzmatrix zu erhalten, reicht es aus, die Matrix der Faktoren zu multiplizieren. Danach erhalten wir eine Bewertung für alle Kunden-Produkt-Paare.

Die allgemeine Familie solcher Algorithmen heißt NMF (Non-Negative Matrix Factorization). Die Berechnung solcher Erweiterungen ist in der Regel sehr zeitaufwändig, weshalb sie in der Praxis häufig auf ihre ungefähren iterativen Varianten zurückgreifen.

ALS (Alternating Least Squares) ist ein beliebter iterativer Algorithmus zum Zerlegen einer Präferenzmatrix in ein Produkt aus zwei Matrizen: Benutzerfaktoren (U) und Produktfaktoren (I). Es funktioniert nach dem Prinzip der Minimierung des Standardfehlers der Bewertungen. Die Optimierung erfolgt abwechselnd zuerst nach Benutzerfaktoren, dann nach Produktfaktoren. Um eine Umschulung zu umgehen, werden dem Standardfehler Regularisierungskoeffizienten hinzugefügt.

Wenn wir die Präferenzmatrix durch eine neue Dimension ergänzen, die Informationen über den Benutzer oder das Produkt enthält, können wir nicht die Präferenzmatrix, sondern den Tensor erweitern. Daher werden wir mehr verfügbare Informationen verwenden und möglicherweise ein genaueres Modell erhalten.

Andere Ansätze

Assoziationsregeln

Assoziative Regeln werden normalerweise bei der Analyse von Produktkorrelationen verwendet (Market Basket Analysis) und sehen ungefähr so aus: "Wenn der Scheck des Kunden Milch enthält, gibt es in 80% der Fälle Brot." Wenn wir also feststellen, dass der Kunde bereits Milch in den Korb gelegt hat, ist es Zeit, an das Brot zu erinnern.

Dies ist nicht dasselbe wie die Analyse von zeitlich verteilten Einkäufen, aber wenn wir die gesamte Geschichte als einen großen Korb betrachten, können wir dieses Prinzip hier vollständig anwenden. Dies kann gerechtfertigt sein, wenn wir beispielsweise teure Einmalwaren (Kredit, Flug) verkaufen.

RBM (eingeschränkte Bolzman-Maschinen)

Begrenzte Boltzmann-Maschinen sind ein relativ alter Ansatz, der auf stochastischen wiederkehrenden neuronalen Netzen basiert. Es ist ein Modell mit latenten Variablen und ähnelt in dieser Hinsicht der SVD-Zerlegung. Es wird auch nach der kompaktesten Beschreibung der Benutzereinstellungen gesucht, die mit latenten Variablen codiert wird. Die Methode wurde nicht für die Suche nach Empfehlungen entwickelt, wurde jedoch erfolgreich in den Top-Netflix-Preislösungen verwendet und wird bei einigen Aufgaben weiterhin verwendet.

Autoencoder

Es basiert auf dem gleichen Prinzip der spektralen Zerlegung, weshalb solche Netzwerke auch als Entrauschungs-Auto-Encoder bezeichnet werden. Das Netzwerk reduziert zunächst die ihm bekannten Benutzerdaten zu einer kompakten Darstellung, versucht nur aussagekräftige Informationen zu hinterlassen, und stellt dann die ursprüngliche Dimension der Daten wieder her. Das Ergebnis ist eine Art gemittelte, rauschfreie Vorlage, anhand derer Sie das Interesse an jedem Produkt bewerten können.

DSSM (Deep Sematic Similiarity Models)

Einer der neuen Ansätze. Gleiches Prinzip, aber in der Rolle latenter Variablen, hier sind die internen Tensorbeschreibungen der Eingabedaten (Einbettungen). Ursprünglich wurde das Modell für den Abgleich von Abfragen mit Dokumenten (sowie inhaltsbasierten Empfehlungen) erstellt, lässt sich jedoch leicht in die Aufgabe des Abgleichs von Benutzern und Produkten umwandeln.

Die Vielfalt der Deep-Network-Architekturen ist endlos, weshalb Deep Learning ein wirklich breites Experimentierfeld für Empfehlungssysteme bietet.

Hybridlösungen

In der Praxis wird nur ein Ansatz selten verwendet. In der Regel werden mehrere Algorithmen zu einem zusammengefasst, um eine maximale Wirkung zu erzielen.

Die beiden Hauptvorteile der Kombination von Modellen sind eine höhere Genauigkeit und die Möglichkeit einer flexibleren Abstimmung auf verschiedene Kundengruppen. Die Nachteile sind eine geringere Interpretierbarkeit und eine größere Komplexität bei Implementierung und Support.

Mehrere Kombinationsstrategien:

Gewichtung - Lesen Sie die gewichtete Durchschnittsprognose für mehrere Schätzungen.
Stapelung - Vorhersagen einzelner Modelle sind Eingaben eines anderen (Meta-) Klassifikators, der lernt, Zwischenschätzungen korrekt zu gewichten.

Switching - verschiedene Algorithmen für verschiedene Produkte / Benutzer anwenden,
Mischen - Empfehlungen zu verschiedenen Algorithmen werden berechnet und dann einfach zu einer Liste zusammengefasst.

Beispielsweise wird ein inhaltsbasierter Empfehlungsgeber verwendet, der als eine der Funktionen das Ergebnis einer kollaborativen Filterung ist.

Feature Weighted (Linear) Stacking:

P (u, i) = w_{1} P_{1} (u, i) + w_{2} P_{2} (u, i) + \dots + w_{n} P_{n} (u, i)

$P(u,i) = w_1 P_1(u,i) + w_2 P_2(u,i) + … + w_n P_n(u,i)$

Gewichte

w_{1}, w_{2} \dots w_{n}

$w_1,w_2 … w_n$

P (u, i) = f_{1} (u, i) P_{1} (u, i) + f_{2} (u, i) P_{2} (u, i) + \dots + f_{n} (u, i) P_{n} (u, i)

$P(u,i) = f_1(u,i) P_1(u,i) + f_2(u,i) P_2(u,i) + … + f_n(u,i) P_n(u,i)$

Netflix

Der Netflix-Preis war ein Wettbewerb aus dem Jahr 2009, bei dem Benutzer der Netflix-Filmbibliothek ihre Bewertungen vorhersagen mussten. Gute Preisgelder in Höhe von 1 Million US-Dollar sorgten für Aufsehen und zogen eine große Anzahl von Teilnehmern an, darunter auch berühmte Persönlichkeiten der KI.

Es war eine Aufgabe mit expliziten Bewertungen, die Bewertungen wurden auf einer Skala von 1 bis 5 festgelegt und die Prognosegenauigkeit wurde von RMSE bewertet. Die meisten der ersten Plätze wurden von großen Ensembles von Klassifikatoren eingenommen.

Das siegreiche Ensemble verwendete Modelle der folgenden Klassen:

Basismodell - ein Regressionsmodell, das auf durchschnittlichen Schätzungen basiert
kollaborative Filterung - kollaborative Filterung
RBM - Limited Boltzmann Machines
zufällige Wälder - Vorhersagemodell

Die traditionelle Gradientenverstärkung wurde als Metaalgorithmus verwendet, der Schätzungen lokaler Algorithmen kombinierte.

Zusammenfassung

Die Erstellung von Empfehlungen ist sehr einfach: Wir erstellen eine Präferenzmatrix mit uns bekannten Benutzerschätzungen. Wenn sich herausstellt, ergänzen wir diese Schätzungen mit Informationen über den Kunden und das Produkt und versuchen, die unbekannten Werte einzugeben.

Trotz der Einfachheit der Aussage werden Hunderte von Artikeln veröffentlicht, die grundlegend neue Methoden zu ihrer Lösung beschreiben. Erstens ist dies auf eine Zunahme der Menge der gesammelten Daten zurückzuführen, die im Modell verwendet werden können, und auf eine Zunahme der Rolle impliziter Bewertungen. Zweitens mit der Entwicklung von Deep Learning und dem Aufkommen neuer neuronaler Netzwerkarchitekturen. All dies vervielfacht die Komplexität der Modelle.

Aber im Allgemeinen ist all diese Vielfalt auf eine sehr kleine Reihe von Ansätzen zurückzuführen, die ich in diesem Artikel zu beschreiben versuchte.

Ich erinnere Sie an unsere offenen Stellen.

Anatomie von Empfehlungssystemen. Teil zwei