Vor einer Woche habe ich hier
einen Ăberblick ĂŒber bestehende Empfehlungsalgorithmen gegeben. In diesem Artikel werde ich diesen Aufsatz fortsetzen: Ich werde ĂŒber die artikelbasierte Variante der kollaborativen Filterung sprechen, ĂŒber Methoden, die auf Matrixzerlegungen basieren, Testprobleme und auch ĂŒber weniger âungedrehteâ (aber nicht weniger interessante) Algorithmen.
Kollaboratives Filtern (Artikelbasierte Option)
Der artikelbasierte Ansatz ist eine natĂŒrliche Alternative zum im ersten Teil beschriebenen klassischen benutzerbasierten Ansatz und wiederholt ihn bis auf einen Punkt fast vollstĂ€ndig - er gilt fĂŒr die transponierte PrĂ€ferenzmatrix. Das heiĂt, auf der Suche nach verwandten Produkten, nicht nach Benutzern.
Ich möchte Sie daran erinnern, dass die benutzerbasierte kollaborative Filterung (benutzerbasierte CF) fĂŒr jeden Kunden eine Gruppe von Kunden sucht, die ihm am Ă€hnlichsten sind (in Bezug auf frĂŒhere EinkĂ€ufe), und deren PrĂ€ferenzen mittelt. Diese durchschnittlichen PrĂ€ferenzen dienen als Empfehlungen fĂŒr den Benutzer. Bei der kollaborativen Warenfilterung (artikelbasierte CF) werden die nĂ€chsten Nachbarn in der Produktgruppe - Spalten der PrĂ€ferenzmatrix - gesucht. Und die Mittelung erfolgt genau auf ihnen.
Wenn die Produkte im Wesentlichen Àhnlich sind, werden sie höchstwahrscheinlich gleichzeitig gemocht oder nicht gemocht. Wenn wir also sehen, dass zwei Produkte starke Korrelationen aufweisen, kann dies darauf hinweisen, dass es sich um Àhnliche Produkte handelt.
Vorteile von Item-based gegenĂŒber User-based:- Wenn es viele Benutzer gibt (fast immer), wird die Aufgabe, den nĂ€chsten Nachbarn zu finden, schlecht berechenbar. FĂŒr 1 Million Benutzer mĂŒssen Sie beispielsweise berechnen und speichern ~ 500 Milliarden Entfernungen. Wenn die Entfernung mit 8 Bytes codiert ist, ergibt dies 4 TB fĂŒr die Entfernungsmatrix allein. Wenn wir artikelbasiert arbeiten, nimmt die KomplexitĂ€t der Berechnungen mit ab vorher und die Distanzmatrix hat nicht mehr eine Dimension (1 Million pro 1 Million), sondern zum Beispiel (100 pro 100) durch die Anzahl der Waren.
- Die NĂ€herungsbewertung ist viel genauer als die NĂ€herungsbewertung. Dies ist eine direkte Folge der Tatsache, dass es normalerweise viel mehr Benutzer als Waren gibt und daher der Standardfehler bei der Berechnung der Korrelation von Waren viel geringer ist. Wir haben nur mehr Informationen, um eine Schlussfolgerung zu ziehen.
- In der benutzerbasierten Version sind Benutzerbeschreibungen normalerweise sehr spÀrlich (es gibt viele Produkte, wenige Bewertungen). Dies hilft einerseits, die Berechnung zu optimieren - wir multiplizieren nur die Elemente, bei denen es einen Schnittpunkt gibt. Auf der anderen Seite - wie viele Nachbarn Sie nicht nehmen, ist die Liste der Waren, die Sie eventuell empfehlen können, sehr klein.
- Die Benutzereinstellungen können sich im Laufe der Zeit Àndern, aber die Artikelbeschreibung ist viel stabiler.
Der Rest des Algorithmus wiederholt die benutzerbasierte Option fast vollstĂ€ndig: der gleiche Kosinusabstand wie das HauptmaĂ fĂŒr die NĂ€he, der gleiche Bedarf an Datennormalisierung. Die Anzahl der NachbargĂŒter N wird ĂŒblicherweise im Bereich von 20 gewĂ€hlt.
Aufgrund der Tatsache, dass die Korrelation von Produkten bei einer gröĂeren Anzahl von Beobachtungen berĂŒcksichtigt wird, ist es nicht so wichtig, sie nach jeder neuen Bewertung neu zu berechnen, und Sie können dies regelmĂ€Ăig im Kampfmodus tun.
Mehrere mögliche Verbesserungen des Algorithmus:
- Eine interessante Modifikation besteht darin, die âĂhnlichkeitâ von Produkten nicht als typische KosinusabstĂ€nde zu betrachten, sondern ihren Inhalt zu vergleichen (inhaltsbasierte Ăhnlichkeit). Wenn gleichzeitig die Benutzereinstellungen in keiner Weise berĂŒcksichtigt werden, ist eine solche Filterung nicht mehr âkollaborativâ. DarĂŒber hinaus Ă€ndert sich der zweite Teil des Algorithmus - das Erhalten gemittelter SchĂ€tzungen - in keiner Weise.
- Eine weitere mögliche Ănderung besteht darin, Benutzer bei der Berechnung der ArtikelĂ€hnlichkeit zu wiegen. Je mehr Benutzer beispielsweise Bewertungen abgeben, desto mehr Gewicht haben sie beim Vergleich zweier Produkte.
- Anstatt einfach die SchÀtzungen benachbarter Produkte zu mitteln, können Gewichte durch eine lineare Regression ausgewÀhlt werden.
Bei Verwendung des artikelbasierten Ansatzes sind Empfehlungen eher konservativ. In der Tat ist die Streuung der Empfehlungen geringer und zeigt daher weniger wahrscheinlich nicht standardisierte Produkte.
Wenn wir in der PrÀferenzmatrix die Produktbeschreibungsansicht als Bewertung verwenden, handelt es sich bei den empfohlenen Produkten höchstwahrscheinlich um Analoga - Produkte, die hÀufig zusammen betrachtet werden. Wenn wir die Bewertungen in der PrÀferenzmatrix basierend auf EinkÀufen berechnen, sind die empfohlenen Produkte höchstwahrscheinlich Zubehör - Waren, die hÀufig zusammen gekauft werden.
Bewertung der SystemqualitÀt
Das Testen des Empfehlungssystems ist ein schwieriger Prozess und wirft immer viele Fragen auf, hauptsĂ€chlich aufgrund der Mehrdeutigkeit des Begriffs âQualitĂ€tâ.
Im Allgemeinen gibt es bei maschinellen Lernaufgaben zwei HauptansÀtze zum Testen:
- Offline-Test des Modells auf historischen Daten unter Verwendung von Retro-Tests,
- Testen des fertigen Modells mithilfe von A / B-Tests (wir starten verschiedene Optionen, um herauszufinden, welche das beste Ergebnis liefert).
Beide AnsÀtze werden aktiv bei der Entwicklung von Empfehlungssystemen eingesetzt. Beginnen wir mit dem Offline-Testen.
Die HauptbeschrĂ€nkung, der Sie sich stellen mĂŒssen, besteht darin, die Genauigkeit der Prognose zu bewerten, die wir nur fĂŒr die Produkte verwenden können, die der Benutzer bereits bewertet hat.
Der Standardansatz ist die Kreuzvalidierung mit Leave-One-Out- und Leave-P-Out-Methoden. Die wiederholte Wiederholung des Tests mit Mittelung der Ergebnisse ermöglicht eine stabilere QualitÀtsbewertung.
- Auslassen - Das Modell wird an allen vom Benutzer bewerteten Objekten mit Ausnahme eines Objekts trainiert und an diesem einen Objekt getestet. Dies erfolgt fĂŒr alle n Objekte und der Durchschnitt wird aus den erhaltenen n QualitĂ€tsschĂ€tzungen berechnet.
- Das Auslassen von p ist das gleiche, aber p-Punkte werden bei jedem Schritt ausgeschlossen.
Alle QualitÀtsmetriken können in drei Kategorien unterteilt werden:
- Vorhersagegenauigkeit - Bewerten Sie die Genauigkeit der vorhergesagten Bewertung.
- EntscheidungsunterstĂŒtzung - Bewertung der Relevanz von Empfehlungen,
- Ranggenauigkeitsmetriken - Bewerten Sie die QualitÀt des Rankings der ausgegebenen Empfehlungen.
Leider gibt es keine einzige empfohlene Metrik fĂŒr alle Gelegenheiten, und jeder, der am Testen des Empfehlungssystems beteiligt ist, wĂ€hlt sie fĂŒr seine eigenen Zwecke aus.
Wenn Bewertungen auf einer kontinuierlichen Skala (0-10) bewertet werden, sind die Metriken der Vorhersagegenauigkeitsklasse normalerweise ausreichend.
EntscheidungsunterstĂŒtzungsklassenmetriken arbeiten mit BinĂ€rdaten (0 und 1, Ja und Nein). Wenn in unserer Aufgabe die Bewertungen zunĂ€chst auf einer kontinuierlichen Skala verschoben werden, können sie durch Anwendung der entscheidenden Regel in ein BinĂ€rformat konvertiert werden. Wenn die Bewertung weniger als 3,5 betrĂ€gt, betrachten wir die Bewertung als âschlechtâ und wenn sie höher ist, als âgutâ.
Empfehlungen werden in der Regel in einer Liste mit mehreren Positionen angezeigt (zuerst oben, dann in absteigender Reihenfolge der PrioritÀt). Die Metriken der Ranggenauigkeitsklasse messen, wie korrekt die Reihenfolge ist, in der Empfehlungen in einer sortierten Liste angezeigt werden.
Wenn wir im Online-GeschĂ€ft Empfehlungssysteme verwenden, haben diese in der Regel zwei (manchmal widersprĂŒchliche) Ziele:
- den Benutzer ĂŒber ein interessantes Produkt informieren,
- Ermutigen Sie ihn, einen Kauf zu tÀtigen (durch Versenden, Zusammenstellen eines persönlichen Angebots usw.).
Wie in jedem Modell, das den Benutzer zum Handeln motivieren soll, sollte nur eine schrittweise Erhöhung der Zielaktion bewertet werden. Das heiĂt, wenn wir beispielsweise EinkĂ€ufe nach Empfehlung berechnen, mĂŒssen wir diejenigen ausschlieĂen, die der Benutzer selbst ohne unser Modell getan hĂ€tte. Andernfalls wird der Effekt der EinfĂŒhrung des Modells stark ĂŒberschĂ€tzt.
Der Auftrieb ist ein Indikator dafĂŒr, wie oft die Genauigkeit eines Modells einen bestimmten Basisalgorithmus ĂŒberschreitet. In unserem Fall kann der Basisalgorithmus einfach das Fehlen von Empfehlungen sein. Diese Metrik erfasst den Anteil inkrementeller EinkĂ€ufe gut und ermöglicht es Ihnen, verschiedene Modelle effektiv zu vergleichen.
Benutzertests
QuelleDas Benutzerverhalten ist schlecht formalisiert und keine einzige Metrik beschreibt die Denkprozesse in seinem Kopf bei der Auswahl eines Produkts vollstĂ€ndig. Die Entscheidung wird von vielen Faktoren beeinflusst. Das Klicken auf einen Link mit einem empfohlenen Produkt hat noch keine hohe Bewertung oder gar kein Interesse. Online-Tests helfen dabei, die Logik des Clients teilweise zu verstehen. Im Folgenden sind einige Szenarien fĂŒr solche Tests aufgefĂŒhrt.
Das erste und naheliegendste Szenario ist die Analyse von Site-Ereignissen. Wir schauen uns an, was der Benutzer auf der Website tut, ob er auf unsere Empfehlungen achtet, ob er ihnen folgt, welche Funktionen des Systems gefragt sind, welche nicht, welche Produkte besser empfohlen werden, welche schlechter. Um zu verstehen, welcher der Algorithmen insgesamt besser funktioniert, oder einfach eine neue vielversprechende Idee auszuprobieren, fĂŒhren wir A / B-Tests durch und sammeln das Ergebnis.
Das zweite Szenario besteht darin, Feedback von Benutzern in Form von Umfragen und Umfragen zu erhalten. In der Regel sind dies allgemeine Fragen, um zu verstehen, wie Kunden den Service nutzen - was wichtiger ist: Relevanz oder Vielfalt, ob es möglich ist, doppelte Produkte anzuzeigen, oder ob es zu Àrgerlich ist. Der Vorteil des Skripts besteht darin, dass es eine direkte Antwort auf all diese Fragen bietet.
Solche Tests sind eine komplizierte Sache, aber fĂŒr groĂe Empfehlungsdienste ist sie einfach notwendig. Fragen können komplizierter sein, z. B. "Welche der Listen scheint fĂŒr Sie relevanter zu sein", "Wie vollstĂ€ndig sieht das Blatt aus?", "Werden Sie diesen Film sehen / ein Buch lesen?".
Implizite Bewertungen und unÀre Daten
Zu Beginn seiner Entwicklung wurden Empfehlungssysteme in Diensten verwendet, bei denen der Benutzer das Produkt eindeutig bewertet, indem er ihn bewertet - dies sind Amazon, Netflix und andere Online-Handelsseiten. Angesichts der Beliebtheit von Empfehlungssystemen bestand jedoch die Notwendigkeit, sie auch dort einzusetzen, wo es keine Ratings gibt - dies können Banken, AutowerkstĂ€tten, Kioske mit Döner und andere Dienstleistungen sein, bei denen es aus irgendeinem Grund unmöglich ist, ein Bewertungssystem einzurichten. In diesen FĂ€llen können die Interessen des Benutzers nur durch indirekte Zeichen berechnet werden. Bestimmte Aktionen mit dem Produkt weisen auf BenutzerprĂ€ferenzen hin, z. B. Anzeigen der Beschreibung auf der Website, HinzufĂŒgen des Produkts zum Warenkorb usw. Es verwendet das Prinzip "gekauft - es bedeutet Liebe!". Ein solches implizites Bewertungssystem wird als implizite Bewertungen bezeichnet.
Implizite Bewertungen funktionieren offensichtlich schlechter als explizite, da sie eine GröĂenordnung mehr Rauschen hinzufĂŒgen. SchlieĂlich könnte ein Benutzer ein Produkt als Geschenk fĂŒr seine Frau kaufen oder auf eine Seite mit einer Beschreibung des Produkts gehen, um dort einen Kommentar im Stil von âWas fĂŒr eine Gemeinheit ist das alles gleichâ zu hinterlassen oder um seine natĂŒrliche Neugier zu befriedigen.
Wenn wir bei expliziten Bewertungen das Recht haben zu erwarten, dass mindestens eine negative Bewertung Nein, Nein und Ja ist, werden wir von keiner Stelle aus eine negative Bewertung abgeben. Wenn der Benutzer das Buch âFifty Shades of Greyâ nicht gekauft hat, kann er dies aus zwei GrĂŒnden tun:
- sie interessiert sich wirklich nicht fĂŒr ihn (dies ist ein negativer Fall),
- sie interessiert sich fĂŒr ihn, aber er weiĂ einfach nichts ĂŒber sie (dies ist ein ĂŒbersehener positiver Fall).
Wir haben jedoch keine Daten, um den ersten Fall vom zweiten zu unterscheiden. Das ist schlecht, denn wenn wir ein Modell trainieren, mĂŒssen wir es in positiven und in negativen FĂ€llen verstĂ€rken, und so werden wir fast immer in Ordnung sein, und infolgedessen wird das Modell voreingenommen sein.
Der zweite Fall ist die FÀhigkeit, nur positive Bewertungen zu hinterlassen. Ein markantes Beispiel ist der Like-Button in sozialen Netzwerken. Die Bewertung hier ist bereits explizit angegeben, aber wie im vorherigen Beispiel haben wir keine negativen Beispiele - wir wissen, welche KanÀle der Benutzer mag, aber wir wissen nicht, welche er nicht mag.
In beiden Beispielen wird die Aufgabe zu einer Aufgabe zur
Klassifizierung unÀrer Klassen .
Die naheliegendste Lösung besteht darin, einem einfachen Weg zu folgen und das Fehlen einer Bewertung als negative Bewertung zu betrachten. In einigen FĂ€llen ist dies mehr gerechtfertigt, in anderen weniger. Wenn wir beispielsweise wissen, dass der Benutzer das Produkt höchstwahrscheinlich gesehen hat (wir haben ihm beispielsweise die Produktliste gezeigt und er zu dem Produkt gewechselt, das ihm folgt), kann der fehlende Ăbergang wirklich auf ein mangelndes Interesse hinweisen.
QuelleFaktorisierungsalgorithmen
Es wĂ€re groĂartig, die Interessen des Benutzers in gröĂeren âStrichenâ zu beschreiben. Nicht im Format âer liebt Filme X, Y und Zâ, sondern im Format âer liebt moderne russische Komödienâ. Neben der Tatsache, dass dies die Generalisierbarkeit des Modells erhöht, wird auch das Problem einer groĂen DimensionalitĂ€t von Daten gelöst - da Interessen nicht durch einen Warenvektor, sondern durch einen wesentlich kleineren PrĂ€ferenzvektor beschrieben werden.
Solche AnsĂ€tze werden auch als spektrale Zerlegung oder Hochpassfilterung bezeichnet (da wir Rauschen entfernen und ein nĂŒtzliches Signal hinterlassen). In der Algebra gibt es viele verschiedene Zerlegungen von Matrizen, und eine der am hĂ€ufigsten verwendeten ist die SVD-Zerlegung (Singularwertzerlegung).
Die SVD-Methode wurde Ende der 80er Jahre verwendet, um Seiten auszuwĂ€hlen, deren Bedeutung Ă€hnlich, aber nicht inhaltlich war, und wurde dann fĂŒr Empfehlungsaufgaben verwendet. Die Methode basiert auf der Zerlegung der anfĂ€nglichen Bewertungsmatrix Âź in ein Produkt aus 3 Matrizen:
wo die GröĂen der Matrizen
und r ist
Zerlegungsrang - ein Parameter, der den Grad der Zerlegungsdetails kennzeichnet.
Wenn wir diese Zerlegung auf unsere PrĂ€ferenzmatrix anwenden, erhalten wir zwei Faktorenmatrizen (abgekĂŒrzte Beschreibungen):
U - kompakte Beschreibung der Benutzereinstellungen,
S ist eine kompakte Beschreibung der Produktmerkmale.
Es ist wichtig, dass wir bei diesem Ansatz nicht wissen, welche Merkmale den Faktoren in den reduzierten Beschreibungen entsprechen, fĂŒr uns sind sie mit einigen Zahlen codiert. Daher ist SVD ein nicht interpretiertes Modell.
Um eine AnnĂ€herung an die PrĂ€ferenzmatrix zu erhalten, reicht es aus, die Matrix der Faktoren zu multiplizieren. Danach erhalten wir eine Bewertung fĂŒr alle Kunden-Produkt-Paare.
Die allgemeine Familie solcher Algorithmen heiĂt NMF (Non-Negative Matrix Factorization). Die Berechnung solcher Erweiterungen ist in der Regel sehr zeitaufwĂ€ndig, weshalb sie in der Praxis hĂ€ufig auf ihre ungefĂ€hren iterativen Varianten zurĂŒckgreifen.
ALS (Alternating Least Squares) ist ein beliebter iterativer Algorithmus zum Zerlegen einer PrĂ€ferenzmatrix in ein Produkt aus zwei Matrizen: Benutzerfaktoren (U) und Produktfaktoren (I). Es funktioniert nach dem Prinzip der Minimierung des Standardfehlers der Bewertungen. Die Optimierung erfolgt abwechselnd zuerst nach Benutzerfaktoren, dann nach Produktfaktoren. Um eine Umschulung zu umgehen, werden dem Standardfehler Regularisierungskoeffizienten hinzugefĂŒgt.
Wenn wir die PrĂ€ferenzmatrix durch eine neue Dimension ergĂ€nzen, die Informationen ĂŒber den Benutzer oder das Produkt enthĂ€lt, können wir nicht die PrĂ€ferenzmatrix, sondern den Tensor erweitern. Daher werden wir mehr verfĂŒgbare Informationen verwenden und möglicherweise ein genaueres Modell erhalten.
Andere AnsÀtze
AssoziationsregelnAssoziative Regeln werden normalerweise bei der Analyse von Produktkorrelationen verwendet (Market Basket Analysis) und sehen ungefĂ€hr so ââaus: "Wenn der Scheck des Kunden Milch enthĂ€lt, gibt es in 80% der FĂ€lle Brot." Wenn wir also feststellen, dass der Kunde bereits Milch in den Korb gelegt hat, ist es Zeit, an das Brot zu erinnern.
Dies ist nicht dasselbe wie die Analyse von zeitlich verteilten EinkĂ€ufen, aber wenn wir die gesamte Geschichte als einen groĂen Korb betrachten, können wir dieses Prinzip hier vollstĂ€ndig anwenden. Dies kann gerechtfertigt sein, wenn wir beispielsweise teure Einmalwaren (Kredit, Flug) verkaufen.
RBM (eingeschrĂ€nkte Bolzman-Maschinen)Begrenzte Boltzmann-Maschinen sind ein relativ alter Ansatz, der auf stochastischen wiederkehrenden neuronalen Netzen basiert. Es ist ein Modell mit latenten Variablen und Ă€hnelt in dieser Hinsicht der SVD-Zerlegung. Es wird auch nach der kompaktesten Beschreibung der Benutzereinstellungen gesucht, die mit latenten Variablen codiert wird. Die Methode wurde nicht fĂŒr die Suche nach Empfehlungen entwickelt, wurde jedoch erfolgreich in den Top-Netflix-Preislösungen verwendet und wird bei einigen Aufgaben weiterhin verwendet.
AutoencoderEs basiert auf dem gleichen Prinzip der spektralen Zerlegung, weshalb solche Netzwerke auch als Entrauschungs-Auto-Encoder bezeichnet werden. Das Netzwerk reduziert zunĂ€chst die ihm bekannten Benutzerdaten zu einer kompakten Darstellung, versucht nur aussagekrĂ€ftige Informationen zu hinterlassen, und stellt dann die ursprĂŒngliche Dimension der Daten wieder her. Das Ergebnis ist eine Art gemittelte, rauschfreie Vorlage, anhand derer Sie das Interesse an jedem Produkt bewerten können.
DSSM (Deep Sematic Similiarity Models)Einer der neuen AnsĂ€tze. Gleiches Prinzip, aber in der Rolle latenter Variablen, hier sind die internen Tensorbeschreibungen der Eingabedaten (Einbettungen). UrsprĂŒnglich wurde das Modell fĂŒr den Abgleich von Abfragen mit Dokumenten (sowie inhaltsbasierten Empfehlungen) erstellt, lĂ€sst sich jedoch leicht in die Aufgabe des Abgleichs von Benutzern und Produkten umwandeln.
Die Vielfalt der Deep-Network-Architekturen ist endlos, weshalb Deep Learning ein wirklich breites Experimentierfeld fĂŒr Empfehlungssysteme bietet.Hybridlösungen
In der Praxis wird nur ein Ansatz selten verwendet. In der Regel werden mehrere Algorithmen zu einem zusammengefasst, um eine maximale Wirkung zu erzielen.Die beiden Hauptvorteile der Kombination von Modellen sind eine höhere Genauigkeit und die Möglichkeit einer flexibleren Abstimmung auf verschiedene Kundengruppen. Die Nachteile sind eine geringere Interpretierbarkeit und eine gröĂere KomplexitĂ€t bei Implementierung und Support.Mehrere Kombinationsstrategien:- Gewichtung - Lesen Sie die gewichtete Durchschnittsprognose fĂŒr mehrere SchĂ€tzungen.
- Stapelung - Vorhersagen einzelner Modelle sind Eingaben eines anderen (Meta-) Klassifikators, der lernt, ZwischenschÀtzungen korrekt zu gewichten.
- Switching - verschiedene Algorithmen fĂŒr verschiedene Produkte / Benutzer anwenden,
- Mischen - Empfehlungen zu verschiedenen Algorithmen werden berechnet und dann einfach zu einer Liste zusammengefasst.
Beispielsweise wird ein inhaltsbasierter Empfehlungsgeber verwendet, der als eine der Funktionen das Ergebnis einer kollaborativen Filterung ist.Feature Weighted (Linear) Stacking:
Gewichte
Netflix
Der Netflix-Preis war ein Wettbewerb aus dem Jahr 2009, bei dem Benutzer der Netflix-Filmbibliothek ihre Bewertungen vorhersagen mussten. Gute Preisgelder in Höhe von 1 Million US-Dollar sorgten fĂŒr Aufsehen und zogen eine groĂe Anzahl von Teilnehmern an, darunter auch berĂŒhmte Persönlichkeiten der KI.Es war eine Aufgabe mit expliziten Bewertungen, die Bewertungen wurden auf einer Skala von 1 bis 5 festgelegt und die Prognosegenauigkeit wurde von RMSE bewertet. Die meisten der ersten PlĂ€tze wurden von groĂen Ensembles von Klassifikatoren eingenommen.Das siegreiche Ensemble verwendete Modelle der folgenden Klassen:- Basismodell - ein Regressionsmodell, das auf durchschnittlichen SchĂ€tzungen basiert
- kollaborative Filterung - kollaborative Filterung
- RBM - Limited Boltzmann Machines
- zufÀllige WÀlder - Vorhersagemodell
Die traditionelle GradientenverstÀrkung wurde als Metaalgorithmus verwendet, der SchÀtzungen lokaler Algorithmen kombinierte.Zusammenfassung
Die Erstellung von Empfehlungen ist sehr einfach: Wir erstellen eine PrĂ€ferenzmatrix mit uns bekannten BenutzerschĂ€tzungen. Wenn sich herausstellt, ergĂ€nzen wir diese SchĂ€tzungen mit Informationen ĂŒber den Kunden und das Produkt und versuchen, die unbekannten Werte einzugeben.Trotz der Einfachheit der Aussage werden Hunderte von Artikeln veröffentlicht, die grundlegend neue Methoden zu ihrer Lösung beschreiben. Erstens ist dies auf eine Zunahme der Menge der gesammelten Daten zurĂŒckzufĂŒhren, die im Modell verwendet werden können, und auf eine Zunahme der Rolle impliziter Bewertungen. Zweitens mit der Entwicklung von Deep Learning und dem Aufkommen neuer neuronaler Netzwerkarchitekturen. All dies vervielfacht die KomplexitĂ€t der Modelle.Aber im Allgemeinen ist all diese Vielfalt auf eine sehr kleine Reihe von AnsĂ€tzen zurĂŒckzufĂŒhren, die ich in diesem Artikel zu beschreiben versuchte.Ich erinnere Sie an unsere offenen Stellen.