Vergessen Sie die Privatsphäre: Sie haben immer noch schreckliche Ziele

Es tut mir nicht leid, dass Ihre Programme meine persönlichen Daten überprüfen, wenn ich dafür etwas Nützliches bekomme. Dies ist jedoch normalerweise nicht der Fall.

Mein Ex-Kollege sagte mir: „Jeder sammelt gerne Daten, aber niemand analysiert sie gerne später.“ Diese Aussage mag schockierend sein, aber Personen, die an der Erfassung und Analyse von Daten beteiligt sind, sind darauf gestoßen. Alles beginnt mit einer brillanten Idee: Wir sammeln Informationen über jeden Klick, den eine Person auf jeder Seite der Anwendung macht! Wir werden verfolgen, wie lange sie über eine bestimmte Wahl nachdenken! Wie oft benutzen sie den Zurück-Knopf! Wie viele Sekunden sehen sie sich unser Einführungsvideo an, bevor sie die Verbindung trennen! Wie oft teilen sie unseren Beitrag in sozialen Netzwerken!

Und sie verfolgen das alles. Tracking ist einfach. Fügen Sie die Protokolle hinzu, sichern Sie sie in der Datenbank und gehen Sie.

Und was dann? Nun, dann muss das alles analysiert werden. Und als Person, die viele Datensätze analysiert hat, die sich auf verschiedene Dinge beziehen, kann ich sagen: Die Arbeit eines Analytikers ist schwierig und größtenteils undankbar (mit Ausnahme des Gehalts).

Das Problem ist, dass es praktisch keine Möglichkeiten gibt, zu bestätigen, dass Sie Recht haben (und auch die Definition der Richtigkeit selbst ist nicht sehr klar, worüber im Folgenden). Es ist fast nie möglich, einfache Schlussfolgerungen zu ziehen, nur komplexe - und komplexe Schlussfolgerungen sind fehleranfällig. Analysten sprechen nicht darüber, wie viele falsche Zeitpläne (und dementsprechend Schlussfolgerungen) auf dem Weg zu den richtigen erstellt werden. Oder zu denen, die wir für richtig halten. Ein guter Zeitplan ist so überzeugend, dass es nicht wirklich wichtig ist, ob er der richtige ist oder nicht, wenn Sie nur jemanden überzeugen müssen. Vielleicht veröffentlichen deshalb Zeitungen, Zeitschriften und Lobbyisten so viele irreführende Zeitpläne.

Wir verschieben den Fehler jedoch um eine Weile. Wir gehen sehr unrealistisch davon aus, dass wir alle möglichen Dinge sehr gut analysieren können. Was weiter?

Lassen Sie uns auf gezielte Werbe- und persönliche Empfehlungsalgorithmen eingehen. Genau das macht schließlich jeder!

Oder nicht?

Mit persönlichen Empfehlungen ist alles überraschend schlecht. Die allererste Empfehlung wird heute ein Artikel mit einer anklickenden und sehr emotionalen Überschrift über Filmstars oder darüber sein, was Trump in den letzten 6 Stunden getan oder nicht getan hat. Oder kein Artikel, sondern ein Video oder eine Dokumentation. Ich möchte es nicht lesen oder ansehen, aber manchmal nervt es mich trotzdem - und dann willkommen zur Apokalypse der Empfehlungen. Jetzt ist der Algorithmus der Ansicht, dass ich gerne über Trump lese, und jetzt wird Trump überall sein. Geben Sie niemals AI positives Feedback.

Dies ist übrigens ein schreckliches Geheimnis der Unterstützer des maschinellen Lernens: Fast alles, was das MO herausgibt, kann mit Hilfe von manuell programmierten dummen Heuristiken viel billiger erhalten werden, da das MO hauptsächlich anhand der Beispiele trainiert, was Menschen nach der Hölle einer dummen Heuristik getan haben. Hier gibt es keine Magie. Wenn Sie mit Hilfe von MO einen Computer für die Auswahl eines Lebenslaufs trainieren, empfiehlt er Ihnen, Männer mit den Namen weißer Personen zu interviewen, wie dies Ihre Personalabteilung bereits tut . Wenn Sie einen Computer fragen, welche Art von Video eine Person sehen möchte, empfiehlt sie eine Art propagandpolitischen Müll, da in 50% der Fälle 90% der Menschen ihn tatsächlich sehen und nicht in der Lage sind, sich selbst zu kontrollieren - und dies ist ein ziemlich guter Prozentsatz des Erfolgs.

Ich stelle fest, dass es mehrere Beispiele für die hervorragende Verwendung von MO für das gibt, was herkömmliche Algorithmen schlecht bewältigen - Bildverarbeitung oder Gewinnen in strategischen Spielen. Das ist großartig, aber es besteht jede Chance, dass Ihre Lieblings-MO-Anwendung ein teurer Ersatz für eine dumme Heuristik wird.

Eine Person, die mit der Websuche arbeitet, sagte mir, dass sie bereits einen Algorithmus hat, der das maximale Verhältnis von Klicks zu Ansichten für jede Suche garantiert: Sie müssen nur eine Seite mit Links zu Pornos herausgeben. Und jemand sagte, dass diese Situation abgeschlossen und zu einem Pornografiedetektor gemacht werden kann: Jeder Link mit hoher Klickbarkeit, unabhängig von der Anfrage, führt höchstwahrscheinlich zu Pornografie.

Das Problem ist, dass anständig aussehende Unternehmen Ihnen nicht ständig Links zu Pornos geben können. Dies ist "unsicher für die Anzeige bei der Arbeit". Daher besteht die Arbeit der meisten modernen Empfehlungsalgorithmen darin, etwas zurückzugeben, das dem Porno so nahe wie möglich kommt, aber mit Dies ist "sicher bei der Arbeit zu sehen". Mit anderen Worten, Stars (idealerweise schön oder zumindest kontrovers), Politiker oder beides. Sie kommen so nah wie möglich an diese Grenze, weil dies das lokale Maximum ihrer Rentabilität ist. Manchmal überschreiten sie diese Grenze, müssen sich entschuldigen oder eine symbolische Geldstrafe zahlen, und dann kehrt alles auf den ersten Platz zurück.

Das ärgert mich, aber Feigen mit ihm, es ist nur Mathe. Und vielleicht die menschliche Natur. Und der Kapitalismus. Ja Feigen mit ihm, ich mag es vielleicht nicht, aber ich kann es verstehen.

Ich beschwere mich, dass keiner der oben genannten Punkte mit der Erfassung meiner persönlichen Daten zusammenhängt.

Die heißesten Empfehlungen haben nichts mit mir zu tun


Seien wir ehrlich: Die zielgerichteteste Anzeige ist die, die ich von einer Suchmaschine erhalte, die mir genau das bietet, wonach ich gesucht habe. Und alles ist im Plus: Ich finde, wonach ich gesucht habe, der Verkäufer hilft mir beim Kauf seiner Waren, die Suchmaschine bekommt Geld für die Mediation. Ich kenne niemanden, der sich über eine solche Werbung beschweren würde. Dies ist eine gute Werbung.

Und auch sie hat nichts mit meinen persönlichen Daten zu tun!

Google bietet seit mehr als einem Jahrzehnt suchbasierte kontextbezogene Werbung an, noch bevor ich aufgefordert wurde, mich anzumelden. Noch heute kann eine Person jede Suchmaschine verwenden, ohne sich bei ihrem Konto anzumelden. Und sie geben immer noch Anzeigen basierend auf Suchanfragen aus. Tolles Geschäft.

In meinem Fall funktioniert eine andere Anzeige gut. Ich spiele manchmal Spiele, benutze Steam und manchmal schaue ich mir Spiele auf Steam an und markiere diejenigen, die ich kaufen möchte. Wenn ein Verkauf für diese Spiele beginnt, sendet Steam mir eine Benachrichtigungs-E-Mail und manchmal kaufe ich sie danach. Alles ist im Plus: Ich bekomme das gewünschte Spiel (mit Rabatt!), Der Spielehersteller erhält Geld, Steam erhält die Zahlung für die Mediation. Und wenn ich will, kann ich mir auch verbieten, mir diese Briefe zu schicken - aber ich will nicht, weil dies eine gute Werbung ist.

Aber niemand musste dafür mein Profil erstellen? Steam hat meinen Account, ich habe gesagt, welche Spiele ich will, und der Service hat sie mir verkauft. Hiermit wird kein Profil erstellt, sondern nur die Liste gespeichert, die ich selbst bereitgestellt habe.

Amazon zeigt mir einen Hinweis, dass ich möglicherweise einige der Verbrauchsmaterialien kaufen möchte, die ich in der Vergangenheit erneut gekauft habe. Dies ist ebenfalls nützlich und erfordert auch nicht die Erstellung eines Profils, außer um sich an die Transaktionen zu erinnern, die sie bereits ausführen. Und wieder gewinnt jeder.

Amazon empfiehlt auch Produkte, die denen ähneln, die ich gekauft habe, oder Produkte, die ich studiert habe. Dies ist ungefähr 20% nützlich. Wenn ich gerade einen Monitor für den Computer gekauft habe und Sie wissen, dass ich es getan habe, weil ich ihn bei Ihnen gekauft habe, können Sie aufhören, mir Monitore zu verkaufen. Aber ein paar Tage nach dem Kauf der Elektronik bieten sie mir auch an, USB-Kabel zu kaufen, was höchstwahrscheinlich richtig ist. Okay, 20% der Vorteile beim Targeting sind besser als 0% der Vorteile. Amazon muss für die Erstellung meines nützlichen Profils empfohlen werden, obwohl dies nur ein Profil dessen ist, was ich auf der Website getan habe, und sie es mit niemandem teilen. Dies scheint keine Verletzung der Privatsphäre zu sein. Niemand wird überrascht sein, dass Amazon sich daran erinnert, was ich bei ihnen gekauft oder gesehen habe.

Es stellt sich als schlimmer heraus, wenn Verkäufer entscheiden, dass ich etwas möchte. Und sie entscheiden das, weil ich zu ihrer Seite gegangen bin und mir etwas angesehen habe. Dann verfolgen mich ihre Werbepartner im ganzen Web und versuchen, es mir zu verkaufen. Und sie machen es, auch wenn ich es schon gekauft habe. Die Ironie ist, dass all dies auf unsichere Versuche zurückzuführen ist, meine Privatsphäre zu schützen. Der Verkäufer gibt keine Informationen über mich und meine Transaktionen an seine Werbepartner weiter (da sonst die Möglichkeit besteht, dass sie aus rechtlicher Sicht in Schwierigkeiten geraten), sodass der Werbepartner nicht weiß, dass ich das Produkt gekauft habe. Er weiß nur (aufgrund des Trackers eines Partners, der auf der Website des Verkäufers installiert ist), dass ich mir den Artikel angesehen habe, sodass er mich weiterhin für alle Fälle bewirbt.

OK, jetzt kommen wir zu einem interessanten Thema. Der Werbetreibende hat einen Tracker, den er auf verschiedenen Websites platziert, um mich zu verfolgen. Er weiß nicht, was ich gekauft habe, aber er weiß, was ich mir angesehen habe, vielleicht sogar lange und auf vielen Websites.

Anhand dieser Informationen zieht seine sorgfältig geschulte KI Schlussfolgerungen darüber, was ich sonst noch sehen möchte, basierend auf ...

Und auf welcher Grundlage? Leute wie ich? Was schauen sich meine Facebook-Freunde an? Eine komplexe Matrixformel, die die Leute nicht verstehen können, die aber 10% besser funktioniert?

Wahrscheinlich nicht. Er errät wahrscheinlich nur mein Geschlecht, Alter, Einkommensniveau und Familienstand. Und wenn ich ein Mann bin, verkauft er mir Autos und Geräte, und wenn sie ein Mädchen ist, sind sie modische Dinge. Nicht weil alle Jungs Autos und Geräte lieben, sondern weil eine völlig unkreative Person in diesen Prozess verwickelt war und sagte: "Verkaufe mein Auto hauptsächlich an Männer" und "Verkaufe meine Kleidung hauptsächlich an Frauen". Die KI kann aufgrund falscher demografischer Daten Schlussfolgerungen ziehen (ich weiß, dass Google in meinem Konto falsch ist), aber das spielt keine Rolle, da es sich normalerweise als größtenteils richtig herausstellt, was besser ist, als 0% richtig zu sein, und Werbetreibende erhalten Zum größten Teil demografisch ausgerichtete Anzeigen, was besser ist als das Targeting mit einer Effizienz von 0%.

Sie verstehen, dass alles so funktioniert? Na klar. Dies kann anhand der tatsächlichen Funktionsweise der Anzeige bestätigt werden. Jede Person kann sich in wenigen Sekunden an etwas erinnern, das sie kaufen wollte, aber der Algorithmus konnte es ihnen nicht anbieten, während die Outbrain- Werbeplattform Geld verdient, indem sie Links zur Kfz-Versicherung an Personen verkauft, die kein Auto haben. Es könnte genauso gut ein Fernsehwerbespot aus den 90ern gewesen sein, der spät in der Nacht gezeigt wurde, als Sie sich über mein demografisches Profil sicher sein konnten, weil ich noch nicht geschlafen hatte.

Sie folgen mir überall hin, schreiben alle meine Handlungen für immer in Ihre Protokolle, ersetzen jemanden, der Ihre Datenbank stiehlt, und befürchten verzweifelt, dass ein neues EU-Gesetz Ihr Geschäft zerstören könnte ... Und das alles aus diesem Grund?

Statistische Astrologie


Natürlich ist eigentlich nicht alles so einfach wie beschrieben. Auf jeder der Websites, die ich besuche, verfolgt mich mehr als eine Firma. Diese Unternehmen haben einen Wagen und alle verfolgen mich auf jeder besuchten Website. Einige von ihnen betreiben nicht einmal Werbung, sondern verfolgen diese Tracking-Informationen einfach und verkaufen sie dann an Werbetreibende, die sie anscheinend zur Verbesserung der Ausrichtung verwenden.

Fantastisches Ökosystem. Werfen wir einen Blick auf die Nachrichtenseiten. Warum laden sie so langsam? Wegen der Tracker. Nicht wegen der Werbung - wegen der Tracker. Es gibt nur ein paar Anzeigen, deren Laden normalerweise nicht so lange dauert. Es gibt jedoch eine Reihe von Trackern, da jeder von ihnen ein wenig bezahlt, damit sie die Ansichten jeder Seite verfolgen können. Wenn Sie ein riesiger Publisher sind, der kurz vor dem Bankrott steht, und bereits 25 Tracker auf Ihrer Website haben und die 26. Tracking-Firma Sie anruft und verspricht, 50.000 USD pro Jahr für das Hinzufügen eines weiteren Trackers zu zahlen, werden Sie diese ablehnen ? Ihre Seite wird bereits kaum geworfen und gedreht, sodass eine Verlangsamung des Downloads um weitere 1/25 nichts ändert, aber 50.000 US-Dollar können.

(„Werbeblocker“ entfernen lästige Anzeigen, beschleunigen aber auch das Web, hauptsächlich durch das Entfernen von Trackern. Verdammt schade - die Tracker selbst müssen den Download nicht verlangsamen, aber sie verlangsamen ihn, da ihre Entwickler notwendigerweise Idioten sind, von denen jede Tausende von Zeilen herunterladen muss JavaScript-Code für das, was in zwei Zeilen gemacht werden kann. Aber das ist eine andere Geschichte.

Und dann kaufen Verkäufer von Anzeigen und Werbenetzwerken Tracking-Daten von Trackern. Je mehr Tracking-Daten sie haben, desto besser können sie Anzeigen verwalten, oder? Nun, wahrscheinlich.

Und das Lustigste ist, dass jeder Tracker einige Daten über Sie hat, aber nicht alle Daten, da sich jeder Tracker nicht auf jeder Website befindet. Andererseits ist es ziemlich schwierig, die Aktivität von Menschen zwischen verschiedenen Trackern zu vergleichen, da keiner von ihnen Ihnen seine geheime Zutat geben möchte. Daher bemüht sich jeder Werbeverkäufer, alle Daten für alle von ihm gekauften Tracker zu vergleichen, aber im Grunde funktioniert dies nicht. Nehmen wir an, wir haben 25 Tracker, von denen jeder eine Million Benutzer verfolgt, und möglicherweise überlappen sich dort viele Daten. In einer rationalen Welt hätte man vermutet, dass diese Daten von mehreren Millionen einzelnen Benutzern beschrieben werden. Aber in einer verrückten Welt, in der es unmöglich ist, die Überlappung zu beweisen, gibt es möglicherweise 25 Millionen Benutzer! Je mehr Data Tracker Ihr Werbenetzwerk kauft, desto mehr Informationen erhalten Sie! Ich denke! Dies bedeutet, dass sich das Targeting verbessert! Vielleicht! Sie sollten also Anzeigen in unserem Netzwerk kaufen, nicht in einem anderen Netzwerk mit weniger Daten! Nun, anscheinend!

Aber das alles funktioniert nicht. Sie versuchen immer noch, mir eine Autoversicherung für die U-Bahn zu verkaufen.

Und es geht nicht nur um Werbung


Viele Dinge im Zusammenhang mit gezielter Werbung funktionieren offensichtlich nicht - wenn jemand mindestens einmal anhält und dies alles sorgfältig betrachtet. Aber zu viele Menschen haben einen Anreiz, anders zu denken. Wenn Sie sich jedoch um Ihr persönliches Leben kümmern, kommt es darauf an, dass diese weiterhin Ihre persönlichen Daten sammeln. Diese Methode funktioniert oder nicht.

Was ist mit Algorithmen für Inhaltsempfehlungen? Arbeiten sie

Offensichtlich nicht. Hast du sie jemals ausprobiert? Nein, wirklich.

Okay, das ist nicht ganz fair. Einige Dinge funktionieren. Die musikalischen Empfehlungen des Pandora-Dienstes funktionieren unerwartet gut , aber sie tun dies auf eine völlig nicht offensichtliche Weise. Der naheliegende Weg besteht darin, die Liste der Songs, die Ihre Benutzer hören, in das Trainingsset für die Region Moskau hochzuladen und anhand des Ergebnisses eine Liste der Songs für neue Benutzer zu erstellen, die auf ... äh ... ihrem Profil basieren. Nun, sie haben kein Profil, sie sind einfach beigetreten. Vielleicht basierend auf einigen der ersten Songs, die sie manuell auswählen? Vielleicht, aber sie haben wahrscheinlich entweder mit einem sehr beliebten Song begonnen, der nichts sagt, oder mit einem sehr seltenen Song, um die Weite Ihrer Datenbank zu überprüfen, der Ihnen noch weniger sagt.

Ich bin sicher, Mixcloud funktioniert genau so. Nach jedem Mix versucht der Dienst, den „ähnlichsten“ Mix zu finden, von dem aus fortgefahren werden kann. Normalerweise ist dies jemand anderes, der genau den gleichen Mix heruntergeladen hat. Die erste Mischung ist dieser Mischung am ähnlichsten, weshalb sie produziert wird. Genial, maschinelles Lernen, mach weiter so.

Dies bringt uns zu dem System „Zufälliges Lied, Finger hoch / Finger runter“, das jeder verwendet. Aber allen außer Pandora geht es schlecht. Warum? Anscheinend, weil Pandora eine Reihe von Zeit manuell das Auto der Eigenschaften von Musik codiert und "echte Algorithmen" (nicht MOs) schreibt, die versuchen, Listen von Songs basierend auf der richtigen Kombination dieser Eigenschaften zu erstellen.

In diesem Sinne kann Pandora nicht als reines Mo bezeichnet werden. Oft wird eine Liste von Songs erstellt, die Sie nach ein oder zwei Fingern nach oben / unten mögen, wenn Sie durch ein mehrdimensionales zusammenhängendes Netzwerk von Songs reisen, die Menschen mit harter Arbeit aufgebaut haben, und nicht durch eine riesige Matrix durchschnittlicher Listen von Songs, die von durchschnittlichen Menschen stammen, die dies nicht tun Versuchen Sie, diese Songlisten zu generieren. Pandora versagt in vielen Dingen (insbesondere beim „Zugang in Kanada“), aber ihre musikalischen Empfehlungen funktionieren hervorragend.

Es gibt nur einen Haken. Wenn der Pandora-Dienst Ihnen eine gute Liste von Songs basierend auf der ersten und einigen Bewertungen geben kann, dann scheint es mir, dass er Ihr Profil nicht erstellt. Und er braucht Ihre persönlichen Daten nicht.

Netflix


Und um nicht zweimal aufzustehen, werde ich mich ein wenig mit Netflix befassen - einem seltsamen Entwicklungsfall, der mit einem sehr guten Empfehlungsalgorithmus begann, der dann speziell verschlechtert wurde.

Es war einmal ein Netflix-Preis in Höhe von 1 Million US-Dollar, der dem besten Team versprochen wurde, das in der Lage ist, die Bewertungen von Filmen, die von einer Person abgegeben wurden, anhand der bereits abgegebenen Bewertungen und mit besserer Genauigkeit als bei Netflix selbst vorherzusagen. Und dies führte nicht so unerwartet zu einem Fiasko mit Datenschutz, als sich herausstellte, dass veröffentlichte Datensätze dekanonymisiert werden können. Ja, dies führt zur langfristigen Speicherung persönlicher Informationen von Personen in der Datenbank.

Netflix glaubte, dass ihr Geschäft von einem guten Empfehlungsalgorithmus abhängt. Es war schon ziemlich gut: Ich erinnere mich, dass ich Netflix vor 10 Jahren verwendet habe und einige Empfehlungen für Filme erhalten habe, die ich nie gefunden hätte, aber gleichzeitig mochte ich sie. Aber das ist mir auf Netflix schon sehr, sehr lange nicht mehr passiert.

Die Geschichte ist folgende: Netflix war einst ein DVD-Mailing-Dienst. Das Versenden von DVDs per Post ist langsam, daher war es unbedingt erforderlich, dass mindestens ein Film auf CDs, der einmal pro Woche erschien, interessant genug war, um Sie am Freitagabend zu unterhalten. , . . , , , , , , .

, , Netflix , : . , , . , , , .

, Netflix : , , . : Netflix, «». , .

, satisficing [ satisfying () suffice () / . .] – , . Netflix , . , , 80% 20% , , 0% , 99%, . .

, , , . , . Netflix – « », « », « » « ».

Netflix, , $1 , . , , .

- A/B , . . .

, , ?

Source: https://habr.com/ru/post/de439338/


All Articles