[Case Locomizer] Welches Wissen kann tatsächlich aus einem anonymen Datensatz mit Benutzerkoordinaten extrahiert werden?

Dieser Artikel ist Teil der Case Locomizer-Serie, siehe auch

Guten Tag.

:  ,   Locomizer  KFC

Kürzlich veröffentlichte die New York Times einen sensationellen Artikel darüber, wie man Benutzer anhand von kommerziell erhältlichen anonymen Datensätzen mit den Koordinaten ihrer Bewegungen nachverfolgt, und hier, auf Habré, sammelte ihre kostenlose Übersetzung mit Hinzufügungen eines unbekannten Corporate Copywriters eine große Anzahl von Kommentaren mit unterschiedlichem Besorgnis.

Zufällig war ich in den letzten zweieinhalb Jahren technischer Leiter eines Geoinformationsprojekts, das sich mit der direkten Entnahme von Wissen aus genau solchen kommerziellen Datensätzen befasst. Aber meine Kommentare mit der Bitte, die Panik beiseite zu legen, sammelten eine große Anzahl von Minuspunkten. Na dann. In dem Sprichwort über die Abwesenheit von Paranoia und nicht über die Tatsache, dass Sie nicht befolgt werden, steckt eine gewisse Menge an Wahrheit.

Aber auf der anderen Seite des schwarzen Spiegels ist etwas Wahres, vielleicht noch viel mehr. Oder interessant.

Lassen Sie mich Ihnen im Detail sagen, wie wir Ihnen folgen (und ob wir im Sinne von Spionage folgen) (und ob Sie persönlich) und welche Art von Wissen über den Benutzer erlangt werden kann, ohne genau einen anderen Kontext als die Koordinaten seiner Bewegungen zu besitzen von mobilen Teilnehmerendgeräten abgeholt . Ohne übermäßigen Journalismus und Hype-Völlerei aus der Sicht eines technischen Spezialisten, der über echte Erfahrung bei der Lösung von fiktiven Aufgaben für fiktive Kunden verfügt, darunter nicht nur verschiedene Werbeagenturen, Coca-Cola und Guinness, sondern auch beispielsweise die Vereinten Nationen. Und mit einem Augenzwinkern .

Außerdem! Am Ende dieser Artikelserie möchte ich die Tools vorstellen, die wir seit zweieinhalb Jahren entwickeln, damit Sie selbst recherchieren können, wenn Sie einen geeigneten Datensatz kaufen (oder erwerben). Soweit ich weiß, hat bisher noch niemand solche Tools öffentlich zugänglich gemacht. Zumindest als wir vor zwei Jahren suchten, wurde nichts gefunden und wir mussten uns selbst schreiben. Der Weg zu schnellen Berechnungen war schwierig und lang, im zweiten Teil wird es darum gehen.

Also Inhaltsverzeichnis dieser Anamnese:

  • Anatomie eines anonymen Datensatzes
  • Probleme mit der Genauigkeit der Koordinaten im mittleren Streifen
  • Heuristik zur Datenbereinigung von Lärm und Schmutz
  • Was fĂĽr ein "Wissen" ist das?
  • Punkte des Interesses
  • Probleme bei der Wissensextraktion
  • User Interest Scoring

Bonus:

  • Danke und eine kurze FAQ

Anatomie eines anonymen Datensatzes


Nehmen Sie den kommerziellen Anbieter Tamoco und sehen Sie, welche Dateien ausgeliefert werden. Hier ist zum Beispiel ein Teil eines realen Datensatzes aus dem Land des Vereinigten Königreichs Großbritannien und Nordirland, Datum ist der 4. Dezember 2019:

sdk_ts,device_id,latitude,longitude,accuracy,country,device_type,device_make,device_model,device_language,device_os,device_os_version,device_hw_version,device_screen_width,device_screen_height,device_battery,altitude,inv_id,trigger_type,app_account_id 1575390011,d75f97488c430502046fdb4ebfcc0ffd,51.516766,-0.1279744,10,GB,,,SM-G950W,en-CA,,,,0,0,0,0,4260328,GEO_FENCE_ENTER,115 1575414847,d75f97488c430502046fdb4ebfcc0ffd,51.516766,-0.1279821,10,GB,,,SM-G950W,en-CA,,,,0,0,0,0,4260328,GEO_FENCE_ENTER,115 1575424373,7e3323b382ddaafb9f774af95631cc44,51.51379,-0.0999953,7.6,GB,,,SM-G925F,en-GB,,,,0,0,0,0,31572218,GEO_FENCE_ENTER,115 1575417663,90165d78553fb37b0d62500733b39d11,53.724384,-6.879851,11,IE,aaid,,SM-A605FN,,android,9,,0,0,0,138,0,UNKNOWN_TRIGGER,229 1575417977,b6f2375275a21c40e03e4c6ea9ea4da0,52.75558,-7.9915,5,IE,idfa,,iPhone7.1,,ios,12.4.3,,0,0,0,122,0,UNKNOWN_TRIGGER,229 

Folgendes sehen wir in den Feldern dieses Datensatzes:

  • sdk_ts - Zeitstempel in der Unix-Epoche ,
  • device_id - anonymisierte Geräte-ID (mobiles Teilnehmerendgerät, z. B. Smartphone oder Tablet)
  • Breitengrad / Längengrad - geografische Koordinaten ,
  • Genauigkeit - horizontale Koordinatengenauigkeit, Meter,
  • Land - Land
  • die restlichen Felder sind MĂĽll, der keine besondere semantische Last trägt.

Warum ist MĂĽll sofort?

Leider ist ein solches scheinbar nützliches Höhenfeld bedeutungslos, da die Höhe nur unzureichend in Gebäudebodennummern übersetzt wird und das Fliegen mit dem Flugzeug ohne dieses Feld vermieden werden kann (aber wir werden später darüber sprechen).

Im Gegensatz zu den Journalisten aus den eingangs genannten Artikeln haben wir keinen zusätzlichen Kontext zu den Nutzern und gehen nicht von unbegründeten Annahmen aus, wie zum Beispiel "war im Pentagon - das heißt, es funktioniert im Pentagon". Wir sind auch keine Art von Facebook, die alles über dich weiß, was du über dich selbst erzählt hast (und der durchschnittliche Nutzer sagt viel über dich selbst), sowie dein gesamtes soziales Diagramm. Wir haben Rohdaten gekauft und wir glauben ihnen nicht.

Aus dem Kontext gibt es also nur ein Benutzergebietsschema - es kann helfen, ausländische Touristen zu identifizieren, aber das ist nicht korrekt.

Naja, neben Koordinaten und Zeit gibt es auch ein Telefonmodell - theoretisch eröffnet es die Möglichkeit, die Besitzer verschiedener Geräte auf iOS und Andriod individuell zu bearbeiten. In den Kommentaren zu dem Artikel aus diesem Unternehmensblog schlugen einige vor, mit teuren Mobiltelefonen einen Zwischenstopp einzulegen und sie nach Standort zu verfolgen ... Hmm, wissen Sie, aber ein solches Geschäftsmodell für normale Büros, die es sich leisten können, Daten zu kaufen, ist etwas unrentabel :)
Es ist wichtig zu verstehen, dass die Daten des Lieferanten roh sind, dh von den Geräten stammen und in keiner Weise verarbeitet werden, es sei denn, die reale device_id wird gemäß den Anforderungen der DSGVO durch einen Hash ersetzt (es ist stabil, dasselbe Gerät wird zwischen verschiedenen monatlichen Speicherauszügen angezeigt) gleichermaßen).

Jeder Anbieter hat seinen eigenen Satz und sein eigenes Format von Feldern, aber jeder hat Koordinaten, Genauigkeit, Zeit und device_id, und ich habe zum Beispiel Tamoco als das durchschnittlichste genommen. Und was können Sie davon ausgehen, dass ein Benutzer eine Reihe von Rohdaten betrachtet, wenn er sich nicht mit Unterstellungen und Wahrsagerei aus Kaffeesatz befasst?

Es sei denn, er befand sich zum angegebenen Zeitpunkt möglicherweise in der Nähe der angegebenen Koordinaten. Genauer gesagt wurde dies von einer Bibliothek aus dem SDK einer anderen Person entschieden, die die Geolokalisierung in der Anwendung auf ihrem Abonnententerminal sammelt und diese Daten in den Aggregator hochlädt. Es scheint ihr, dass er dort war, aber die endgültige Entscheidung, ob wir ihr glauben oder nicht, wird von uns getroffen, und es ist stark nach der Tatsache.

Probleme mit der Genauigkeit der Koordinaten im mittleren Streifen


GPS ist eine tolle Sache. Vor kurzem gab es einen ausgezeichneten Artikel über seine Fähigkeiten, lesen Sie ihn, wenn nicht bereits.

Das sind nur die coolen Beispiele für Idealfälle, die leider nicht für kommerzielle Datensätze gelten.

Erstens sind mobile Teilnehmerendgeräte aus kommerziellen Datensätzen überhaupt keine professionellen GPS-Empfänger, die für einen bestimmten Zweck entwickelt wurden und auf einer viel besser geeigneten Elementbasis mit guten Verstärkern und großen Antennen hergestellt werden. Ein Smartphone ist ein Smartphone - das sind die billigsten Komponenten in einem kleinen Koffer mit kleinen Antennen, die dank wilder technologischer Tricks in mehreren Bereichen gleichzeitig funktionieren, von denen GPS weit vom Hauptgerät entfernt ist.

Zweitens ist die städtische Umgebung ein sehr, sehr raues Gelände. Denken Sie selbst - wenn Sie die amerikanische einstöckige Vorstadt wegwerfen, ist jede moderne Stadtstraße eine tiefe Schlucht mit sehr steilen Wänden, nicht nur, dass der Horizont nicht sichtbar ist, sondern ein Stück des Himmels über Ihrem Kopf ist sehr klein sichtbar. Und für eine normale Genauigkeit müssen 4 Satelliten gleichzeitig in direkter Sichtweite sein, besser mehr. Gehen Sie aus Gründen des Interesses in den Innenhof Ihres Hochhauses und sehen Sie, wie viele Satelliten Ihr Smart sieht. (Höchstwahrscheinlich benötigen Sie einen verwurzelten Android und / oder eine Art kostenpflichtigen GPS-Tracker.)

Drittens ist der durchschnittliche Benutzer ständig in Bewegung, er wartet nicht mehrere Minuten vor Ort, bis sein mobiles Teilnehmerendgerät die gewünschte Anzahl von Satelliten erfasst, er geht oder geht, sich dreht und sich die Sicht ständig ändert.

Viertens hält der Benutzer das Telefon nicht immer in seinen Händen. In einer Tasche, einem Geldbeutel oder einem Rucksack kann er seitlich oder auf jeden Fall liegen und fängt überhaupt nichts.

Fünftens kann jedes Gebäude aus Stahlbeton entweder ein klassischer Faradayscher Käfig oder ein Phased Array oder ein Spiegel mit interessanten nichtlinearen Eigenschaften sein, der das Signal sowohl verstärken als auch aufgrund von Störungen in einiger Entfernung unterdrücken kann. Oder reflektieren Sie in einem unvorhersehbaren Winkel, Phasenverschiebung und so weiter. Es hängt alles von der Neigung des Metalls in den Betonwänden ab.

Sechstens sind die Autos auch aus Metall.

Siebtens, tief im Inneren des Gebäudes fängt GPS normalerweise nicht ab, und noch mehr in der U-Bahn.

,  -

All diese Faktoren machen GPS in der Stadt äußerst unzuverlässig, und Hersteller mobiler Teilnehmerendgeräte (sowie Anbieter von Ortungsdiensten für mobile Betriebssysteme) müssen mit verschiedenen unterstützten GPS-Technologien aussteigen.

Die häufigsten sind Triangulationen an Mobilfunk-Basisstationen und WiFi-Netzwerken (und sogar Bluetooth).

All diese lächerlichen Google- und Yandex-Autos mit Kameras, die Panoramen für die Straßenansicht aufnehmen, sammeln tatsächlich hauptsächlich Informationen über CellID, Netzwerknamen und Signalpegel von Routern und die Bilder - so ein vorübergehender Genuss. Darüber hinaus sammelt HERE Maps diese Informationen massenhaft - und zwar in Industrieländern, bei Apple und in einem Dutzend weiterer kleinerer Büros. Nun, diese Bibliotheken, die in mobilen Anwendungen verkabelt sind und Geolocation-Daten liefern, tun genau dasselbe, nur zum Beispiel, wie fast jedes Widget, das eine Karte anzeigt.

Die Hauptfrage ist hier genau.

Im Gegensatz zu GPS ist LBS schlecht damit. 20 Meter für LTE im Idealfall (im Allgemeinen - bis zu einigen Kilometern) und für Wi-Fi, hier verringern die Richtungsmuster von Routern, erweiterte Maschennetze mit Repeatern und die physikalischen Eigenschaften des 2,4- und 5-GHz-Frequenzsignals die Zuverlässigkeit im Freien bis zu 150 Meter oder mehr.

Und das sind die ständigen Sprünge des Benutzers auf die andere Straßenseite oder zur Kreuzung oder sogar ein halbes Viertel von der Stelle, an der er sich tatsächlich befindet - wenn sich der Router zum Beispiel im 5. Stock befindet und sich von Hochhäusern um die Schlucht herum befindet, wird kein Signal ausgegeben am Eingang gefangen werden, aber es wird perfekt am Ende dieser Schlucht fangen.

Schließlich sündigen viele Lieferanten mit einer anderen schlechten Eigenschaft. Wenn es nicht möglich ist, die Position mit akzeptabler Genauigkeit zu bestimmen, wird der Benutzer in die Mitte eines bestimmten Geofence teleportiert, dh in die Mitte des Polygons, das einer bestimmten Postleitzahl oder Verwaltungsregion entspricht, die durch indirekte Zeichen bestimmt wird, und die Karte ist voll von solchen „Hot Spots“ mit Tausenden von Signalen.

.
Moskau, Kreml, ein kleiner Datensatz aus dem November 2019
An dem in der Abbildung mit einem Marker gekennzeichneten Punkt mit den Koordinaten (55.75270; 37.61720) liegen sofort 208776 Signale vor. Dies sind Punkte, die nicht mit der gebotenen Genauigkeit bestimmt wurden und in das "Zentrum" des entsprechenden Geofence des Senatsplatzes fallen, es ist auch das "Zentrum" des Kremls.

Neben ihr sind auch folgende Koordinaten zu "heiĂź":

 (55.75222; 37.61556) 193 (55.75111; 37.61537) 53 (55.74988; 37.61701) 45 (55.74988; 37.61700) 36 

Und in allen anderen Punkten von diesem Bild - genau ein Signal.

Schlimmer noch, solche „Bezirkszentren“ in jedem Kartensubstrat sind unterschiedlich, und wenn Apple und Google versuchen, sie aus Wohngebäuden zu entfernen (in den USA gab es schlechte Präzedenzfälle mit Gerichtsverfahren), wird sich niemand darum kümmern, den Punkt aus dem Nichtwohngebäude zu entfernen.

Das Bestimmen der Position in einem großen Einkaufszentrum mit einer Fläche von Tausenden von Quadratmetern ist eine besondere Herausforderung. GPS erfasst nicht, das Mobilfunknetz des gesamten Centers ist normalerweise dasselbe, und um zu verstehen, welche der Hunderte von Läden der Benutzer besucht hat, müssen Sie auch die Etage herausfinden. Viel Glück damit.

Selbst wenn es ein Höhenfeld gibt, ist nicht immer klar, nach welchem ​​Geoid es berechnet wird (nicht unbedingt WGS84 ), und FIG weiß, wie hoch die Stockwerke im Gebäude von uns selbst zu berechnen sind. Und wie viele gibt es? In asiatischen Ländern gibt es zum Beispiel aufgrund von Aberglauben nicht nur 13, sondern auch 4 Stockwerke. Solche Informationen sind sehr schwer zu finden, und bei Massenverarbeitung wird sich Arbeit nie auszahlen.

Unabhängig davon, wie sehr wir es nicht möchten, müssen wir anspruchsvolle Rohdatensätze verwenden

Heuristik zur Datenbereinigung von Lärm und Schmutz


Aber zuerst sage ich Ihnen, wer unser Patient ist.

Unser Patient ist anonym, und sein Name ist Tausend oder besser Millionen, weil unsere Kunden für die massenweise gesammelten Statistiken zahlen. Eine bestimmte Person macht kein Wetter für Coca-Cola, auch wenn sie sofort einen Soda-Truck kauft. Händler benötigen gemeinsame Muster und Trends sowie ein Bild davon, wie sie im Laufe der Zeit festgelegt werden. Für Besitzer von Londoner Kneipen-Netzwerken ist es wichtig zu wissen, bei welchem ​​Wetter und zu welcher Tageszeit Besucher in Kneipen an der Ecke der U-Bahn-Station strömen und in denen sie - neben Kinos - völlig betrunken sind, wenn diese Proben von Tausenden anonymen Personen stammen ein gewisser Vassily Poupkine aus Ryazan oder nicht.
Die Hauptsache ist, dass es viele gibt, und sie sind relevant. Wir arbeiten mit der Bevölkerung .

Daher sind beispielsweise Benutzer, die mit dem Auto reisen, und Benutzer, die zu Fuß gehen, Benutzer mit unterschiedlichen Werten. Bei ersteren ist die Bewegungsgeschwindigkeit umso höher, je enger der Sichtkreis ist, und sie beachten das Plakat nicht. Aber wenn sie im Stau stehen oder an einer langen Ampel, warum nicht? Wie Benutzer, die im Bus reisen und sich umsehen, ist dies die Hauptbeschäftigung (wenn sie zu diesem Zeitpunkt in ihrem bevorzugten sozialen Netzwerk nicht dumm sind).

Es ist auch wichtig, die Benutzer zu trennen, die im Ziel-Geofence arbeiten. Der Verkäufer des Geschäfts sollte von den Besuchern des Geschäfts, nach dem wir suchen, getrennt sein. Genauer gesagt, die Gesamtbevölkerung der Verkäufer aller Geschäfte des Einzelhandelsnetzwerks aus der Gesamtbevölkerung der Käufer.

Und all dies bedeutet, dass wir Tracks benötigen, die auf folgende Weise qualitativ hochwertig sind:

• ohne geringe Koordinatengenauigkeit,

• ohne Störimpuls geolocation:
- teleportiert ein halbes Viertel zur Seite und zurĂĽck,
- springt ĂĽber die StraĂźe,
- auĂźerhalb der Hot Spots

• klassifiziert nach Art der Verschiebung:
- zu FuĂź
- mit dem Auto,
- Im Bus
- auf einem Fahrrad oder Roller,
- Auf Shinkansen oder im Flugzeug ...

• ohne unangemessen verlegte Benutzer im Geofence,

• Ohne fragmentarische Spuren, endloses Schneiden von Kreisen über einen kleinen Bereich (woher sie kommen, ist nicht ganz klar, aber sie reichen aus, um sie in eine separate Problemklasse zu unterteilen - höchstwahrscheinlich sind dies alle Arten von Schlössern mit GSM-Alarm oder Babyphone -, erfassen sie auch die Geolokalisierung )

Und wenn die allererste Bedingung trivial ist - durchlaufen Sie den Datensatz und werfen Sie alle Punkte heraus, fĂĽr die das Genauigkeitsfeld <10 Meter ist, dann ist der Rest nur eine Reihe von Problemen.

Sie können selbst erraten, welche. Wie kann man beispielsweise einen Fußgänger, der an einer Bushaltestelle wartet, von einem Fahrer unterscheiden, der in einem angrenzenden Stau steht?

Wir müssen einige Annahmen treffen und mathematische Modelle für jeden dieser Filter erstellen, die verschiedene Annahmen enthalten. Manchmal sind die Annahmen ziemlich stark, wenn es darum geht, einen erheblichen Teil der Bevölkerung abzuwerfen.

Zum Beispiel ein Outlet-Verkäufer in einem Einkaufszentrum, der jeden zweiten Tag zwei Tage im Schichtbetrieb arbeitet. Wenn es an Wochentagen definitiv unangemessen ist, kann es am Wochenende für ein Kino im selben Einkaufszentrum sein. Aber der Witz ist, dass der Standardplan von Montag bis Freitag und zwei freien Tagen für ihn nicht anwendbar ist und der Klassifikator irgendwie klappen muss oder ihn komplett aus der Gleichung streichen muss.

In jedem Fall wird fĂĽr jedes Modell ein Filter mit einer Reihe von Einstellungen unter Verwendung eines heuristischen Ansatzes erstellt .

Wir sammeln umfangreiche Statistiken, finden unerwĂĽnschte Muster manuell darin, formulieren die Aufgabe, debuggen sie interaktiv, schreiben eine separate Verarbeitung und binden sie dann in die Verarbeitung des Datensatzes ein - wenn wir sicher sind, dass eine solche Vorbereitung erforderlich ist.

Es gibt eine Reihe von vorgefertigten Algorithmen. Um beispielsweise Hot Spots zu bestimmen, können Sie den klassischen Filter anhand der Frequenz des Signals auf dem Gitter verwenden.

Aber der Klassifikator nach den Bewegungsarten, der nach dem Prinzip eines Schiebefensters und eines Zustandsautomaten arbeitet (wir haben fast ein halbes Jahr durch Ausprobieren an seiner Entwicklung gearbeitet), ist so ausgefeilt, dass es ohnehin falsch ist, ihn als "Filter" zu bezeichnen.

Darüber hinaus schreiben einige Anbieter eine unverantwortliche Anzahl von Punkten pro Spur - entweder sie approximieren die Zwischenpunkte in den Intervallen zwischen den Messungen oder sie versuchen einfach, sie alle paar Meter zu entfernen, aber es werden viele tausend Signale für einen Spaziergang pro Kilometer empfangen. Dies ist offensichtlich zu viel, und um die Lautstärke nicht zu verringern, müssen wir die Spuren mit einer anderen heuristischen Methode mit Schiebefenstern und komplizierter Mathematik ausdünnen, um den Abstand von allen Punkten der Spuren zu ihren Schwerpunkten zu berechnen.
Daher bezeichnen wir den Prozess der Ăśberlagerung einer Heuristikkette mit dem ursprĂĽnglichen Datensatz durch Anreicherung der Rohdaten . Und wir extrahieren bereits Wissen aus zuvor angereicherten Daten.

Und hier ist ein Ärger mit jeder Heuristik: Die Reihenfolge der Anwendung beeinflusst das Ergebnis erheblich. Daher ist der Verarbeitungsprozess jedes Mal einzigartig und wird selbst bei Daten desselben Lieferanten in derselben Region, jedoch sechs Monate später, nicht sehr gut wiederholt.

Und noch etwas: Sie können Rohdaten verschiedener Lieferanten nicht in einem Projekt mischen, auch wenn Sie sie auf einen Nenner bringen. Wenn jedoch jeder Rohdatensatz von einem geeigneten Algorithmus für ihn unabhängig verarbeitet wird, können die angereicherten Signale (ohne Rauschen) bereits zu einer einzigen Quelle zusammengeführt werden. Wir haben in den Daten verschiedener Lieferanten keine doppelten Benutzer gefunden.

In jedem Fall kann immer etwas Wissen aus dem angereicherten Datensatz extrahiert werden, wenn Sie es versuchen.

Was fĂĽr ein "Wissen" ist das?


Gute Frage.

- Wir mĂĽssen alle Benutzer aus Ust-Perduysk finden, die Ende August gerne frischen Mais vom Kollektivfeld stehlen.
- Entschuldigung?
"Nun, das ist das Maisfeld." August letzten Jahres.
- Wir wollen "stehlen" ...
- Bestimmen Sie irgendwie, Sie sind Experten!
- Ok. Sonst noch was?
- Sie sollten Pall Mall rauchen.
- (zu mir selbst) Warum Pall Mall ... aber egal, wir sind nicht interessiert. Wenn sie auftauchen, finden wir: D (laut, fest) Nur wenn Sie die Informationen angeben, wo sie sie kaufen.

Sie haben einen Dialog mit einem kugelförmigen Kunden im luftleeren Raum gehört, auch wenn er nicht real ist, was die Entitäten "Leben in Ust-Perduysk", "Maisfeld", "Stehlen" und eine bestimmte Zigarettenmarke betrifft, aber im Wesentlichen ist er absolut authentisch. Die Aufgaben sind so festgelegt: Sie müssen eine bestimmte Population finden, die in Bezug auf Geofence und Benutzerverhalten beschrieben wird, z. B. einen Wohnort, den Besuch bestimmter Ortskategorien zu einer bestimmten Zeit usw. Der Bereich solcher Aufgaben ist sehr breit und der Satz von Parametern kann ziemlich exotisch sein.

Wenn es jedoch eine Art Modell gibt, ist es durchaus möglich, eine geeignete Grundgesamtheit abzuleiten, indem statistische Methoden auf eine große Menge angereicherter ( dh qualitativ hochwertiger, ohne Anomalien) Daten angewendet werden . Alle Schätzungen sind probabilistisch. Wir können nicht eindeutig behaupten, dass ein Benutzer definitiv in Ust-Perduysk lebt und jeden August Mais stiehlt, aber wenn es mindestens tausend davon gibt, werden wir sie mit einer Wahrscheinlichkeit von 90% finden. Vielleicht können wir auch rauchen, aber in Bezug auf die Zigarettenmarke ist wahrscheinlich ein zusätzlicher Kontext erforderlich, und wenn der Kunde dies zur Verfügung stellt, werden wir die richtigen unter ihnen finden - aber wir können die Genauigkeit nicht garantieren.

Solche kontextbezogenen Aufgaben sind jedoch eher selten, und wir recherchieren in der Regel auf der Grundlage einiger standardmäßiger debuggter und getesteter Matmodelle, bei denen die allgemeine Bevölkerung in folgende Segmente unterteilt wird:

  • Leben in Geofence / Arbeiten in Geofence,
  • Verteilung nach Haushaltseinkommen,
  • Autofahrer
  • Liebhaber Restaurants und CafĂ©s zu besuchen,
  • Shopaholics
  • Sportfans
  • MĂĽtter mit kleinen Kindern,
  • Geschäftsreise
  • ausländische Touristen ...

Für jede Kategorie (insgesamt einige Tausend) wird der Verarbeitungsprozess gemäß der Vorlage aus vordefinierten Vorgängen mit einer Reihe von Einstellungen erstellt und in Abhängigkeit von den spezifischen Anforderungen des Kunden parametrisiert.

Die Operationen sind wie folgt aufgebaut: Der Datenwissenschaftler schreibt das Modell in Form eines White Papers, programmiert und debuggt es auf den Python-Standard-Datasets, und am Ende wird die Verarbeitung in Spark erfolgen (wir schreiben in Java, aber es kann auch in Scala erfolgen), was ich optimiere. (, , , .)

— data analyst. — keskiy , . , , Excel-, , , .

, S3 Amazon Web Services, ( ), EMR.

— , . , , , 95- , — .

, . , , .

.
: . , , WB, Warner Bros., . , . .

- , , — , device_id, — , . . , .

-, .

— , . . «, -, .» -.

. POI.

Points of Interest


, — , , - … .

, , . , . «77 »:

 • 77-1  • 77-8  o 77-8-6      77-8-6-90 McDonalds • 77-8-6-90-1 MacAuto  77-8-6-91 Burger King  77-8-6-92 Pasta Hut 

— .

«» , , . - , POI , , , , .

, , , POI . . , , OSM. , .

- , POI, , , . , . , - .

POI, mitra_kun .

, , , - GIS- POI , ( ). , , .


The New York Times — « , , ». .

« »? , 5/2 , 8- 9 18 . , , - ( , ). « » , , .

, , -, : , , , - , «» ( , — ) «» ( , , , ) . , , . .

, . , , , .

, , , , . , , , , .

, . POI . , , , . - , , , 29 ? ( ) , , ? , , , - , . , , .


, , , -, . , ( ), , , .

, - , POI . , , - , , . , « » «McDonalds», «Burger King».

« » , , , — POI . , , , — , — , , , , .

, , , , . , , — .

— , , , , POI . - , .

— .

, , . , , , , , . .

Locomizer.  : , , ,
.

FAQ


— :


HUDWAY . Vielen Dank!

FAQ .

Q. // «» ? device_id ? ?
A. , ( « »; 5- 95- ), . , , , « », . , .

Q. ? 2-3 ? ?
A. . , . , . - , , .

Q. , ? Wie? - device_id, , . - device_id? ? - finger_print ?
A. device_id, , , , , , . , , . , , .

Q. , . , « » - ? , , — - ? , , ?
A. , , , . , ( ). , , , .

Q. . , . , 10/20/40/70%? - ? /, , -? , ?
A. , , . - , - — . , . . — . , , , .., .

, keskiy mitra_kun . , .

.

Source: https://habr.com/ru/post/de485484/


All Articles