[Case Locomizer] Qué conocimiento se puede extraer realmente de un conjunto de datos anónimo con coordenadas de usuario

Este artículo es parte de la serie Case Locomizer, vea también

Hola

KDPV: el mapa de calor construido por algoritmos Locomizer para KFC

Recientemente, The New York Times publicó un artículo sensacional sobre cómo rastrear a los usuarios mediante conjuntos de datos anónimos disponibles comercialmente con las coordenadas de sus movimientos, y aquí, en Habré, su traducción gratuita con adiciones de un redactor corporativo desconocido recolectó una gran cantidad de comentarios de diversos grados de preocupación.

Sucedió que durante los últimos dos años y medio he sido un líder técnico en un proyecto de geoinformación que se dedica a la tarea de extraer directamente el conocimiento de esos conjuntos de datos comerciales. Pero mis comentarios con la solicitud de dejar de lado el pánico reunieron una gran cantidad de desventajas. Pues bien. En el dicho sobre la ausencia de paranoia y no el hecho de que no te siguen, hay una cierta cantidad de verdad.

Pero hay algo de verdad al otro lado del espejo negro, quizás mucho más. O interesante

Entonces, permítame decirle en detalle cómo lo seguimos (y si lo seguimos en el sentido de espionaje) para usted (y para usted personalmente), y qué tipo de conocimiento sobre el usuario puede obtenerse sin poseer exactamente ningún contexto que no sean las coordenadas de sus movimientos. recogido de terminales de abonado móviles . Sin periodismo excesivo y exagerada glotonería , desde el punto de vista de un especialista técnico que tiene cierta experiencia real en la resolución de tareas ficticias para clientes ficticios, incluidas no solo varias agencias de publicidad, Coca-Cola y Guinness, sino también, por ejemplo, la ONU. Y con un brillo .

Por otra parte! Al final de esta serie de artículos, quiero compartir las herramientas que hemos estado desarrollando durante dos años y medio para que pueda investigar usted mismo si compra (u obtiene) un conjunto de datos adecuado. Hasta ahora, que yo sepa, nadie ha puesto a disposición del público tales herramientas. Al menos, cuando buscamos hace dos años, no se encontró nada y tuvimos que escribir nosotros mismos. El camino hacia los cálculos rápidos fue difícil y largo, la segunda parte será sobre eso.

Entonces Tabla de contenido de esta anamnesis:

  • Anatomía de un conjunto de datos anónimo.
  • Problemas de precisión de coordenadas en la franja media
  • Heurística para limpiar datos de ruido y escombros
  • ¿Qué tipo de "conocimiento" es ese?
  • Puntos de interés
  • Problemas de extracción de conocimiento
  • Puntuación de interés del usuario

Bonus

  • Gracias y unas breves preguntas frecuentes

Anatomía de un conjunto de datos anónimo.


Tome el proveedor comercial Tamoco y vea qué archivos envía. Por ejemplo, aquí hay una pieza de un conjunto de datos real del país del Reino Unido de Gran Bretaña e Irlanda del Norte, la fecha es el 4 de diciembre de 2019:

sdk_ts,device_id,latitude,longitude,accuracy,country,device_type,device_make,device_model,device_language,device_os,device_os_version,device_hw_version,device_screen_width,device_screen_height,device_battery,altitude,inv_id,trigger_type,app_account_id 1575390011,d75f97488c430502046fdb4ebfcc0ffd,51.516766,-0.1279744,10,GB,,,SM-G950W,en-CA,,,,0,0,0,0,4260328,GEO_FENCE_ENTER,115 1575414847,d75f97488c430502046fdb4ebfcc0ffd,51.516766,-0.1279821,10,GB,,,SM-G950W,en-CA,,,,0,0,0,0,4260328,GEO_FENCE_ENTER,115 1575424373,7e3323b382ddaafb9f774af95631cc44,51.51379,-0.0999953,7.6,GB,,,SM-G925F,en-GB,,,,0,0,0,0,31572218,GEO_FENCE_ENTER,115 1575417663,90165d78553fb37b0d62500733b39d11,53.724384,-6.879851,11,IE,aaid,,SM-A605FN,,android,9,,0,0,0,138,0,UNKNOWN_TRIGGER,229 1575417977,b6f2375275a21c40e03e4c6ea9ea4da0,52.75558,-7.9915,5,IE,idfa,,iPhone7.1,,ios,12.4.3,,0,0,0,122,0,UNKNOWN_TRIGGER,229 

Esto es lo que vemos en los campos de este conjunto de datos:

  • sdk_ts: marca de tiempo en Unix Epoch ,
  • device_id: ID de dispositivo anónimo (terminal de abonado móvil, como un teléfono inteligente o tableta),
  • latitud / longitud - coordenadas geográficas ,
  • precisión: precisión de coordenadas horizontales, metros,
  • país - país
  • los campos restantes son basura que no lleva ninguna carga semántica especial.

¿Por qué la basura es inmediata?

Desafortunadamente, un campo de altitud aparentemente útil no tiene sentido, porque la altitud está mal traducida en números de piso de construcción, y volar en avión se puede eliminar sin ella (pero hablaremos de esto más adelante).

A diferencia de los periodistas de los artículos indicados al principio, no tenemos ningún contexto adicional sobre los usuarios, y no hacemos suposiciones infundadas "por defecto", como "estaba en el Pentágono, es decir, funciona en el Pentágono". Tampoco somos un tipo de facebook que sepa todo sobre ti que dijiste sobre ti (y el usuario promedio dice mucho sobre ti), además de todo tu gráfico social. Compramos datos en bruto, y no les creemos.

Por lo tanto, desde el contexto solo hay una configuración regional de usuario: puede ayudar a identificar a los turistas extranjeros, pero esto no es exacto.

Bueno, además de las coordenadas y el tiempo, también hay un modelo de teléfono: en teoría, abre la posibilidad de procesar individualmente a los propietarios de varios dispositivos en iOS y Andriod. En los comentarios sobre el artículo de ese blog corporativo, algunos sugirieron ir a una parada con teléfonos móviles extra costosos, rastreándolos por geolocalización ... Hmm, ya sabes, pero ese modelo de negocio para oficinas normales que pueden permitirse comprar datos será algo poco rentable. :)
Es importante comprender que los datos del proveedor provienen sin procesar, es decir, tomados de los dispositivos y no procesados ​​de ninguna manera, excepto, tal vez, reemplazando el device_id real con un hash de acuerdo con los requisitos del GDPR (es estable, el mismo dispositivo se presentará entre diferentes volcados mensuales igualmente).

Cada proveedor tiene su propio conjunto y formato de campos, pero todos tienen coordenadas, precisión, tiempo y device_id, y tomé a Tamoco, por ejemplo, como el más promedio. ¿Y qué puede suponer acerca de un usuario que mira una fila de datos sin procesar si no se trata de insinuaciones y adivinanzas con café molido?

A menos que el hecho de que él, tal vez, en el momento indicado, estuviera en algún lugar cercano a las coordenadas indicadas. Más precisamente, esto fue decidido por alguna biblioteca del SDK de alguien que recopila la geolocalización en la aplicación en su terminal de suscriptor y subió estos datos al agregador. A ella le parece que él estaba allí, pero la decisión final, si creerla o no, la tomamos nosotros, y es muy importante después del hecho.

Problemas de precisión de coordenadas en la franja media


El GPS es una cosa asombrosa. Recientemente hubo un excelente artículo sobre sus capacidades, asegúrese de leer, si no es que ya.

Eso es solo todos los ejemplos geniales que hablan sobre casos ideales, que, por desgracia, no se aplican a los conjuntos de datos comerciales.

En primer lugar, los terminales de abonado móviles de conjuntos de datos comerciales no son receptores GPS profesionales diseñados para un propósito y están hechos sobre una base de elementos mucho más adecuada, con buenos amplificadores y antenas grandes. Un teléfono inteligente es un teléfono inteligente, es decir, los componentes más baratos empaquetados en una pequeña caja con pequeñas antenas que funcionan gracias a trucos tecnológicos salvajes en varios rangos a la vez, de los cuales el GPS está lejos del principal.

En segundo lugar, el entorno urbano es un terreno muy, muy accidentado. Piensa por ti mismo: si tiras los suburbios estadounidenses de un piso, cualquier calle moderna de la ciudad es un barranco profundo con paredes muy empinadas, no solo porque el horizonte no es visible, sino que un pedazo de cielo sobre tu cabeza es muy pequeño. Y para una precisión normal, debe tener 4 satélites en línea de visión directa al mismo tiempo, mejor aún más. En aras del interés, de alguna manera salga al patio de su edificio de gran altura y vea cuántos satélites ve su inteligente. (Lo más probable es que necesite un Android rooteado y / o algún tipo de rastreador GPS pagado).

En tercer lugar, el usuario promedio se mueve constantemente, no espera en el lugar durante varios minutos, hasta que su terminal móvil suscriptor capta la cantidad deseada de satélites, va o va, gira y la visibilidad cambia constantemente.

Cuarto, el usuario no siempre sostiene el teléfono en sus manos. En un bolsillo, cartera o mochila, puede acostarse de lado o de cualquier manera, y no atrapará nada en absoluto.

En quinto lugar, cualquier edificio hecho de hormigón armado puede ser una jaula clásica de Faraday o una matriz en fases , o un espejo con interesantes propiedades no lineales, que pueden amplificar la señal y suprimirla debido a la interferencia a cierta distancia. O reflexione en un ángulo impredecible, cambio de fase, etc. Todo depende de la inclinación del metal en los muros de hormigón.

Sexto, los autos alrededor también están hechos de metal.

Séptimo, en el interior del edificio, el GPS generalmente no se captura, y aún más en el metro.

La pista en bruto de un usuario desconocido caminando por Londres

Todos estos factores hacen que el GPS en la ciudad sea extremadamente poco confiable, y los fabricantes de terminales de abonado móviles (así como los proveedores de servicios de ubicación para sistemas operativos móviles) tienen que salir con varias tecnologías de GPS asistido .

Los más comunes son la triangulación en estaciones base celulares y redes WiFi (e incluso Bluetooth).

Todos estos ridículos autos de Google y Yandex con cámaras que capturan panoramas para ver la calle, de hecho, recopilan principalmente información sobre CellID, nombres de red y niveles de señal de enrutadores, y las imágenes, por lo que es una indulgencia pasajera. Además de ellos, HERE Maps recopila esta información en masa, y en los países desarrollados, Apple y una docena de oficinas más pequeñas. Bueno, las bibliotecas que están conectadas en aplicaciones móviles y proporcionan datos de geolocalización constantemente hacen exactamente lo mismo, por ejemplo, como casi cualquier widget que muestre un mapa.

La pregunta principal aquí es exactamente.

A diferencia del GPS, LBS es malo con él. 20 metros para LTE en el caso más ideal (en general, hasta un par de kilómetros), y en cuanto a Wi-Fi, aquí los patrones direccionales de enrutadores, redes de malla extendidas con repetidores y las características físicas de la señal de frecuencia de 2.4 y 5 GHz reducen la confiabilidad al aire libre hasta 150 metros o más.

Y estos son los saltos constantes del usuario hacia el otro lado de la calle o la intersección, o incluso a medio cuarto del lugar donde realmente se encuentra, si, por ejemplo, el enrutador está en el quinto piso y alrededor del desfiladero de edificios altos, entonces no habrá señal ser atrapado en la entrada, pero se atrapará perfectamente al final de este desfiladero.

Finalmente, muchos proveedores pecan con otra mala característica. Si no es posible determinar la posición con una precisión aceptable, el usuario será teletransportado al centro de una determinada geovalla , es decir, al centro del polígono correspondiente a un determinado código postal o región administrativa, identificado por signos indirectos, y el mapa estará lleno de esos "puntos calientes" con miles de señales.

Vea debajo del spoiler a continuación para obtener una explicación.
Moscú, Kremlin, un pequeño conjunto de datos de noviembre de 2019
En el punto con coordenadas (55.75270; 37.61720) marcadas en la ilustración con un marcador , hay inmediatamente 208776 señales. Estos son puntos que no se han determinado con la debida precisión y caen en el "centro" de la geofence correspondiente de la Plaza del Senado, también es el "centro" del Kremlin.

Además de ella, también las siguientes coordenadas son demasiado "calientes":

 (55.75222; 37.61556) 193 (55.75111; 37.61537) 53 (55.74988; 37.61701) 45 (55.74988; 37.61700) 36 

Y en todos los demás puntos de esta imagen, exactamente una señal.

Peor aún, tales "centros de distrito" en cada sustrato cartográfico son diferentes, y si Apple y Google intentan moverlos de edificios residenciales (en los Estados Unidos había malos precedentes con demandas), nadie se molestará con un cambio de punto de un edificio no residencial.

Determinar la posición dentro de un gran centro comercial con un área de miles de metros cuadrados es un dolor separado. El GPS no se captura, la red celular para todo el centro suele ser la misma, y ​​para comprender cuál de los cientos de tiendas que visitó el usuario, también debe averiguar de alguna manera el piso. Buena suerte con eso.

En realidad, incluso si hay un campo de altitud, no siempre está claro por qué geoide se calculó (no necesariamente WGS84 ), y FIG sabe qué tan altos deben calcular nosotros mismos los pisos del edificio. ¿Y cuantos hay? En los países asiáticos, debido a las supersticiones, por ejemplo, no solo hay 13, sino también 4 pisos. Dicha información es muy difícil de encontrar, y con el procesamiento masivo, la mano de obra nunca dará sus frutos.

Por lo tanto, no importa cuánto no nos gustaría, tenemos que usar conjuntos de datos sin procesar sofisticados

Heurística para limpiar datos de ruido y escombros


Pero primero te diré quién es nuestro paciente.

Nuestro paciente es anónimo, y su nombre es miles, o mejor, millones, porque nuestros clientes pagan por las estadísticas recopiladas en masa. Una persona específica no tiene tiempo para Coca-Cola, incluso si compra un camión de refrescos de inmediato. Los comerciantes necesitan patrones y tendencias comunes, así como una imagen de cómo se establecen a lo largo del tiempo. Es importante que los propietarios de las redes de pubs de Londres sepan qué clima y hora del día tendrán un flujo de visitantes en los pubs ubicados en la esquina cerca de la estación de metro, y en los cuales, al lado de los cines, y están completamente borrachos si estas muestras provienen de miles de anónimos. cierta Vassily Poupkine de Ryazan, o no.
Lo principal es que hay muchos, y son relevantes. Trabajamos con poblaciones .

Por lo tanto, por ejemplo, los usuarios que viajan en automóvil y los usuarios que caminan a pie son usuarios de diferentes valores. Para los primeros, cuanto más estrecho sea el círculo de visión, mayor será la velocidad de movimiento y no prestarán atención al póster. Pero si están parados en un atasco o en un semáforo largo, entonces por qué no. Al igual que los usuarios que viajan en el autobús, que están mirando alrededor, esta es la ocupación principal (si no son tontos en su red social favorita en este momento).

También es importante separar a los usuarios que trabajan en la geovalla objetivo: el vendedor de la tienda debe estar separado de los visitantes de la tienda que buscamos. Más precisamente, toda la población de vendedores de todas las tiendas de la red minorista de toda la población de compradores.

Y todo esto significa que necesitamos tener pistas de calidad de las siguientes maneras:

• sin baja precisión de coordenadas,

• sin problemas de geolocalización:
- teletransporta medio cuarto hacia un lado y hacia atrás,
- salta a través del camino,
- fuera de los puntos calientes

• clasificado por tipo de desplazamiento:
- a pie
- en coche
- en el autobús
- en bicicleta o scooter,
- en Shinkansen o en el avión ...

• sin usuarios inapropiadamente fuera de lugar en la geovalla,

• sin pistas fragmentarias, cortando círculos sin cesar sobre un área pequeña (de dónde provienen, no está del todo claro, pero son suficientes para separarlos en una clase de problema separada; lo más probable es que sean todo tipo de cerraduras con alarmas GSM o monitores para bebés, también recopilan geolocalización )

Y si la primera condición es trivial: iterar sobre el conjunto de datos y descartar todos los puntos para los que el campo de precisión es <10 metros, entonces el resto son solo un montón de problemas.

Tú mismo puedes adivinar cuáles. Por ejemplo, ¿cómo distinguir a un peatón que espera en una parada de autobús de un conductor parado en un atasco adyacente?

Tenemos que hacer algunas suposiciones y construir modelos matemáticos para cada filtro, llenos de varias suposiciones. A veces, las suposiciones son bastante fuertes en términos de caída de una parte significativa de las poblaciones.

Por ejemplo, un vendedor outlet en un centro comercial, trabajando en turnos dos días cada dos días. Si entre semana es definitivamente inapropiado, entonces los fines de semana puede ser el objetivo de una sala de cine en el mismo centro comercial. Pero la broma es que el horario estándar de lunes a viernes y dos días libres no es aplicable para él, y el clasificador debe funcionar de alguna manera, o eliminarlo por completo de la ecuación.

En cualquier caso, se construye un filtro con un montón de configuraciones utilizando un enfoque heurístico para cada uno de los modelos.

Recopilamos grandes estadísticas, encontramos manualmente patrones no deseados en él, formulamos la tarea, la depuramos de forma interactiva, escribimos un procesamiento separado y luego lo incorporamos en el procesamiento del conjunto de datos, si estamos seguros de que requiere tal preparación.

Hay una serie de algoritmos listos para usar. Por ejemplo, para determinar los puntos calientes, puede usar el filtro clásico por la frecuencia de la señal en la rejilla.

Pero el clasificador de acuerdo con los tipos de movimiento, que funciona según el principio de una ventana deslizante y una máquina de estado (pasamos casi seis meses en prueba y error para su desarrollo), es tan sofisticado que ya es incorrecto llamarlo "filtro".

Además, algunos proveedores escriben un número irresponsable de puntos por pista, ya sea que se aproximan a los puntos intermedios en los intervalos entre mediciones, o simplemente intentan eliminarlos cada dos metros, pero se reciben miles de señales por una caminata por kilómetro. Obviamente, esto es demasiado, y para no ahogarnos en volumen, nos vemos obligados a reducir pistas usando otra heurística complicada con ventanas deslizantes y matemáticas complicadas para calcular la distancia desde todos los puntos de las pistas a sus centroides .
Por lo tanto, llamamos al proceso de superposición de una cadena de heurística en el conjunto de datos original al enriquecer los datos en bruto . Y ya extraemos conocimiento de datos previamente enriquecidos.

Y aquí hay una molestia con cualquier heurística: el orden de aplicación afecta en gran medida el resultado. Por lo tanto, el proceso de procesamiento cada vez resulta único y no se repite muy bien incluso con datos del mismo proveedor en la misma región, pero después de seis meses.

Y una cosa más: no puede mezclar datos sin procesar de diferentes proveedores en un proyecto, incluso si los lleva a un denominador común. Pero si cada conjunto de datos sin procesar se procesa de forma independiente por un algoritmo adecuado para él, entonces las señales enriquecidas (sin ruido) ya pueden fusionarse en una sola fuente. No encontramos usuarios duplicados en los datos de diferentes proveedores.

En cualquier caso, un poco de conocimiento del conjunto de datos enriquecido siempre se puede extraer si lo intenta.

¿Qué tipo de "conocimiento" es ese?


Gran pregunta

- Necesitamos encontrar a todos los usuarios de Ust-Perduysk a quienes les gusta robar maíz fresco del campo de la granja colectiva a fines de agosto.
- Disculpe?
"Bueno, ese es el campo de maíz". Agosto del año pasado.
- Estamos a punto de "robar" ...
- ¡Determina de alguna manera, ustedes son expertos!
- Ok Algo mas?
- Deberían fumar en Pall Mall.
- (para mí) Por qué Pall Mall ... aunque, no me importa, no estamos interesados. Si aparecen, encontraremos: D (en voz alta, con firmeza) Solo si proporciona la información donde la compran.

Usted escuchó el diálogo con un cliente esférico en el vacío, aunque no es real en términos de entidades "vivir en Ust-Perduysk", "campo de maíz", "robar" y una marca específica de cigarrillos, pero completamente auténtico en esencia. Las tareas se establecen de esta manera: debe encontrar una determinada población, descrita en términos de geovalla y comportamiento del usuario, como un lugar de residencia, visitar ciertas categorías de lugares en un momento determinado, etc. El rango de tales tareas es muy amplio, y el conjunto de parámetros puede ser bastante exótico.

Pero si hay algún tipo de modelo , luego de aplicar métodos estadísticos a un gran conjunto de datos enriquecidos (es decir, cualitativos, sin anomalías), es muy posible obtener una población adecuada. Las estimaciones serán todas probabilísticas. No podemos afirmar inequívocamente que un usuario vive en Ust-Perduysk y roba maíz cada agosto, pero si hay al menos mil de ellos, los encontraremos con una probabilidad del 90%. Quizás también podamos fumar, pero con respecto a la marca de cigarrillos, es probable que se requiera un contexto adicional, y si el cliente lo proporciona, encontraremos los correctos entre ellos, pero no podemos garantizar la precisión.

Pero tales tareas con contexto son realmente raras, y usualmente hacemos investigaciones basadas en algún conjunto estándar de modelos depurados y probados que analizan a la población general en segmentos tales como:

  • viviendo en geofence / trabajando en geofence,
  • distribución por nivel de ingresos del hogar,
  • automovilistas
  • amantes de visitar restaurantes y cafeterías,
  • adictos a las compras
  • aficionados al deporte
  • madres con niños pequeños,
  • viaje de negocios
  • turistas extranjeros ...

Para cada categoría (un total de un par de miles), el proceso de procesamiento se basa en una plantilla de operaciones predefinidas con un montón de configuraciones y se parametriza en función de los requisitos específicos del cliente.

Las operaciones se desarrollan de la siguiente manera: el científico de datos escribe el modelo en forma de documento técnico, luego se programa y depura en los conjuntos de datos estándar de Python, y al final el procesamiento se realizará en Spark (escribimos en Java, pero también se puede hacer en Scala), que optimizo. (, , , .)

— data analyst. — keskiy , . , , Excel-, , , .

, S3 Amazon Web Services, ( ), EMR.

Lo que es importante: nunca asumimos la tarea de identificar o encontrar a una persona específica, porque ninguno de nuestros modelos trabaja en muestras pequeñas. La naturaleza muy estadística de todas nuestras heurísticas nos impide trabajar con un contexto puntual, además, descartamos deliberadamente a los usuarios que están más allá del percentil 95, porque una coincidencia demasiado buena es una señal alarmante de la presencia de trampas.

En el mapa de calor, estos usuarios dan un punto especial y caliente. Daré un ejemplo que puede parecer anecdótico, pero es absolutamente real.

Yo mismo una vez inadvertidamente calenté un polígono en un mapa de calor.
: . , , WB, Warner Bros., . , . .

- , , — , device_id, — , . . , .

-, .

— , . . «, -, .» -.

. POI.

Points of Interest


, — , , - … .

, , . , . «77 »:

 • 77-1  • 77-8  o 77-8-6      77-8-6-90 McDonalds • 77-8-6-90-1 MacAuto  77-8-6-91 Burger King  77-8-6-92 Pasta Hut 

- Y así sucesivamente.

En cada establecimiento de tales "establecimientos" puede haber desde no uno hasta muchos miles, y para cada uno necesita mantener y actualizar un directorio con coordenadas y un conjunto completo de categorías adecuadas. Un centro comercial de tres pisos con cientos de tiendas, un patio de comidas y un cine es un lugar donde muchos PDI se concentran a la vez con muchas categorías duplicadas, pero con una sola dirección, y teniendo en cuenta el hecho de que los puntos se abren y cierran, la tarea poco automatizada de mantener esa base descansa sobre los hombros del investigador.

, , , POI . . , , OSM. , .

- , POI, , , . , . , - .

POI, mitra_kun .

Bueno, supongamos que encontramos con éxito, o compramos en algún directorio SIG local, una base de datos de PDI para la región para nuestro próximo proyecto, y clasificamos las categorías (que el proveedor puede diferir radicalmente en la organización de la nuestra). Ahora necesitaremos tomar nuestro conjunto de datos enriquecido, esta base, y calcular los segmentos de poblaciones que necesitamos.

Problemas de extracción de conocimiento


The New York Times — « , , ». .

« »? , 5/2 , 8- 9 18 . , , - ( , ). « » , , .

La situación en el centro de las grandes ciudades como Londres, Nueva York o Tokio es aún más interesante: hay muchos edificios de tipo mixto con oficinas, hoteles y apartamentos, y es fácil dividir a las poblaciones que "viven" en esos barrios (eso es , duermen por la noche) y "trabajar" (es decir, están de día con, quizás, un descanso para almorzar) es bastante difícil. Y nosotros, como he enfatizado repetidamente, no tenemos un contexto adicional. Solo coordenadas y tiempo.

Inevitablemente, una parte importante de la población tendrá que ser sacrificada para no complicar la heurística de clasificación ya sofisticada. Por lo tanto, el conjunto de datos inicial debe tener un volumen suficiente para que, incluso al eliminar la mayor parte, las leyes estadísticas características de los conjuntos grandes continúen operando en él.

Es interesante lidiar con cada uno de los subconjuntos atípicos manualmente, pero este es un proceso largo y desagradecido, por lo que hablamos honestamente sobre las implicaciones que surgen y calificamos a los usuarios no estándar que no se ajustan al modelo mayoritario. Por lo tanto, la publicidad diseñada para el consumidor masivo no funciona tan eficazmente para la mitad de la audiencia como lo sería si fuera posible dirigirla a toda la población.

, . POI . , , , . - , , , 29 ? ( ) , , ? , , , - , . , , .


Desafortunadamente, no tengo derecho a hablar en detalle sobre las matemáticas detrás del cálculo de la velocidad, porque este es el conocimiento patentado en el que se basa nuestro negocio. Utilizamos un modelo mat que es diferente de todos los demás representantes de la industria, que ha surgido de requisitos previos biológicos (el fundador del proyecto tiene un doctorado en biología) y probado experimentalmente en poblaciones de varios organismos modelo, desde cultivos celulares hasta ratones, y luego modificado para el comportamiento humano.

, - , POI . , , - , , . , « » «McDonalds», «Burger King».

Para un usuario seleccionado, los "puntos de experiencia total" no tienen sentido, e incluso pueden parecer aleatorios, pero cuando se acumulan millones, ocurre la magia estadística: la cantidad de puntajes a nivel de población dentro del intervalo de confianza realmente comienza a reflejar la imagen de los intereses de esta población en todos los PDI de las categorías seleccionadas. Para comprender exactamente cómo sucede esto, debe leer la disertación correspondiente, no soy especialista en biología y no puedo juzgarlo profesionalmente, pero las campañas publicitarias realizadas por nuestros clientes teniendo en cuenta los intereses de las poblaciones dan resultados mucho mejores que los métodos convencionales, utilizado en publicidad tradicional y marketing.

, , , , . , , — .

— , , , , POI . - , .

— .

Y lo que es, y cómo surgen durante el procesamiento, se discutirá en la siguiente parte. No cambie, en un par de días hablaré sobre cómo construimos un transportador automatizado en la nube de Amazon a partir de un prototipo montado en mi rodilla, y aprendí cómo calcular terabytes de datos sin procesar en minutos en lugar de semanas. Este será un artículo mucho más técnico.

Izhevsk parte del equipo Locomizer.  De izquierda a derecha: Gena, I, Eugene, Anya.
Estos son estos tipos.

Gracias y unas breves preguntas frecuentes


Sin los comentarios de excelentes colegas, ingenieros en big data, este artículo no habría sido tan claro:


Y sin los cambios editoriales de Nadi Noskova y Polina Rusinova del equipo HUDWAY, no habría salido tan fácil de leer. Gracias

FAQ .

Q. // «» ? device_id ? ?
A. , ( « »; 5- 95- ), . , , , « », . , .

Q.¿Es posible unirse a familias? ¿Qué 2-3 dispositivos van juntos durante varios días de descanso? ¿Cortado de los vecinos?
A. Dudoso. Es poco probable que los miembros de la familia tengan un conjunto idéntico de aplicaciones en los terminales de suscriptor, y es poco probable que los patrones de uso coincidan completamente. Hasta ahora, no hemos tenido esa tarea, pero puedes intentarlo. Si alguien nos ordena tal estudio, por supuesto, no podemos dedicar tiempo libre a probar una hipótesis.

P. Desde una perspectiva comercial, ¿es posible apuntar a clientes específicos? Como?Solo hay algo de device_id, pero obviamente no sabemos ni el número de celular ni el correo. ¿Solo si este usuario vuelve a pasar por algún lado con el mismo device_id? ¿Es estático? ¿O es algo así como huella digital y puede cambiar desde el proveedor de datos?
R. El proveedor asigna device_id, y esto no es lo que está visible, por ejemplo, en la configuración del teléfono, es decir, hay una doble anonimización. No tenemos datos además de lo que está pintado en la anatomía del conjunto de datos. Dentro del proveedor, sigue siendo el mismo para un dispositivo, y puede pegar los conjuntos de datos mensuales, es probable que el uso siga siendo el mismo.

Q.Proveedor de datos, explique con más detalle. Es decir, ¿no se trata de un operador celular en las torres, sino de "algo que se ejecuta en el teléfono" que recopila ubicaciones en segundo plano y luego las drena en algún lugar con un paquete? Si el teléfono es viejo, sin Internet, el bluetooth incluido: ¿alguien recopilará esos datos? Si estoy en la autopista en una estación de servicio, no hay Wi-Fi en ningún lado, ¿puedo recopilar la información?
A. , , , . , ( ). , , , .

Q. . , . , 10/20/40/70%? - ? /, , -? , ?
A.Sí, hay muchos, pero no sabemos acerca de las acciones. Alguien es mejor en un país, alguien más en otro. Los clientes generalmente se dicen a sí mismos los datos que desean procesar. No logramos pegar de manera confiable a los usuarios en los conjuntos de datos de diferentes proveedores en la misma región durante el mismo período de tiempo. La focalización de todos los proveedores es la misma, según la geovalla de la región. País, prefectura, ciudad, etc., pero las intersecciones entre ellas no son notables.

Si tiene más preguntas, no dude en hacerlas en los comentarios de Gene keskiy y Eugene mitra_kun . Los chicos están bastante ocupados, pero sin duda responderán preguntas interesantes y significativas sobre el procesamiento de datos de usuarios y el mantenimiento de una base de datos de canto en unos pocos días.

Con problemas técnicos, le recomiendo que espere hasta el final de esta serie de artículos.

Source: https://habr.com/ru/post/485484/


All Articles