Olvídate de la privacidad: aún tienes objetivos terribles

No lamento que sus programas examinen mis datos personales si, a cambio, obtengo algo útil. Pero esto generalmente no sucede.

Mi ex colega me dijo: "A todos les encanta recopilar datos, pero a nadie le gusta analizarlos más tarde". Esta declaración puede ser impactante, pero las personas involucradas en la recopilación y análisis de datos se han encontrado con esto. Todo comienza con una idea brillante: ¡recopilaremos información sobre cada clic que una persona hace en cada página de la aplicación! ¡Llevaremos un registro de cuánto tiempo reflexionan sobre una elección particular! ¡Con qué frecuencia usan el botón Atrás! ¡Cuántos segundos miran nuestro video introductorio antes de desconectarse! ¡Cuántas veces comparten nuestra publicación en las redes sociales!

Y hacen un seguimiento de todo esto. El seguimiento es fácil. Agregue los registros, vuélvalos a la base de datos y listo.

¿Y luego que? Bueno, entonces todo esto tendrá que ser analizado. Y como persona que analizó muchos conjuntos de datos relacionados con varias cosas, puedo decir: el trabajo de un analista es difícil y en su mayor parte desagradecido (excepto el salario).

El problema es que prácticamente no hay formas de confirmar que tienes razón (y también la definición de lo correcto en sí no es muy clara, sobre lo que se detalla a continuación). Casi nunca es posible sacar conclusiones simples, solo conclusiones complejas, y las conclusiones complejas son propensas a errores. De lo que los analistas no están hablando es de cuántos horarios incorrectos (y, en consecuencia, conclusiones) se hacen en el camino hacia los correctos. O para aquellos que creemos que son correctos. Un buen horario es tan convincente que realmente no importa si es el correcto o no, si solo necesita convencer a alguien. Quizás es por eso que periódicos, revistas y cabilderos publican tantos horarios engañosos.

Sin embargo, posponemos el error por un tiempo. Hacemos una suposición muy poco realista de que somos muy buenos para analizar todo tipo de cosas diferentes. Que sigue

Bueno, enriquezcamos la publicidad dirigida y los algoritmos de recomendación personal. Después de todo, ¡eso es exactamente lo que todos hacen!

O no?

Con recomendaciones personales, todo es sorprendentemente malo. Hoy, la primera recomendación será un artículo con un titular muy atractivo sobre las estrellas de cine o sobre lo que Trump ha hecho o no en las últimas 6 horas. O no un artículo, sino un video o un documental. No quiero leerlo ni mirarlo, pero a veces me apesta de todos modos, y luego bienvenido al apocalipsis de las recomendaciones, ahora el algoritmo considera que me gusta leer sobre Trump, y ahora Trump estará en todas partes. Nunca le des comentarios positivos a AI.

Esto, por cierto, es un terrible secreto para los partidarios del aprendizaje automático: casi todo lo que MO ofrece puede obtenerse mucho más barato con la ayuda de heurísticas tontas, programadas manualmente, ya que MO principalmente se entrena en los ejemplos de lo que las personas hicieron después de un infierno de heurísticas tontas. No hay magia aquí. Si entrena una computadora con la ayuda de MO para seleccionar un currículum, él lo recomendará para entrevistar a hombres con los nombres de personas blancas, como ya lo hace su departamento de recursos humanos. Si le preguntas a una computadora qué tipo de video quiere ver una persona, te recomendará algún tipo de basura política propagandística, ya que en el 50% de los casos el 90% de las personas realmente lo ven, sin poder controlarse, y este es un porcentaje bastante bueno de éxito.

Observo que hay varios ejemplos del excelente uso de MO para lo que los algoritmos tradicionales manejan mal: el procesamiento de imágenes o ganar en juegos estratégicos. Esto es genial, pero hay muchas posibilidades de que su aplicación MO favorita se convierta en un sustituto costoso de una heurística tonta.

Una persona que trabaja con la búsqueda web me dijo que ya tienen un algoritmo que garantiza la proporción máxima de clics y vistas para cualquier búsqueda: solo necesita dar una página con enlaces a pornografía. Y alguien dijo que esta situación puede resolverse y convertirse en un detector de pornografía: cualquier vínculo con alta capacidad de hacer clic, independientemente de la solicitud, probablemente conduzca a la pornografía.

El problema es que las empresas de aspecto decente no pueden ofrecerle constantemente enlaces a pornografía, es "inseguro para ver en el trabajo", por lo que el trabajo de los algoritmos de recomendación más modernos es devolver algo lo más cercano posible a la pornografía, pero Esto es "seguro para ver en el trabajo". En otras palabras, estrellas (idealmente bellas, o al menos controvertidas), políticos, o ambos. Llegan a esta frontera lo más cerca posible, porque este es el máximo local de su rentabilidad. A veces cruzan esta línea, tienen que disculparse o pagar una multa simbólica, y luego todo vuelve al punto de partida.

Esto me molesta, pero los higos con él, son solo matemáticas. Y tal vez la naturaleza humana. Y el capitalismo. Sí higos con él, puede que no me guste, pero puedo entenderlo.

Me quejo de que nada de lo anterior está relacionado con la recopilación de mi información personal.

Las mejores recomendaciones no tienen nada que ver conmigo


Seamos honestos: el anuncio mejor orientado será el que obtenga de un motor de búsqueda que me dé exactamente lo que estaba buscando. Y todo está en ventaja: encuentro lo que estaba buscando, el vendedor me ayuda a comprar sus productos, el motor de búsqueda obtiene dinero para la mediación. No conozco a nadie que se queje de tal anuncio. Este es un buen anuncio.

¡Y ella tampoco tiene nada que ver con mi información personal!

Google ha estado proporcionando publicidad contextual basada en búsquedas durante más de una década, incluso antes de que comenzaran a pedirme que inicie sesión. Incluso hoy, una persona puede usar cualquier motor de búsqueda sin iniciar sesión en su cuenta. Y todavía dan anuncios basados ​​en consultas de búsqueda. Gran negocio

En mi caso, otro anuncio funciona bien. A veces juego, uso Steam, y a veces veo juegos en Steam y marco los que planeo comprar. Cuando comienza una venta de estos juegos, Steam me envía un correo electrónico de notificación y, a veces, después de eso los compro. Todo está en ventaja: obtengo el juego deseado (¡con un descuento!), El productor del juego recibe dinero, Steam recibe el pago por la mediación. Y también, si quiero, puedo prohibir que me envíe estas cartas, pero no quiero, porque este es un buen anuncio.

¿Pero nadie tuvo que construir mi perfil para esto? Steam tiene mi cuenta, dije qué juegos quiero y el servicio me los vendió. Esto no es construir un perfil, solo recordar la lista que yo mismo he proporcionado.

Amazon me muestra un aviso que sugiere que podría querer comprar algunos de los consumibles que compré en el pasado nuevamente. Esto también es útil, y tampoco requiere la creación de un perfil, excepto para recordar las transacciones que ya están haciendo. Y de nuevo, todos ganan.

Amazon también recomienda productos que son similares a los que compré o productos que estudié. Esto es aproximadamente un 20% útil. Si acabo de comprar un monitor para la computadora, y sabes que lo hice, porque te lo compré, puedes dejar de intentar venderme monitores. Pero unos días después de comprar la electrónica, también me ofrecen comprar cables USB, lo que probablemente sea correcto. Entonces, está bien, el 20% de los beneficios en la orientación es mejor que el 0% de los beneficios. Amazon debe ser elogiado por crear mi perfil útil, aunque este es solo un perfil de lo que hice en el sitio y no lo comparten con nadie. Esto no parece ser una invasión de la privacidad. Nadie se sorprenderá de que Amazon recuerde lo que les compré o lo que vi.

Resulta peor cuando los vendedores deciden que podría querer algo. Y deciden esto porque fui a su sitio y miré algo. Luego, sus socios publicitarios me persiguen por toda la web, intentando venderme. Y lo hacen, incluso si ya lo compré. La ironía es que todo esto se debe a intentos inciertos de proteger mi privacidad. El vendedor no distribuye información sobre mí y mis transacciones a sus socios publicitarios (ya que, de lo contrario, existe la posibilidad de que, desde un punto de vista legal, tengan problemas), el socio publicitario no sabe que compré los productos. Solo sabe (debido al rastreador de un socio instalado en el sitio web del vendedor) que miré el artículo, por lo que continúan publicitándomelo por si acaso.

Bien, ahora estamos llegando a un tema interesante. El anunciante tiene un rastreador que coloca en diferentes sitios para rastrearme. No sabe lo que compré, pero sabe lo que estaba viendo, quizás incluso durante mucho tiempo y en muchos sitios.

Usando esta información, su IA cuidadosamente entrenada saca conclusiones sobre qué más podría querer ver en base a ...

¿Y sobre la base de qué? ¿La gente como yo? ¿Qué están mirando mis amigos de Facebook? ¿Algún tipo de fórmula matricial compleja que la gente no pueda entender, pero que funciona un 10% mejor?

Probablemente no. Probablemente solo adivine mi sexo, edad, nivel de ingresos y estado civil. Y luego, si soy un hombre, él me vende autos y artilugios, y si ella es una niña, están de moda. No porque todos los chicos adoren los automóviles y los artilugios, sino porque una persona completamente no creativa se metió en este proceso y dijo "vender mi automóvil principalmente a hombres" y "vender mi ropa principalmente a mujeres". Quizás AI extraiga conclusiones basadas en datos demográficos incorrectos (sé que Google está equivocado en mi cuenta), pero no importa, porque generalmente resulta ser correcto, lo que es mejor que tener 0% de razón, y los anunciantes obtienen en su mayor parte, anuncios orientados demográficamente, lo cual es mejor que la orientación con una eficiencia del 0%.

¿Entiendes que todo funciona así? Pues seguro. Esto se puede confirmar en función del mal funcionamiento del anuncio. Cada persona en unos segundos puede recordar algo que quería comprar, pero el Algoritmo no podía ofrecérselo, mientras que la plataforma de publicidad Outbrain gana mucho dinero vendiendo enlaces a seguros de automóviles a personas que no tienen automóvil. También podría haber sido un comercial de televisión de los años 90, que se mostró a altas horas de la noche, cuando podía estar seguro de mi perfil demográfico debido al hecho de que aún no había dormido.

Me sigues a todas partes, escribes todas mis acciones en tus registros para siempre, sustituyes a alguien para robar tu base de datos, temes desesperadamente que alguna nueva ley de la UE pueda destruir tu negocio ... ¿Y todo por el bien de esto?

Astrología estadística


Por supuesto, todo no es tan simple como se describe. En cada uno de los sitios que visito, más de una compañía me rastrea. Estas compañías tienen un carro, y todas me siguen en cada sitio web visitado. Algunos de ellos ni siquiera se dedican a la publicidad, simplemente realizan un seguimiento y luego venden esta información de seguimiento a los anunciantes que parecen estar utilizándola para mejorar la orientación.

Impresionante ecosistema. Echemos un vistazo a los sitios de noticias. ¿Por qué están cargando tan lentamente? Por los rastreadores. No por los anuncios, sino por los rastreadores. Solo hay un par de anuncios que generalmente no tardan tanto en cargarse. Pero hay un montón de rastreadores, ya que cada uno de ellos les paga un poco para que puedan seguir las vistas de cada página. Si usted es un editor gigante que está al borde de la bancarrota, y ya tiene 25 rastreadores en su sitio, y la compañía número 26 de rastreo lo llama y promete pagar $ 50K por año para agregarles otro rastreador, los rechazará ? Su página ya apenas se está moviendo y girando, por lo que ralentizar la descarga en otro 1/25 no cambiará nada, pero $ 50K puede.

(Los "bloqueadores de anuncios" eliminan los anuncios molestos, pero también aceleran la web, principalmente al eliminar los rastreadores. Vergonzosa vergüenza: los rastreadores en sí mismos no están obligados a ralentizar la descarga, pero la ralentizan, porque sus desarrolladores seguramente serán idiotas, cada uno de los cuales tiene que descargar miles de líneas Código JavaScript para lo que se puede hacer en dos líneas. Pero esa es otra historia).

Y luego, los vendedores de anuncios y redes publicitarias compran datos de seguimiento de los rastreadores. Cuantos más datos de seguimiento tengan, mejor podrán administrar los anuncios, ¿verdad? Bueno, probablemente

Y lo más divertido es que cada rastreador tiene algunos datos sobre usted, pero no todos, ya que cada rastreador no se encuentra en todos los sitios web. Por otro lado, es bastante difícil comparar la actividad de las personas entre diferentes rastreadores, ya que ninguno de ellos quiere darle su ingrediente secreto. Por lo tanto, cada vendedor de publicidad hace todo lo posible para comparar todos los datos de todos los rastreadores que compran, pero básicamente no funciona. Digamos que tenemos 25 rastreadores, cada uno de los cuales rastrea un millón de usuarios, y tal vez una gran cantidad de datos se superponen allí. En un mundo racional, uno habría adivinado que esta información es descrita por varios millones de usuarios individuales. Pero en un mundo loco donde es imposible probar la superposición, ¡puede haber 25 millones de usuarios! ¡Cuantos más rastreadores de datos compre su red publicitaria, más información obtendrá! Supongo! ¡Esto significa que la orientación está mejorando! Tal vez! ¡Entonces debe comprar anuncios de nuestra red, no otra red que tenga menos datos! Bueno, al parecer!

Pero todo esto no funciona. Todavía están tratando de venderme un seguro de auto para el metro.

Y no se trata solo de publicidad


Obviamente, muchas cosas relacionadas con la publicidad dirigida no funcionan, si alguien al menos una vez se detuvo y examinó cuidadosamente todo esto. Pero demasiadas personas tienen un incentivo para pensar lo contrario. Pero si te importa tu vida personal, entonces todo se reduce al hecho de que aún continúan recopilando tu información personal, este método funciona o no.

¿Qué pasa con los algoritmos de recomendación de contenido? ¿Funcionan?

Obviamente no. ¿Alguna vez los has probado? No realmente.

De acuerdo, esto no es del todo justo. Algunas cosas funcionan. Las recomendaciones musicales del servicio de Pandora inesperadamente funcionan bien , pero lo hacen de una manera completamente no obvia. La forma obvia es tomar la lista de canciones que sus usuarios están escuchando, subirla al conjunto de entrenamiento para el MO y usar el resultado para compilar una lista de canciones para nuevos usuarios en función de ... uh ... ¿su perfil? Bueno, no tienen un perfil, simplemente se unieron. ¿Quizás basado en algunas de las primeras canciones que seleccionan manualmente? Tal vez, pero probablemente comenzaron con una canción muy popular que no dice nada, o una canción muy rara para verificar la inmensidad de su base de datos, que le dice aún menos.

Estoy seguro de que Mixcloud funciona de esa manera. Después de cada combinación, el servicio intenta encontrar la combinación "más similar" desde la cual continuar. Por lo general, esta es otra persona que ha descargado exactamente la misma mezcla. La primera mezcla resulta ser la más similar a esta mezcla, por lo que la produce. Impresionante, aprendizaje automático, sigan con el buen trabajo.

Esto nos lleva al sistema de "canción aleatoria, dedo arriba / dedo abajo" que todos usan. Pero todos, excepto Pandora, lo están haciendo mal. Por qué Aparentemente, porque Pandora codifica manualmente un montón de veces el auto de las características de la música y escribe "algoritmos reales" (no MO) que intentan producir listas de canciones basadas en la combinación correcta de estas características.

En este sentido, Pandora no se puede llamar puro mo. A menudo proporciona una lista de canciones que le gustan después de uno o dos dedos hacia arriba / abajo, a medida que viaja a través de una red cohesiva multidimensional de canciones que la gente ha construido con trabajo duro, y no a través de una matriz masiva de listas promedio de canciones tomadas de personas promedio que no intenta generar estas listas de canciones. Pandora falla muchas cosas (especialmente "acceso en Canadá"), pero sus recomendaciones musicales funcionan muy bien.

Solo hay una trampa. Si el servicio de Pandora es capaz de darle una buena lista de canciones basadas en la primera y un par de calificaciones, entonces me parece que no construye su perfil. Y él no necesita su información personal.

Netflix


Y, para no levantarme dos veces, me volveré un poco sobre Netflix, un extraño caso de desarrollo que comenzó con un algoritmo de recomendación muy bueno, que luego empeoró especialmente.

Había una vez, un premio de Netflix de $ 1 millón prometido al mejor equipo capaz de predecir las calificaciones de las películas rebajadas por una persona en función de las calificaciones ya puestas, y con mayor precisión de lo que pueden en Netflix. Y esto, no tan inesperadamente, condujo a un fiasco con la privacidad cuando resultó que los conjuntos de datos publicados pueden ser desanonimizados. Sí, esto es lo que lleva al almacenamiento a largo plazo de la información personal de las personas en la base de datos.

Netflix creía que su negocio dependía de un buen algoritmo de recomendación. Ya era bastante bueno: recuerdo haber usado Netflix hace 10 años, y obtuve algunas recomendaciones para películas que nunca me habría encontrado, pero al mismo tiempo me gustaron. Pero esto no me ha sucedido en Netflix durante mucho, mucho tiempo.

La historia es esta: Netflix fue una vez un servicio de envío de DVD. El envío de DVD por correo es lento, por lo que era absolutamente necesario que al menos una película en CD que apareciera una vez por semana fuera lo suficientemente interesante como para entretenerlo el viernes por la noche.Después de pasar demasiados viernes seguidos con malas películas, seguramente se daría de baja. Un buen sistema de recomendaciones fue la clave del éxito. Creo que también se usaron matemáticas muy interesantes en este asunto, lo que garantizó que el servicio podría arrendar el mayor porcentaje posible de los discos disponibles en el almacén, ya que no era conveniente tener un transporte de copias del último éxito de taquilla, que será popular durante un mes, pero no el próximo mes. Será necesario por cualquiera.

Pero al final, Netflix se movió en línea y el costo de las malas recomendaciones cayó drásticamente: solo deja de mirar y cambia a una nueva película. Además, era perfectamente normal cuando muchas personas veían un éxito de taquilla. Y aún mejor, porque entonces pueden almacenarlo en caché del proveedor, y el caché funciona mejor cuando todas las personas son aburridas y tienen un promedio.

Peor aún, Netflix notó un patrón: cuantas más horas a la semana la gente mira películas, es menos probable que rechacen el servicio. Y eso tiene sentido: cuanto más tiempo pasas en Netflix, más lo "necesitas". Y cuando los nuevos usuarios prueban el servicio por una tarifa casi fija, una alta tasa de retención conduce a un crecimiento más rápido.

Aprendí esto al mismo tiempo cuando conocí la palabra satisfacer[híbrido de palabras inglesas satisfactorio (suficiente) y suficiente (suficiente) / aprox. transl.] - esto es cuando nos adentramos en el lodo en busca de no la mejor opción, sino lo suficientemente buena. Hoy, Netflix no está buscando la mejor película, solo encuentra lo suficientemente bueno. Si tiene la opción de elegir entre una película que ganó muchos premios, que con una probabilidad del 80% le gustará o con una probabilidad del 20%, la odiarás, y una película convencional que es 0% especial, pero de la que no escupirás con una probabilidad del 99%, entonces él recomendará un segundo cada vez. Los valores extraños perjudican a las empresas.

La conclusión es que no es necesario crear un perfil arriesgado que viole la privacidad del usuario para recomendar una película convencional. Tales películas están especialmente diseñadas para ser inofensivas para casi todos. Mi pantalla de recomendaciones de Netflix ya no es "recomendada para usted", es "nuevas versiones", y luego "ahora en tendencia" y "revisar de nuevo".

Netflix, como se prometió, pagó $ 1 millón por el algoritmo de recomendación ganador, que fue incluso mejor que antes. Pero en lugar de usarlo, lo tiraron a la basura.

Algunos estimados expertos en pruebas A / B han determinado que esto es lo que me hace ver programas de televisión sin sentido durante la mayor parte del día. Sus ganancias están creciendo. Y para esto ni siquiera necesitan invadir mi vida personal.

¿Y quién soy yo para decir que están equivocados?

Source: https://habr.com/ru/post/439338/


All Articles