Olv√≠date de la privacidad: a√ļn tienes objetivos terribles

No lamento que sus programas examinen mis datos personales si, a cambio, obtengo algo √ļtil. Pero esto generalmente no sucede.

Mi ex colega me dijo: "A todos les encanta recopilar datos, pero a nadie le gusta analizarlos más tarde". Esta declaración puede ser impactante, pero las personas involucradas en la recopilación y análisis de datos se han encontrado con esto. Todo comienza con una idea brillante: ¡recopilaremos información sobre cada clic que una persona hace en cada página de la aplicación! ¡Llevaremos un registro de cuánto tiempo reflexionan sobre una elección particular! ¡Con qué frecuencia usan el botón Atrás! ¡Cuántos segundos miran nuestro video introductorio antes de desconectarse! ¡Cuántas veces comparten nuestra publicación en las redes sociales!

Y hacen un seguimiento de todo esto. El seguimiento es fácil. Agregue los registros, vuélvalos a la base de datos y listo.

¬ŅY luego que? Bueno, entonces todo esto tendr√° que ser analizado. Y como persona que analiz√≥ muchos conjuntos de datos relacionados con varias cosas, puedo decir: el trabajo de un analista es dif√≠cil y en su mayor parte desagradecido (excepto el salario).

El problema es que pr√°cticamente no hay formas de confirmar que tienes raz√≥n (y tambi√©n la definici√≥n de lo correcto en s√≠ no es muy clara, sobre lo que se detalla a continuaci√≥n). Casi nunca es posible sacar conclusiones simples, solo conclusiones complejas, y las conclusiones complejas son propensas a errores. De lo que los analistas no est√°n hablando es de cu√°ntos horarios incorrectos (y, en consecuencia, conclusiones) se hacen en el camino hacia los correctos. O para aquellos que creemos que son correctos. Un buen horario es tan convincente que realmente no importa si es el correcto o no, si solo necesita convencer a alguien. Quiz√°s es por eso que peri√≥dicos, revistas y cabilderos publican tantos horarios enga√Īosos.

Sin embargo, posponemos el error por un tiempo. Hacemos una suposición muy poco realista de que somos muy buenos para analizar todo tipo de cosas diferentes. Que sigue

Bueno, enriquezcamos la publicidad dirigida y los algoritmos de recomendación personal. Después de todo, ¡eso es exactamente lo que todos hacen!

O no?

Con recomendaciones personales, todo es sorprendentemente malo. Hoy, la primera recomendaci√≥n ser√° un art√≠culo con un titular muy atractivo sobre las estrellas de cine o sobre lo que Trump ha hecho o no en las √ļltimas 6 horas. O no un art√≠culo, sino un video o un documental. No quiero leerlo ni mirarlo, pero a veces me apesta de todos modos, y luego bienvenido al apocalipsis de las recomendaciones, ahora el algoritmo considera que me gusta leer sobre Trump, y ahora Trump estar√° en todas partes. Nunca le des comentarios positivos a AI.

Esto, por cierto, es un terrible secreto para los partidarios del aprendizaje autom√°tico: casi todo lo que MO ofrece puede obtenerse mucho m√°s barato con la ayuda de heur√≠sticas tontas, programadas manualmente, ya que MO principalmente se entrena en los ejemplos de lo que las personas hicieron despu√©s de un infierno de heur√≠sticas tontas. No hay magia aqu√≠. Si entrena una computadora con la ayuda de MO para seleccionar un curr√≠culum, √©l lo recomendar√° para entrevistar a hombres con los nombres de personas blancas, como ya lo hace su departamento de recursos humanos. Si le preguntas a una computadora qu√© tipo de video quiere ver una persona, te recomendar√° alg√ļn tipo de basura pol√≠tica propagand√≠stica, ya que en el 50% de los casos el 90% de las personas realmente lo ven, sin poder controlarse, y este es un porcentaje bastante bueno de √©xito.

Observo que hay varios ejemplos del excelente uso de MO para lo que los algoritmos tradicionales manejan mal: el procesamiento de imágenes o ganar en juegos estratégicos. Esto es genial, pero hay muchas posibilidades de que su aplicación MO favorita se convierta en un sustituto costoso de una heurística tonta.

Una persona que trabaja con la b√ļsqueda web me dijo que ya tienen un algoritmo que garantiza la proporci√≥n m√°xima de clics y vistas para cualquier b√ļsqueda: solo necesita dar una p√°gina con enlaces a pornograf√≠a. Y alguien dijo que esta situaci√≥n puede resolverse y convertirse en un detector de pornograf√≠a: cualquier v√≠nculo con alta capacidad de hacer clic, independientemente de la solicitud, probablemente conduzca a la pornograf√≠a.

El problema es que las empresas de aspecto decente no pueden ofrecerle constantemente enlaces a pornografía, es "inseguro para ver en el trabajo", por lo que el trabajo de los algoritmos de recomendación más modernos es devolver algo lo más cercano posible a la pornografía, pero Esto es "seguro para ver en el trabajo". En otras palabras, estrellas (idealmente bellas, o al menos controvertidas), políticos, o ambos. Llegan a esta frontera lo más cerca posible, porque este es el máximo local de su rentabilidad. A veces cruzan esta línea, tienen que disculparse o pagar una multa simbólica, y luego todo vuelve al punto de partida.

Esto me molesta, pero los higos con él, son solo matemáticas. Y tal vez la naturaleza humana. Y el capitalismo. Sí higos con él, puede que no me guste, pero puedo entenderlo.

Me quejo de que nada de lo anterior está relacionado con la recopilación de mi información personal.

Las mejores recomendaciones no tienen nada que ver conmigo


Seamos honestos: el anuncio mejor orientado ser√° el que obtenga de un motor de b√ļsqueda que me d√© exactamente lo que estaba buscando. Y todo est√° en ventaja: encuentro lo que estaba buscando, el vendedor me ayuda a comprar sus productos, el motor de b√ļsqueda obtiene dinero para la mediaci√≥n. No conozco a nadie que se queje de tal anuncio. Este es un buen anuncio.

¡Y ella tampoco tiene nada que ver con mi información personal!

Google ha estado proporcionando publicidad contextual basada en b√ļsquedas durante m√°s de una d√©cada, incluso antes de que comenzaran a pedirme que inicie sesi√≥n. Incluso hoy, una persona puede usar cualquier motor de b√ļsqueda sin iniciar sesi√≥n en su cuenta. Y todav√≠a dan anuncios basados ‚Äč‚Äčen consultas de b√ļsqueda. Gran negocio

En mi caso, otro anuncio funciona bien. A veces juego, uso Steam, y a veces veo juegos en Steam y marco los que planeo comprar. Cuando comienza una venta de estos juegos, Steam me envía un correo electrónico de notificación y, a veces, después de eso los compro. Todo está en ventaja: obtengo el juego deseado (¡con un descuento!), El productor del juego recibe dinero, Steam recibe el pago por la mediación. Y también, si quiero, puedo prohibir que me envíe estas cartas, pero no quiero, porque este es un buen anuncio.

¬ŅPero nadie tuvo que construir mi perfil para esto? Steam tiene mi cuenta, dije qu√© juegos quiero y el servicio me los vendi√≥. Esto no es construir un perfil, solo recordar la lista que yo mismo he proporcionado.

Amazon me muestra un aviso que sugiere que podr√≠a querer comprar algunos de los consumibles que compr√© en el pasado nuevamente. Esto tambi√©n es √ļtil, y tampoco requiere la creaci√≥n de un perfil, excepto para recordar las transacciones que ya est√°n haciendo. Y de nuevo, todos ganan.

Amazon tambi√©n recomienda productos que son similares a los que compr√© o productos que estudi√©. Esto es aproximadamente un 20% √ļtil. Si acabo de comprar un monitor para la computadora, y sabes que lo hice, porque te lo compr√©, puedes dejar de intentar venderme monitores. Pero unos d√≠as despu√©s de comprar la electr√≥nica, tambi√©n me ofrecen comprar cables USB, lo que probablemente sea correcto. Entonces, est√° bien, el 20% de los beneficios en la orientaci√≥n es mejor que el 0% de los beneficios. Amazon debe ser elogiado por crear mi perfil √ļtil, aunque este es solo un perfil de lo que hice en el sitio y no lo comparten con nadie. Esto no parece ser una invasi√≥n de la privacidad. Nadie se sorprender√° de que Amazon recuerde lo que les compr√© o lo que vi.

Resulta peor cuando los vendedores deciden que podr√≠a querer algo. Y deciden esto porque fui a su sitio y mir√© algo. Luego, sus socios publicitarios me persiguen por toda la web, intentando venderme. Y lo hacen, incluso si ya lo compr√©. La iron√≠a es que todo esto se debe a intentos inciertos de proteger mi privacidad. El vendedor no distribuye informaci√≥n sobre m√≠ y mis transacciones a sus socios publicitarios (ya que, de lo contrario, existe la posibilidad de que, desde un punto de vista legal, tengan problemas), el socio publicitario no sabe que compr√© los productos. Solo sabe (debido al rastreador de un socio instalado en el sitio web del vendedor) que mir√© el art√≠culo, por lo que contin√ļan publicit√°ndomelo por si acaso.

Bien, ahora estamos llegando a un tema interesante. El anunciante tiene un rastreador que coloca en diferentes sitios para rastrearme. No sabe lo que compré, pero sabe lo que estaba viendo, quizás incluso durante mucho tiempo y en muchos sitios.

Usando esta información, su IA cuidadosamente entrenada saca conclusiones sobre qué más podría querer ver en base a ...

¬ŅY sobre la base de qu√©? ¬ŅLa gente como yo? ¬ŅQu√© est√°n mirando mis amigos de Facebook? ¬ŅAlg√ļn tipo de f√≥rmula matricial compleja que la gente no pueda entender, pero que funciona un 10% mejor?

Probablemente no. Probablemente solo adivine mi sexo, edad, nivel de ingresos y estado civil. Y luego, si soy un hombre, √©l me vende autos y artilugios, y si ella es una ni√Īa, est√°n de moda. No porque todos los chicos adoren los autom√≥viles y los artilugios, sino porque una persona completamente no creativa se meti√≥ en este proceso y dijo "vender mi autom√≥vil principalmente a hombres" y "vender mi ropa principalmente a mujeres". Quiz√°s AI extraiga conclusiones basadas en datos demogr√°ficos incorrectos (s√© que Google est√° equivocado en mi cuenta), pero no importa, porque generalmente resulta ser correcto, lo que es mejor que tener 0% de raz√≥n, y los anunciantes obtienen en su mayor parte, anuncios orientados demogr√°ficamente, lo cual es mejor que la orientaci√≥n con una eficiencia del 0%.

¬ŅEntiendes que todo funciona as√≠? Pues seguro. Esto se puede confirmar en funci√≥n del mal funcionamiento del anuncio. Cada persona en unos segundos puede recordar algo que quer√≠a comprar, pero el Algoritmo no pod√≠a ofrec√©rselo, mientras que la plataforma de publicidad Outbrain gana mucho dinero vendiendo enlaces a seguros de autom√≥viles a personas que no tienen autom√≥vil. Tambi√©n podr√≠a haber sido un comercial de televisi√≥n de los a√Īos 90, que se mostr√≥ a altas horas de la noche, cuando pod√≠a estar seguro de mi perfil demogr√°fico debido al hecho de que a√ļn no hab√≠a dormido.

Me sigues a todas partes, escribes todas mis acciones en tus registros para siempre, sustituyes a alguien para robar tu base de datos, temes desesperadamente que alguna nueva ley de la UE pueda destruir tu negocio ... ¬ŅY todo por el bien de esto?

Astrología estadística


Por supuesto, todo no es tan simple como se describe. En cada uno de los sitios que visito, m√°s de una compa√Ī√≠a me rastrea. Estas compa√Ī√≠as tienen un carro, y todas me siguen en cada sitio web visitado. Algunos de ellos ni siquiera se dedican a la publicidad, simplemente realizan un seguimiento y luego venden esta informaci√≥n de seguimiento a los anunciantes que parecen estar utiliz√°ndola para mejorar la orientaci√≥n.

Impresionante ecosistema. Echemos un vistazo a los sitios de noticias. ¬ŅPor qu√© est√°n cargando tan lentamente? Por los rastreadores. No por los anuncios, sino por los rastreadores. Solo hay un par de anuncios que generalmente no tardan tanto en cargarse. Pero hay un mont√≥n de rastreadores, ya que cada uno de ellos les paga un poco para que puedan seguir las vistas de cada p√°gina. Si usted es un editor gigante que est√° al borde de la bancarrota, y ya tiene 25 rastreadores en su sitio, y la compa√Ī√≠a n√ļmero 26 de rastreo lo llama y promete pagar $ 50K por a√Īo para agregarles otro rastreador, los rechazar√° ? Su p√°gina ya apenas se est√° moviendo y girando, por lo que ralentizar la descarga en otro 1/25 no cambiar√° nada, pero $ 50K puede.

(Los "bloqueadores de anuncios" eliminan los anuncios molestos, pero tambi√©n aceleran la web, principalmente al eliminar los rastreadores. Vergonzosa verg√ľenza: los rastreadores en s√≠ mismos no est√°n obligados a ralentizar la descarga, pero la ralentizan, porque sus desarrolladores seguramente ser√°n idiotas, cada uno de los cuales tiene que descargar miles de l√≠neas C√≥digo JavaScript para lo que se puede hacer en dos l√≠neas. Pero esa es otra historia).

Y luego, los vendedores de anuncios y redes publicitarias compran datos de seguimiento de los rastreadores. Cuantos m√°s datos de seguimiento tengan, mejor podr√°n administrar los anuncios, ¬Ņverdad? Bueno, probablemente

Y lo más divertido es que cada rastreador tiene algunos datos sobre usted, pero no todos, ya que cada rastreador no se encuentra en todos los sitios web. Por otro lado, es bastante difícil comparar la actividad de las personas entre diferentes rastreadores, ya que ninguno de ellos quiere darle su ingrediente secreto. Por lo tanto, cada vendedor de publicidad hace todo lo posible para comparar todos los datos de todos los rastreadores que compran, pero básicamente no funciona. Digamos que tenemos 25 rastreadores, cada uno de los cuales rastrea un millón de usuarios, y tal vez una gran cantidad de datos se superponen allí. En un mundo racional, uno habría adivinado que esta información es descrita por varios millones de usuarios individuales. Pero en un mundo loco donde es imposible probar la superposición, ¡puede haber 25 millones de usuarios! ¡Cuantos más rastreadores de datos compre su red publicitaria, más información obtendrá! Supongo! ¡Esto significa que la orientación está mejorando! Tal vez! ¡Entonces debe comprar anuncios de nuestra red, no otra red que tenga menos datos! Bueno, al parecer!

Pero todo esto no funciona. Todavía están tratando de venderme un seguro de auto para el metro.

Y no se trata solo de publicidad


Obviamente, muchas cosas relacionadas con la publicidad dirigida no funcionan, si alguien al menos una vez se detuvo y examin√≥ cuidadosamente todo esto. Pero demasiadas personas tienen un incentivo para pensar lo contrario. Pero si te importa tu vida personal, entonces todo se reduce al hecho de que a√ļn contin√ļan recopilando tu informaci√≥n personal, este m√©todo funciona o no.

¬ŅQu√© pasa con los algoritmos de recomendaci√≥n de contenido? ¬ŅFuncionan?

Obviamente no. ¬ŅAlguna vez los has probado? No realmente.

De acuerdo, esto no es del todo justo. Algunas cosas funcionan. Las recomendaciones musicales del servicio de Pandora inesperadamente funcionan bien , pero lo hacen de una manera completamente no obvia. La forma obvia es tomar la lista de canciones que sus usuarios est√°n escuchando, subirla al conjunto de entrenamiento para el MO y usar el resultado para compilar una lista de canciones para nuevos usuarios en funci√≥n de ... uh ... ¬Ņsu perfil? Bueno, no tienen un perfil, simplemente se unieron. ¬ŅQuiz√°s basado en algunas de las primeras canciones que seleccionan manualmente? Tal vez, pero probablemente comenzaron con una canci√≥n muy popular que no dice nada, o una canci√≥n muy rara para verificar la inmensidad de su base de datos, que le dice a√ļn menos.

Estoy seguro de que Mixcloud funciona de esa manera. Después de cada combinación, el servicio intenta encontrar la combinación "más similar" desde la cual continuar. Por lo general, esta es otra persona que ha descargado exactamente la misma mezcla. La primera mezcla resulta ser la más similar a esta mezcla, por lo que la produce. Impresionante, aprendizaje automático, sigan con el buen trabajo.

Esto nos lleva al sistema de "canci√≥n aleatoria, dedo arriba / dedo abajo" que todos usan. Pero todos, excepto Pandora, lo est√°n haciendo mal. Por qu√© Aparentemente, porque Pandora codifica manualmente un mont√≥n de veces el auto de las caracter√≠sticas de la m√ļsica y escribe "algoritmos reales" (no MO) que intentan producir listas de canciones basadas en la combinaci√≥n correcta de estas caracter√≠sticas.

En este sentido, Pandora no se puede llamar puro mo. A menudo proporciona una lista de canciones que le gustan después de uno o dos dedos hacia arriba / abajo, a medida que viaja a través de una red cohesiva multidimensional de canciones que la gente ha construido con trabajo duro, y no a través de una matriz masiva de listas promedio de canciones tomadas de personas promedio que no intenta generar estas listas de canciones. Pandora falla muchas cosas (especialmente "acceso en Canadá"), pero sus recomendaciones musicales funcionan muy bien.

Solo hay una trampa. Si el servicio de Pandora es capaz de darle una buena lista de canciones basadas en la primera y un par de calificaciones, entonces me parece que no construye su perfil. Y él no necesita su información personal.

Netflix


Y, para no levantarme dos veces, me volver√© un poco sobre Netflix, un extra√Īo caso de desarrollo que comenz√≥ con un algoritmo de recomendaci√≥n muy bueno, que luego empeor√≥ especialmente.

Había una vez, un premio de Netflix de $ 1 millón prometido al mejor equipo capaz de predecir las calificaciones de las películas rebajadas por una persona en función de las calificaciones ya puestas, y con mayor precisión de lo que pueden en Netflix. Y esto, no tan inesperadamente, condujo a un fiasco con la privacidad cuando resultó que los conjuntos de datos publicados pueden ser desanonimizados. Sí, esto es lo que lleva al almacenamiento a largo plazo de la información personal de las personas en la base de datos.

Netflix cre√≠a que su negocio depend√≠a de un buen algoritmo de recomendaci√≥n. Ya era bastante bueno: recuerdo haber usado Netflix hace 10 a√Īos, y obtuve algunas recomendaciones para pel√≠culas que nunca me habr√≠a encontrado, pero al mismo tiempo me gustaron. Pero esto no me ha sucedido en Netflix durante mucho, mucho tiempo.

La historia es esta: Netflix fue una vez un servicio de env√≠o de DVD. El env√≠o de DVD por correo es lento, por lo que era absolutamente necesario que al menos una pel√≠cula en CD que apareciera una vez por semana fuera lo suficientemente interesante como para entretenerlo el viernes por la noche.Despu√©s de pasar demasiados viernes seguidos con malas pel√≠culas, seguramente se dar√≠a de baja. Un buen sistema de recomendaciones fue la clave del √©xito. Creo que tambi√©n se usaron matem√°ticas muy interesantes en este asunto, lo que garantiz√≥ que el servicio podr√≠a arrendar el mayor porcentaje posible de los discos disponibles en el almac√©n, ya que no era conveniente tener un transporte de copias del √ļltimo √©xito de taquilla, que ser√° popular durante un mes, pero no el pr√≥ximo mes. Ser√° necesario por cualquiera.

Pero al final, Netflix se movi√≥ en l√≠nea y el costo de las malas recomendaciones cay√≥ dr√°sticamente: solo deja de mirar y cambia a una nueva pel√≠cula. Adem√°s, era perfectamente normal cuando muchas personas ve√≠an un √©xito de taquilla. Y a√ļn mejor, porque entonces pueden almacenarlo en cach√© del proveedor, y el cach√© funciona mejor cuando todas las personas son aburridas y tienen un promedio.

Peor a√ļn, Netflix not√≥ un patr√≥n: cuantas m√°s horas a la semana la gente mira pel√≠culas, es menos probable que rechacen el servicio. Y eso tiene sentido: cuanto m√°s tiempo pasas en Netflix, m√°s lo "necesitas". Y cuando los nuevos usuarios prueban el servicio por una tarifa casi fija, una alta tasa de retenci√≥n conduce a un crecimiento m√°s r√°pido.

Aprend√≠ esto al mismo tiempo cuando conoc√≠ la palabra satisfacer[h√≠brido de palabras inglesas satisfactorio (suficiente) y suficiente (suficiente) / aprox. transl.] - esto es cuando nos adentramos en el lodo en busca de no la mejor opci√≥n, sino lo suficientemente buena. Hoy, Netflix no est√° buscando la mejor pel√≠cula, solo encuentra lo suficientemente bueno. Si tiene la opci√≥n de elegir entre una pel√≠cula que gan√≥ muchos premios, que con una probabilidad del 80% le gustar√° o con una probabilidad del 20%, la odiar√°s, y una pel√≠cula convencional que es 0% especial, pero de la que no escupir√°s con una probabilidad del 99%, entonces √©l recomendar√° un segundo cada vez. Los valores extra√Īos perjudican a las empresas.

La conclusi√≥n es que no es necesario crear un perfil arriesgado que viole la privacidad del usuario para recomendar una pel√≠cula convencional. Tales pel√≠culas est√°n especialmente dise√Īadas para ser inofensivas para casi todos. Mi pantalla de recomendaciones de Netflix ya no es "recomendada para usted", es "nuevas versiones", y luego "ahora en tendencia" y "revisar de nuevo".

Netflix, como se prometió, pagó $ 1 millón por el algoritmo de recomendación ganador, que fue incluso mejor que antes. Pero en lugar de usarlo, lo tiraron a la basura.

Algunos estimados expertos en pruebas A / B han determinado que esto es lo que me hace ver programas de televisión sin sentido durante la mayor parte del día. Sus ganancias están creciendo. Y para esto ni siquiera necesitan invadir mi vida personal.

¬ŅY qui√©n soy yo para decir que est√°n equivocados?

Source: https://habr.com/ru/post/439338/


All Articles