Cómo Cambridge Analytica convierte los clics en voces

El informante Christopher Wiley explica la ciencia detrás de la misión de Cambridge Analytica de convertir las encuestas y los datos de Facebook en armas políticas




¿Cómo se convirtieron 87 millones de publicaciones generadas en Facebook en una campaña publicitaria que podría cambiar el resultado de las elecciones? ¿Qué se incluye en el procedimiento para recopilar tantos datos? ¿Qué nos dicen estos datos sobre nosotros mismos?

El escándalo con Cambridge Analytica planteó muchas preguntas, pero para muchos, la propuesta única de venta de la compañía, que la semana pasada anunció su cierre, sigue siendo un misterio.

Especialmente para aquellos 87 millones de personas que están interesadas en lo que sucedió exactamente con sus datos, fui a aclarar a Christopher Wiley, un ex empleado de la compañía, quien les contó a todos sobre Observer sobre sus acciones problemáticas. Según Wiley, para ese trabajo necesita muy poca información sobre la ciencia del procesamiento de datos, las mujeres ricas aburridas y la psicología humana.

El primer paso, explicó por teléfono, tratando de tomar el tren: "Al crear el algoritmo, primero debe recopilar un conjunto de datos de prueba". Es decir, no importa cuán sofisticadas tecnologías se utilicen para recopilar datos: primero debe recopilarlas de la manera antigua y buena. Antes de comenzar a usar los me gusta de Facebook para predecir el perfil psicológico de una persona, debe hacer que cientos de miles de personas pasen por una encuesta psicológica de 120 preguntas.

El conjunto de pruebas serán todos los datos a la vez: me gusta de Facebook, pruebas psicológicas y todo lo demás, según lo que desee aprender. Lo más importante, debe contener un "conjunto de características": "Datos básicos sobre la base de los cuales desea hacer predicciones", dice Wiley. "En nuestro caso, se trata de datos de Facebook, pero pueden ser textos en lenguaje natural o datos de clic", es un registro completo de su actividad en línea. "Todo esto son datos que pueden usarse para predicciones".

Por otro lado, necesitará sus "variables objetivo", dice Wiley, "lo que está tratando de predecir. En este caso, características personales, orientación política y todo eso ".



Si usa una cosa para predecir otra, entonces una revisión de estas dos cosas puede ayudarlo. "Si necesita conocer la relación entre los me gusta de Facebook en su conjunto de características y las cualidades personales como variables objetivo, debe verlas al mismo tiempo", dice Wiley.

Los datos de Facebook que subyacen en la historia con Cambridge Analytica son un recurso bastante abundante en términos de la ciencia del procesamiento de datos, y aún más fue en 2014 cuando Wiley comenzó a trabajar en esta área. Recopilar cualidades personales es mucho más difícil: a pesar de las conclusiones que se pueden extraer de la popularidad de los cuestionarios en BuzzFeed , es bastante difícil lograr que una persona complete una prueba de 120 preguntas (esta es la duración de una versión corta de una de las encuestas psicológicas estándar, IPIP-NEO ).

Pero "bastante difícil" es un concepto relativo. “Para algunas personas, la motivación para realizar la encuesta fue financiera. Si eres un estudiante o estás buscando trabajo, o simplemente quieres ganar $ 5, entonces esto es motivación ". Realmente para la encuesta, según Wiley, entregaron de $ 2 a $ 4. Se esperaba un mayor valor para los "grupos que son más difíciles de alcanzar". La menor probabilidad de aprobar la encuesta y, por lo tanto, la mayor recompensa se basó en los estadounidenses negros. “Se entrevista a otras personas porque están interesadas o por aburrimiento. Por lo tanto, tuvimos una enumeración de datos sobre mujeres blancas ricas. Si vive en los Hamptons [Área de vivienda Elite de Long Island / aprox. transl.] y no tiene nada que hacer durante el día, completa encuestas de investigación de consumidores ".

Los cuestionarios personales utilizan 120 preguntas para construir un perfil de personalidad en cinco ejes diferentes: este es el modelo de "cinco factores", que se llama "OCÉANO" en la jerga, una abreviatura de "apertura a nuevas experiencias, conciencia, extraversión, deseo de gustar y neuroticismo" [apertura a la experiencia , conciencia, extraversión, amabilidad, neuroticismo].

El modelo divide las cualidades personales en grupos, que, aparentemente, se conservan en diferentes culturas y en diferentes momentos. Entonces, por ejemplo, las personas que se describen a sí mismas como "ruidosas" probablemente se describan a sí mismas como "comunicativas". Si están de acuerdo con tal descripción hoy, entonces estarán de acuerdo con él en un año. Es más probable que estos grupos se manifiesten en cualquier idioma. Y si una persona reacciona negativamente a algo, entonces tendrá diferencias obvias y notables de las personas que reaccionan positivamente.

Estas propiedades del modelo lo hacen útil para construir un perfil de personas, dice Wiley, a diferencia de otros perfiles psicológicos populares, como la tipología Myers-Briggs . En la fase de verificación del estudio, Facebook prácticamente no se vio afectado. Las encuestas se ofrecieron en sitios comerciales de minería de datos, primero en la plataforma Amazon Mechanical Turk, luego a través del operador Qualtrics (los operadores, según Wiley, cambiaron porque Amazon tiene un problema con los usuarios que están muy interesados ​​en completar cuestionarios) como resultado, los resultados de las encuestas están distorsionados )


"No solo la ley: responsabilidad / defender la segunda enmienda "
Anuncios destacados de la campaña de Cambridge Analytica

Facebook se conectó solo al final. Para recibir el pago por completar el cuestionario, los usuarios tenían que iniciar sesión en el sitio y permitir el acceso a los datos de la aplicación de la encuesta, creada por Alexander Kogan, un científico de la Universidad de Cambridge. Su investigación sobre el desarrollo de la personalidad de Facebook le dio a Cambridge Analytica, patrocinada por Robert Mercer , la oportunidad perfecta para ingresar rápidamente al mercado. Kogan afirma que Cambridge Analytica le aseguró el uso adecuado de los datos y dice que fue utilizado "como el chivo expiatorio de Facebook y Cambridge Analytica".

Para el usuario cuyos datos se recopilaron, el proceso fue rápido: "Haga clic en la aplicación, obtenga el código de dinero". Pero en estos pocos segundos sucedieron muchas cosas importantes. En primer lugar, la aplicación recopiló todos los datos posibles sobre el usuario. El perfil psicológico son las variables objetivo, y los datos de Facebook son un "conjunto de características": información recopilada por el especialista en procesamiento de datos para todos los usuarios, que utilizará para predecir con precisión las características que le interesan.

La aplicación también recopiló información personalizada como un nombre real, ubicación, contactos, algo que no se pudo encontrar en los sitios de encuestas. "Esto significa que la información podría compararse con una persona real, y su información podría compararse con el registro de votantes".

En segundo lugar, la aplicación hizo lo mismo para todos los amigos del usuario que la instaló. Y de repente, cientos de miles de personas por las que pagó un par de dólares para completar un cuestionario, y cuya identidad es un misterio, se convirtieron en millones de personas cuyos perfiles en Facebook son un libro abierto.

Es en este momento que tiene lugar la última transformación. ¿Cómo convertir varios cientos de miles de perfiles personales en varios millones? Uso de grandes capacidades informáticas y una enorme tabla de oportunidades. "Aunque su muestra incluye a 300,000 personas, su conjunto de características ya es de 100 millones", dice Wiley. Cada Me gusta de Facebook de un conjunto de datos se convierte en una columna separada en esta enorme matriz. "Incluso si hay una ocurrencia para todo el conjunto, esto ya será una característica".

"Luego, todos los datos se recopilan en un modelo complejo", dice Wiley. - En este punto, está utilizando diferentes familias o enfoques para el aprendizaje automático, ya que cada uno de ellos tiene sus propias fortalezas y debilidades. Y luego votan, y se mezclan los resultados y se llega a una conclusión ". En este punto, la ciencia del procesamiento de datos se está convirtiendo en un arte: el conjunto exacto de datos de entrada en cada uno de los enfoques no está tallado en granito, y no hay una forma "correcta" de recopilarlos. En el mundo académico, esto a veces se llama "capacitación de posgrado", el momento después del cual todo lo que queda es hacer qué avanzar por ensayo y error. Y, sin embargo, funcionó bastante bien, y al final, según Wiley, "creamos 253 algoritmos, es decir, existían 253 predicciones para cada registro de perfil". El objetivo se logró: un modelo que, de hecho, puede tomar Me gusta de Facebook y, trabajando en la dirección opuesta, completar todas las columnas de la tabla, adivinar las cualidades personales de la persona, sus predilecciones políticas, etc.

A fines de agosto de 2014, Wiley recibió los primeros resultados exitosos: 2,1 millones de registros con un perfil recreado para 11 estados objetivo de los Estados Unidos. El plan era utilizar los datos para crear y mejorar mensajes publicitarios en la campaña republicana patrocinada por Mercer y Stephen Bannon y llegar a las primarias de 2016 (Wiley dejó la compañía antes que ellos). "Este número no solo indica a todas las personas para quienes recopilamos datos de Facebook, datos de votación y datos de consumidores, sino que también construyó 253 predicciones agregadas a su perfil".

Estas 253 predicciones fueron el "ingrediente secreto" que Cambridge Analytica presentó como una oferta única para los consumidores. Usando solo los datos de Facebook, los anunciantes se enfrentan a muestras demográficas demasiado amplias y varias categorías más estrechas definidas algorítmicamente: ¿les gusta, por ejemplo, el jazz o su equipo de fútbol favorito? Pero con 253 predicciones, Cambridge Analytica podría, de acuerdo con Wiley, ajustar los anuncios como ningún otro: una votación extrovertida neurótica y fácil de aceptar para los demócratas no sería susceptible a dicha publicidad como un introvertido intelectual emocionalmente estable, incluso si los mismos los mensajes, si se intercambian, tendrían el efecto contrario.

Wiley menciona una declaración política tan relajante del candidato como el deseo de aumentar el número de empleos. “Los empleos en la economía son un buen ejemplo de una declaración sin sentido. En economía, todos están a favor de las oportunidades laborales. Por lo tanto, el uso de la simple afirmación "Yo represento las vacantes en la economía" o "Tengo un plan para arreglar la situación con las vacantes en la economía" no le permite ser diferente de su oponente ".

"Pero descubrimos que si observamos lo que significa el concepto de vacantes para cada persona individual, resulta que diferentes personas se ven afectadas por diferentes diseños con diferentes motivaciones y un conjunto de valores".

En la práctica, esto significa que la misma conversación se puede expresar de manera diferente para diferentes personas, dando la impresión de que un candidato influye en los votantes a nivel emocional. “Si está hablando con una persona consciente, con altas calificaciones para el parámetro C en el modelo OCEAN [honestidad, integridad], está hablando de oportunidades para alcanzar el éxito y la responsabilidad que conlleva el lugar de trabajo. Si se trata de una persona abierta, está hablando de la posibilidad de crecer como persona. Con un neurótico, confías en la seguridad que el lugar de trabajo le dará a la familia ".

Debido a la naturaleza de red de las campañas modernas, teóricamente todos estos mensajes pueden ser entregados simultáneamente a diferentes audiencias. Al final de la campaña, cuando los mensajes ya han echado raíces, incluso se pueden automatizar utilizando un algoritmo que combina el diccionario en busca de la combinación perfecta de palabras para cada uno de los subgrupos.


“Mira lo que significa el matrimonio y vuelve a mí / porque las tradiciones no están desactualizadas”
Anuncios destacados de la campaña de Cambridge Analytica

Por supuesto, esto no es 100% charla. Un mensaje fue utilizado por la derecha, atacando el matrimonio entre personas del mismo sexo. "Es curioso que el mensaje resultó ser tan ofensivo y homofóbico, a pesar de que fue creado por un equipo de homosexuales", dice Wiley. - Estaba dirigido a personas conscientes. Había una imagen de un diccionario y la inscripción "Mira lo que significa el matrimonio, y vuelve a mí". Para una persona consciente, el mensaje parece convincente: el diccionario es la fuente del orden, y esa persona respeta la estructuración ".

En algún momento, la focalización psicométrica se mueve en el campo de la política de silbato de perro . Por ejemplo, las imágenes de pared han demostrado ser efectivas en campañas de inmigración. “A las personas conscientes les gusta la estructura, por lo tanto, desde su punto de vista, la solución al problema de la inmigración debe simplificarse, como lo ilustra el muro. Puede crear un mensaje que para algunas personas no tiene sentido, pero para otras está lleno de significado. Al demostrar esta imagen, algunas personas no entenderán que estamos hablando de inmigración, mientras que otras lo reconocerán de inmediato ”. Desde el punto de vista de Wiley, el verdadero problema era el "emparedado sin nada" político, esperando que se le pusiera algo. "A nadie le gusta un sándwich sin nada". Él dice que los datos deberían "descubrir un sabor o condimento particular" que hará que el sándwich sea atractivo.

Y aunque ciertamente era una máquina de focalización muy difícil, quedan preguntas sobre el modelo psicométrico de Cambridge Analytica, que Wiley probablemente no respondería mejor. Cuando Kogan presentó pruebas al Parlamento en abril, argumentó que era poco probable que el resultado fuera mejor que simplemente asignar calificaciones OCEAN al azar. Tal vez, por supuesto, esta pequeña diferencia sea suficiente, o tal vez Cambridge Analytica simplemente haya cambiado otro " aceite de serpiente ". E incluso si los individuos estuvieran correctamente etiquetados con estos cinco factores, ¿la selección de publicidad especializada era realmente tan simple para ellos como una apelación al amor por el orden, al miedo o a otra cosa?

Pero, considerando todo esto, todavía hay algo en él. Preste atención a la patente de 2012 para "determinar las características personales de un usuario en función de los mensajes en las redes sociales". "El almacenamiento de las características de la personalidad se puede utilizar como criterio objetivo para la publicidad, para aumentar la probabilidad de una interacción positiva del usuario con la publicidad", como se indica en la patente. El autor de la patente es el propio Facebook.

Source: https://habr.com/ru/post/es413903/


All Articles