O informante Christopher Wiley explica a ciência por trás da missão da Cambridge Analytica de transformar pesquisas e dados do Facebook em armas políticas

Como 87 milhões de posts gerados no Facebook se transformaram em uma campanha publicitária que poderia mudar o resultado da eleição? O que está incluído no procedimento para coletar tantos dados? O que esses dados nos dizem sobre nós mesmos?
O escândalo com a Cambridge Analytica levantou muitas questões, mas para muitos, a proposta única de venda da empresa, que na semana passada anunciou seu fechamento, permanece um mistério.
Especialmente para os 87 milhões de pessoas interessadas no que exatamente aconteceu com seus dados, fui esclarecer com Christopher Wiley, um ex-funcionário da empresa, que contou a todos sobre o Observer sobre suas ações problemáticas. Segundo Wiley, para esse trabalho, você precisa de muito pouca informação sobre a ciência do processamento de dados, mulheres ricas entediadas e psicologia humana.
O primeiro passo, ele explicou por telefone, tentando pegar o trem: "Ao criar o algoritmo, você primeiro precisa coletar um conjunto de dados de teste". Ou seja, não importa o quão tecnologias sofisticadas serão usadas para coletar dados - primeiro você precisa coletá-las da maneira antiga e boa. Antes de começar a usar os gostos do Facebook para prever o perfil psicológico de uma pessoa, é necessário que várias centenas de milhares de pessoas passem por uma pesquisa psicológica de 120 perguntas.
O conjunto de testes incluirá todos os dados de uma vez: curtidas no Facebook, testes psicológicos e tudo mais, com base no qual você deseja aprender. Mais importante, ele deve conter um "conjunto de recursos característicos": "Dados básicos com base nos quais você deseja fazer previsões", diz Wiley. "No nosso caso, são dados do Facebook, mas podem ser textos em linguagem natural ou dados de cliques", é um registro completo de sua atividade online. "Tudo isso são dados que podem ser usados para previsões."
Por outro lado, você precisará das suas “variáveis-alvo”, diz Wiley, “o que você está tentando prever. Nesse caso, características pessoais, orientação política e tudo mais. ”

Se você usar uma coisa para prever outra coisa, uma revisão dessas duas coisas poderá ajudá-lo. "Se você precisa conhecer o relacionamento entre os gostos do Facebook no seu conjunto de recursos e as qualidades pessoais como variáveis-alvo, precisa vê-los ao mesmo tempo", diz Wiley.
Os dados do Facebook que sustentam a história do
Cambridge Analytica são um recurso bastante abundante em termos da ciência do processamento de dados - e ainda mais em 2014 quando Wiley começou a trabalhar nessa área. Coletar qualidades pessoais é muito mais difícil: apesar das conclusões que podem ser tiradas da popularidade dos questionários no
BuzzFeed , é bastante difícil conseguir que uma pessoa complete um teste de 120 perguntas (esse é o tamanho de uma versão curta de uma das pesquisas psicológicas padrão,
IPIP-NEO ).
Mas "bastante difícil" é um conceito relativo. “Para algumas pessoas, a motivação para responder à pesquisa foi financeira. Se você é estudante ou está procurando emprego, ou apenas quer ganhar US $ 5, então isso é motivação. ” Realmente para a pesquisa, de acordo com Wiley, eles distribuíram de US $ 2 a US $ 4. Era esperado um aumento de valor para "grupos mais difíceis de alcançar". A menor probabilidade de aprovação na pesquisa e, portanto, a maior recompensa foi atribuída aos negros americanos. “Outras pessoas são entrevistadas porque estão interessadas ou por tédio. Portanto, tivemos uma enumeração de dados sobre mulheres brancas ricas. Se você mora em Hamptons [Área Habitacional Elite de
Long Island / aprox. trad.] e você não tem nada para fazer durante o dia, preenche pesquisas de pesquisas com consumidores. ”
Os questionários pessoais usam 120 perguntas para construir um perfil de personalidade em cinco eixos diferentes - este é o modelo dos “cinco fatores”, chamado “OCEAN” no jargão, uma abreviação de “abertura a novas experiências, consciência, extroversão, desejo de gostar e neuroticismo” [abertura à experiência , consciência, extroversão, agradabilidade, neuroticismo].
O modelo divide as qualidades pessoais em grupos, os quais, aparentemente, são preservados em diferentes culturas e em diferentes momentos. Assim, por exemplo, as pessoas que se descrevem como "barulhentas" provavelmente se descrevem como "comunicativas". Se eles concordarem com essa descrição hoje, concordarão com ele em um ano. É provável que esses grupos se manifestem em qualquer idioma. E se uma pessoa reagir negativamente a alguma coisa, ela terá diferenças óbvias e visíveis das pessoas que reagem positivamente.
Essas propriedades do modelo o tornam útil para criar um perfil de pessoas, diz Wiley - ao contrário de outros perfis psicológicos populares, como a
tipologia de Myers-Briggs . Na fase de verificação do estudo, o Facebook praticamente não foi afetado. Pesquisas foram oferecidas em sites comerciais de mineração de dados - primeiro na plataforma Amazon Mechanical Turk, depois através do operador Qualtrics (os operadores, de acordo com Wiley, foram alterados porque a Amazon tem um problema com os usuários que desejam muito preencher questionários - como resultado, os resultados das pesquisas são distorcidos )
“Não apenas lei - responsabilidade / defender a segunda alteração ”
Anúncios destacados da campanha Cambridge AnalyticaO Facebook se conectou apenas no final. Para receber o pagamento pelo preenchimento do questionário, os usuários precisavam fazer login no site e permitir o acesso aos dados do aplicativo de pesquisa, criados por Alexander Kogan, cientista da Universidade de Cambridge. Sua pesquisa sobre construção de personalidade semelhante ao Facebook deu à Cambridge Analytica, patrocinada por
Robert Mercer , a chance perfeita de entrar no mercado rapidamente. Kogan afirma que a Cambridge Analytica garantiu a ele o uso adequado dos dados e diz que ele foi usado "como o bode expiatório do Facebook e da Cambridge Analytica".
Para o usuário cujos dados foram coletados, o processo foi rápido: "Clique no aplicativo, obtenha o código do dinheiro". Mas nesses poucos segundos muitas coisas importantes aconteceram. Em primeiro lugar, o aplicativo coletou todos os dados possíveis sobre o usuário. O perfil psicológico é a variável alvo, e os dados do Facebook são um "conjunto de características": informações coletadas pelo especialista em processamento de dados para todos os usuários, que ele usará para prever com precisão os recursos que lhe interessam.
O aplicativo também coletou informações personalizadas como nome real, localização, contatos - algo que não foi encontrado nos sites de pesquisa. "Isso significa que as informações podem ser comparadas com uma pessoa real, e suas informações podem ser comparadas com o registro de eleitores".
Em segundo lugar, o aplicativo fez o mesmo para todos os amigos do usuário que o instalou. De repente, centenas de milhares de pessoas pelas quais você pagou alguns dólares para preencher um questionário e cuja identidade é um mistério se transformaram em milhões de pessoas cujos perfis no Facebook são um livro aberto.
É neste momento que a última transformação ocorre. Como transformar centenas de milhares de perfis pessoais em vários milhões? Utilizando grandes capacidades de computador e uma enorme tabela de oportunidades. "Embora sua amostra inclua 300.000 pessoas, seu conjunto de recursos já é de 100 milhões", diz Wiley. Cada curtida do Facebook em um conjunto de dados se torna uma coluna separada nessa enorme matriz. "Mesmo se houver uma ocorrência para todo o conjunto, isso já será um recurso."
"Então todos os dados são coletados em um modelo complexo", diz Wiley. - Neste ponto, você está usando famílias diferentes ou abordagens para o aprendizado de máquina, pois cada uma delas tem suas próprias forças e fraquezas. E então eles meio que votam, e você mistura os resultados e dá uma conclusão. ” Nesse ponto, a ciência do processamento de dados está se tornando uma arte: o conjunto exato de dados de entrada em cada uma das abordagens não é esculpido em granito e não há uma maneira "certa" de coletá-los. No mundo acadêmico, isso às vezes é chamado de "treinamento de pós-graduação" - o momento após o qual tudo o que resta é fazer o que seguir em frente por tentativa e erro. E, no entanto, funcionou muito bem e, no final, de acordo com Wiley, "criamos 253 algoritmos, ou seja, existiam 253 previsões para cada registro de perfil". O objetivo foi alcançado: um modelo que, de fato, é capaz de tirar gostos do Facebook e, trabalhando na direção oposta, preencher todas as colunas da tabela, adivinhando as qualidades pessoais da pessoa, suas predileções políticas etc.
Até o final de agosto de 2014, Wiley recebeu os primeiros resultados bem-sucedidos: 2,1 milhões de registros com um perfil recriado para 11 estados-alvo dos EUA. O plano era usar os dados para criar e melhorar as mensagens publicitárias na campanha republicana patrocinada por Mercer e
Stephen Bannon e alcançar as
primárias de 2016 (Wiley deixou a empresa diante delas). "Esse número não apenas indica todas as pessoas para as quais coletamos dados do Facebook, dados de votação e dados do consumidor, mas também criamos 253 previsões adicionadas ao seu perfil".
Essas 253 previsões foram o "ingrediente secreto" que a Cambridge Analytica apresentou como uma oferta única aos consumidores. Usando apenas os dados do Facebook, os anunciantes são confrontados com amostras demográficas muito amplas e várias categorias mais estreitas definidas algoritmicamente - você gosta, digamos, de jazz ou seu time de futebol favorito? Mas, com 253 previsões, a Cambridge Analytica poderia, de acordo com Wiley, ajustar anúncios como nenhum outro: um voto extrovertido neurótico e facilmente concordante para os democratas não seria suscetível a essa publicidade como um introvertido intelectual emocionalmente estável, mesmo que os mesmos mensagens, se trocadas, teriam o efeito oposto.
Wiley menciona uma declaração política tão reconfortante do candidato quanto o desejo de aumentar o número de empregos. “Os empregos na economia são um bom exemplo de uma declaração sem sentido. Em economia, todos são a favor de oportunidades de emprego. Portanto, o uso da declaração simples “Defendo vagas na economia” ou “Tenho um plano para corrigir a situação com vagas na economia”, não permite que você seja diferente do seu oponente. ”
"Mas descobrimos que, se olharmos para o que o conceito de vagas significa para cada pessoa, verifica-se que pessoas diferentes são afetadas por projetos diferentes, com diferentes motivações e um conjunto de valores".
Na prática, isso significa que a mesma conversa pode ser expressa de maneira diferente para pessoas diferentes, dando a impressão de que um candidato influencia os eleitores em um nível emocional. “Se você estiver conversando com uma pessoa consciente - com notas altas para o parâmetro C no modelo OCEAN [honestidade, integridade] -, estará falando de oportunidades para alcançar o sucesso e da responsabilidade que o local de trabalho carrega. Se esta é uma pessoa aberta, você está falando sobre a possibilidade de crescer como pessoa. Com um neurótico, você confia na segurança que o local de trabalho dará à família. ”
Devido à natureza de rede das campanhas modernas, teoricamente todas essas mensagens podem ser entregues simultaneamente a diferentes públicos. No final da campanha, quando as mensagens já estão enraizadas, elas podem ser automatizadas usando um algoritmo que vasculha o dicionário em busca da combinação perfeita de palavras para cada um dos subgrupos.
"Veja o que significa casamento e volte para mim / porque as tradições não estão desatualizadas"
Anúncios destacados da campanha Cambridge AnalyticaObviamente, isso não é 100% conversa. Uma mensagem foi usada pelo direito, atacando o casamento entre pessoas do mesmo sexo. "É engraçado que a mensagem tenha sido tão ofensiva e homofóbica, apesar de ter sido criada por uma equipe de homossexuais", diz Wiley. - Foi destinado a pessoas conscientes. Havia uma imagem de um dicionário e a inscrição "Veja o que significa casamento e volte para mim". Para uma pessoa consciente, a mensagem parece convincente: o dicionário é a fonte da ordem e essa pessoa respeita a estrutura.
Em algum momento, o direcionamento
psicométrico entra no campo
da política de apito de cães . Por exemplo, imagens de parede se mostraram eficazes em campanhas de imigração. “Pessoas conscientes gostam de estrutura, portanto, do ponto de vista deles, a solução para o problema da imigração deve ser simplificada, como ilustrado pelo muro. Você pode criar uma mensagem que para algumas pessoas não faz sentido, mas para outras é cheia de significado. Ao demonstrar essa imagem, algumas pessoas não entenderão que estamos falando sobre imigração, enquanto outras a reconhecerão imediatamente. ” Do ponto de vista de Wiley, o verdadeiro problema era o “sanduíche sem nada” político, esperando que algo fosse colocado nele. "Ninguém gosta de um sanduíche sem nada." Ele diz que os dados devem "descobrir um sabor ou tempero específico" que tornem o sanduíche atraente.
E, embora certamente tenha sido uma máquina de direcionamento muito difícil, ainda restam dúvidas sobre o modelo psicométrico da Cambridge Analytica - que Wiley provavelmente não responderia melhor. Quando Kogan apresentou evidências ao Parlamento em abril, ele argumentou que era improvável que o resultado fosse melhor do que apenas atribuir aleatoriamente classificações do OCEAN. Talvez, é claro, essa pequena diferença seja suficiente, ou talvez a Cambridge Analytica tenha simplesmente negociado outro "
óleo de cobra ". E mesmo que os indivíduos fossem rotulados corretamente com esses cinco fatores, a seleção de publicidade especializada era realmente tão simples para eles como um apelo a um amor à ordem, ao medo ou a outra coisa?
Mas, considerando tudo isso, ainda há algo nele. Preste atenção na patente de 2012 por “determinar as características pessoais de um usuário com base em mensagens nas redes sociais”. "O armazenamento de características de personalidade pode ser usado como critério de destino para publicidade, para aumentar a probabilidade de uma interação positiva do usuário com a publicidade", conforme indicado na patente. O autor da patente é o próprio Facebook.