Esqueça a privacidade: você ainda tem uma segmentação terrível

Não lamento deixar que seus programas examinem meus dados pessoais se, em troca disso, obtiver algo útil. Mas isso geralmente não acontece.

Meu ex-colega me disse: "Todo mundo adora coletar dados, mas ninguém gosta de analisá-los mais tarde". Essa afirmação pode ser chocante, mas as pessoas envolvidas na coleta e análise de dados descobriram isso. Tudo começa com uma idéia brilhante: coletaremos informações sobre cada clique que uma pessoa fizer em cada página do aplicativo! Vamos acompanhar quanto tempo eles refletem sobre uma escolha específica! Com que frequência eles usam o botão Voltar! Quantos segundos eles assistem ao nosso vídeo introdutório antes de desconectar! Quantas vezes eles compartilham nosso post nas redes sociais!

E eles acompanham tudo isso. O rastreamento é fácil. Adicione os logs, despeje-os no banco de dados e vá.

E depois o que? Bem, tudo isso terá que ser analisado. E como uma pessoa que analisou muitos conjuntos de dados relacionados a várias coisas, posso dizer: o trabalho de um analista é difícil e, em grande parte, ingrato (exceto pelo salário).

O problema é que praticamente não há maneiras de confirmar que você está certo (e também a definição de correção em si não é muito clara, sobre a qual abaixo). Quase nunca é possível tirar conclusões simples, apenas complexas - e conclusões complexas são propensas a erros. O que os analistas não estão falando é sobre quantas agendas erradas (e, consequentemente, conclusões) são feitas no caminho para as corretas. Ou para aqueles que pensamos estar certos. Uma boa programação é tão convincente que realmente não importa se é a correta ou não, se você só precisa convencer alguém. Talvez seja por isso que jornais, revistas e lobistas publicam tantas programações enganosas.

No entanto, adiamos o erro por um tempo. Assumimos uma irrealidade de que somos muito bons em analisar todo tipo de coisas diferentes. O que vem a seguir?

Bem, vamos ficar ricos em publicidade direcionada e algoritmos de recomendação pessoal. Afinal, é exatamente o que todo mundo faz!

Ou não?

Com recomendações pessoais, tudo é surpreendentemente ruim. Hoje, a primeira recomendação será um artigo com uma manchete atraente e altamente emocional sobre estrelas de cinema ou sobre o que Trump fez ou não nas últimas 6 horas. Ou não um artigo, mas um vídeo ou um documentário. Eu não quero ler ou assistir, mas às vezes isso me deixa sem graça - e depois bem-vindo ao apocalipse de recomendações, agora o algoritmo considera que eu gosto de ler sobre Trump, e agora Trump estará em todo lugar. Nunca dê um feedback positivo à IA.

A propósito, esse é um segredo terrível dos apoiadores do aprendizado de máquina: quase tudo o que o MO divulga pode ser obtido muito mais barato com a ajuda de heurísticas burras programadas manualmente, uma vez que o MO treina principalmente nos exemplos do que as pessoas fizeram após o inferno de uma heurística burra. Não há mágica aqui. Se você treinar um computador com a ajuda do MO para selecionar um currículo, ele o recomendará para entrevistar homens com os nomes de pessoas brancas, como o seu departamento de RH já faz . Se você perguntar a um computador que tipo de vídeo uma pessoa deseja assistir, ele recomendará algum tipo de lixo político de propaganda, já que em 50% dos casos, 90% das pessoas realmente assistem, sendo incapazes de se controlar - e essa é uma boa porcentagem de sucesso.

Observo que existem vários exemplos do excelente uso do MO para o que os algoritmos tradicionais lidam mal com o processamento de imagens ou a vitória em jogos estratégicos. Isso é ótimo, mas há todas as chances de seu aplicativo MO favorito se tornar um substituto caro para uma heurística idiota.

Uma pessoa que trabalha com pesquisa na Web me disse que já possui um algoritmo que garante a proporção máxima de cliques para visualizações de qualquer pesquisa: você só precisa fornecer uma página com links para pornografia. E alguém disse que essa situação pode ser encerrada e feita um detector de pornografia: qualquer link com alta clicabilidade, independentemente da solicitação, provavelmente leva à pornografia.

O problema é que empresas de aparência decente não podem constantemente fornecer links para pornografia, é "inseguro para assistir no trabalho", portanto, o trabalho dos algoritmos de recomendação mais modernos é retornar algo o mais próximo possível da pornografia, mas com isso é "seguro para ver no trabalho". Em outras palavras, estrelas (idealmente bonitas ou pelo menos controversas), políticos ou ambos. Eles chegam a essa fronteira o mais próximo possível, porque esse é o máximo local de sua lucratividade. Às vezes eles cruzam essa linha, precisam se desculpar ou pagar uma multa simbólica e, em seguida, tudo volta à estaca zero.

Isso me chateia, mas figos com ele, é apenas matemática. E talvez natureza humana. E capitalismo. Sim figos com ele, eu posso não gostar, mas eu posso entender.

Reclamo que nenhuma das opções acima está relacionada à coleta de minhas informações pessoais.

As recomendações mais quentes não têm nada a ver comigo


Sejamos honestos: o melhor anúncio segmentado será aquele que recebo de um mecanismo de pesquisa que me fornece exatamente o que eu estava procurando. E tudo está no ponto positivo: encontro o que estava procurando, o vendedor me ajuda a comprar seus produtos, o mecanismo de busca recebe dinheiro para mediação. Não conheço ninguém que reclamaria de tal anúncio. Este é um bom anúncio.

E ela também não tem nada a ver com minhas informações pessoais!

O Google fornece publicidade contextual baseada em pesquisa há mais de uma década, mesmo antes de começarem a me pedir para fazer login. Ainda hoje, uma pessoa pode usar qualquer mecanismo de pesquisa sem fazer login em sua conta. E eles ainda divulgam anúncios com base em consultas de pesquisa. Ótimos negócios.

No meu caso, outro anúncio funciona bem. Às vezes, jogo, uso o Steam e, às vezes, assisto jogos no Steam, marcando aqueles que pretendo comprar. Quando uma venda começa nesses jogos, o Steam me envia um e-mail de notificação e, às vezes, depois que eu os compro. Tudo está em mais: recebo o jogo desejado (com desconto!), O produtor do jogo recebe dinheiro, o Steam recebe o pagamento pela mediação. E também, se eu quiser, posso proibir o envio dessas cartas - mas não quero, porque este é um bom anúncio.

Mas ninguém teve que construir meu perfil para isso? O Steam tem minha conta, eu disse que jogos eu quero e o serviço os vendeu para mim. Isso não é criar um perfil, é apenas lembrar a lista que eu mesmo forneci.

A Amazon me mostra um aviso sugerindo que eu posso querer comprar alguns dos itens consumíveis que comprei no passado novamente. Isso também é útil e também não requer a criação de um perfil, exceto para lembrar as transações que eles já estão fazendo. E, novamente, todo mundo ganha.

A Amazon também recomenda produtos semelhantes aos que eu comprei ou produtos que estudei. Isso é aproximadamente 20% útil. Se eu acabei de comprar um monitor para o computador e você sabe que comprei, porque o comprei de você, você pode parar de tentar me vender monitores. Mas alguns dias depois de comprar os eletrônicos, eles também me oferecem cabos USB, o que provavelmente está correto. Então, tudo bem, 20% dos benefícios na segmentação são melhores que 0% dos benefícios. A Amazon deve ser elogiada por criar meu perfil útil, embora seja apenas um perfil do que eu fiz no site e não o compartilhe com ninguém. Isso não parece ser uma invasão de privacidade. Ninguém ficará surpreso que a Amazon se lembre do que eu comprei deles ou do que eu assisti.

Acontece pior quando os vendedores decidem que eu posso querer algo. E eles decidem isso porque eu fui ao site deles e olhei para alguma coisa. Então, seus parceiros de publicidade me perseguem por toda a web, tentando vendê-lo para mim. E eles fazem isso, mesmo que eu já tenha comprado. A ironia é que tudo isso se deve a tentativas incertas de proteger minha privacidade. O vendedor não distribui informações sobre mim e minhas transações para seus parceiros de publicidade (caso contrário, há toda a chance de que, do ponto de vista legal, eles tenham problemas), para que o parceiro de publicidade não saiba que eu comprei os produtos. Ele só sabe (por causa do rastreador de um parceiro instalado no site do vendedor) que eu olhei para o item, para que eles continuem a anunciar para mim, apenas por precaução.

OK, agora estamos chegando a um tópico interessante. O anunciante tem um rastreador que ele coloca em sites diferentes para me rastrear. Ele não sabe o que eu comprei, mas ele sabe o que eu estava vendo, talvez por muito tempo e em muitos sites.

Usando essas informações, sua IA cuidadosamente treinada tira conclusões sobre o que mais eu gostaria de ver com base em ...

E com base em quê? Pessoas como eu? As coisas que meus amigos do Facebook estão vendo? Algum tipo de fórmula matricial complexa que as pessoas não conseguem entender, mas que funciona 10% melhor?

Provavelmente não. Ele provavelmente adivinha apenas meu sexo, idade, nível de renda e estado civil. E então, se eu sou um cara, ele me vende carros e acessórios, e se ela é uma garota, são coisas da moda. Não porque todos os caras adoram carros e acessórios, mas porque uma pessoa completamente não criativa entrou nesse processo e disse: "venda meu carro principalmente para homens" e "venda minhas roupas principalmente para mulheres". Talvez a IA tire conclusões com base em dados demográficos incorretos (eu sei que o Google está errado na minha conta), mas isso não importa, porque geralmente acaba sendo mais correto, o que é melhor do que 0%, e os anunciantes na maior parte, anúncios segmentados demograficamente, o que é melhor do que segmentar com uma eficiência de 0%.

Você entende que tudo funciona assim? Bem, com certeza. Isso pode ser confirmado com base na eficiência do anúncio. Cada pessoa, em alguns segundos, consegue se lembrar de algo que queria comprar, mas o Algoritmo não pôde oferecer, enquanto a plataforma de publicidade Outbrain ganha muito dinheiro vendendo links para o seguro de carro para pessoas que não têm carro. Também poderia ter sido um comercial de televisão dos anos 90, exibido tarde da noite, quando você pudesse ter certeza do meu perfil demográfico com base no fato de que eu ainda não dormi.

Você me segue em todos os lugares, anota todas as minhas ações em seus registros para sempre, substitui alguém para roubar seu banco de dados, teme desesperadamente que alguma nova lei da UE possa destruir seus negócios ... E tudo por causa disso?

Astrologia estatística


Obviamente, tudo não é tão simples como descrito. Em cada um dos sites que visito, mais de uma empresa me acompanha. Essas empresas têm uma carruagem e todas elas me acompanham em todos os sites visitados. Alguns deles nem se envolvem em publicidade, simplesmente rastreiam e depois vendem essas informações de rastreamento para anunciantes que parecem estar usando essas informações para melhorar a segmentação.

Ecossistema impressionante. Vamos dar uma olhada nos sites de notícias. Por que eles estão carregando tão lentamente? Por causa dos rastreadores. Não por causa dos anúncios - por causa dos rastreadores. Existem apenas alguns anúncios que geralmente não demoram muito para carregar. Mas existem vários rastreadores, pois cada um deles paga um pouco para que eles possam rastrear visualizações de cada página. Se você é um publicador gigante que está à beira da falência e já possui 25 rastreadores em seu site, e a 26ª empresa de telefonia telefona para você e promete pagar US $ 50 mil por ano por adicionar outro rastreador a eles, você os recusará ? Sua página já está apenas girando e girando, portanto, desacelerar o download em outro 1/25 não mudará nada, mas US $ 50 mil podem.

("Bloqueadores de anúncios" removem anúncios irritantes, mas eles também aceleram a Web, principalmente removendo rastreadores. Vergonha - os rastreadores não precisam diminuir o download, mas eles diminuem o ritmo, porque seus desenvolvedores certamente são idiotas, cada um dos quais precisa baixar milhares de linhas Código JavaScript para o que pode ser feito em duas linhas, mas isso é outra história).

E então, vendedores de anúncios e redes de anúncios compram dados de rastreamento de rastreadores. Quanto mais dados de rastreamento eles tiverem, melhor eles poderão gerenciar os anúncios, certo? Bem, provavelmente.

E o mais engraçado é que cada rastreador tem alguns dados sobre você, mas nem todos, já que cada rastreador não está em todos os sites. Por outro lado, é bastante difícil comparar a atividade das pessoas entre diferentes rastreadores, pois nenhum deles deseja fornecer seu ingrediente secreto. Portanto, cada vendedor de publicidade faz todos os esforços para comparar todos os dados de todos os rastreadores que eles compram, mas basicamente isso não funciona. Digamos que temos 25 rastreadores, cada um deles acompanha um milhão de usuários e, talvez, muitos dados estejam sobrepostos lá. Em um mundo racional, alguém poderia imaginar que esses dados são descritos por vários milhões de usuários individuais. Mas em um mundo louco, onde é impossível provar a sobreposição, pode haver 25 milhões de usuários! Quanto mais rastreadores de dados sua rede de publicidade comprar, mais informações você terá! Eu acho! Isso significa que a segmentação está melhorando! Talvez! Portanto, você deve comprar anúncios da nossa rede, e não de outra rede com menos dados! Bem, aparentemente!

Mas tudo isso não funciona. Eles ainda estão tentando me vender seguro de carro para o metrô.

E não se trata apenas de publicidade


Muitas coisas relacionadas à publicidade direcionada, obviamente, não funcionam - se alguém pelo menos uma vez parou e analisou cuidadosamente tudo isso. Mas muitas pessoas têm um incentivo para pensar o contrário. Mas se você se importa com sua vida pessoal, tudo se resume ao fato de eles ainda continuarem a coletar suas informações pessoais, esse método funciona ou não.

E os algoritmos de recomendação de conteúdo? Eles trabalham?

Obviamente não. Você já experimentou? Na verdade

Ok, isso não é totalmente justo. Algumas coisas funcionam. As recomendações musicais do serviço Pandora inesperadamente funcionam bem , mas fazem isso de uma maneira completamente não óbvia. A maneira mais óbvia é pegar a lista de músicas que seus usuários estão ouvindo, enviá-la para o conjunto de treinamento para a região de Moscou e usar o resultado para compilar uma lista de músicas para novos usuários com base no perfil deles? Bem, eles não têm um perfil, apenas entraram. Talvez com base em algumas das primeiras músicas que eles selecionam manualmente? Talvez, mas eles provavelmente começaram com uma música muito popular que não diz nada, ou uma música muito rara para verificar a vastidão do seu banco de dados, o que indica menos ainda.

Tenho certeza que o Mixcloud funciona dessa maneira. Após cada mix, o serviço tenta encontrar o mix “mais semelhante” para continuar. Geralmente, essa é outra pessoa que baixou exatamente o mesmo mix. O primeiro mix acaba sendo o mais semelhante a esse mix, e é por isso que o produz. Incrível, aprendizado de máquina, mantenha o bom trabalho.

Isso nos leva ao sistema de “música aleatória, dedo para cima / dedo para baixo” que todo mundo usa. Mas todos, exceto Pandora, estão indo mal. Porque Aparentemente, porque o Pandora codifica manualmente por muito tempo o carro das características da música e escreve "algoritmos reais" (não MOs) que tentam produzir listas de músicas com base na combinação correta dessas características.

Nesse sentido, Pandora não pode ser chamado de puro mo. Geralmente, produz uma lista de músicas que você gosta depois de um ou dois dedos para cima / para baixo, enquanto viaja por uma rede coesa multidimensional de músicas que as pessoas construíram com muito trabalho, e não por uma matriz maciça de listas medíocres de músicas tiradas de pessoas comuns que não gostam tente gerar essas listas de músicas. O Pandora falha muitas coisas (especialmente o “acesso no Canadá”), mas suas recomendações musicais funcionam muito bem.

Há apenas uma captura. Se o serviço Pandora é capaz de fornecer uma boa lista de músicas com base na primeira e em algumas classificações, parece-me que ele não cria seu perfil. E ele não precisa de suas informações pessoais.

Netflix


E, para não me levantar duas vezes, vou falar um pouco sobre a Netflix - um estranho caso de desenvolvimento que começou com um algoritmo de recomendação muito bom, que foi então especialmente piorado.

Era uma vez um prêmio da Netflix de US $ 1 milhão prometido à melhor equipe capaz de prever as classificações de filmes classificadas por uma pessoa com base nas classificações já colocadas e com maior precisão do que na própria Netflix. E isso, de maneira não inesperada, levou a um fiasco com privacidade quando se descobriu que os conjuntos de dados publicados podem ser desanonimizados. Sim, é isso que leva ao armazenamento a longo prazo de informações pessoais de pessoas no banco de dados.

A Netflix acreditava que seus negócios dependiam de um bom algoritmo de recomendação. Já era muito bom: lembro-me de usar a Netflix há 10 anos e recebi algumas recomendações para filmes que eu nunca teria encontrado, mas ao mesmo tempo gostei deles. Mas isso não acontece comigo na Netflix há muito, muito tempo.

A história é a seguinte: a Netflix já foi um serviço de correspondência em DVD. O envio de DVDs pelo correio é lento, por isso era absolutamente necessário que pelo menos um filme em CDs que acontecesse uma vez por semana fosse interessante o suficiente para entretê-lo na sexta à noite. , . . , , , , , , .

Mas, no final, a Netflix entrou na rede, e o custo de más recomendações caiu drasticamente: pare de assistir e mude para um novo filme. Além disso, era perfeitamente normal quando muitas pessoas assistiam a um blockbuster. E ainda melhor, porque eles podem armazená-lo em cache do provedor, e o cache funciona melhor quando as pessoas são todas chatas e com média de desempenho.

Pior, a Netflix percebeu um padrão: quanto mais horas por semana as pessoas assistem a filmes, menor a probabilidade de recusar o serviço. E isso faz sentido: quanto mais tempo você gasta no Netflix, mais "precisa" dele. E quando novos usuários testam o serviço por uma taxa quase fixa, uma alta taxa de retenção leva a um crescimento mais rápido.

Aprendi isso ao mesmo tempo em que encontrei a palavra satisfatória [ satisfying () suffice () / . .] – , . Netflix , . , , 80% 20% , , 0% , 99%, . .

O ponto principal é que você não precisa criar um perfil de risco que viole a privacidade do usuário para recomendar um filme convencional. Tais filmes são projetados especialmente para serem inofensivos para quase todos. Minha tela de recomendações do Netflix não é mais “recomendada para você”, são “novos lançamentos” e, em seguida, “agora em tendência” e “revisar novamente”.

A Netflix, como prometido, pagou US $ 1 milhão pelo algoritmo de recomendação vencedor, que foi ainda melhor do que antes. Mas, em vez de usá-lo, jogaram fora.

Alguns queridos especialistas em testes A / B determinaram que é isso que me faz assistir a programas de TV irracionais por mais horas por dia. Seus lucros estão crescendo. E para isso eles nem precisam invadir minha vida pessoal.

, , ?

Source: https://habr.com/ru/post/pt439338/


All Articles