Um dos paradoxos das plataformas modernas da Internet é que, embora sejam substancialmente automatizadas e o conteúdo que os usuários finais veem seja mostrado sem nenhuma moderação humana, eles dependem completamente do comportamento humano, porque de fato, eles apenas observam, recebem informações e tiram conclusões com base nas ações de centenas de milhões ou bilhões de pessoas.
A origem desse princípio foi o PageRank. Em vez de confiar em regras criadas manualmente que forneceriam um entendimento do significado de cada página individual ou trabalhar com o texto original, o PageRank observa o que exatamente as pessoas fizeram ou disseram sobre essa página. Quem está de alguma forma conectado a ele, qual texto eles usaram e quem está conectado às pessoas associadas a esta página? Ao mesmo tempo, o Google oferece a cada usuário a capacidade de classificar (indexar, classificar) cada conjunto de resultados de pesquisa manualmente: você recebe 10 links azuis e diz ao Google qual é o mais adequado. O mesmo vale para o Facebook: o Facebook realmente não sabe quem você é ou em que está interessado ou sobre o que é esse ou aquele conteúdo. Mas ele sabe quem você está seguindo, o que você gosta, quem mais, mas você gosta disso e do que mais eles gostam e do que se inscreveram. O Facebook é um PageRank voltado para o ser humano. Em geral, o mesmo se aplica ao YouTube: ele nunca sabia do que se tratava o vídeo, mas apenas o que as pessoas escreviam sob ele e o que mais assistiam e gostavam.
Na sua essência, esses sistemas são enormes "turcos mecânicos". Afinal, eles absolutamente não entendem o conteúdo do conteúdo com o qual trabalham, estão apenas tentando criar, capturar e transmitir o sentimento humano em relação a esse conteúdo. São enormes sistemas de computação distribuídos nos quais as pessoas atuam como processadores, e a própria plataforma é uma combinação de roteadores e interconexões. (Isso me lembra um pouco a idéia do livro “Guia do Mochileiro das Galáxias” de que toda a Terra é realmente um computador enorme que executa determinadas funções e que nossas atividades diárias fazem parte dos cálculos).
Isso significa que grande parte do design do sistema está atrelada a encontrar os pontos ideais de aplicação dos recursos humanos ao trabalhar com um sistema automatizado. Você está capturando o que já está acontecendo? Então o Google começou a usar links que já existiam. Você precisa estimular a atividade para revelar seu valor? O Facebook precisou criar uma atividade para poder se beneficiar. Talvez você dependa fortemente de recursos humanos? Essa abordagem é usada no Apple Music, com suas listas de reprodução selecionadas manualmente, que são automaticamente emitidas para dezenas de milhões de usuários. Ou você tem que pagar às pessoas para fazer tudo?
Inicialmente, o Diretório de recursos da Internet do Yahoo era uma tentativa de adotar a abordagem "pagar as pessoas para fazer tudo" - o Yahoo pagava as pessoas para catalogar toda a Internet. No começo, parecia viável, mas como a Internet cresceu muito rápido, logo se mostrou um grande desafio e, quando o Yahoo se rendeu, o tamanho do catálogo já ultrapassava 3 milhões de páginas. PageRank resolveu esse problema. Pelo contrário, o Google Maps usa um grande número de carros com câmeras controladas por pessoas (por enquanto) e dirige quase todas as ruas do mundo e muitas outras pessoas olham para essas fotos, e isso não é uma tarefa esmagadora - apenas custa muito. O Google Maps é um "turco mecânico" privado. Agora, estamos investigando exatamente a mesma pergunta, falando sobre moderação de conteúdo por pessoas - quantas dezenas de milhares de pessoas serão necessárias para visualizar cada postagem e quanto essa tarefa pode ser automatizada? Essa tarefa é esmagadora ou sua implementação é muito cara?
Se você considerar essas plataformas como usando bilhões de pessoas para fazer computação real, isso deve levantar duas questões interessantes: quais vulnerabilidades existem nessas plataformas e como o aprendizado de máquina pode mudar essa área?
No passado, quando pensávamos em invadir sistemas de computadores, tínhamos a ideia de várias vulnerabilidades técnicas - senhas roubadas ou fracas, vulnerabilidades abertas em sistemas, bugs, estouros de buffer, injeções de SQL. Representamos "hackers" procurando por falhas no software. Mas, se você imaginar que o YouTube ou o Facebook são sistemas de computador distribuídos nos quais o software usual atua como roteadores, mas as pessoas desempenham o papel de processadores, qualquer invasor imediatamente pensa em encontrar vulnerabilidades não apenas no software, mas também nas pessoas. Os vieses cognitivos típicos começam a desempenhar o mesmo papel que os defeitos típicos do software.
Na verdade, existem duas maneiras de roubar um banco - você pode ignorar o sistema de alarme e pegar uma chave mestra para um cofre, ou pode subornar um funcionário do banco. Em cada um desses exemplos, o sistema falhou, mas agora um dos sistemas é você e eu. Portanto, como escrevi neste artigo sobre a recente mudança do curso do Facebook em relação à privacidade e segurança do usuário, a moderação do conteúdo das pessoas que vivem nessas plataformas é inerentemente semelhante ao trabalho dos antivírus, que começaram a se desenvolver rapidamente em resposta ao aparecimento de malware no Windows há duas décadas. . Uma parte do computador está observando se a outra parte está fazendo algo que não deveria.
Mesmo que não falemos sobre invasão deliberada de sistemas, há outros problemas que surgem ao tentar analisar a atividade de uma pessoa com a ajuda de outra pessoa. Portanto, quando você começa a usar um computador para analisar outro computador, corre o risco de criar loops de feedback. Isso se reflete em conceitos como "bolha do filtro", "radicalização do YouTube" ou spam de pesquisa. Ao mesmo tempo, um dos problemas encontrados pelo Facebook é que, às vezes, a disponibilidade e a produção de uma grande quantidade de dados compensam o valor desses dados. Chamaremos isso de problema de sobrecarregar o feed de notícias: por exemplo, você tem 50 ou 150 amigos e publica 5 ou 10 entradas todos os dias, ou algo assim, mas todos os seus amigos fazem exatamente o mesmo e agora você tem 1.500 entradas em seu feed todos os dias. Número Dunbar + Lei Zuckerberg = sobrecarga ... o que nos leva à Lei Goodhart.
"Qualquer padrão estatístico observado é propenso à destruição assim que é exercida pressão sobre ele para controlá-lo." - Charles Goodhart
No entanto, como o aprendizado de máquina pode fazer a diferença? Anteriormente, eu já disse que a principal dificuldade é como usar os recursos humanos para trabalhar com o software da melhor maneira possível, embora exista outra opção - deixe o computador fazer todo o trabalho. Até muito recentemente, as dificuldades e os motivos pelos quais esses sistemas existiam consistiam principalmente na presença de uma grande classe de tarefas que os computadores não podiam resolver, embora as pessoas os resolvessem instantaneamente. Chamamos isso de “tarefas fáceis para uma pessoa, mas difíceis para um computador”, mas, na realidade, eram tarefas fáceis para uma pessoa, mas que uma pessoa é praticamente incapaz de descrever para um computador. Um recurso inovador do aprendizado de máquina é que ele permite que os próprios computadores desenvolvam a descrição necessária.
O quadrinho abaixo (direto de 2014, justamente quando os sistemas de aprendizado de máquina e visão computacional começaram a se desenvolver rapidamente) ilustra perfeitamente essas mudanças. A primeira tarefa foi facilmente realizada, ao contrário da segunda, pelo menos até o advento do aprendizado de máquina.

A maneira antiga de resolver esse problema é encontrar pessoas que classifiquem a imagem - recorrer a algum tipo de crowdsourcing. Em outras palavras, use um "turco mecânico". Hoje, porém, talvez não seja mais necessário que alguém olhe para essa imagem, porque, com a ajuda do aprendizado de máquina, muitas vezes podemos automatizar a solução desse problema em particular.
Então: quantos problemas você poderia resolver antes de usar uma análise das ações de milhões ou centenas de milhões de pessoas que agora você pode resolver usando o aprendizado de máquina e geralmente sem a necessidade de envolver os usuários?
Obviamente, há alguma contradição nisso, porque no aprendizado de máquina você sempre precisa de uma grande quantidade de dados. Obviamente, nesse caso, alguém poderia dizer que, se você possui uma plataforma grande, possui automaticamente muitos dados; portanto, o processo de aprendizado de máquina também será mais fácil. Isso é definitivamente verdade, pelo menos no começo, mas acho que não seria inapropriado perguntar quantas tarefas poderiam ser resolvidas apenas com a ajuda dos usuários existentes. No passado, se você tivesse uma foto de gato, ela só poderia ser marcada como "gato" se você tivesse usuários suficientes e um deles olharia para essa foto em particular e a marcaria. Hoje, você não precisa de usuários reais para processar essa imagem específica de um gato - basta ter outros usuários, em qualquer lugar do mundo, em algum momento no passado que já tenham classificado outras imagens com gatos para gerar o modelo de reconhecimento necessário.
Essa é apenas outra maneira de fazer o melhor uso dos recursos humanos: em qualquer caso, você precisa de pessoas para classificar objetos (e escrever regras pelas quais as pessoas os classificarão). Mas aqui já estamos mudando a alavanca e, possivelmente, mudando radicalmente o número de pessoas necessárias e, portanto, as regras do jogo, em certa medida, estão mudando devido ao efeito de "o vencedor ganha tudo". No final, todas essas redes sociais de grande escala da plataforma são apenas enormes coleções de dados classificados manualmente, pois, no final, o copo está meio cheio ou meio vazio? Por um lado, está meio cheio: eles têm à sua disposição a maior coleção de dados classificados manualmente (em seu campo de atividade específico). Por outro lado, o copo está meio vazio: esses dados foram selecionados e classificados manualmente.
Mesmo onde os dados poderiam formar uma dessas plataformas (o que, provavelmente, isso não acontecerá - certamente não acontecerá - como escrevi aqui ), eles ainda se tornariam, bem, uma plataforma. Assim como a AWS, que permitiu que as startups que não precisavam mais de milhões de usuários tivessem economias de escala para sua infraestrutura, a criação dessas ferramentas significaria que você não precisaria mais de milhões ou bilhões de usuários para reconhecer um gato. Você pode automatizar o processo.
Tradução: Alexander Tregubov
Edição: Alexey Ivanov
Comunidade: @ponchiknews