Enquanto os robôs não conseguem falar como os humanos. Mas os pesquisadores de IA do Facebook já estão penetrando ativamente nessa área; isso pode afetar seriamente os mensageiros da empresa, e não apenas

Os chatbots foram um tópico muito popular em 2015. Um dos mais populares era o M do Facebook, que, de acordo com os planos da empresa, deveria se tornar um robô de uso geral flexível, capaz de muitas coisas - encomendar mercadorias, entregar presentes, reservar mesas em um restaurante e planejar viagens. No entanto, o hype era alto demais para o resultado. Quando o Facebook testou seu M para 2500 pessoas da área da baía de San Francisco, o programa não lidou com a maioria das tarefas atribuídas a ele.
Após a primeira explosão de entusiasmo em relação a M e outros chatbots (a diretora da Microsoft, Satya Nadella,
afirmou que “os chatbots são novos aplicativos”), uma onda de
decepções se seguiu. Os chatbots conversaram mal e gravitaram em direção a robôs. Isso ocorre porque eles foram ensinados a falar sobre tópicos muito restritos e a executar tarefas muito específicas. Eles não foram capazes de manter uma conversa natural com as pessoas, de dar respostas com base no entendimento das palavras e do seu significado. Eles só poderiam emitir observações gerais.
Mesmo antes de M entrar na fase de testes beta, o Facebook reduziu seus planos grandiosos para esse bot, embora a tecnologia de linguagem parcialmente natural tenha caído nos chatbots menos ambiciosos do messenger do Facebook Messenger, capaz de executar tarefas simples e simples, como pedir um pedido de comida ou dar uma resposta da lista perguntas e respostas. Empresas como American Express e 1-800-FLOWERS ainda usam chatbots simples semelhantes para responder perguntas de usuários, para aceitar, aceitar pedidos simples e emitir informações sobre o saldo da sua conta pessoal. Muitos ainda o mudarão para uma pessoa se você fizer uma pergunta fora de sua competência limitada.
No entanto, a equipe de pesquisa da AI AI já avançou em projetos como simples chatbots. "Nos últimos três a quatro anos, estivemos dizendo que não seguiríamos o caminho de estudar diálogos voltados para alcançar um determinado objetivo - essa é uma tarefa muito difícil, com apostas muito altas", disse-me Antoine Borde, pesquisador de linguagem natural do Facebook. Se um chatbot de viagem "reserva o avião errado, o voo errado, será um grande erro em termos de dinheiro, viagens, etc.", diz ele.
Em vez de focar na mecânica de certas tarefas, diz Borde, o Facebook está dando um passo atrás para uma tarefa mais profunda - treinar agentes virtuais para se comunicarem como pessoas. Se os chatbots puderem entender e conversar melhor com as pessoas, então, conforme concebido pela empresa, eles se tornarão os melhores assistentes que podem ajudar as pessoas a realizar tarefas práticas, como reservar todos os mesmos tickets.
O Facebook está investindo ativamente nesses desenvolvimentos, contratando os melhores especialistas em IA de linguagem natural. A empresa gosta de salientar que, ao contrário de outros gigantes da tecnologia, disponibiliza os resultados da pesquisa em IA on-line para toda a comunidade de pesquisadores, esperando que ajude outras pessoas a criar uma nova geração de IA. Mas essa pesquisa, é claro, cairá em seus próprios produtos.
Mensageiros, como o Messenger e o WhatsApp (o Facebook ainda não entende como monetizar esse último), parecem ser uma área natural de aplicação para esses desenvolvimentos. Zuckerberg fala sobre as idéias da empresa para se concentrar na comunicação privada; portanto, o Messenger e o WhatsApp terão que adicionar novos recursos para não dar primazia a outras plataformas semelhantes, em particular WeChat, Telegram e Apple iMessage.
Criar um algoritmo capaz de suportar uma conversa gratuita com uma pessoa se tornou um objetivo principal das empresas de tecnologia. Amazon, Google e Microsoft estão se unindo ao Facebook em suas apostas na possibilidade de comunicação humana - e não apenas por meio de mensagens de texto, mas também com a ajuda de assistentes de voz e de outras maneiras. Graças a pesquisas recentes, o caminho para a criação de um computador verdadeiramente capaz de se comunicar ficou subitamente mais claro - no entanto, a medalha pelo primeiro lugar ainda está aguardando o vencedor.
Em outras palavras, a pesquisa em linguagem natural do Facebook vai muito além de simplesmente ressuscitar M ou melhorar os chatbots no Messenger. Está conectado com o futuro de toda a empresa.
Apresentando a Rede Neural
Criar um agente digital capaz de conduzir uma conversa credível com uma pessoa é provavelmente a mais difícil de todas as tarefas no campo do processamento de linguagem natural. A máquina deve aprender um dicionário cheio de palavras, com seus exemplos de uso e nuances, e depois usá-los em comunicação ao vivo com uma pessoa imprevisível.
Somente nos últimos anos, a comunidade de IA de linguagem natural começou a dar grandes passos para criar um bot geral. Em particular, isso ocorreu devido a avanços no campo das redes neurais - algoritmos de aprendizado de máquina que reconhecem padrões através da análise de uma enorme quantidade de dados.
Durante a maior parte da história da IA, as pessoas observaram o programa enquanto ele segue o processo de aprendizado de máquina. Em uma tecnologia chamada “ensinar com um professor”, uma pessoa treina lentamente uma rede neural, dando as respostas corretas para os problemas e depois ajustando o algoritmo para que ele atinja a mesma solução.
Ensinar com um professor funciona bem se houver uma grande quantidade de dados meticulosamente marcados - por exemplo, fotografias de gatos, cães ou outros objetos. No entanto, essa abordagem geralmente não funciona no mundo dos chatbots. É difícil encontrar um grande número (milhares de horas) de conversas rotuladas de pessoa para pessoa, e a criação de um volume de dados de uma empresa será muito cara.
Como é difícil ensinar aos chatbots a falar usando métodos antigos, os pesquisadores estão procurando alternativas para aprender com um professor, para que as redes neurais possam aprender com base em dados por conta própria, sem intervenção humana.
Uma maneira de remover a necessidade de dados de treinamento é treinar a máquina no senso comum em um nível básico. Se um computador puder entender o mundo ao seu redor - por exemplo, o tamanho relativo dos objetos, então como as pessoas os usam, certos conceitos sobre o efeito das leis da física sobre eles - provavelmente será capaz de restringir a variedade de opções, deixando apenas as reais possíveis.
As pessoas fazem isso de maneira natural. Por exemplo, digamos que você dirige perto de um penhasco íngreme e de repente você vê uma grande pedra na estrada. Você precisa evitar uma colisão com ele. Mas, ao escolher opções, é improvável que você decida se virar bruscamente em direção ao penhasco. Você sabe que um carro cairá nas pedras devido à gravidade.
Yan Lekun"Grande parte do aprendizado humano é sobre a observação do mundo ao nosso redor", disse
Jan Lekun , vice-presidente e especialista em IA do Facebook, uma lenda da IA que trabalha nas questões mais difíceis desde a década de 1980. "Aprendemos muitas coisas com os pais e outras pessoas, mas apenas interagindo com o mundo, tentando fazer alguma coisa, falhando e ajustando nosso comportamento".
A IA treinada usando uma tecnologia chamada “Aprendizagem sem Professor” funciona de maneira semelhante. Por exemplo, um robomóvel coleta dados sobre o mundo através de muitos sensores e câmeras, como uma criança estudando o mundo com a ajuda de cinco sentidos. Com essa abordagem, os cientistas fornecem à máquina uma grande quantidade de dados de treinamento. Eles não pedem que ela dê a resposta correta e não a empurram para um objetivo específico. Eles pedem apenas que ela processe os dados e aprenda com eles, encontre padrões, construa relacionamentos entre vários pontos nos dados.
Em muitos casos, é difícil encontrar os dados necessários. No entanto, existe uma área de IA em que uma rede neural pode aprender muito sobre o mundo sem nenhum sensor: processamento de linguagem natural. Os pesquisadores podem usar a grande quantidade de textos existentes para ajudar os algoritmos a entender o mundo humano, que é uma parte necessária da tarefa de entender uma linguagem.
Suponha que uma rede neural receba as seguintes frases para reflexão:
O prêmio não coube na mala porque é muito grande.
O prêmio não coube na mala porque é muito pequena.
Para entender que em cada uma das frases a palavra "ele" se refere a diferentes objetos, os modelos precisam entender as propriedades dos objetos do mundo real e seus relacionamentos. "O texto no qual eles são treinados contém estrutura suficiente para entender que, se você tem um objeto que se encaixa em outro, um deles pode não se encaixar no outro se for muito grande", diz Lekun.
Essa técnica pode ser a chave para uma nova geração de chatbots mais úteis e sociáveis no Facebook.
Conheça BERT e RoBERTa
Os avanços contínuos na aprendizagem sem professores para sistemas de processamento de linguagem natural começaram no Google em 2018. Os pesquisadores da empresa criaram um modelo de aprendizado profundo BERT (representando transformadores com codificação bidirecional) e forneceram a ele um texto não marcado de 11038 livros e 2,5 bilhões de palavras da Wikipedia em inglês. Os pesquisadores removeram aleatoriamente certas palavras dos textos e definiram o modelo para inserir uma palavra que faltava.
Depois de analisar todo o texto, a rede neural encontrou padrões de palavras e frases, frequentemente aparecendo no mesmo contexto, o que a ajudou a entender as relações básicas entre as palavras. Como as palavras são representações de objetos ou conceitos do mundo real, o modelo aprendeu mais do que apenas as relações linguísticas entre as palavras: começou a entender como os objetos se relacionam.
O BERT não foi o primeiro modelo a usar a aprendizagem sem professores para entender a linguagem humana. Mas ela foi a primeira a aprender o significado da palavra em seu contexto.
"Eu diria que este projeto está entre as duas principais descobertas no campo do processamento de linguagem natural", disse Jianfeng Gao, gerente de pesquisa do Deep Learning Group, um dos laboratórios da Microsoft Research. "As pessoas usam esse modelo como um nível básico para criar todos os outros modelos de processamento de linguagem natural". Até o momento, a pesquisa do BERT foi citada em outros trabalhos mais de 1000 vezes - outros pesquisadores estão desenvolvendo em sua base.
Entre eles está Lekun com sua equipe. Eles criaram sua própria versão deste modelo, realizaram otimização, expandiram a quantidade de dados e o tempo de treinamento. Após bilhões de cálculos, uma rede neural no Facebook chamada RoBERTa teve um desempenho muito melhor que o Google. Ela mostrou um nível de precisão de 88,5% e BERT - apenas 80,5%.
O BERT e o RoBERTa representam uma abordagem radicalmente nova para ensinar os computadores a se comunicarem. "No processo, o sistema deve indicar o significado das palavras que encontra, a estrutura das frases, o contexto", diz Lekun. "No final, ela parece reconhecer o significado da linguagem, o que é bastante estranho, pois ela não sabe nada sobre a realidade física do mundo." Ela não tem visão, não tem audição, não tem nada ". Tudo o que ela sabe é linguagem; letras, palavras e frases.
Aproximando-se de uma conversa real
Lekun diz que o modelo de linguagem natural, treinado usando o BERT ou o RoBERTa, não desenvolverá nenhum senso comum significativo - basta fornecer respostas no bate-papo, com base em um extenso banco de dados de conhecimento generalizado. Este é apenas o começo do processo de aprendizado do algoritmo para falar como uma pessoa.
Os pesquisadores de linguagem natural do Facebook também estão tentando criar mais detalhes da comunicação baseada no RoBERTa. Eles começaram estudando as conversas de pessoas com chatbots para entender quando uma conversa pode se tornar entediante ou desmoronar. Suas descobertas ajudam a encontrar maneiras de treinar o bot para evitar os erros mais comuns na conversa.
Por exemplo, os chatbots geralmente se contradizem porque não se lembram do que disseram anteriormente. Um chatbot pode dizer que adora assistir aos episódios do Knight Rider e depois declarar que ele não gosta do programa. Os chatbots que criam suas próprias respostas (em vez de extrair dicas dos dados de treinamento) geralmente respondem a perguntas vagamente para não cometer erros. Eles geralmente parecem não-emocionais, portanto, a comunicação com eles não é tão interessante.
Os chatbots também devem poder usar o conhecimento para tornar interessante conversar. Um bot que pode usar uma ampla variedade de informações tem mais chances de manter diálogos longos com as pessoas. No entanto, os chatbots existentes são treinados usando o conhecimento de uma única área que corresponde à tarefa atribuída ao bot. Isso se torna um problema quando uma pessoa começa a dizer algo sobre tópicos que vão além da competência do bot. Pergunte ao bot de pedidos da pizza sobre qualquer coisa que não seja pizza e a conversa desaparecerá rapidamente.
Para lidar com isso, os pesquisadores do Facebook estão trabalhando para treinar modelos de processamento de linguagem natural para extrair dados de muitas áreas do conhecimento e incorporar essas informações naturalmente em uma conversa. As pesquisas futuras se concentrarão em ensinar aos robôs como e quando transferir a conversa de coisas gerais para uma tarefa específica.
Um dos maiores desafios no desenvolvimento de um chatbot é como fazê-los aprender ainda mais depois de começarem. O significado das palavras pode mudar com o tempo, novos termos e jargões podem se tornar culturalmente importantes. Ao mesmo tempo, o chatbot não deve ser muito sugestionável - o Tay Tay da Microsoft aprendeu muito com as conversas on-line muito rapidamente e se tornou um racista grosseiro em 24 horas. O Facebook ensina chatbots experimentais a aprender com boas conversas e analisar o idioma da pessoa com quem está conversando para ver se o bot disse algo chato ou estúpido.
É difícil prever exatamente quando as inovações do Facebook em laboratório ajudarão a criar chatbots que podem conduzir conversas que são pelo menos um pouco semelhantes às humanas. Pode não demorar muito para você avaliar esses resultados você mesmo. "Acreditamos que estamos muito perto de criar um bot que possa conversar com as pessoas, para que elas tenham valor", disse o pesquisador do Facebook Jason Weston.