Robôs no jornalismo ou como usar a inteligência artificial para criar conteúdo

Os carros estão ficando mais inteligentes. Já estão gerando conteúdo de qualidade que nem mesmo um profissional o distingue do "humano". Sergey Marin, do Data Studio, falou sobre por que jornalistas e editores não devem ter medo da concorrência e sobre as perspectivas de automatizar o jornalismo na nossa conferência " Contenting ".



Sob a transcrição final do seu relatório.

Sobre o orador
Sergey Marin é um especialista em inteligência artificial, líder e fundador do Data Studio .

Três baleias de inteligência artificial


Se estamos falando de inteligência artificial - no jornalismo ou em qualquer outro campo - precisamos primeiro entender sua estrutura. A IA consiste em três componentes principais: aprendizado de máquina, sistemas de recomendação e redes neurais. Aliás, muitos consideram as redes neurais um sinônimo de inteligência artificial, mas essa é apenas uma das ferramentas, nem mesmo as mais massivas: em cada caso, são usados ​​os algoritmos que funcionam da melhor maneira possível.



Machine Learning: Prateleira


O aprendizado de máquina é usado para procurar padrões ocultos nos dados. Imagine que temos um conjunto de linhas de informação ou publicações que precisam ser classificadas, ou seja, atribui-lhes automaticamente algumas tags. Ou apenas textos com muitas palavras que precisam ser divididas em certas classes, interesses, humores e assim por diante. Como fazemos isso? Se falamos de aprendizado de máquina, não estamos procurando nenhuma palavra-chave para tirar conclusões com base nelas. Em vez disso, mostramos à máquina o maior número possível de textos que já marcamos com um grande número de classes. Depois disso, fornecemos um novo texto e a própria máquina o classifica na área à qual pertence. Ou seja, primeiro ensinamos, mostramos muitos exemplos.



Ou seja, a principal aplicação do aprendizado de máquina no jornalismo é a classificação. Por exemplo, temos um grande número de linhas de informação - da Internet, redes sociais, agências de notícias - e precisamos classificá-las rapidamente. Pré-treinamos nosso modelo e, quando temos um novo guia de informações, a máquina entende onde pertence, qual é o seu tema, que humor transmite e para qual público pode ser aplicado. A popularidade é prevista da mesma forma, a classificação de alguns feeds de notícias.

Sistemas de recomendação: encontre uma abordagem pessoal


O principal campo de aplicação dos sistemas de recomendação é a personalização. Queremos mostrar um conteúdo relevante para pelo menos um determinado segmento e, idealmente, selecioná-lo para cada pessoa. Nesse sentido, a apresentação do conteúdo não difere das vendas. Lembre-se dos líderes em vendas de produtos direcionados: lojas online como Amazon e cinemas online podem recomendar seus produtos. E se considerarmos o conteúdo como um produto, sabemos que já recomendamos e direcionamos bem.



Como fazemos isso? Existem dois princípios básicos. O primeiro são os sistemas de referência que, de fato, comparam as pessoas entre si com base em suas compras, neste caso, com base no conteúdo que consumiram anteriormente. Vamos dar um exemplo simples: Igor e Peter assistiram aos mesmos filmes e, se um dos filmes foi assistido apenas por Igor, é lógico recomendar a Peter.

Outro princípio é muito mais forte em termos de recomendação de conteúdo - uma avaliação de sua popularidade, o PageRank. O primeiro exemplo é pesquisa, pesquisa no Yandex, Google. Como determinar se uma determinada página é significativa? Consideramos o número de links ou referências a esta página em outros recursos e obtemos um tipo de classificação atribuída a ela. Mas uma coisa é quando cinco páginas desconhecidas apontam para a publicação e outra se os links são fornecidos por marcas populares ou grandes agências de notícias. Acontece que devemos levar em consideração a classificação daqueles que apontam para a nossa página - temos uma hierarquia assim.

O Tinder funciona da mesma maneira: quando você rola da esquerda para a direita, a classificação é calculada para você e para as pessoas que lhe são mostradas. Eles mostram fotos de quem tem a mesma classificação com você - este é o significado recomendado pelo serviço.



Este é um método muito eficaz para avaliação automatizada da importância de determinadas informações. Se você souber contar não apenas as menções, mas também o significado delas, poderá classificar automaticamente todos os feeds de notícias para públicos-alvo específicos. Portanto, as recomendações são usadas principalmente para essa segmentação em nível.

Redes neurais: imitação do cérebro


O conceito de redes neurais é simples e chato. Até os anos 60 do século passado, os estudos dos princípios do cérebro humano pintaram o seguinte quadro: existe um certo conjunto de neurônios que recebem sinais de entrada. Depois disso, cada neurônio faz uma pequena modificação do sinal e o transmite. Para entender como esses neurônios se reúnem em grupos dentro do cérebro, decidimos criar um modelo de computador - um conjunto de neurônios que de alguma forma estão conectados. Assim, nasceram as primeiras redes neurais e, dessa forma, ainda são usadas para resolver problemas de aprendizado de máquina. Mas se estamos falando de algo mais avançado, esse sistema não se encaixa.



Em algum momento dos anos 90 do século passado, os cientistas perceberam que o cérebro humano não funciona assim. Os neurônios realmente interagem entre si, mas tudo é construído hierarquicamente. Por exemplo, quando vejo uma foto, são coletadas informações de cada uma de suas áreas, que são agregadas a outro grupo menor de neurônios. E aí está armazenado na forma de algum tipo de representação interna. De fato, pensamos com essas representações internas, e não com as imagens reais que vemos. A teoria foi recriada imediatamente em redes neurais e, agora, de acordo com a classificação das imagens, essas redes neurais funcionam muito melhor que os humanos. Essas redes neurais são chamadas de convolucionais - porque o processo de generalização está ocorrendo.



O segundo avanço ocorreu quando descobriram: uma pessoa percebe informações não no momento, mas levando em conta um determinado contexto. Para treinar computadores para analisar a experiência acumulada, eles construíram as chamadas redes neurais recorrentes. Eles usam o trabalho de redes neurais anteriores primeiro para classificar e depois criar algum conteúdo. Agora tudo isso é usado na modelagem de sequências e, se for mais fácil, nos robôs de bate-papo. Por exemplo, quando o Yandex seleciona palavras semelhantes, essas são redes neurais recorrentes que replicam como uma pessoa processa informações.

Como as redes neurais são usadas no jornalismo


A primeira área de aplicação para redes neurais é a geração de conteúdo. Se tivermos algum tipo de guia de informações, uma rede neural treinada nos permitirá determinar o tópico e escrever um texto bastante inteligível. Já existem empresas que produzem o software correspondente. Existem publicações que o utilizam para linhas de informações rotineiras - relatórios de troca, indicadores financeiros das empresas. Para informações factuais - um terremoto passou por aqui, um navio navegou para lá e assim por diante - funciona bem. Mas se estivermos falando de feeds de informações mais avançados, teremos que trabalhar seriamente para transformar o conteúdo gerado pela rede neural em algo verdadeiramente significativo e adequado.



A segunda área é a classificação, que já foi mencionada acima. O terceiro é a avaliação da percepção ou teste A / B, que raramente é usado em algum lugar fora das vendas. No jornalismo, o princípio é semelhante: temos várias formas de publicação e queremos testar como será em diferentes grupos-alvo. Usando esses métodos, esse processo pode ser totalmente automatizado.

A última direção atrairá aqueles que precisam escrever o mesmo conteúdo para diferentes canais, recursos e públicos-alvo. Para publicar um artigo sobre Habré, que já foi publicado em outra publicação, você não pode simplesmente copiar e colar. Para adaptá-lo, você pode atrair um redator ou usar uma rede neural. Para um computador, isso é ainda mais simples que a tradução automática: o texto não precisa ser convertido para outro idioma, sintaxe e assim por diante. Mas no geral é o mesmo.

Onde é usado? Um pioneiro entre as principais agências é a Associated Press. Eles usam a geração automática de conteúdo para notícias financeiras, nas quais há poucas análises, mas muitas cifras e evidências. Existem três fornecedores que fabricam esse software: Narrative Science, Automated Insights e Article Forge. Se você for aos sites deles, poderá ver muitos casos reais - exemplos de publicações escritas por robôs. Todos esses artigos são baseados em algumas evidências.



Existe uma diferença notável entre a autoria e o conteúdo gerado? Nos Estados Unidos e na Alemanha, eles realizaram pesquisas, durante as quais um grande número de artigos foi exibido a grupos de jornalistas - respectivamente, em inglês e em alemão. Metade dos textos foram escritos por pessoas, metade por máquinas. Em média, as pessoas não conseguiam distinguir entre elas. E quando os sujeitos foram solicitados a classificar os textos de acordo com sua confiabilidade e interesse, verificou-se que eles acham os textos escritos pela máquina mais confiáveis. Ao mesmo tempo, os entrevistados observaram que a leitura não é tão interessante quanto os artigos "humanos".

Acontece que as pessoas são melhores em fazer conteúdo divertido. E se você precisar trazer algumas novidades - use o carro, elas acreditarão mais.

Benefícios e perigos


Os robôs permitem que você se concentre no conteúdo que deseja incorporar ao conteúdo, em vez do tedioso processo de adaptá-lo a diferentes formatos. Outra vantagem das máquinas é a velocidade da reação: se você precisar processar rapidamente informações, então essa é sua ferramenta. Já dissemos sobre a personalização do usuário, essa é uma vantagem definitiva. A quarta vantagem é o crowdsourcing: se você usar um grande número de fontes, a máquina poderá classificar automaticamente as informações recebidas delas, distinguir boas e más e escolher as adequadas.



Existem perigos em potencial. A primeira é uma câmera de eco. O conteúdo que eles me mostram é personalizado com base na semelhança dos meus interesses - levando em consideração o que eu já li e os interesses de pessoas como eu. Assim, após um certo número de iterações, começo a cozinhar no meu campo de informações fechado.

O segundo perigo são as bolhas de informação. Se você criar algum tipo de situação fictícia, evento, máquina poderá escrever muitas versões diferentes de publicações que pareçam autênticas. Com a ajuda de bots, redes sociais e assim por diante, essas informações errôneas podem se espalhar para grandes audiências.



Agora eles estão falando dos chamados ataques adversos à rede neural. Um exemplo com o logotipo da KFC é dado: se você mostra uma imagem para um carro autônomo, ela imediatamente aumenta - a inteligência artificial reconhece a imagem como sinal de parada. Se tais manipulações são possíveis com textos, um conjunto de palavras sem sentido correspondente a um determinado algoritmo será capaz de obter uma classificação alta de redes neurais, e o leitor verá algum tipo de bobagem.



Felizmente, na prática, esse ataque é muito difícil. Lembre-se de que a rede neural - como nosso cérebro - traz qualquer imagem de acordo com a representação interna. Veja a figura: à esquerda do rosto, como os vemos, e à direita - como a rede neural vê. Tendo acesso à própria rede neural, as imagens podem ser selecionadas, como no exemplo com o logotipo KFC. De fato, o problema também é conhecido na criptografia, porque é um análogo do hacking da função hash. A rede neural, nesse caso, é uma função de hash: você converte um determinado texto longo em uma pequena representação interna. Se você pegar algo que corresponda - hackear. Mas para iterar, você precisa acessar o algoritmo.

Não é um concorrente, mas um assistente


Quase todas as publicações sobre esse assunto levantam o problema da demanda de jornalistas no futuro. A pergunta, parece-me, não é totalmente correta: alguém será substituído, alguém não, mas é claro que todo jornalismo não pode ser substituído por máquinas. Uma pessoa lhes renderá apenas algumas publicações básicas, banais e simples. O problema é diferente: como as publicações básicas podem ser criadas automaticamente e feitas com facilidade, a porcentagem de conteúdo gerado muito em breve será muito maior do que a escrita pelas pessoas. Como já descobrimos, o conteúdo gerado é percebido melhor em termos de confiabilidade - e isso permite que você crie uma ferramenta poderosa para manipular a consciência e a percepção. Esta é provavelmente a pior e mais importante coisa.



Para criar conteúdo usando o aprendizado de máquina, o processo de interação homem-máquina é usado - não separadamente, mas juntos, em um par. Primeiro, a máquina procura por questões informativas, classifica-as, prediz importância, gera conteúdo ... Esse é o caso quando temos um grande fluxo de vários tipos de informações e queremos responder rapidamente a elas. Se você tiver tempo para pensar e assim por diante, este é um cenário completamente diferente. O conteúdo preparado pela máquina vai para um jornalista ou editor que assiste, avalia e anexa. Além disso, o texto pode ir para a publicação ou novamente para o robô - para formar versões diferentes da publicação para diferentes públicos-alvo. Depois disso, o carro está envolvido na personalização, escolhe para cada pessoa o que mostrar. É claro que nem em todos os lugares isso é implementado em conjunto, mas o fluxo de trabalho geral se parece com isso.

Uma pessoa não é excluída do processo de preparação de conteúdo. Os robôs nada mais são do que ferramentas adicionais que aceleram e simplificam o processo, removem as tarefas rotineiras de nós.



Os relatórios de " Conteúdo " em formato de vídeo podem ser solicitados aqui . Para usuários da Habr, um desconto no código promocional habr_online_promo.

Graças aos patrocinadores:




Amigos, por mais 10 dias, aceitamos inscrições para um concurso técnico-técnico sobre o tópico “Estado e TI” e convidamos todos os autores técnicos para participar. Você pode contar uma história sobre tecnologia, desenvolvimento, refinamento de serviços, o dispositivo de vários sistemas e aplicativos, entrevistas com um especialista, uma seleção de hacks, uma revisão e outros materiais sobre o assunto - o principal é que eles são publicados na Habré. Informações detalhadas na página da competição .

Source: https://habr.com/ru/post/pt439388/


All Articles