Inteligência artificial, forte e não muito



De 4 a 7 de abril, uma conferência organizada pela NVIDIA, dedicada à computação paralela e inteligência artificial, foi realizada em San Jose. Em seguida, gostaria de compartilhar meus pensamentos sobre o estado e as perspectivas de desenvolvimentos no campo da IA, inspirados neste evento.

O raciocínio sobre inteligência artificial pode ser dividido em dois tipos. O primeiro tipo é falar sobre o que acontecerá quando os computadores pensantes aparecerem e qual será o destino da espécie humana. Explora as opções possíveis para o relacionamento do homem e a máquina pensante. Os tópicos de imortalidade relacionados à possível transferência da consciência humana para o shell do computador são discutidos. Talvez a questão principal esteja sendo levantada - se uma pessoa cria uma mente muito superior à sua, quem será com essa mente? O mestre, escravo, ramo sem saída da evolução ou um participante da simbiose?
O segundo tipo é uma discussão sobre as maneiras que, em teoria, devem levar à criação de inteligência artificial e métodos completos que já ajudam a resolver problemas intelectuais complexos.

A principal bacia hidrográfica passa pelo “critério de racionalidade” das máquinas. Isso é chamado de divisão da inteligência artificial em forte e fraco. AI fraca significa a capacidade dos computadores de resolver problemas de informação, por exemplo, para determinar o que é mostrado na imagem ou para traduzir o som de uma voz no texto correspondente. A IA forte implica que um computador não opera apenas com informações, mas, em um grau ou outro, entende seu significado. Por exemplo, se um tradutor de computador de um idioma para outro simplesmente substitui uma palavra por outra de acordo com regras inalteradas predeterminadas, então essa é uma IA fraca, mas se vier da compreensão do significado das frases, ela já estará mais próxima da forte.

O critério para IA forte é o famoso teste de Turing. Se, ao se comunicar com um computador por meio de um canal de comunicação anônimo, você não consegue entender quem está do outro lado da linha, uma pessoa ou uma máquina, podemos assumir que esse computador interlocutor realmente pensa. A essência desse teste é que quantos não se lembram das respostas que as pessoas dão a determinadas perguntas e quantos não acumulam frases relevantes em determinados momentos, sempre haverá uma situação em que uma resposta "mecânica" será impossível.

Um exemplo recente de "falha na aprovação no teste" é um chatbot da Microsoft Tay. Você pode conversar com ele via Twitter ou mensageiros Kik e GroupMe. Após um dia de comunicação com os usuários, o bot de bate-papo se tornou agressivo, começou a elogiar Hitler e a repreender os judeus.



A razão para esse comportamento não é que as pessoas que conversam com ele "abriram os olhos para a vida". A razão - ainda a incapacidade das máquinas se aproximará da compreensão do significado das frases. Quando o chatbot se lembra de algo semelhante à conversa atual, ele pode usar as frases que as pessoas disseram em tais situações, na esperança de obter algo razoável. Ou o robô pode tentar determinar o tópico da conversa, por exemplo, em que medida as palavras e as palavras usadas pelo interlocutor aconselham um ou outro tópico. Depois de determinar o tópico da conversa, ele pode tentar selecionar frases de conversas com um tópico semelhante ou usar o conhecimento nessa área incorporado ou colhido na Internet. Essa estratégia permite criar a aparência de uma conversa razoável, mas apenas visibilidade. Embora, talvez isso não seja ruim. Às vezes, em uma empresa após a quinta ou sexta vez,quando não é necessário que a comunicação ouça atentamente a pessoa com quem você está falando, e se neste momento alguém for substituído por um chatbot, talvez isso não seja percebido imediatamente.

Significativamente melhor do que falar sobre um tópico gratuito, os computadores podem entender comandos e consultas formalizadas. Se a máquina espera um tratamento muito específico, a tarefa é bastante simplificada. De acordo com esse princípio, Siri e Ok, o Google trabalha com sucesso.

Havia muita atividade na conferência dedicada ao supercomputador IBM Watson. A principal idéia de Watson é entender a conversa em um idioma natural, traduzi-la em uma descrição amigável ao computador, usar bases de conhecimento em vários campos para encontrar respostas adequadas.



Em fevereiro de 2011, Watson ganhou o programa de TV Jeopardy! (a contraparte russa é "My game"). Além disso, ele venceu não apenas os rivais, mas dois campeões, Brad Rutter - o dono dos maiores ganhos do programa, e Ken Jennings - detentor do recorde durante uma série de vitórias e vitórias. O computador ganhou um prêmio de US $ 1 milhão. A NVIDIA brincou sobre ganhar, porque eles não sabem o que o computador fará com um milhão, mas do ponto de vista do método de treinamento de reforço, é preciso dizer que esse é um bom reforço. Observou-se especialmente que Watson estava em pé de igualdade com os jogadores no sentido de que ele não estava conectado à Internet. Em memória de Watson, "toda a Internet" foi carregada com antecedência, pelo menos uma parte significativa do tamanho de 4 terabytes. Para dados estruturados, isso é bastante, basta levar em consideração que toda a Wikipedia ocupa 17 gigabytes.



O mais importante no jogo foi que as perguntas foram feitas sem nenhuma simplificação e esclarecimentos adicionais. Isso significa que, em alguns casos, o computador conseguiu determinar corretamente o que era necessário e encontrá-lo em sua base de conhecimento. Mas o Watson realmente entendeu a essência das perguntas? Não, eu não entendi, pelo menos não da maneira que as pessoas entendem. Qual foi a essência da luta? As pessoas entendiam todas as perguntas, mas nem sempre conseguiam encontrar a resposta em sua memória. O computador não entendeu o significado das perguntas, mas, usando algoritmos, as traduziu para um determinado formulário de pesquisa, pelo qual encontrou uma correspondência bastante precisa em sua memória estruturada. A vitória de Watson mostrou que o algoritmo mais a boa memória podem fornecer uma porcentagem maior de respostas corretas do que a compreensão e a falta de memória.Se as pessoas tivessem acesso à Internet e não estabelecessem um prazo apertado, o resultado do jogo seria diferente.

O IBM Watson ainda não pode ser atribuído a uma IA forte, mas isso não prejudica seus méritos. O principal problema associado à compreensão da linguagem natural é a multiplicidade de interpretações que podem ocorrer na mesma palavra, dependendo do contexto da frase. Mas se a conversa entra em uma área mais especial, acontece que muitas áreas determinam quase as únicas interpretações possíveis. E, neste ponto, o sucesso do computador aumenta significativamente. Percebendo isso, os desenvolvedores do Watson se concentraram em tópicos individuais. Por exemplo, talvez o maior avanço do supercomputador da IBM esteja relacionado ao diagnóstico médico. Uma conversa sobre um tópico médico em uma linguagem natural é dada a Watson com bastante facilidade, pois tudo o que é dito é interpretado exclusivamente no sentido médico. Com um enorme banco de dados de registros médicos,Nos diagnósticos e nos cursos de tratamento, o computador conseguiu se mostrar no nível de bons médicos e, em algumas áreas, por exemplo, em oncologia, no nível de excelente. Isso não significa que os médicos vivos agora devam ser ignorados, mas deve ser entendido para que os médicos tenham uma oportunidade valiosa para verificar suas descobertas ou obter idéias adicionais consultando Watson. Vou trazer a bicicleta para o tópico.

Moscovo Meados dos anos oitenta.
Uma conferência médica sobre o uso de computadores na medicina. Todos os participantes concordaram que em breve os computadores substituirão os médicos ... Eles farão diagnósticos e as pessoas terão apenas medidas processuais.
E no final da conferência, um médico muito idoso expressou o desejo de falar, além disso, de um acadêmico e médico. Com muitos aplausos, ele mal foi ao pódio ... Os elementos da festa presentes no evento consideraram que o apoio a essa inovação por um médico respeitado seria um bom sinal ... Ele saiu e disse: “No início dos anos 20, uma esposa muito importante foi trazida ao meu professor para exame Comissário do Povo da festa. Este foi um caso muito difícil, oito médicos anteriores não conseguiram diagnosticar o paciente. Um simples olhar para essa mulher foi suficiente para o meu professor, ele imediatamente ordenou uma análise da reação de Wasserman. Diga-me, queridos colegas, que tipo de computador pode diagnosticar instantaneamente a sífilis em apenas um tipo de paciente *?

Voltando ao Watson. A IBM tomou o caminho da criaçãouma API aberta na qual qualquer pessoa pode usar a interface de conhecimento e linguagem natural do Watson para integrar seus negócios. A IBM está tentando criar muitos serviços cognitivos, como reconhecimento de fala e imagem, um serviço de classificação de consulta em um idioma natural, tradução para outro idioma, determinando a coloração emocional do discurso e dos textos etc. No futuro, eles verão que muitas empresas poderão transferir a maior parte de seu suporte de voz para a tecnologia da Watson, e isso oferece uma economia enorme. Em resumo, muitos indianos de call centers podem ficar sem trabalho.

A ideia de que a IA começa a funcionar muito melhor quando você consegue passar para uma tarefa especial que restringe o espaço de interpretação é aplicável não apenas à análise de linguagem natural, mas também, por exemplo, à análise de imagem. Em princípio, essa é a base para a construção de um sistema de controle de carro sem motorista. Quando o sistema de visão artificial é mostrado uma figura e determina o que está nessa figura, a determinação ocorre com alguma probabilidade. E sobre um cachorro com uma capa de tigre, o sistema pode dizer que é um tigre. Tudo é mais fácil na estrada, o número de objetos que podem ser encontrados não é grande, o que significa que a escolha e as interpretações são muito limitadas: um pedestre, carro, ônibus, sinal de trânsito, marcações, mas não um tigre, nem uma baleia e nem um bolo de casamento.

O controle não tripulado de veículos utiliza muitas tecnologias, eis algumas delas:
  • Reconhecimento de padrões, é responsável por reconhecer vários objetos na estrada;
  • Processando uma série de imagens com um deslocamento, permite selecionar objetos individuais contra o fundo de outros;
  • O processamento de imagem estereoscópico permite criar um mapa de profundidade e distância;
  • O uso do lidar complementa a construção de um mapa de distância ou permite que você o construa a partir do zero, por exemplo, na escuridão completa. No outro dia, a Ford se destacou ;
  • Treinamento reforçado, fornece treinamento sobre direção e regulamentos de direção.


No salão da conferência havia três veículos não tripulados da Audi, Volvo e BMW. Todos eles, e não apenas eles, têm controle construído sobre a solução NVIDIA DRIVE . A solução em si consiste em três componentes:
  • NVIDIA DRIVE PX - plataforma de piloto automático;
  • NVIDIA DRIVE CX - um computador de bordo com sistema de navegação; se o PX sabe como ir, o CX sabe para onde ir e como entreter o passageiro;
  • O NVIDIA DIGITS DEV BOX é um sistema de aprendizado profundo que permite treinar redes neurais para PX.






A condução automática causa uma forte impressão. AI em toda a sua glória. Gostei especialmente do vídeo que a Toyota mostrou sobre como aprender a dirigir o carro não tripulado. No começo, ele, como um gatinho cego, andava em todas as direções e freia constantemente, depois se movia com mais confiança e, finalmente, depois de 3000 milhas de corrida, começou a correr com toda confiança em qualquer estrada.



A Toyota foi representada na conferência através do Instituto de Pesquisa Toyota. O CEO do instituto, Gill Pratt, anunciou que a montadora pretende investir US $ 1 bilhão nos próximos cinco anos em pesquisas relacionadas à IA. A abordagem da Toyota é interessante. Eles dizem que não consideram o piloto automático completo uma prioridade. Agora, o piloto automático, implementado, por exemplo, no Tesla, requer o modo "mãos no volante". Ou seja, ele pode dirigir, mas requer monitoramento constante do motorista. Este modo é bastante irritante do que adicionar prazer à viagem. A Toyota se concentra nos sistemas de assistência ao motorista, ou seja, o piloto automático não interfere no controle enquanto tudo está indo bem, mas se a situação ficar fora de controle, o piloto automático pega tudo em suas próprias mãos e salva a situação. Poucos motoristas têm experiência em dirigir em situações extremas,condução normal tem pouco a ver com o que fazer em uma situação crítica. O piloto automático pode ser muito bem treinado exatamente para esses casos. 1.200.000 mortes nas estradas anualmente - essas estatísticas no planeta Terra. Segundo a Toyota, o sistema deles reduzirá esse número para quase zero. Como recorda Gill Pratt: "A demanda por nosso sistema não deve ser considerada por carros, os consumidores que precisam dele desesperadamente são 1.200.000 pessoas por ano"."A demanda por nosso sistema não deve ser considerada por carros; os consumidores que precisam desesperadamente são de 1.200.000 pessoas por ano"."A demanda por nosso sistema não deve ser considerada por carros; os consumidores que precisam desesperadamente são de 1.200.000 pessoas por ano".

Mas um piloto automático, por mais surpreendente que pareça um carro viajando sem motorista, não é uma IA forte. Até agora - este é um conjunto de bons métodos e algoritmos. É possível que não seja necessário mais para esta tarefa.
Muitas tarefas, como direção não tripulada, podem ser resolvidas com sucesso sem o uso de uma IA forte. As redes neurais com aprendizagem profunda (ou aprendizagem profunda, se você gosta dessa tradução de Aprendizagem profunda) são muito adequadas quando a “programação na testa” fica parada e acontece que é muito mais fácil “alimentar” uma rede neural com uma enorme variedade de exemplos e tópicos de treinamento desse modo, ensinar-lhe a classificação correta do que tentar descrever todos os padrões e reações a eles.

Mas milagres não acontecem, a simplicidade de obter um resultado é compensada pela complexidade do treinamento. Treinar uma rede neural de um grande número de elementos em um grande número de exemplos requer uma quantidade enorme de computação. As CPUs tradicionais são muito lentas para esses cálculos. A única salvação é a paralelização maciça de cálculos, já que as redes neurais são muito boas nisso. As GPUs criadas originalmente para formar imagens gráficas eram quase perfeitas para esses fins. A demanda no mercado de redes neurais forçou os fabricantes de GPU a levar em conta os recursos de tal aplicativo na arquitetura de ferro e os levou a criar um software apropriado que facilita a vida dos desenvolvedores. Na conferência, a NVIDIA, como principal fabricante de GPUs, tentou convencer a todosque eles criaram uma pilha completa de software necessário, fornecendo o suporte de todas as etapas do desenvolvimento de redes neurais.

Como já escrevi , na conferência, a NVIDIA apresentou uma inovação no campo do treinamento de redes neurais profundas - o supercomputador DGX-1. Uma inovação é um aumento de 12 vezes na produtividade nas tarefas de aprendizado em comparação com seus antecessores.

imagem

Consequentemente, o ecossistema inclui não apenas ferro, mas também um conjunto completo de programas otimizados para aprendizado profundo (https://developer.nvidia.com/deep-learning#source=pr).
O pacote de software DGX-1 inclui o Sistema de Treinamento de GPU NVIDIA Deep Learning (DIGITS), um sistema interativo completo para a criação de redes neurais profundas (DNN), bem como uma biblioteca de primitivos acelerados por GPU para a criação de DNN - NVIDIA CUDA Deep Neural Network (cuDNN) versão 5 .
Além disso, o sistema contém versões otimizadas de várias estruturas de aprendizado profundo amplamente usadas - Caffe, Theano e Torch. O DGX-1 também fornece acesso a ferramentas de gerenciamento baseadas em nuvem, atualizações de software e um banco de aplicativos de contêineres. ”

Em geral, na conferência, a NVIDIA claramente tentou transmitir a todos a ideia de que eles não são apenas um fabricante de chips especializados, mas uma empresa que tem uma visão de tecnologia em geral e oferece soluções integradas nas quais o ferro é apenas um e não o fato de que o mais componente principal.

Em suma, a IA avança aos trancos e barrancos. Mas, por enquanto, tudo isso é uma IA fraca. O termo fraco não deve ser considerado uma avaliação negativa. Este é apenas um refinamento da tecnologia usada. A que distância estamos de uma IA forte é fácil julgar pelos sistemas de tradução por computador. Enquanto o texto técnico ou outro texto bem interpretado estiver sendo traduzido, o tradutor automático está à altura do par. Mas vale a pena dar um exemplo que exija a compreensão do significado da frase, como a tradução correta se torna uma questão de sorte e nenhum método estatístico salva a situação.

O Deep Blue da IBM venceu um jogo de xadrez de 6 jogos em 1997 contra o campeão mundial Garry Kasparov. O AlphaGo do Google derrotou recentemente o jogador Go mais forte do mundo. Quanto isso indica uma era próxima de forte IA? Um grande passo para um robô, mas pouco progresso para a humanidade. Vemos um bom trabalho de métodos de ensino com reforço, mas com um "mas" significativo. O fato é que o xadrez e o Go permitem uma descrição bastante simples e precisa da posição. A estratégia de comportamento baseia-se no entendimento de que a posição nos é familiar em um grau ou outro e que podemos usar a experiência que adquirimos para tomar decisões. Para não calcular todas as opções, uma avaliação da qualidade da situação é introduzida no final, o que permite avaliar a posição sem calcular as opções para uma possível continuação. Nas duas situações, verifica-seo mais importante é conseguir obter todos os elementos semânticos que influenciam sua avaliação a partir de uma descrição formal de uma posição. Para o xadrez e Guo, embora isso não seja fácil, funcionou. Na vida, tudo é muito mais complicado. Uma descrição externa “bruta” do que está acontecendo não ajuda muito na determinação de uma estratégia de comportamento e na avaliação da qualidade de uma situação. Você não pode julgar a semelhança de situações pela coincidência de alguns dos sinais. Requer uma compreensão do significado do que está acontecendo. Qualquer detalhe menor pode ser crítico para determinar o que está acontecendo. Portanto, o google-mobile continuará dirigindo pela estrada se não houver obstáculos, as regras de trânsito não forem violadas e a rota for seguida. E ele não ficará confuso nem com o cogumelo nuclear no horizonte nem com as multidões de zumbis que ficam nervosamente à margem.mas acabou. Na vida, tudo é muito mais complicado. Uma descrição externa “bruta” do que está acontecendo não ajuda muito na determinação de uma estratégia de comportamento e na avaliação da qualidade de uma situação. Você não pode julgar a semelhança de situações pela coincidência de alguns dos sinais. Requer uma compreensão do significado do que está acontecendo. Qualquer detalhe menor pode ser crítico para determinar o que está acontecendo. Portanto, o google-mobile continuará dirigindo pela estrada se não houver obstáculos, as regras de trânsito não forem violadas e a rota for seguida. E ele não ficará confuso nem com o cogumelo nuclear no horizonte nem com as multidões de zumbis que ficam nervosamente à margem.mas acabou. Na vida, tudo é muito mais complicado. Uma descrição externa “bruta” do que está acontecendo não ajuda muito na determinação de uma estratégia de comportamento e na avaliação da qualidade de uma situação. Você não pode julgar a semelhança de situações pela coincidência de alguns dos sinais. Requer uma compreensão do significado do que está acontecendo. Qualquer detalhe menor pode ser crítico para determinar o que está acontecendo. Portanto, o google-mobile continuará dirigindo pela estrada se não houver obstáculos, as regras de trânsito não forem violadas e a rota for seguida. E ele não ficará confuso nem com o cogumelo nuclear no horizonte nem com as multidões de zumbis que ficam nervosamente à margem.Qualquer detalhe menor pode ser crítico para determinar o que está acontecendo. Portanto, o google-mobile continuará dirigindo pela estrada se não houver obstáculos, as regras de trânsito não forem violadas e a rota for seguida. E ele não ficará confuso nem com o cogumelo nuclear no horizonte nem com as multidões de zumbis que ficam nervosamente à margem.Qualquer detalhe menor pode ser crítico para determinar o que está acontecendo. Portanto, o google-mobile continuará dirigindo pela estrada se não houver obstáculos, as regras de trânsito não forem violadas e a rota for seguida. E ele não ficará confuso nem com o cogumelo nuclear no horizonte nem com as multidões de zumbis que ficam nervosamente à margem.

Criar uma IA forte está diretamente conectado não apenas à capacidade de operar algoritmicamente (usando métodos tradicionais) com informações, mas também à capacidade de entender seu significado. Essa tarefa parece difícil, principalmente porque está diretamente relacionada à compreensão do trabalho do cérebro, pois esse mecanismo é capaz de trabalhar com significado. Uma IA forte virá em breve? Talvez muito em breve. No próximo artigo, descreverei o desenvolvimento de nosso grupo em relação à formalização matemática do conceito de significado e à construção de um modelo baseado nisso, que afirma ter uma descrição muito boa do cérebro e, de forma convincente, mostra uma boa amostra de trabalho. Portanto, talvez em breve na loja você ouça esse diálogo:

Vendedor: Esta é uma novidade, um implante cerebral, remove metade da carga mental.
Comprador: Ótimo! Me venda um casal.

Source: https://habr.com/ru/post/pt393071/


All Articles