Um conjunto de tarefas para treinamento reforçado por uma forte IA no âmbito da plataforma universal OpenAIFundada por Ilon Musk e associados, a organização sem fins lucrativos OpenAI, que visa criar inteligência artificial segura (ou seja, pública e aberta), deu o próximo passo para implementar seus planos. A OpenAI introduziu o middleware Universe para treinar e aprender IA forte. Teoricamente, o treinamento pode ser realizado com todas as informações da humanidade, acessíveis via Internet. Estes são jogos, sites e outros aplicativos.Apenas nove linhas de código - e sua IA pode acessar milhares de ambientes de treinamento.Usando a plataforma de software Universe, um agente inteligente usa um computador exatamente da mesma maneira que uma pessoa: ele olha os pixels da tela do computador e interage usando o teclado e o mouse (enquanto virtual).
A inteligência artificial aprende o mundo através da interface VNC para acesso remoto à área de trabalhoe deve treinar o agente inteligente em um conjunto completo de tarefas. A plataforma Universe abre para a IA todas as tarefas que uma pessoa é capaz de resolver no computador.Ambientes de academia OpenAI
A abertura de uma plataforma universal universal é uma continuação das ações planejadas da OpenAI para criar uma IA universal aberta em todo o mundo. Em abril deste ano, a organização lançou uma versão beta pública do kit de ferramentas OpenAI Gym para desenvolver e comparar algoritmos de aprendizado por reforço. O "ginásio" OpenAI Gym consiste em um grande número de ambientes (de um simulador de robô humanóide a jogos da Atari ). Existe um site para comparar e reproduzir os resultados .Ginásio OpenAI compatível com algoritmos escritos em qualquer quadro, incluindo Tensorflow e Theano. Inicialmente, os ambientes são criados em Python, mas, no futuro, os desenvolvedores planejam possibilitar sua implementação em qualquer linguagem de programação.A OpenAI acredita que o aprendizado por reforço é uma maneira importante de aprendizado de máquina que melhorará bastante a IA. No processo de aprendizagem por esse método, o sistema de teste (agente) aprende interagindo com um determinado ambiente. Ao contrário do ensino tradicional com um professor, a resposta às decisões da IA tomadas são sinais de reforço, enquanto algumas regras de reforço são formadas dinamicamente e difíceis de entender, ou seja, com base na atividade simultânea de neurônios formais.
O sinal de reforço é reconhecido pelo módulo de reconhecimento óptico de texto a uma velocidade de 60 qps: videoMiddleware OpenAI Universe
O universo introduzido hoje é um middleware que suporta totalmente o kit de ferramentas OpenAI Gym e os ambientes de tempo de execução. Graças a esse middleware, está planejado aumentar radicalmente o número de ambientes para o treinamento de IA.Anteriormente, o maior catálogo de aplicativos de aprendizado por reforço incluía apenas 55 jogos da Atari (Atari Learning Environment), mas na plataforma Universe os jogos devem aparecer de muitos outros desenvolvedores, incluindo Valve, EA e Microsoft.Desde o início, milhares de jogos (jogos em flash, cobras multijogador Slither , Starcraft, GTA V e outros), uma variedade de tarefas do navegador (como preencher formulários) e aplicativos (como quebra-cabeças fold.it ) estão disponíveis no middleware do Universe) Quase qualquer jogo pode ser lançado livremente usando o universo da biblioteca python , que é publicado em domínio público no Github.import gym
import universe
env = gym.make('flashgames.DuskDrive-v0')
observation_n = env.reset()
while True:
action_n = [[('KeyEvent', 'ArrowUp', True)] for _ in observation_n]
observation_n, reward_n, done_n, info = env.step(action_n)
env.render()
O código acima inicia um agente de inteligência artificial para jogar o jogo Dusk Drive .
Jogo de Dusk Drive"Nosso objetivo final é desenvolver um único agente inteligente capaz de aplicar com flexibilidade a experiência adquirida no Universo para resolver novos problemas e obter rapidamente uma nova experiência, o que será um passo importante para uma IA forte", disse o comunicado da OpenAI. .Os ambientes de software Universe são instalados em contêineres Docker. Como já mencionado, eles se comunicam com o agente intelectual através da interface visual - através da "tela", "teclado" e "mouse", como acontece com uma pessoa. A interface é implementada usando o programa VNC para acesso remoto à área de trabalho.Em teoria, o aprimoramento constante das habilidades de IA com o acúmulo de experiência em várias pequenas tarefas o ajudará a dominar cada nova tarefa cada vez mais rápido, usando o conhecimento existente. A plataforma e o conjunto de ambientes do Universo podem se tornar para agentes intelectuais a mesma plataforma unificada padrão para treinamento e aprendizado com reforços, que é o conjunto de dados ImageNet - um banco de dados de imagens para treinar classificadores de redes neurais ao ensinar com um professor.O treinamento reforçado pode realmente ser muito eficaz. Por exemplo, o agente intelectual do Universo treinou por cerca de seis dias para jogar o jogo multijogador na web Slither. Após seis dias, a IA ganha uma média de 1.000 pontos em sessões de jogos com uma pontuação máxima de 1.400 pontos. Para comparação, um funcionário da organização OpenAI com cinco horas de experiência no jogo obtém uma média de 1.400 pontos com um resultado máximo de 7050.Atualmente, os agentes do middleware Universe estão disponíveis os seguintes jogos e aplicativos dos parceiros OpenAI: Portal , Fable Anniversary , World of Goo , RimWorld , Slime Rancher , Cavaleiro Pá , SpaceChem, Wing Commander III , Command & Conquer: Red Alert 2 , Syndicate , Magic Carpet , Mirror's Edge , Alpha Centauri de Sid Meier e Wolfram Mathematica . A lista aumentará.