Univers OpenAI. Plateforme ouverte pour former une IA forte


Un ensemble de tâches de formation renforcées par une IA forte dans le cadre de la plate-forme universelle OpenAI

fondée par Ilon Musk et associés, l'organisation à but non lucratif OpenAI, qui vise à créer une intelligence artificielle sûre (c'est-à-dire publique et ouverte), a franchi la prochaine étape pour mettre en œuvre ses plans. OpenAI a introduit le middleware Universe pour la formation et l'apprentissage d'une IA forte. Théoriquement, la formation peut avoir lieu sur toutes les informations de l'humanité, accessibles via Internet. Ce sont des jeux, des sites Web et d'autres applications.

Seulement neuf lignes de code - et votre IA peut accéder à des milliers d'environnements d'entraînement.

En utilisant la plate-forme logicielle Universe, un agent intelligent utilisera un ordinateur exactement de la même manière qu'une personne: il regardera les pixels de l'écran de l'ordinateur et interagira à l'aide du clavier et de la souris (tout en étant virtuel).


L'intelligence artificielle apprend le monde à travers l'interface VNC pour l'accès à distance au bureau,

elle est censée former l'agent intelligent sur un ensemble complet de tâches. La plate-forme Universe ouvre à l'IA toutes les tâches qu'une personne peut résoudre sur l'ordinateur.

Environnements OpenAI Gym


L'ouverture d'une plate-forme universelle universelle est une continuation des actions prévues d'OpenAI pour créer une IA universelle ouverte mondiale. En avril de cette année, l'organisation a publié une version bêta publique de la boîte à outils OpenAI Gym pour développer et comparer des algorithmes d'apprentissage par renforcement. Le gymnase OpenAI Gym est composé d'un grand nombre d' environnements (du simulateur de robot humanoïde aux jeux Atari ). Il existe un site pour comparer et reproduire les résultats .

OpenAI Gym compatible avec les algorithmes écrits dans tout cadre, y compris tensorflow et Théano. Initialement, les environnements sont créés en Python, mais à l'avenir, les développeurs prévoient de permettre leur implémentation dans n'importe quel langage de programmation.

OpenAI pense que l'apprentissage par renforcement est un moyen important d'apprentissage automatique qui améliorera considérablement l'IA. Dans le processus d'apprentissage par cette méthode, le système de test (agent) apprend en interagissant avec un certain environnement. Contrairement à l'enseignement traditionnel avec un enseignant, la réponse aux décisions prises par l'IA est des signaux de renforcement, tandis que certaines règles de renforcement sont formées dynamiquement et difficiles à comprendre, c'est-à-dire basées sur l'activité simultanée de neurones formels.


Le signal de renforcement est reconnu par le module de reconnaissance optique de texte à une vitesse de 60 ips: vidéo

Middleware OpenAI Universe


L'univers présenté aujourd'hui est un middleware qui prend entièrement en charge la boîte à outils OpenAI Gym et les environnements d'exécution. Grâce à ce middleware, il est prévu d'augmenter radicalement le nombre d'environnements de formation à l'IA.

Auparavant, le plus grand catalogue d'applications d'apprentissage par renforcement ne comprenait que 55 jeux Atari (Atari Learning Environment), mais sur la plate-forme Universe, des jeux devraient apparaître de nombreux autres développeurs, notamment Valve, EA et Microsoft.

Dès le début, des milliers de jeux (jeux flash, serpents multijoueurs Slither , Starcraft, GTA V et autres), une variété de tâches de navigateur (comme remplir des formulaires) et des applications (comme des puzzles fold.it ) sont disponibles via le middleware d'Universe) Presque tous les jeux peuvent être lancés librement en utilisant l' univers de la bibliothèque python , qui est publié dans le domaine public sur Github.

import gym
import universe # register Universe environments into Gym

env = gym.make('flashgames.DuskDrive-v0') # any Universe environment ID here
observation_n = env.reset()

while True:
  # agent which presses the Up arrow 60 times per second
  action_n = [[('KeyEvent', 'ArrowUp', True)] for _ in observation_n]
  observation_n, reward_n, done_n, info = env.step(action_n)
  env.render()

Le code ci-dessus lance un agent d'intelligence artificielle pour jouer au jeu Dusk Drive .

Jeu Dusk Drive

"Notre objectif ultime est de développer un seul agent intelligent capable d'appliquer de manière flexible l'expérience acquise dans Univers pour résoudre de nouveaux problèmes et acquérir rapidement une nouvelle expérience, ce qui sera une étape importante vers une IA forte" , a déclaré le communiqué d'OpenAI. .

Les environnements logiciels d'univers sont installés dans des conteneurs Docker. Comme déjà mentionné, ils communiquent avec l'agent intellectuel via l'interface visuelle - via "l'écran", le "clavier" et la "souris", comme avec une personne. L'interface est implémentée à l'aide du programme VNC pour l'accès à distance au bureau.

En théorie, l'amélioration constante des compétences en IA avec l'accumulation d'expérience dans diverses petites tâches l'aidera à maîtriser chaque nouvelle tâche de plus en plus rapidement, en utilisant les connaissances existantes. La plate-forme et l'ensemble des environnements Univers peuvent devenir pour les agents intellectuels la même plate-forme unifiée standard pour la formation et la formation de renforcement que l' ensemble de données ImageNet - une base de données d'images pour la formation des classificateurs de réseaux neuronaux lors de l'enseignement avec un enseignant.

Une formation renforcée peut en effet être très efficace. Par exemple, l'agent intellectuel d'Univers s'est entraîné pendant environ six jours pour jouer au jeu Web multijoueur Slither. Après six jours, l'IA gagne en moyenne 1 000 points dans les sessions de jeu avec un score maximum de 1 400 points. A titre de comparaison, un employé d'une organisation OpenAI avec cinq heures d'expérience de jeu gagne en moyenne 1 400 points avec un résultat maximum de 7050.

Actuellement, les agents via le middleware Universe sont disponibles pour les jeux et applications suivants des partenaires OpenAI: Portal , Fable Anniversary , World of Goo , RimWorld , Slime Rancher , Shovel Knight , SpaceChem, Wing Commander III , Command & Conquer: Red Alert 2 , Syndicate , Magic Carpet , Mirror's Edge , Sid Meier's Alpha Centauri et Wolfram Mathematica . La liste augmentera.

Source: https://habr.com/ru/post/fr399701/


All Articles