La IA de Microsoft rompió el récord de un hombre con la Sra. Pac-man



A pesar de su considerable edad, el juego Pac-Man , sus diversas versiones, sigue siendo muy popular. Los fanáticos del juego compiten regularmente entre sí en quién anotará la mayor cantidad de puntos durante el pasaje. Los desarrolladores de IA también lo están estudiando, mejorando las habilidades de sus sistemas para pasar juegos.

El equipo de desarrollo de la startup canadiense Maluuba, que anteriormente fue adquirida por Microsoft, pudo crear una plataforma de software que mostró resultados inusualmente buenos al pasar a Ms. Pac-Man, la versión de este juego para Atari 2600. El programa rompió todos los récords previamente establecidos, ganando 999,990 puntos.

Por cierto, el juego fue creado en 1982. Entonces Atari Inc. Lanzó el exitoso puerto de juegos arcade de Namco Pac-Man. Como en la versión original, debes controlar al protagonista con el joystick. El protagonista debe moverse por el laberinto, ganando puntos, evitando los fantasmas. El creador del juego portado es Tod Fry.

Según algunos expertos, el hecho de que la plataforma de software obtuvo el número máximo de puntos en el juego es un logro significativo en el campo de la inteligencia artificial (su forma débil). El hecho es que otras plataformas de software mostraron resultados mucho menos exitosos: el juego resultó ser bastante complicado para la IA. Por supuesto, no todos los desarrolladores crearon sus proyectos basados ​​en el registro de Ms. Pac-Man, pero aquellos que trabajaron en él, hablaron de una gran cantidad de problemas técnicos cuando intentaban mostrar resultados significativos.

Para lograr el éxito, el equipo de Maluuba decidió dividir el juego en un grupo de elementos pequeños, con la búsqueda de una solución para interactuar con cada uno de ellos. Además, estos elementos se distribuyeron entre los agentes de IA, cada uno de los cuales resolvió su tarea específica. Doina Prekap, profesora de la Universidad McGill en Montreal, declaró que la idea propuesta por los desarrolladores merece atención. En su opinión, así es como funciona el cerebro humano en algunos casos: descompone un problema en varios componentes y resuelve sucesivamente cada uno de los elementos.

Los desarrolladores llamaron a su método Hybrid Reward Architecture, que utiliza más de 150 agentes de IA, cada uno de los cuales funciona en paralelo con los demás en el proceso de pasar el juego. Además, cada uno de los agentes recibe una "recompensa" por el paso exitoso de su propia sección del juego.

Además de los agentes "pequeños", hay otro agente de nivel superior que se dedica a reunir todos los datos recibidos de todos los "subordinados". También decide dónde debe moverse la figura del héroe. En este caso, se analiza una gran cantidad de datos. El factor principal es la dirección de movimiento seleccionada por el número máximo de agentes elementales. Por otro lado, si 100 agentes quieren ir a la derecha para obtener un trofeo, pero 3 agentes planean girar a la izquierda, porque han notado un fantasma, entonces el agente principal "escucha" a estos tres.

Según el desarrollador principal, el sistema comenzó a mostrar mejores resultados después de que los agentes fueron programados para un comportamiento egoísta. Es decir, cada uno de ellos toma una decisión sin mirar a los demás. Pero la decisión general sobre la dirección del movimiento del héroe la toma el agente principal. Evalúa varios factores y ordena a dónde ir.


"Este es un equilibrio entre, por un lado, la necesidad de interacción y, por otro lado, la necesidad de tomar decisiones individuales", dijo Harm van Seijen, jefe del equipo de investigación de Microsoft.

Pero, ¿por qué generalmente se decidió elegir a la Sra. Pac-Man? Elegir este juego puede parecer extraño para la persona promedio. Pero los expertos dicen que no hay nada extraño aquí, ya que esta clase de juegos es bastante complicada para la inteligencia artificial, ya que hay muchas situaciones de "emergencia" en una unidad de tiempo, cada una de las cuales necesita su propia versión del desarrollo de eventos. Y para encontrar una solución necesita "pensar" casi como una persona, como se mencionó anteriormente.

"Muchas compañías están trabajando en IA para juegos, desarrollando sus propios proyectos, porque aprobar requiere muchas cualidades humanas", dijo Raúl Mehrotra, uno de los programadores de Maluuba.

La plataforma de software desarrollada en Microsoft opera de acuerdo con un método de aprendizaje automático llamado aprendizaje por refuerzo. Durante el trabajo, el sistema de prueba (agente o agentes) aprende interactuando con el entorno. Esto, por definición, es un tipo de experimento cibernético. El método de aprendizaje reforzado es una de las variedades de enseñanza con un maestro, pero el medio o su modelo es el maestro. El agente actúa sobre el medio ambiente y, a su vez, afecta al agente. La retroalimentación surge.

El proyecto en sí no es una teoría pura. Según los desarrolladores, la plataforma de software creada se puede utilizar en muchas áreas. Por ejemplo, puede atraerla a trabajar dentro de una empresa que vende para predecir la dinámica de la afluencia de clientes, la popularidad de los productos y otras cosas importantes. El sistema puede funcionar tanto con tendencias generales como con factores individuales, incluidos compradores individuales.

Source: https://habr.com/ru/post/es404575/


All Articles