La nueva versión del programa AlphaGo Zero derrotó a su ilustre antepasado con un puntaje de 100: 0

El 18 de octubre, DeepMind publicó un artículo de AlphaGo sobre los últimos logros en la revista Nature . La nueva versión del programa se llamaba Zero, ya que fue entrenada desde cero sin usar los datos recibidos de una persona, excepto por las reglas del juego Go. Para entrenar la versión anterior, que ganó los campeonatos con personas, se usó inicialmente el método de entrenamiento con un maestro (aprendizaje supervisado), y solo luego se entrenó con refuerzo (aprendizaje de refuerzo). Es decir, inicialmente el programa entrenado, estudiando la experiencia humana y solo luego en el juego contra sus propias versiones. Es decir, la versión anterior inicialmente aprendió a predecir los movimientos humanos. AlphaGo Zero se convirtió en su propio maestro: la red neuronal entrenada para predecir sus propias elecciones, así como la elección de la versión campeona.



Los creadores del programa argumentan razonablemente que Zero es actualmente el jugador Go más poderoso de la historia.

Versiones anteriores AlphaGo inicialmente aprendió a jugar con miles de personas, desde aficionados hasta profesionales. Zero se libró de los prejuicios humanos, se saltó esta etapa, comenzó a aprender, jugando consigo misma, haciendo inicialmente movimientos arbitrarios. Pronto, el programa superó el nivel humano y derrotó a la versión campeona.



Pero deshacerse de la influencia de la experiencia humana no es el único cambio. El sitio web oficial menciona el uso de una nueva forma de entrenamiento con refuerzo, cuya esencia no se revela completamente. Está claro que la red neuronal se combina con un poderoso algoritmo de búsqueda. Durante los juegos, los coeficientes de la red neuronal se ajustan y actualizan. Luego, la red neuronal actualizada se recombina nuevamente con un algoritmo de búsqueda para obtener una versión más fuerte de AlphaGo Zero. Y así, iteración tras iteración, el sistema se desarrolla, junto con el nivel del juego.

Pero después de esta descripción turbia, los autores dicen nuevamente que la principal ventaja del nuevo método es que AlphaGo ya no está limitado por los límites del conocimiento humano. En cambio, puede aprender desde cero del jugador más poderoso del mundo: de la propia AlphaGo.

Sin embargo, también se mencionan otras diferencias:

  • Zero utiliza solo colores de piedras en blanco y negro en el tablero como entrada, mientras que las versiones anteriores se alimentaron con una pequeña cantidad de parámetros artificiales.
  • En versiones anteriores, se utilizaron dos redes separadas, “red de políticas” (para elegir el próximo movimiento) y “red de valores” (para predecir un posible ganador de cada posición). En la nueva versión de Zero, se combinaron, lo que permitió un entrenamiento más efectivo.
  • AlphaGo Zero ya no utiliza "despliegues": juegos aleatorios rápidos de otros programas de Go para predecir qué jugador ganará desde su posición actual. Aquí, se pone énfasis en la alta calidad de las redes neuronales de evaluación.

Todos los cambios, según los autores, ayudaron a mejorar el rendimiento del sistema, su potencia y eficiencia, y al mismo tiempo lo hicieron más universal. Si el sistema puede aprender de forma independiente desde cero, significa que del juego en Go puede ser "trasplantado" a cualquier otra rama del conocimiento humano. DeepMind ha declarado durante mucho tiempo que su misión es crear inteligencia artificial de propósito general, un sistema único que fuera de la caja podría resolver una variedad de problemas.

Un descubrimiento importante es que AlphaGo no solo aprendió a jugar como las personas, sino que desarrolló sus enfoques fundamentalmente nuevos y extremadamente efectivos para jugar Go, sus estrategias que las personas han estado jugando este juego durante miles de años y que nunca han imaginado. No solo eso, en un corto período de tiempo, ella dominó el conocimiento que le tomó a las personas miles de años, sino que desarrolló un conocimiento fundamentalmente nuevo. Y si este sistema ha demostrado una eficiencia tan alta en un negocio tan complejo como el juego en Go, el siguiente paso es que los creadores del sistema vean la búsqueda de su aplicación en otras industrias.

Source: https://habr.com/ru/post/es407619/


All Articles