Aprender sin profesor: un alumno curioso

Durante la última década, el aprendizaje automático ha avanzado sin precedentes en áreas tan diversas como el reconocimiento de patrones, los robomóviles y los juegos complejos como ir. Estos éxitos se lograron principalmente mediante la formación de redes neuronales profundas con uno de los dos paradigmas: aprender con un maestro y aprender con refuerzo . Ambos paradigmas requieren el desarrollo de señales de entrenamiento humano, que luego se transmiten a la computadora. En el caso del entrenamiento con un maestro, estos son "objetivos" (por ejemplo, la firma correcta debajo de la imagen); en el caso de los refuerzos, estos son "recompensas" por un comportamiento exitoso (puntaje alto en el juego de Atari). Por lo tanto, los límites del aprendizaje están determinados por las personas.

Y si algunos científicos creen que un programa de capacitación suficientemente extenso, por ejemplo, la capacidad de completar con éxito una amplia gama de tareas, debería ser suficiente para generar inteligencia de propósito general, entonces otros piensan que la verdadera inteligencia requerirá estrategias de aprendizaje más independientes. Considere, por ejemplo, el proceso de enseñar a un bebé. Su abuela puede sentarse con él y mostrarle pacientemente ejemplos de patos (que funcionan como una señal de enseñanza cuando se aprende con un maestro) o recompensarlo con aplausos por resolver un rompecabezas con cubos (como en el aprendizaje reforzado). Sin embargo, la mayoría de las veces el bebé explora ingenuamente el mundo y comprende el entorno a través de la curiosidad, el juego y la observación. Aprender sin un maestro es un paradigma diseñado para crear inteligencia autónoma al recompensar a los agentes (programas de computadora) para estudiar los datos que observan, independientemente de cualquier tarea específica. En otras palabras, el agente está entrenado para aprender.

La motivación clave para aprender sin un maestro es que si los datos transmitidos a los algoritmos de aprendizaje tienen una estructura interna extremadamente rica (imágenes, videos, texto), entonces los objetivos y recompensas en el entrenamiento son generalmente muy secos (etiqueta "perro" para esta especie, o unidad / cero, indicando éxito o fracaso en el juego). Esto sugiere que la mayor parte de lo que está estudiando el algoritmo debería consistir en una comprensión de los datos en sí mismos, y no en aplicar esta comprensión a la solución de ciertos problemas.

Decodificación de los elementos de la visión.


2012 fue un año histórico para el aprendizaje profundo cuando AlexNet (llamado así por el arquitecto principal Alex Krizhevsky) desafió a los competidores en el concurso de clasificación de ImageNet . Su capacidad para reconocer imágenes no tenía análogos, pero aún más sorprendente fue lo que sucedía bajo el capó. Después de analizar las acciones de AlexNet, los científicos descubrieron que interpreta imágenes a través de la construcción de representaciones internas cada vez más complejas de datos de entrada. Las características de bajo nivel, por ejemplo, texturas y caras, están representadas por capas inferiores, y luego de ellas en capas superiores, se combinan conceptos de un nivel superior, como ruedas o perros.

Esto es sorprendentemente similar a cómo nuestro cerebro procesa la información: las caras y texturas simples en las áreas principales relacionadas con los sentidos se ensamblan en objetos complejos como caras en áreas más altas del cerebro. Por lo tanto, una escena compleja puede ensamblarse a partir de primitivas visuales, de la misma manera que el significado surge de las palabras individuales que forman una oración. Sin una instalación directa, las capas de AlexNet revelaron un "diccionario" visual fundamental adecuado para resolver el problema. En cierto modo, la red aprendió a jugar lo que Ludwig Wittgenstein llamó el " juego de lenguaje " , que va paso a paso de píxeles a etiquetas de imagen.


Diccionario visual de la red neuronal convolucional. Para cada capa, se crean imágenes que maximizan la activación de ciertas neuronas. Entonces, la reacción de estas neuronas a otras imágenes puede interpretarse como la presencia o ausencia de "palabras" visuales: texturas, estanterías, caras de perros, pájaros.

Entrenamiento de transferencia


Desde el punto de vista de la inteligencia de propósito general, lo más interesante del diccionario AlexNet es que puede reutilizarse o transferirse a otras tareas visuales, por ejemplo, para reconocer no solo objetos individuales, sino también escenas completas. La transferencia en un mundo en constante cambio es absolutamente necesaria, y las personas lo hacen muy bien: somos capaces de adaptar rápidamente las habilidades y la comprensión obtenidas de la experiencia (modelo mundial) a cualquier situación actual. Por ejemplo, un pianista con educación clásica aprenderá fácilmente a tocar jazz. Los agentes artificiales que forman la imagen interna correcta del mundo probablemente deberían tener las mismas capacidades.

Sin embargo, las representaciones obtenidas por clasificadores como AlexNet tienen sus limitaciones. En particular, dado que la red está capacitada para etiquetar una clase (perro, gato, automóvil, volcán), el resto de la información, sin importar cuán útil pueda ser para otras tareas, se ignorará. Por ejemplo, las representaciones pueden no capturar el fondo de las imágenes si las etiquetas se refieren solo a objetos en primer plano. Una posible solución es dar señales de entrenamiento más completas, por ejemplo, descripciones detalladas de imágenes : no solo un "perro", sino "Corgi atrapa el frisbee en un parque soleado". Sin embargo, tales etiquetas son difíciles de colocar, especialmente a gran escala, y aún pueden no ser suficientes para percibir toda la información necesaria para completar la tarea. La premisa básica de aprender sin un maestro es que la mejor manera de aprender representaciones fácilmente transportables es tratar de aprender todo lo posible sobre los datos.

Si el concepto de transferencia a través del entrenamiento de representaciones le parece demasiado abstracto, imagine un niño que ha aprendido a dibujar personas al estilo de "palo, palo, pepino". Encontró una representación de la apariencia de una persona, que es muy compacta y bien adaptada. Complementando cada figura con ciertas características, puede crear retratos de todos los compañeros de clase: gafas para su mejor amigo, una camiseta roja favorita para su compañero de escuela. Y desarrolló esta habilidad no para cumplir una tarea específica o recibir una recompensa, sino en respuesta a una necesidad básica de reflejar el mundo que lo rodea.

Aprendizaje a través de la creatividad: modelos generativos


Quizás el objetivo más simple de aprender sin un maestro es entrenar el algoritmo para crear sus propios ejemplos de datos. T.N. los modelos generativos no solo deberían reproducir los datos en los que fueron entrenados (esto es solo un "recuerdo" poco interesante), sino crear un modelo de la clase de la que se tomaron los datos. No es una fotografía específica de un caballo o arco iris, sino un conjunto de fotografías de caballos y arcoiris; no una declaración específica de un hablante en particular, sino la distribución general de declaraciones verbales. El principio básico de los modelos generativos es que la posibilidad de crear un ejemplo convincente de los datos es la evidencia más fuerte de que se entienden: como dijo Richard Feynman, "lo que no puedo crear, no lo entiendo".

Hasta ahora, el modelo generativo más exitoso para las imágenes sigue siendo la Red Competitiva Generativa (GSS), en la cual dos redes, el generador y el discriminador, entran en la competencia de reconocimiento, similar a la competencia de un falso especialista y un detective. El generador produce imágenes, tratando de hacer que el discriminador crea en su realidad; el discriminador es recompensado por detectar falsificaciones. Las imágenes generadas son primero aleatorias y descuidadas, luego mejoradas en muchos enfoques, y la interacción dinámica de las redes conduce a la aparición de imágenes cada vez más realistas, que en muchos casos no pueden distinguirse de las fotos reales. GSS también puede proporcionar paisajes detallados basados ​​en bocetos aproximados de los usuarios.

Un solo vistazo a las imágenes a continuación será suficiente para asegurarse de que la red haya aprendido a retratar muchas de las características clave de las fotografías en las que se entrenó: la estructura de los cuerpos de los animales, la textura de la hierba y los detalles del juego de luces y sombras (incluso en el reflejo de una burbuja de jabón). Un estudio cuidadoso revela pequeñas anomalías, como una pata extra en un perro blanco y un extraño ángulo recto en los chorros de una de las fuentes. Aunque los creadores de modelos generativos están tratando de deshacerse de tales imperfecciones, el hecho de que podamos verlas habla de una de las ventajas de reconstruir datos tan familiares como las imágenes: al estudiar muestras, los investigadores pueden comprender lo que el modelo ha aprendido y lo que aún no ha aprendido.



Creación a través de la predicción.


Otra familia notable de redes en una clase sin maestros son los modelos autorregresivos, en los que los datos se dividen en pequeños fragmentos, cada uno de los cuales el modelo predice a su vez. Dichos modelos se pueden usar para generar datos de la siguiente manera: primero, la red adivina lo que está sucediendo, alimenta esta conjetura a su entrada y vuelve a adivinar. El ejemplo más famoso es el modelo de lenguaje, donde cada palabra siguiente se predice en base a las anteriores: este modelo funciona con predicciones de texto que aparecen en varias aplicaciones y al enviar un correo electrónico. Los desarrollos recientes en el modelado del lenguaje le permiten crear pasajes sorprendentemente razonables, por ejemplo, tomados de OpenAI GPT-2 :
Sugerencia sobre el sistema (escrito por el hombre)

Los científicos hicieron un sorprendente descubrimiento al descubrir una manada de unicornios que viven en el remoto y inexplorado Valle de los Andes. Aún más sorprendente para los investigadores fue que los unicornios hablaban un inglés excelente.

Texto completado por el modelo (después de 10 intentos)

Los científicos han llamado a la población "unicornios Ovidios" debido a sus cuernos distintivos. Estos unicornios blanco plateado de cuatro cuernos eran previamente desconocidos para la ciencia. Y finalmente, después de dos siglos, se resuelve el misterio de lo que dio lugar a este extraño fenómeno.

El Dr. Jorge Pérez, biólogo evolutivo de la Universidad Lapaz y varios de sus asociados estudiaron los Andes cuando descubrieron un pequeño valle donde no había otros animales y personas. Pérez notó algo en el valle que parecía una fuente natural, rodeado de dos picos rocosos y nieve plateada.

Entonces Pérez y el resto fueron más allá en este valle. "Cuando llegamos a uno de los picos, el agua parecía azul y había pocos cristales en su superficie", dijo Pérez.

Pérez y sus amigos se sorprendieron al ver una manada de unicornios. Estas criaturas se podían ver desde el aire, sin acercarse demasiado para verlas, estaban tan cerca que podían tocar sus cuernos.
Una discrepancia interesante es la descripción de los unicornios como "cuatro cuernos": es divertido estudiar las limitaciones de entender la red.

Al controlar la secuencia de entrada utilizada para ajustar las predicciones, puede utilizar modelos autorregresivos para traducir una secuencia a otra. Esta demostración utiliza un modelo autorregresivo condicional para traducir el texto en un aspecto realista escrito a mano. WaveNet convierte el texto en voz natural y ahora se usa para generar voz para el Asistente de Google . Se puede utilizar un progreso similar en el ajuste y la generación autorregresiva para las traducciones de un idioma a otro.

Los modelos autorregresivos estudian los datos, tratando de predecir cada parte en un cierto orden. Puede crear una clase de redes más generalizada con el aprendizaje sin un maestro, haciendo predicciones sobre cualquier parte de los datos sobre la base de cualquier otra. Por ejemplo, esto puede significar que eliminamos una palabra de la oración y tratamos de predecirla en función del resto del texto . Al enseñar un sistema a través de una consulta de una multitud de predicciones locales, lo obligamos a estudiar todos los datos en general.

Uno de los problemas de los modelos generativos es la posibilidad de su uso malicioso. La manipulación de pruebas en forma de fotografías, videos y grabaciones de audio ha sido posible durante mucho tiempo, pero los modelos generativos pueden facilitar en gran medida la edición de estos materiales con intenciones maliciosas. Ya hemos visto una demostración de la llamada deepfake, por ejemplo, un video falso con Obama . Es gratificante ver que hay intentos serios de responder a estos desafíos, por ejemplo, el uso de técnicas estadísticas para detectar materiales sintéticos y confirmar materiales auténticos, familiarizar al público con lo que está sucediendo y discusiones sobre limitar la disponibilidad de modelos generativos entrenados. Además, los modelos generativos pueden utilizarse para detectar materiales fabricados y datos anormales; por ejemplo, detectar discursos falsos o detectar pagos anormales para proteger a los usuarios de los estafadores. Los investigadores necesitan trabajar en modelos generativos para comprenderlos mejor y reducir los riesgos en el futuro.

Reinventar la inteligencia


Los modelos generativos en sí mismos son muy interesantes, pero en DeepMind los tratamos como una etapa en el camino hacia la inteligencia de propósito general. Darle a un agente la capacidad de generar datos se trata de cómo darle imaginación y, en consecuencia, la capacidad de planificar y razonar sobre el futuro. Nuestros estudios muestran que la capacitación en la predicción de diversos aspectos del entorno, incluso sin una tarea especial para generar datos, enriquece el modelo mundial del agente y, por lo tanto, mejora su capacidad para resolver problemas.

Estos resultados se superponen con nuestra comprensión intuitiva de la mente humana. Nuestra capacidad de estudiar el mundo sin supervisión especial es una de las propiedades fundamentales de la inteligencia. En un viaje de entrenamiento, podemos mirar por la ventana con indiferencia, tocar el terciopelo de los asientos y considerar a los pasajeros que viajan con nosotros. En estos estudios, no tenemos un objetivo: casi no podemos dejar de pensar en recopilar información, y nuestro cerebro trabaja incansablemente para comprender el mundo que nos rodea y nuestro lugar en él.

Source: https://habr.com/ru/post/451626/


All Articles