8 mejores tendencias de la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) 2019

El tema del análisis de datos y Data Science se está desarrollando a un ritmo sorprendente en estos días. Para comprender la relevancia de sus métodos y enfoques, es necesario mantenerse al tanto del trabajo de los colegas, y es en las conferencias donde es posible obtener información sobre las tendencias modernas. Desafortunadamente, no todos los eventos se pueden visitar, por lo tanto, los artículos sobre conferencias anteriores son de interés para especialistas que no han encontrado el tiempo y la oportunidad de presencia personal. Nos complace presentarle una traducción del artículo de Chip Huyen sobre la conferencia ICLR 2019 sobre tendencias y enfoques de vanguardia en el campo de la ciencia de datos.


Las representaciones de aprendizaje son un conjunto de métodos, técnicas y enfoques que detectan automáticamente las representaciones necesarias para identificar las características de los datos sin procesar. Las presentaciones de aprendizaje reemplazan la invención manual de las características y le permiten estudiar las propiedades clave de los objetos en función de sus atributos y utilizarlas para resolver problemas específicos.

El artículo da una mirada subjetiva a una serie de problemas de la industria. Sin embargo, uno espera que incluso una revisión subjetiva proporcione suficiente alimento para pensar a un especialista interesado. Además, discutiremos lo siguiente:

  • Los métodos artificiales para corregir la composición sociodemográfica de la conferencia evocan una variedad de sentimientos en la comunidad: desde la indignación agresiva hasta la ignorancia cobarde. Elegir el comportamiento óptimo en dicho entorno sería una tarea interesante para un especialista en teoría de juegos.
  • Los trabajos en los campos del aprendizaje por representación y el aprendizaje por transferencia están aumentando en popularidad y despiertan el interés activo de la comunidad.
  • Las redes neuronales recursivas continúan perdiendo popularidad entre los investigadores, pero en la práctica no se descartarán pronto.
  • El área de las GAN continúa desarrollándose rápidamente, aunque no a todos los investigadores les gusta este hecho. El potencial de las GAN solo se está revelando y se puede esperar una cantidad de trabajos interesantes en esta dirección en el futuro cercano.
  • El aprendizaje reforzado continúa excitando las mentes de los investigadores, siendo el tema más popular en la conferencia. Los especialistas se están acercando a la posibilidad de aplicar métodos de RL a tareas reales, lo que es muy escaso para los adherentes en esta área.
  • Sorprendentemente, recientemente ha habido poco interés en los usos biológicos y genéticos del aprendizaje automático. Se abre una buena oportunidad para los investigadores que buscan un tema para un mayor crecimiento.
  • Los artículos generalmente aceptados y los artículos sobre métodos retro todavía logran llegar a la conferencia, sin embargo, la competencia entre ellos es mayor y los investigadores tienen que hacer más esfuerzos para obtener resultados interesantes que en direcciones más populares y de moda. En ese momento, piense en el hecho de que los materiales para la aplicación del aprendizaje automático clásico se han agotado.

Una revisión detallada de la conferencia de Chip Hyun se puede encontrar a continuación.

1. Inclusión


Los organizadores de la [ Conferencia Internacional sobre Representaciones de Aprendizaje 2019 - Ed.] Destacaron la importancia de la inclusión en el campo de la inteligencia artificial. Los dos primeros discursos principales, un discurso de apertura de Alexander Rush y la oradora invitada Cynthia Dvork , se dedicaron a la justicia y la igualdad.

Algunas estadísticas preocupantes de ICLR 2019:

  • las mujeres solo el 8.6% de los oradores y el 15% de los participantes,
  • 2/3 de todos los investigadores LGBTQ + no revelan su propia orientación en el trabajo,
  • Los 8 oradores invitados son representantes de la raza caucásica.


Desafortunadamente [de la autora], la mayoría de los investigadores de inteligencia artificial no están interesados ​​en absoluto en el tema de la igualdad. Si los seminarios sobre otros temas estaban llenos, entonces el taller de IA para el bien social estaba bastante vacío hasta que apareció Yoshua Benjio . Durante las muchas conversaciones que tuve en la ICLR, nadie mencionó la "diversidad". Un caso fue una excepción: me invitaron a un evento técnico inadecuado, que me sorprendió mucho, y mi buen amigo respondió: "Una pequeña respuesta insultante: fuiste invitada porque eres una mujer".

La razón del estado de cosas observado es que el tema de la diversidad no es "técnico" y, por lo tanto, no ayudará a promover una carrera científica. Otra razón es que hay un rechazo a la propaganda social y pública. Un amigo mío una vez me aconsejó que no le prestara atención al tipo que me trolleó en un chat grupal, porque "le gusta burlarse de las personas que hablan de igualdad y diversidad". Tengo amigos a quienes no les gusta hablar sobre la diversidad en Internet porque no quieren estar "asociados con este tema".

2. Aprendizaje de representación y aprendizaje de transferencia


El objetivo principal del aprendizaje de Representación sin supervisión es detectar rasgos en los datos no asignados que son útiles para su uso en tareas posteriores. En el campo de Procesamiento del lenguaje natural, la capacitación en desempeño a menudo se realiza a través del modelado del lenguaje. Las representaciones resultantes se utilizan para tareas como el análisis de sentimientos, el reconocimiento de nombres y la traducción automática.

Algunos de los estudios de rendimiento no docentes más interesantes del año pasado comienzan con ELMo (Peters et al.) , ULMFiT (Howard et al.) , GPT OpenAI (Radford et al.) , BERT. (Devlin et al.) Y, por supuesto, el altamente peligroso GPT-2 (Radford et al.) .

El GPT-2 completo se demostró en el ICLR, y es sorprendente. Puede ingresar un bosquejo arbitrario del comienzo del texto, y el modelo escribirá el resto del artículo. Un modelo puede escribir artículos de noticias, fan fiction, artículos científicos, incluso definiciones de palabras ficticias. Hasta ahora, el resultado aún no parece humano, pero el equipo está trabajando duro en el GPT-3. Espero con interés ver las capacidades del nuevo modelo.

El enfoque de aprendizaje de transferencia fue adoptado principalmente por la comunidad de especialistas en visión por computadora. Sin embargo, la formación del modelo de clasificación de imágenes ImageNet todavía se lleva a cabo en el modo de formación del profesorado. La pregunta que pueden escuchar constantemente los representantes de ambas comunidades es: "¿Cómo usaríamos la capacitación de presentación no docente para trabajar con imágenes?"

Aunque la mayoría de los laboratorios de investigación conocidos ya están trabajando en esta tarea, solo se presentó un artículo, "Actualización de las reglas de metaaprendizaje para la enseñanza de los envíos no docentes ", en la ICLR (Metz et al.) En lugar de actualizar los pesos, el algoritmo actualiza la regla de aprendizaje. Las vistas obtenidas de la regla de aprendizaje se muestran en una pequeña muestra de datos etiquetados en el modo de clasificación de imágenes. Los investigadores pudieron encontrar reglas de aprendizaje que les permitieron alcanzar una precisión de más del 70% en MNIST y Fashion MNIST.

Los autores descubrieron parte del código , pero no todo, porque "está vinculado a la informática". El ciclo externo requiere aproximadamente 100 mil pasos de entrenamiento y 200 horas en 256 procesadores.


Tengo la sensación de que en un futuro próximo veremos muchas más obras de este tipo. Es posible utilizar la enseñanza sin un maestro en tareas como la codificación automática, la predicción de rotación de imágenes (el documento Gidaris et al. Fue un éxito en ICLR 2018), pronosticando el próximo fotograma en un video, etc.

3. ML retro


Las ideas en el aprendizaje automático son como la moda: son cíclicas. Mirar una sesión de pósters ahora es como caminar en un museo histórico. Incluso el tan esperado debate sobre la ICLR terminó con un debate sobre el tema de "antecedentes versus estructura", que vuelve a la discusión de Yann LeKun y Christopher Manning el año pasado y se asemeja al debate centenario entre los defensores de la teoría bayesiana y los del enfoque de probabilidad de Freventy (frecuencia).

El proyecto "Grounded Language Learning and Understanding" en MIT Media Lab se suspendió en 2001, pero este año Grounded Language Learning presentó dos trabajos envueltos en la portada de "aprendizaje de refuerzo".

  • DOM-Q-NET: RL a tierra en lenguaje estructurado (Jia et al.) - Algoritmo RL para navegar páginas web haciendo clic en enlaces y rellenando campos, mientras que el propósito de la navegación se expresa en un lenguaje natural.
  • BabyAI: una plataforma para estudiar la eficacia de la muestra del aprendizaje de idiomas con base (Chevalier-Boisvert et al.) Es una plataforma compatible con OpenAI Gym con un agente bot artificial que imita a un maestro humano que ayuda a los agentes a aprender un lenguaje sintético.

AnonReviewer4 resumió perfectamente mis pensamientos sobre estos dos artículos:

“... los métodos propuestos aquí son muy similares a los métodos que se han considerado durante mucho tiempo en la literatura sobre análisis semántico. Solo este trabajo cita artículos sobre RL profundo. Creo que sería muy útil para los autores familiarizarse con esta literatura. Creo que la comunidad de análisis semántico también se beneficiará de esto ... Pero estas dos comunidades, aparentemente, tienen poco contacto entre sí, aunque en algunos casos están trabajando en problemas muy similares ".

DFA (Autómatas finitos deterministas) también encontró su lugar en el mundo del aprendizaje profundo este año en dos artículos:

  • Representación de lenguajes formales: una comparación entre autómatas finitos y redes neuronales recurrentes (Mikhalenko et al.),
  • Aprendizaje de representaciones de estado finito de redes de políticas recurrentes (Koul et al.) .

La principal motivación para ambos trabajos es la siguiente: en relación con el gran espacio de estados ocultos en los RNN, ¿es posible reducir el número de estados al último? Soy escéptico de que el DFA pueda representar eficazmente a RNN en problemas de lenguaje, pero me gusta la idea de enseñar RNN durante el entrenamiento y luego convertirlo a DFA para obtener conclusiones lógicas, como se presenta en Koul et al. Las representaciones finales finales requieren solo tres estados de memoria discretos y 10 observaciones para jugar pong. DFA también ayuda a interpretar RNN.


4. RNN está perdiendo popularidad entre los investigadores


Al considerar el calendario de crecimiento de los artículos sobre diversos temas en 2019 en relación con 2018, queda claro que RNN se caracteriza por la mayor caída. Esto no es sorprendente, porque a pesar de que el uso de RNN es intuitivo para los tipos de datos en serie, sufren una falla grave: no pueden ser paralelizados. En consecuencia, es imposible aprovechar el factor más importante que estimula el progreso en la investigación desde 2012: la potencia informática. Los RNN nunca han sido populares en CV o RL, y para PNL son reemplazados por arquitecturas basadas en Atención.


¿Esto significa que RNN está muerto? De hecho, no. Artículo "Neuronas ordenadas: integración de estructuras de árboles en redes neuronales recurrentes" (Shen et al.). recibió uno de los más altos premios este año. Además de esto y los dos artículos sobre autómatas mencionados anteriormente, este año se revisaron nueve artículos más de RNN, la mayoría de los cuales profundizan en los fundamentos matemáticos en lugar de abrir nuevas posibilidades.

Los RNN siguen llenos de vida y son impulsores en la industria, especialmente para las empresas que se ocupan de series temporales como las empresas comerciales. Desafortunadamente, las empresas comerciales no suelen publicar detalles de su trabajo. Incluso si las RNN no son muy atractivas para los investigadores en este momento, pueden recuperar su popularidad en el futuro.

5. Las GAN todavía están arriba


A pesar de que el tema GAN en la escala relativa en comparación con el año anterior muestra un crecimiento negativo, en la escala absoluta el número de obras aumentó de ~ 70 a ~ 100. Ian Goodfellow dio una charla sobre GAN y estuvo constantemente rodeado de fanáticos. El último día, tuvo que entregar su placa para que la gente no pudiera ver su nombre.

Toda la primera sesión de pósters estuvo dedicada a la GAN. Hay nuevas arquitecturas GAN, mejoras en la arquitectura GAN antigua, análisis GAN, aplicaciones GAN desde la generación de imágenes hasta la generación de texto y síntesis de audio. Hay PATE-GAN, GANSynth, ProbGAN, InstaGAN, RelGAN, MisGAN, SPIGAN, LayoutGAN, KnockoffGAN, etc. y no tengo idea de lo que eso significa. Desafortunadamente, Andrew Brock llamó a su modelo gigante BigGAN, no giGANtic :)


La sesión de pósters mostró cuán sesgada es la comunidad cuando se trata de GAN. Algunos de los comentarios que escuché de los opositores de la GAN se veían así: "No puedo esperar a que todo este bombo con la GAN disminuya", "cuando alguien menciona el término" adversario ", mi cerebro simplemente se apaga". En mi opinión, son simplemente envidiosos.

6. Falta de estudios biológicos en profundidad.


Teniendo en cuenta la gran emoción causada por el público al determinar la secuencia de genes en el ADN, así como la aparición de niños modificados que utilizan la tecnología CRISPR, [fue] sorprendente para mí que no hubo un aumento en el trabajo sobre el uso del aprendizaje profundo en biología en ICLR. Hubo seis artículos sobre el tema.

Dos sobre temas de arquitectura tomados de la biología:

  • Los algoritmos de aprendizaje biológicamente plausibles pueden escalar a grandes conjuntos de datos (Xiao et al.),
  • Una teoría unificada de las primeras representaciones visuales desde la retina hasta la corteza a través de las CNN profundas con restricciones anatómicas (Lindsey et al.).

Un trabajo en capacitación de diseño para ARN (Runge et al.) .

Tres trabajos de manipulación de proteínas:

  • Localización de proteínas a nivel humano con redes neuronales convolucionales (Rumetshofer et al.),
  • Estructura de la proteína de aprendizaje con un simulador diferenciable (Ingraham et al.),
  • Aprendizaje de incrustaciones de secuencias de proteínas utilizando información de la estructura (Bepler et al.).


No hubo artículos sobre el tema de los genomas y no se realizaron seminarios. No importa cuán triste parezca, sin embargo, se abren grandes oportunidades para los investigadores de educación profunda en biología y los biólogos en educación profunda.

Un hecho: Jack Lindsay, el primer autor del artículo anterior sobre la huella digital, aún no se ha graduado de Stanford College.

7. El aprendizaje reforzado sigue siendo el tema más popular.


Los documentos presentados en la conferencia demuestran que la comunidad RL está pasando de métodos sin modelos a algoritmos basados ​​en modelos con algoritmos eficientes basados ​​en muestreo y metaaprendizaje. El cambio probablemente se debió a los resultados extremadamente altos en los puntos de referencia de Mujoco establecidos por TD3 (Fujimoto et al., 2018) y SAC (Haarnoja et al., 2018) , así como en el espacio de operaciones discretas en Atari establecido por R2D2 (Kapturowski et al. , ICLR 2019) .

En el proceso de capacitación, los algoritmos basados ​​en modelos utilizan los datos disponibles para obtener un modelo ambiental y lo utilizan para planificar las estrategias de los agentes en este entorno o para generar nuevos datos. Los algoritmos basados ​​en modelos finalmente han logrado la precisión asintótica de sus contrapartes libres de modelos, utilizando 10-100 veces menos datos (MB-MPO (Rothfuss et al.) ). La nueva ventaja hace que los métodos basados ​​en modelos sean adecuados para tareas de un nivel real de complejidad. Si después del entrenamiento el simulador del entorno tendrá fallas, lo cual es muy probable, entonces sus deficiencias se pueden compensar mediante el uso de modelos más complejos, como el conjunto de simuladores (Rajeswaran et al.) . Otra forma de usar RL para resolver problemas de un nivel real de complejidad es permitir que el simulador admita esquemas de aleatorización complejos. La estrategia obtenida en una variedad de simuladores ambientales puede considerar el mundo real como "otra aleatorización" y puede tener éxito en tareas de un nivel real de complejidad (OpenAI) .

Los algoritmos de metaaprendizaje que le permiten obtener una rápida transferencia de aprendizaje a nuevas tareas también se han mejorado tanto en términos de rendimiento como en términos de eficiencia de la muestra ( ProMP (Rothfuss et al.) , PEARL (Rakelly et al.) ). Estas mejoras nos acercaron al "momento ImageNet para RL", en el que podemos usar estrategias de decisión aprendidas de otras tareas, en lugar de entrenarlas desde cero (lo cual es imposible para tareas complejas).


Una parte impresionante del trabajo aceptado, junto con un seminario sobre la estructura y la probabilidad a priori en RL, se dedicó a la integración del conocimiento ambiental en los algoritmos de aprendizaje. Si una de las principales fortalezas de los primeros algoritmos de RL profundos fue la generalización (por ejemplo, DQN usa la misma arquitectura para todos los juegos de Atari, sin saber nada sobre un juego específico), ahora los nuevos algoritmos usan la integración de conocimiento a priori para resolver problemas más complejos tareas Por ejemplo, en la Red de Transportadores (Jakab et al.), Un agente utiliza conocimiento a priori para realizar un trabajo de exploración más informativo.

En resumen, podemos decir que en los últimos 5 años, la comunidad RL ha desarrollado muchas herramientas efectivas para resolver los problemas de la capacitación de refuerzo en modo sin modelo. Ahora es el momento de encontrar algoritmos más transportables y eficientes en muestras para aplicar RL a tareas del mundo real.

Uno de los hechos: Sergey Levin es probablemente la persona con más trabajo en la ICLR este año, en particular, 15 de sus artículos han sido aceptados para su publicación.

8. Los artículos comunes se desvanecen rápidamente en segundo plano.


Cuando le pregunté al famoso investigador qué pensaba sobre el trabajo aceptado este año, se rió entre dientes: "La mayoría de ellos serán olvidados tan pronto como termine la conferencia". En un campo acelerado como el aprendizaje automático, los resultados se refutan en semanas, si no en días. No es sorprendente que la mayoría de los documentos aceptados ya estén desactualizados en el momento de la presentación. Por ejemplo, según Borealis AI para ICLR 2018, " siete de los ocho artículos sobre defensa contra ataques adversos fueron refutados incluso antes de que comenzara el ICLR . Esto demuestra que los métodos heurísticos sin ninguna base teórica están lejos de ser tan confiables como parecen. "

A menudo escuché comentarios durante la conferencia, señalando la contribución tangible del azar a la decisión de aceptar / rechazar el trabajo. No mencionaré artículos específicos, sin embargo, algunos de los artículos más discutidos y citados en los últimos años fueron rechazados por las conferencias en el primer post. Sin embargo, muchos de los trabajos aceptados serán relevantes por años, sin siquiera ser citados.

Como persona que investiga en esta área, a menudo me encuentro con una crisis existencial. Cualquier idea que se me ocurra, parece que alguien más ya se está dando cuenta de esto, y mejor y más rápido. ¿De qué sirve publicar un artículo si nadie lo necesita?

Conclusión


Por supuesto, todavía hay tendencias que me gustaría abarcar.

  • Optimización y regularización: el debate de Adam contra SGD continúa. Se han propuesto muchos métodos nuevos, y algunos de ellos son bastante emocionantes. Parece que hoy en día cada laboratorio está desarrollando su propio optimizador, incluso nuestro equipo está trabajando en un nuevo optimizador, que debería lanzarse en un futuro próximo.
  • : , - . , , . , , GAN , .

, . , (55 ) . ICLR 2019 , , .




ICLR. , , , . . NeurIPS , : « , , ».

, , — , . , , . , . 10 10, [ICLR — .].

- , , , , . « » (Oleksii Hrinchuk)



. CleverDATA , , . . Data Science , , . , , - , !

Source: https://habr.com/ru/post/475720/


All Articles