Las enormes capacidades de las redes neuronales son a veces comparables a su imprevisibilidad. Ahora los matemáticos comienzan a comprender cómo la forma de una red neuronal afecta su trabajo.

Cuando diseñamos un rascacielos, esperamos que al final cumpla con todas las especificaciones: que la torre pueda soportar tal peso, así como un terremoto de cierta fuerza.
Sin embargo, una de las tecnologías más importantes del mundo moderno, de hecho, diseñamos a ciegas. Jugamos con diferentes esquemas, diferentes configuraciones, pero hasta que comencemos una ejecución de prueba del sistema, realmente no tenemos idea de qué puede hacer o dónde se negará a funcionar.
Se trata de la tecnología de redes neuronales que subyace a los sistemas de inteligencia artificial modernos más avanzados. Las redes neuronales se están moviendo gradualmente hacia las áreas más básicas de la sociedad: determinan lo que aprendemos sobre el mundo a través de las noticias en las redes sociales,
ayudan a los médicos a hacer un diagnóstico e incluso
afectan si un criminal es enviado a prisión.
Y "la mejor descripción de lo que sabemos es decir que prácticamente no sabemos nada acerca de cómo funcionan realmente las redes neuronales, y cuál debería ser la teoría que las describe", dijo
Boris Ganin , matemático de la Universidad de Texas, y un especialista invitado en Facebook AI Research que estudia redes neuronales.
Compara la situación con el desarrollo de otra tecnología revolucionaria: una máquina de vapor. Inicialmente, las máquinas de vapor solo podían bombear agua. Luego sirvieron como motores para locomotoras de vapor, y hoy las redes neuronales probablemente han alcanzado aproximadamente el mismo nivel. Los científicos y matemáticos desarrollaron una teoría de la termodinámica que les permitió comprender qué está sucediendo exactamente dentro de cualquier motor. Y al final, ese conocimiento nos trajo al espacio.
"Al principio hubo grandes logros de ingeniería, luego grandes trenes, y luego se necesitó una comprensión teórica para pasar de esto a los cohetes", dijo Ganin.
En la creciente comunidad de desarrolladores de redes neuronales, hay un pequeño grupo de investigadores con un sesgo matemático que intenta crear una teoría de redes neuronales que pueda explicar cómo funcionan y garantizar que, después de crear una red neuronal de cierta configuración, pueda realizar ciertas tareas.
Si bien el trabajo se encuentra en una etapa temprana, pero durante el año pasado, los investigadores ya han publicado varios artículos científicos que describen en detalle la relación entre la forma y el funcionamiento de las redes neuronales. El trabajo describe las redes neuronales en su totalidad, hasta sus cimientos. Ella demuestra que mucho antes de confirmar la capacidad de las redes neuronales para conducir automóviles, es necesario demostrar su capacidad para multiplicar números.
La mejor receta para el cerebro.
Las redes neuronales se esfuerzan por imitar el cerebro humano, y una forma de describir su trabajo es decir que fusiona pequeñas abstracciones en otras más grandes. Desde este punto de vista, la complejidad de los pensamientos se mide por la cantidad de pequeñas abstracciones que subyacen en ellas y la cantidad de combinaciones de abstracciones de bajo nivel en abstracciones de alto nivel, en tareas como estudiar las diferencias entre perros y pájaros.
"Si una persona aprende a reconocer a un perro, entonces aprende a reconocer algo peludo en cuatro patas", dijo
Maitra Ragu , una estudiante graduada en ciencias de la computación en la Universidad de Cornell, miembro del equipo de
Google Brain . "Idealmente, nos gustaría que nuestras redes neuronales hicieran algo similar".
Maitra RaguLa abstracción se origina en el cerebro humano de forma natural. Las redes neuronales tienen que funcionar para esto. Las redes neuronales, como el cerebro, están formadas por bloques de construcción llamados "neuronas", conectadas entre sí de varias maneras. Al mismo tiempo, las neuronas de la red neuronal, aunque están creadas a imagen de las neuronas cerebrales, no intentan imitarlas por completo. Cada neurona puede representar un atributo o una combinación de atributos que la red neuronal considera en cada nivel de abstracción.
Los ingenieros pueden elegir entre muchas opciones para combinar estas neuronas. Deben decidir cuántas capas de neuronas debe tener una red neuronal (es decir, determinar su "profundidad"). Considere, por ejemplo, una red neuronal que reconoce imágenes. La imagen se incluye en la primera capa del sistema. En la siguiente capa, la red puede tener neuronas que simplemente reconocen los bordes de la imagen. La siguiente capa combina las líneas y define las curvas. El siguiente combina las curvas en formas y texturas, y el último procesa las formas y texturas para tomar una decisión sobre lo que está mirando: ¡el mamut peludo!
“La idea es que cada capa combine varios aspectos de la anterior. Un círculo es una curva en muchos lugares, una curva es una línea en muchos lugares ”, dice
David Rolnik , matemático de la Universidad de Pennsylvania.
Los ingenieros también tienen que elegir el "ancho" de cada capa, que corresponde al número de características diferentes que la red considera en cada nivel de abstracción. En el caso del reconocimiento de imágenes, el ancho de las capas corresponderá al número de tipos de líneas, curvas o formas que la red neuronal considerará en cada nivel.
Además de la profundidad y el ancho de la red neuronal, hay una opción del método para conectar las neuronas en las capas y entre ellas, y una opción de pesos para cada una de las conexiones.
Si planea completar una tarea específica, ¿cómo sabe qué arquitectura de red neuronal puede realizarla de la mejor manera? Hay reglas de muestra bastante generales. Para problemas con el reconocimiento de imágenes, los programadores suelen usar redes neuronales "convolucionales", el sistema de enlaces entre capas en el que se repite de capa a capa. Para procesar un lenguaje natural (reconocimiento de voz o generación de lenguaje), los programadores han descubierto que las redes neuronales recurrentes son las más adecuadas. Las neuronas en ellos pueden conectarse con neuronas no solo de las capas vecinas.
Sin embargo, fuera de estos principios generales, los programadores en su mayoría deben confiar en la evidencia experimental: simplemente ejecutan 1,000 redes neuronales diferentes y ven cuál funciona mejor.
"En la práctica, estas elecciones a menudo se toman por prueba y error", dijo Ganin. "Esta es una forma bastante complicada, ya que hay infinitas elecciones y nadie sabe cuál será la mejor".
La mejor opción sería confiar menos en el método de prueba y error, y más en la comprensión preexistente de lo que puede brindarle una arquitectura de red neuronal en particular. Varios artículos científicos publicados recientemente han avanzado esta área en esta dirección.
“Este trabajo tiene como objetivo crear algo así como un libro de recetas para diseñar una red neuronal adecuada. Si sabes lo que quieres lograr con él, puedes elegir la receta correcta ”, dijo Rolnik.
Lazo oveja roja
Una de las primeras garantías teóricas de la arquitectura de redes neuronales apareció hace tres décadas. En 1989, un informático demostró que si una red neuronal tiene solo una capa computacional, en la que puede haber un número ilimitado de neuronas y un número ilimitado de conexiones entre ellas, entonces la red neuronal podrá realizar cualquier tarea.
Esta fue una declaración más o menos general, que resultó ser bastante intuitiva y no particularmente útil. Esto es lo mismo que decir que si puede definir un número ilimitado de líneas en una imagen, puede distinguir todos los objetos con una sola capa. En principio, esto puede cumplirse, pero trate de ponerlo en práctica.
Hoy en día, los investigadores llaman a estas redes anchas y planas "expresivas" porque, en teoría, pueden cubrir un conjunto más rico de relaciones entre los posibles datos de entrada (como una imagen) y salida (como la descripción de una imagen). Al mismo tiempo, es extremadamente difícil entrenar estas redes, es decir, es prácticamente imposible hacer que realmente entreguen estos datos. También requieren más potencia informática que cualquier computadora.
Boris GaninRecientemente, los investigadores han estado tratando de comprender hasta qué punto uno puede llevar las redes neuronales yendo en la dirección opuesta, haciéndolas más estrechas (menos neuronas por capa) y más profundas (más capas). Es posible que pueda reconocer solo 100 líneas diferentes, pero con las conexiones necesarias para convertir 100 de estas líneas en 50 curvas que se pueden combinar en 10 formas diferentes, puede obtener todos los bloques de construcción necesarios para reconocer la mayoría de los objetos.
En el
trabajo que completaron el año pasado, Rolnik y
Max Tegmark del MIT demostraron que al aumentar la profundidad y disminuir el ancho, es posible realizar las mismas tareas con un número exponencialmente menor de neuronas. Demostraron que si la situación que simula tiene 100 variables de entrada, puede obtener la misma confiabilidad usando
2,100 neuronas en una capa o 2,10 neuronas en dos capas. Descubrieron que había ventajas en tomar partes pequeñas y combinarlas en niveles más altos de abstracción, en lugar de tratar de cubrir todos los niveles de abstracción a la vez.
"El concepto de la profundidad de la red neuronal está conectado con la posibilidad de expresar algo complejo mediante la realización de muchos pasos simples", dijo Rolnik. "Parece una línea de montaje".
Rolnik y Tegmark demostraron la utilidad de la profundidad al obligar a las redes neuronales a realizar una tarea simple: multiplicar funciones polinómicas. (Estas son ecuaciones con variables elevadas a grados naturales, por ejemplo, y = x
3 + 1). Entrenaron las redes, mostrándoles ejemplos de ecuaciones y los resultados de su multiplicación. Luego le dijeron a las redes neuronales que calcularan el resultado de la multiplicación de ecuaciones que no habían visto antes. Las redes neuronales más profundas aprendieron cómo hacer esto con mucho menos neuronas que las pequeñas.
Y aunque es poco probable que la multiplicación altere nuestro mundo, Rolnik dice que en el trabajo se describió una idea importante: "Si una red neuronal poco profunda ni siquiera puede multiplicarse, no debes confiar en ella con otra cosa".
David RolnikOtros investigadores están investigando el tema del ancho mínimo suficiente. A finales de septiembre,
Jesse Johnson , anteriormente matemático de la Universidad de Oklahoma y ahora investigador que trabaja para la compañía farmacéutica Sanofi,
demostró que en algún momento ninguna profundidad podría compensar la falta de ancho.
Para que esto tenga sentido, imagine los corderos en el campo, pero que sean corderos del punk rock: la lana de cada uno de ellos estará pintada en uno de varios colores. La red neuronal debe dibujar un borde alrededor de todas las ovejas del mismo color. En esencia, esta tarea es similar a la clasificación de imágenes: una red neuronal tiene un conjunto de imágenes (que representa como puntos en un espacio multidimensional) y necesita agrupar otras similares.
Johnson demostró que una red neuronal no hará frente a esta tarea si el ancho de las capas es menor o igual a la cantidad de datos de entrada. Cada una de nuestras ovejas se puede describir con dos datos de entrada: las coordenadas de su ubicación en el campo, x e y. Luego, la red neuronal marca cada oveja con color y dibuja un borde alrededor de las ovejas del mismo color. En este caso, para resolver el problema necesita al menos tres neuronas por capa.
Más específicamente, Johnson demostró que si la relación del ancho al número de variables no es suficiente, la red neuronal no podrá dibujar bucles cerrados, y una red neuronal tendría que dibujar ese bucle si, por ejemplo, todas las ovejas rojas se hubieran acumulado en el medio del pasto. "Si ninguna de las capas es más gruesa que la cantidad de mediciones de entrada, la función no puede crear algunas formas, independientemente de la cantidad de capas", dijo Johnson.
Tal trabajo comienza a construir el núcleo de la teoría de las redes neuronales. Hasta ahora, los investigadores solo pueden hacer las declaraciones más simples con respecto a la relación entre arquitectura y funcionalidad, y estas declaraciones son muy pocas en comparación con la cantidad de tareas resueltas por las redes neuronales.
Entonces, aunque la teoría de las redes neuronales no podrá cambiar el proceso de su diseño en el futuro cercano, se están creando planos para una nueva teoría de cómo se entrenan las computadoras, y sus consecuencias serán aún más fuertes que una persona que salga al espacio.