
Según IBM, la precisión de
TrueNorth cumple con los mejores sistemas actuales de reconocimiento de imagen y reconocimiento de voz, pero también usa menos energía y es más rápido. El equipo de investigación de la compañía confía en que la combinación de redes convolucionales con microcircuitos neuromórficos nos permitirá crear autos y teléfonos inteligentes más avanzados que reconozcan correctamente el comando de voz de una persona, incluso si habla con la boca llena. Tratemos de descubrir cuáles son las ventajas y desventajas de TrueNorth y dónde encontró aplicación.
El cerebro humano contiene alrededor de 86 mil millones de neuronas, células que se conectan a miles de otras neuronas a través de los procesos de sinapsis. Una neurona recibe señales de muchos otros, y cuando la estimulación alcanza cierto umbral, se "activa" enviando su propia señal a las neuronas circundantes. El cerebro aprende, en particular, ajustando fuertes lazos. Cuando se repite la secuencia de acciones, por ejemplo, a través de la práctica, las sinapsis concomitantes se fortalecen y la lección o habilidad aprendida "encaja" en la red.
En la década de 1940, los científicos comenzaron a modelar neuronas matemáticamente, y en los años 50, crearon redes de neuronas y computadoras. Las neuronas y las sinapsis artificiales son mucho más simples que en el cerebro, pero operan con los mismos principios. Muchas unidades simples (neuronas) están conectadas a otras a través de "sinapsis" con sus valores numéricos dependiendo de los valores de las unidades.
La red neuronal convolucional (CNN) es un tipo especial de red que ha ganado popularidad en los últimos años. Las CNN extraen características importantes de los incentivos, generalmente fotografías. Tome, por ejemplo, una fotografía de un perro. Se puede representar como una capa de neuronas, donde la activación de una neurona representa un píxel en la imagen. En la siguiente capa, cada neurona recibirá información de un conjunto de la primera capa y se activará si detecta un patrón específico en este conjunto, actuando como un filtro.
En las capas posteriores, las neuronas buscarán patrones en los patrones, y así sucesivamente. Dentro de una sola capa, los filtros pueden ser sensibles a ciertas estructuras. Primero a los bordes de las figuras, luego a las patas, luego a los perros, hasta que la red pueda determinar la diferencia entre el perro y la tostadora.
Ahora, tales cálculos son caros. Dado que hay miles de millones de neuronas y miles de millones de sinapsis en el cerebro humano, todavía no es posible imitarlas. Incluso simular una pequeña parte del cerebro requerirá millones de cálculos para cada elemento de entrada, lo que requiere una enorme potencia de procesamiento. Las CNN modernas más grandes pueden tener millones de neuronas y miles de millones de sinapsis, pero no más.
La arquitectura informática clásica de los procesadores centrales, diseñada para procesar una instrucción a la vez, no es adecuada para las tareas que impone CNN. Por lo tanto, los científicos recurrieron a la computación paralela, que puede procesar varios a la vez. Las redes neuronales modernas usan procesadores gráficos, que generalmente calculan los gráficos de los videojuegos y CAD. Debido a la arquitectura y la similitud de los cálculos matemáticos, las tarjetas de video son adecuadas para el aprendizaje profundo.
Pero aún así, el hardware no hace frente al aprendizaje profundo tan eficazmente como el cerebro, que puede conducir un automóvil y al mismo tiempo hablar sobre el futuro de los vehículos autónomos, mientras consume menos energía que una bombilla.
En la década de 1980, el ingeniero Carver Mead acuñó el término "procesadores neuromórficos" para describir los chips de computadora que funcionan de manera similar a un cerebro. Su trabajo sentó las bases para esta área. Aunque el término "neuromórfico" ahora se aplica a una amplia gama de soluciones, todos intentan repetir el mecanismo de operación de las redes neuronales a nivel de hardware, evitando los cuellos de botella que enfrentan los procesadores tradicionales.
Al ver la necesidad de un aprendizaje automático rápido y eficiente, la Oficina de Proyectos Avanzados del Departamento de Defensa de EE. UU. (Mejor conocida por su acrónimo DARPA) ha estado financiando activamente el laboratorio corporativo de IBM HRL Laboratories desde 2008 para desarrollar máquinas neuromórficas que pueden escalarse fácilmente.
TrueNorth
En 2014, IBM
presentó su chip TrueNorth en la portada de la revista Science. Desde entonces, la compañía ha estado desarrollando sistemas basados en TrueNorth con el apoyo financiero del Departamento de Energía de los EE. UU., La Fuerza Aérea y el Ejército. Uno de estos chips contiene un millón de "neuronas", cada una de las cuales está representada por un grupo de transistores digitales, y 256 millones de "sinapsis" - conexiones cableadas entre los chips.
Las arquitecturas neuromórficas se vuelven más eficientes que los chips convencionales debido a dos funciones. En primer lugar, dicho chip, como el cerebro, se comunica a través de "flashes": paquetes de información unidimensionales enviados desde una neurona a las neuronas descendentes. Las señales son simples (si hay un destello o no) y se transmiten solo ocasionalmente cuando una neurona transmite un paquete. En segundo lugar, al igual que en el cerebro, el procesamiento y la memoria se encuentran en neuronas y sinapsis. En una computadora tradicional, la unidad de procesamiento de datos extrae constantemente información de áreas de memoria individuales, realiza operaciones y luego devuelve nueva información a la memoria. Esto lleva a muchas actividades lentas y que consumen energía.
El sistema TrueNorth es bastante flexible, ya que se puede programar para implementar redes de diferentes tamaños y formas y escalar al "romper" varios chips. En su trabajo científico, el equipo de IBM utilizó un chip neuromórfico para identificar personas, bicicletas y automóviles en un video filmado en la calle. Un experimento comparativo mostró que el software TrueNorth que se ejecuta en un microprocesador tradicional utiliza 176 mil veces más energía para esta tarea.
Una parte clave del proyecto de IBM fue la creación no solo de un chip, sino también de un software. La compañía ha creado un simulador, un nuevo lenguaje de programación y una biblioteca de algoritmos y aplicaciones. Luego, la compañía proporcionó estas herramientas a más de 160 investigadores en laboratorios académicos, nacionales y corporativos. El diseño de TrueNorth se completó en 2011, y la revolución de la red neuronal convolucional tuvo lugar en 2012 como parte del
Desafío ImageNet . Entonces, algunas personas comenzaron a preguntarse si los chips TrueNorth podrían manejar estas redes.
CNN utiliza el método de retropropagación. Cada vez que la red comete un error, se calcula la diferencia entre su suposición y la respuesta correcta. El algoritmo de propagación de error de retorno considera cada neurona en la capa final y calcula cuánto un cambio en la salida de esta neurona reducirá el error total. Luego regresa a las neuronas anteriores y calcula cuánto un cambio en la fuerza de cada sinapsis entrante reducirá el error general.
Es necesario averiguar si la fuerza sináptica debe aumentarse o disminuirse, por lo que el algoritmo ajusta ligeramente cada peso en la dirección correcta. Posteriormente, el algoritmo calcula un nuevo error utilizando los nuevos pesos y repite todo el proceso. Después de muchos de estos pasos, el error disminuye en un proceso llamado descenso de gradiente.
TrueNorth se consideró inicialmente incompatible con el algoritmo de error de propagación hacia atrás, ya que el descenso de gradiente requiere pequeños ajustes de peso y la visión para pequeñas mejoras. TrueNorth maximiza su eficiencia usando solo tres valores de peso diferentes: -1, 0 y 1, y la salida de la neurona es 0 o 1. No hay gradientes, solo pasos discretos.
Uno de los logros clave del equipo fue una serie de métodos para realizar el algoritmo de retropropagación con redes neuronales pulsadas. Los investigadores resolvieron este problema entrenando el modelo de software del chip programado para usar una aproximación de hardware que sea compatible con el descenso de gradiente.
Otro desarrollo clave fue el mapeo de CNN a una multitud de conexiones a neuronas en un chip, que involucra solo 256 conexiones por neurona. Esto se logró mediante la asignación de ciertos pares de neuronas que operan simultáneamente, que se combinan en una neurona a través de entradas y salidas.
A pesar del rendimiento bastante alto de TrueNorth, fue creado sin tener en cuenta las características de las redes neuronales profundas y CNN, por lo que tiene desventajas en comparación con otros sistemas. Por ejemplo, para que funcione una red de 30 mil neuronas, se requieren 8 chips (8 millones de neuronas). Además, TrueNorth es un chip totalmente digital cuando algunos tienen componentes analógicos. Su trabajo es más impredecible, pero aún más eficiente. Y aunque cada chip TrueNorth se divide en 4096 "núcleos" que funcionan en paralelo, 256 neuronas en cada núcleo se actualizan solo secuencialmente y una a la vez.
El procesamiento secuencial de neuronas en el núcleo TrueNorth puede crear un cuello de botella, pero también proporciona regularidad. Esto significa que el comportamiento del chip se puede simular con alta precisión en computadoras de escritorio. Al mismo tiempo, el chip es universal: puede admitir muchos tipos diferentes de redes, y el objetivo actual del equipo de creadores de chips bajo la dirección del investigador principal de IBM en informática similar al cerebro, Dharmendra Modha, es implementar varias redes diferentes trabajando juntas, para lograr la composición.
Planes futuros
Además de lograr la compostura, el equipo de Modha se compromete a explorar varios métodos de enseñanza. Los científicos también señalan que los métodos descritos en su trabajo pueden aplicarse a chips neuromórficos que no sean TrueNorth. Además, además de los nuevos métodos de enseñanza, el equipo piensa en logros más radicales. Según un informe de 2015 del Departamento de Energía de EE. UU. Sobre computación neuromórfica, alrededor del 5-15% de la energía mundial se consume actualmente en alguna forma de procesamiento y transmisión de datos. Al mismo tiempo, el Departamento quiere aumentar la velocidad, la eficiencia y la tolerancia a fallas de las redes. Este informe llevó al equipo de IBM a pensar en desarrollar materiales con nuevas propiedades físicas.
El objetivo global es reemplazar los centros de datos gigantes con chips en teléfonos inteligentes, hogares y automóviles que pueden "pensar" por sí mismos: conversar, realizar descubrimientos científicos y médicos, conducir automóviles, robots o prótesis de extremidades. Idealmente, estos chips pueden lograr un éxito aún mayor, por ejemplo, resolver el problema del hambre en el mundo.
Varios laboratorios de investigación ya están utilizando activamente TrueNorth. En agosto de 2016, Samsung
demostró un sistema que utiliza una transmisión de video para crear un mapa de entorno 3D en tres dimensiones a una velocidad de 2000 cuadros por segundo, consumiendo un tercio de un vatio. La compañía utilizó este sistema para controlar la televisión con gestos con las manos.
El Laboratorio Nacional Lawrence Livermore tiene una placa TrueNorth de 16 chips que se utiliza para mejorar la ciberseguridad y la seguridad nuclear de los EE. UU. El laboratorio de investigación de la Fuerza Aérea, que utiliza TrueNorth para proporcionar navegación autónoma para vehículos aéreos no tripulados, anunció recientemente planes para probar una variedad de 64 chips.