Optimización de la arquitectura de inteligencia artificial: comienza la carrera

A medida que la arquitectura de inteligencia artificial mejora y los costos caen, los expertos dicen que cada vez más empresas dominarán estas tecnologías, lo que impulsará las innovaciones y generará grandes dividendos tanto para las empresas como para los desarrolladores de inteligencia artificial.

Las aplicaciones de IA a menudo funcionan sobre la base de arquitecturas completamente diferentes a las aplicaciones empresariales tradicionales. A su vez, los proveedores están dispuestos a hacer mucho para proporcionar nuevos componentes que están creciendo en demanda.

"La industria de la computación está experimentando cambios importantes: el interés de las empresas en la inteligencia artificial impulsa las innovaciones que ayudarán a dominar e implementar la inteligencia artificial a cualquier escala", dijo Keith Strier, experto en inteligencia artificial y consultor de EY. Los inversores están invirtiendo mucho dinero en nuevas empresas que optimizan la IA, y los grandes fabricantes están comenzando a ofrecer no solo chips y almacenamiento, sino también los servicios de red y en la nube necesarios para la implementación ".
.
Según él, ahora la tarea principal de los directores de TI es elegir la arquitectura de inteligencia artificial adecuada para las necesidades de la empresa.

Streer dice que dado que la IA es matemática en una escala sin precedentes, la implementación de esta tecnología requiere condiciones técnicas y herramientas de seguridad completamente diferentes a las cargas de trabajo corporativas familiares. Para aprovechar al máximo la inteligencia artificial, los proveedores deberán proporcionar la infraestructura técnica, la nube y otros servicios necesarios para la inteligencia artificial, sin los cuales sería imposible realizar cálculos tan complejos.

Pero ya estamos en camino a esto, y en el futuro habrá arquitecturas aún más avanzadas de inteligencia artificial. Streer cree que proporcionar flexibilidad, potencia y velocidad de las arquitecturas informáticas no solo serán pequeñas empresas para el desarrollo de la informática de alto rendimiento, sino también otros representantes de la industria informática de alto rendimiento, incluidas las nuevas empresas para crear microchips y servicios en la nube que buscan establecer un alto estándar para la IA. informática

A medida que aparezcan más especialistas y desarrolladores en el campo de la IA, esta tecnología se volverá más accesible, lo que dará un buen impulso a las innovaciones y generará dividendos notables para las empresas y proveedores.

Mientras tanto, los directores de TI deben familiarizarse con las dificultades asociadas con la creación de una arquitectura de inteligencia artificial para uso corporativo con el fin de estar listos para resolverlos.

Desarrollo de chips


La condición más importante para la transición de las arquitecturas informáticas tradicionales a la IA fue el desarrollo de procesadores gráficos, circuitos integrados lógicos programables (FPGA) y chips de IA especializados. La proliferación de arquitecturas basadas en GPU y FPGA ayudará a aumentar la productividad y la flexibilidad de los sistemas informáticos y de almacenamiento, lo que permitirá a los proveedores de soluciones ofrecer una gama de servicios avanzados para aplicaciones de inteligencia artificial y aprendizaje automático.

"Estas son arquitecturas de chips que liberan una gran cantidad de funciones avanzadas de la carga [como el entrenamiento de inteligencia artificial] y ayudan a implementar una pila mejorada para la informática y el almacenamiento que ofrece un rendimiento y eficiencia inigualables", dice Surya Varanasi, fundadora y CTO de Vexata Inc., proveedor de soluciones de gestión de datos.

Pero mientras los nuevos microcircuitos no son capaces de algo más complejo. Para seleccionar la arquitectura óptima para las cargas de trabajo de IA, es necesario realizar cálculos a gran escala que requieran un alto rendimiento y que no puedan realizarse sin demoras. La clave del éxito aquí son las redes de alta velocidad. Pero muchos algoritmos de IA deben esperar hasta que se escriba el siguiente conjunto de datos, por lo que no debe perder de vista el retraso.

Además, cuando se cruzan los límites del servidor o se transfieren de los servidores al almacenamiento, los datos pasan a través de varios protocolos. Para simplificar estos procesos, los expertos en datos pueden intentar localizar los datos localmente para que un servidor pueda procesar grandes cantidades de datos sin esperar a otros. La integración mejorada entre las GPU y el almacenamiento también ayuda a ahorrar dinero. Otros proveedores están buscando formas de simplificar el diseño de los servidores de IA para garantizar la compatibilidad, de modo que los mismos servidores puedan usarse para diferentes cargas de trabajo.

Memoria no volátil para procesar cargas de trabajo de IA


El núcleo de muchas soluciones basadas en la GPU es una unidad de conexión directa (DAS), que complica enormemente el aprendizaje distribuido y la formación de conclusiones lógicas para la IA. Como resultado, instalar y administrar estas líneas de datos para el aprendizaje profundo se está convirtiendo en una tarea compleja y que requiere mucho tiempo.

Para resolver este problema, la memoria no volátil (NVM) es adecuada, que fue diseñada originalmente para proporcionar conectividad de alta calidad entre unidades de estado sólido (SSD) y servidores corporativos tradicionales. Ahora este tipo de memoria a menudo se incluye en las matrices de E / S para optimizar las cargas de trabajo de AI.

La conclusión es que NVMe over Fabrics (NVMeF), las llamadas estas interfaces, ayudarán a reducir el costo de la conversión entre protocolos de red y controlar las características de cada tipo de SSD. Esto permitirá a los CIO justificar el costo de las aplicaciones de inteligencia artificial que utilizan grandes conjuntos de datos.

Las interfaces NVMeF conllevan sus riesgos, incluida la necesidad de altos costos para las tecnologías avanzadas. Además, todavía hay dependencia de los proveedores de NVMeF en esta industria, por lo que los directores de TI deben tratar de evitar relaciones específicas del proveedor al elegir un producto.
Pero la implementación de NVMeF le permitirá dar un paso más hacia la optimización de la arquitectura corporativa de la inteligencia artificial, cree Varanasi.

"A pesar de que la expansión de la arquitectura NVMe sobre Fabrics a escala industrial puede tomar otro año o año y medio, ya tenemos los componentes principales, y los pioneros ya están reportando resultados prometedores", dice Varanasi.


Los CIO que desean desarrollar aplicaciones de inteligencia artificial pueden intentar crear un grupo de almacenamiento compartido optimizado para inteligencia artificial para NVMeF si puede reemplazar con éxito las redes de almacenamiento existentes en el corto plazo. Pero si espera hasta que NVMeF sea compatible con versiones anteriores, puede perder mucho.

Reduce el movimiento de datos


Cuando planifique las distintas etapas de la implementación de AI, debe prestar especial atención al costo de mover datos. Los proyectos de IA, incluidos los de procesamiento y transformación de datos, así como para algoritmos de entrenamiento, requieren grandes cantidades de datos.

El hardware y los recursos humanos necesarios para completar estas tareas, así como el tiempo que lleva mover los datos en sí, pueden hacer que los proyectos de IA sean demasiado costosos. Si los CIO logran evitar mover datos entre etapas, es probable que puedan desarrollar una infraestructura de IA viable que satisfaga estas necesidades, dijo Haris Pozidis, Ph.D., gerente, especialista en tecnología de aceleración de almacenamiento de IBM Research. Los fabricantes ya están trabajando en este tema.

Por ejemplo, IBM está experimentando con varias opciones de optimización de hardware y software para reducir el movimiento de datos para aplicaciones de IA a gran escala en laboratorios en Zurich. Dichas optimizaciones han ayudado a aumentar 46 veces el rendimiento del script de prueba de la popular herramienta de análisis de clics. Pozidis dice que el aprendizaje distribuido y la aceleración de GPU están en el corazón de este trabajo, que mejora el soporte para estructuras de datos dispersas.

La concurrencia es otro componente importante para acelerar las cargas de trabajo de IA. Para la capacitación distribuida, es necesario realizar cambios en los niveles de hardware y software, lo que mejorará la eficiencia de procesamiento de los algoritmos de procesadores gráficos paralelos. Los investigadores de IBM han creado una plataforma prototipo con paralelismo de datos, que le permite escalar y aprender sobre grandes cantidades de datos que exceden la cantidad de memoria en una máquina. Esto es muy importante para aplicaciones a gran escala. Una nueva plataforma optimizada para el aprendizaje de la comunicación y para proporcionar la localidad de datos ha ayudado a reducir el movimiento de datos.

A nivel de hardware, los investigadores de IBM utilizaron NVMeF para mejorar la interconectividad de la GPU, la CPU y los componentes de memoria en los servidores, así como entre los servidores y el almacenamiento.

“El rendimiento de diferentes cargas de trabajo de IA puede verse limitado por los cuellos de botella de la red, el ancho de banda de la memoria y el ancho de banda entre la CPU y la GPU. Pero si implementa algoritmos y protocolos de conexión más eficientes en todas las partes del sistema, puede dar un gran paso hacia el desarrollo de aplicaciones de IA más rápidas ", dice Pozidis.


Computación Compuesta

Hoy, la mayoría de las cargas de trabajo utilizan una base de datos preconfigurada optimizada para una arquitectura de hardware particular.


Chad Miley, vicepresidente de productos y soluciones analíticas de Teradata, dice que el mercado se está moviendo hacia hardware basado en software, lo que permitirá a las organizaciones distribuir de manera inteligente el procesamiento entre GPU y CPU dependiendo de la tarea actual.


La dificultad radica en el hecho de que las empresas utilizan diferentes motores informáticos para acceder a diferentes opciones de almacenamiento. Las grandes corporaciones prefieren almacenar datos valiosos que necesitan acceso regular, por ejemplo, información sobre clientes, finanzas, la cadena de suministro, productos y otros componentes, utilizando entornos de entrada-salida de alto rendimiento. A su vez, los conjuntos de datos raramente utilizados, tales como lecturas de sensores, contenido web y multimedia, se almacenan en un almacenamiento en la nube de bajo costo.

Uno de los objetivos de la informática compuesta es usar contenedores para optimizar el rendimiento de instancias como motores SQL, motores de gráficos, aprendizaje automático y motores de aprendizaje profundo que acceden a datos distribuidos en diferentes repositorios. El despliegue de varios motores de computación analítica permite el uso de modelos multiprocesador que usan datos de diferentes motores y, como regla, brindan mejores resultados.

Los proveedores de TI como Dell Technologies, Hewlett Packard Enterprise y Liquid se están alejando gradualmente de las arquitecturas tradicionales que asignan cargas de trabajo a nivel informático. En cambio, buscan asignar cargas de trabajo de IA a un sistema completo que consiste en unidades centrales de procesamiento, GPU, dispositivos de memoria y almacenamiento. Para tal transición, es necesario dominar los nuevos componentes de la red, que aumentan la velocidad y reducen el retraso al conectar varios componentes del sistema.

Por ejemplo, muchos centros de datos en la nube usan Ethernet para conectar componentes informáticos y almacenamiento, donde el retraso es de aproximadamente 15 microsegundos. La red informática conmutada de alta velocidad de InfiniBand, que se utiliza en muchas infraestructuras convergentes, puede reducir la latencia hasta en 1,5 microsegundos. Liquid ha creado un conjunto de herramientas para conectar diferentes nodos utilizando PCI Express (PCIE), lo que reduce el retraso a 150 nanosegundos.

Además, algunos expertos sugieren aumentar la cantidad de memoria para las GPU utilizadas para manejar grandes cargas con conexiones rápidas. Por ejemplo, DDR4 a menudo se usa junto con RAM, lo que reduce el retraso a 14 nanosegundos. Pero esto solo funciona para pequeños segmentos de unas pocas pulgadas.

Little Marrek, fundador y desarrollador del servicio de gestión de IA ClusterOne, cree que se necesita más trabajo para garantizar la compatibilidad de las cargas de trabajo de IA en un entorno de software. A pesar del hecho de que algunas empresas ya están tratando de garantizar la compatibilidad con Docker y Kubernetes, es demasiado pronto para aplicar el mismo enfoque a las GPU.

"En general, ejecutar cargas de trabajo de GPU y monitorearlas no es fácil", dice Marrek. "No existe una solución universal que permita el monitoreo de todos los sistemas".



Almacenamiento y GPU


Otro enfoque es utilizar un procesador de gráficos para preprocesar los datos con el fin de reducir la cantidad necesaria para un tipo particular de análisis, y ayudar a organizar los datos y asignarles etiquetas. Esto le permitirá preparar un conjunto de datos adecuado para varias GPU involucradas en el procesamiento, de modo que el algoritmo pueda funcionar desde el interior de la memoria en lugar de transferir datos desde los almacenes a través de redes lentas.

"Percibimos el almacenamiento, la informática y la memoria como componentes separados de la solución, que se ha desarrollado históricamente y, por lo tanto, tratamos de aumentar los volúmenes de procesamiento", dijo Alex St. John, CTO y fundador de Nyriad Ltd., una compañía de software de almacenamiento que apareció en El resultado de la investigación del radiotelescopio más grande del mundo: un telescopio con una matriz de antenas de kilómetro cuadrado (SKA).
Cuanto mayor sea la cantidad de datos, más difícil será moverlos a algún lugar para procesarlos.

El telescopio SKA necesitaba grandes cantidades de energía para procesar 160 TB de datos de señal de radio en tiempo real, que era el principal obstáculo para los investigadores. Como resultado, decidieron abandonar los almacenamientos RAID que se usan con mayor frecuencia en los centros de datos e implementar un sistema de archivos de clúster paralelo, como BeeGFS, que simplifica la preparación de datos para las cargas de trabajo de AI.

Los directores de TI que trabajan en la estrategia óptima para la arquitectura de inteligencia artificial deben prestar especial atención a la usabilidad. Si los desarrolladores, los especialistas en datos y los equipos de integración de desarrollo y operaciones pueden dominar rápidamente la nueva tecnología, pueden invertir su tiempo y energía para crear una lógica comercial exitosa en lugar de resolver problemas de implementación y líneas de datos.

Además, las organizaciones deben considerar cuidadosamente cuánto esfuerzo y tiempo llevará construir una nueva arquitectura de inteligencia artificial en un ecosistema existente.

"Antes de implementar nuevas infraestructuras y planificar grandes cargas de trabajo, los CIO deben evaluar cuántos recursos agotables se necesitarán", dice Asaf Someh, fundador y CEO de Iguazio.

Source: https://habr.com/ru/post/es415929/


All Articles