Otimização da arquitetura de inteligência artificial: a corrida começa

À medida que a arquitetura da IA ​​melhora e os custos caem, os especialistas dizem que mais e mais empresas dominam essas tecnologias, o que dará um impulso às inovações e trará grandes dividendos para as empresas e os desenvolvedores de IA.

Os aplicativos de IA geralmente funcionam com base em arquiteturas completamente diferentes das aplicações corporativas tradicionais. Por sua vez, os fornecedores estão dispostos a fazer muito para fornecer novos componentes que estão crescendo em demanda.

"O setor de computação está passando por grandes mudanças - o interesse das empresas em IA impulsiona inovações que as ajudarão a dominar e implantar a IA em qualquer escala", disse Keith Strier, especialista em IA, consultor da EY. Os investidores estão investindo muito dinheiro em startups que otimizam a IA, e os grandes fabricantes estão começando a oferecer não apenas chips e armazenamento, mas também os serviços de rede e nuvem necessários para a implantação. ”
.
Segundo ele, agora a principal tarefa dos diretores de TI é escolher a arquitetura de inteligência artificial apropriada para as necessidades da empresa.

Streer diz que, como a IA é matemática em uma escala sem precedentes, a implementação dessa tecnologia requer condições técnicas e ferramentas de segurança completamente diferentes das cargas de trabalho corporativas familiares. Para aproveitar ao máximo a IA, os fornecedores precisarão fornecer a infraestrutura técnica, a nuvem e outros serviços necessários para a IA, sem os quais cálculos complexos seriam impossíveis.

Mas já estamos no caminho para isso e, no futuro, haverá arquiteturas ainda mais avançadas de inteligência artificial. Streer acredita que o fornecimento de flexibilidade, potência e velocidade das arquiteturas de computação será não apenas pequenas empresas para o desenvolvimento da computação de alto desempenho, mas também outros representantes da indústria de computação de alto desempenho, incluindo startups para criar microchips e serviços em nuvem que buscam estabelecer um alto padrão de inteligência artificial. computação.

À medida que aparecerem mais especialistas e desenvolvedores no campo da IA, essa tecnologia se tornará mais acessível, o que dará um bom impulso às inovações e trará dividendos visíveis - para empresas e fornecedores.

Enquanto isso, os diretores de TI devem se familiarizar com as dificuldades associadas à criação de uma arquitetura de inteligência artificial para uso corporativo, a fim de estarem prontos para resolvê-las.

Desenvolvimento de chips


A condição mais importante para a transição das arquiteturas de computação tradicionais para a IA foi o desenvolvimento de processadores gráficos, circuitos lógicos programáveis ​​(FPGAs) e chips de IA especializados. A proliferação de arquiteturas baseadas em GPUs e FPGAs ajudará a aumentar a produtividade e a flexibilidade dos sistemas de computação e armazenamento, o que permitirá que os provedores de soluções ofereçam uma gama de serviços avançados para aplicativos de IA e aprendizado de máquina.

"Essas são arquiteturas de chips que liberam muitos recursos avançados da carga [como treinamento em IA] e ajudam a implementar uma pilha aprimorada de computação e armazenamento que oferece desempenho e eficiência incomparáveis", disse Surya Varanasi, fundadora e CTO da Vexata Inc., fornecedor de soluções de gerenciamento de dados.

Mas enquanto os novos microcircuitos não são capazes de algo mais complexo. Para selecionar a arquitetura ideal para as cargas de trabalho de IA, é necessário executar cálculos em larga escala que exijam alta taxa de transferência e não podem ficar sem atrasos. A chave do sucesso aqui são as redes de alta velocidade. Mas muitos algoritmos de IA devem esperar até que o próximo conjunto de dados seja digitado, para que você não perca de vista o atraso.

Além disso, ao cruzar os limites do servidor ou transferir dos servidores para o armazenamento, os dados passam por vários protocolos. Para simplificar esses processos, os especialistas em dados podem tentar localizá-los localmente para que um servidor possa processar grandes blocos de dados sem esperar outros. A integração aprimorada entre GPUs e armazenamento também ajuda a economizar dinheiro. Outros fornecedores estão procurando maneiras de simplificar o design dos servidores de IA para garantir a compatibilidade, de modo que os mesmos servidores possam ser usados ​​para diferentes cargas de trabalho.

Memória não volátil para processar cargas de trabalho de IA


O cerne de muitas soluções baseadas na GPU é um DAS (Direct-Attached Drive), o que complica bastante o aprendizado distribuído e a formação de conclusões lógicas para a IA. Como resultado, instalar e gerenciar essas linhas de dados para aprendizado profundo está se tornando uma tarefa complexa e demorada.

Para resolver esse problema, a memória não volátil (NVM) é adequada, originalmente projetada para fornecer conectividade de alta qualidade entre unidades de estado sólido (SSDs) e servidores corporativos tradicionais. Agora, esse tipo de memória é frequentemente incluído nas matrizes de E / S para otimizar as cargas de trabalho de IA.

A conclusão é que o NVMe over Fabrics (NVMeF) - as chamadas interfaces - ajudará a reduzir o custo da conversão entre protocolos de rede e a controlar as características de cada tipo de SSD. Isso permitirá que os CIOs justifiquem o custo dos aplicativos de IA que usam grandes conjuntos de dados.

Interfaces O NVMeF envolve seus riscos, incluindo a necessidade de altos custos para tecnologias avançadas. Além disso, ainda há dependência dos fornecedores do NVMeF nesse setor, portanto, os diretores de TI devem tentar evitar relacionamentos específicos do fornecedor ao escolher um produto.
Mas a implementação do NVMeF permitirá que você dê outro passo para otimizar a arquitetura corporativa de inteligência artificial, acredita Varanasi.

“Apesar de a expansão da arquitetura NVMe over Fabrics em escala industrial poder demorar mais um ano ou um ano e meio, já temos os principais componentes e os pioneiros já estão relatando resultados promissores”, diz Varanasi.


Os CIOs que desejam desenvolver aplicativos de IA podem tentar criar um pool de armazenamento compartilhado otimizado para AI para NVMeF se ele puder substituir com êxito as redes de armazenamento existentes a curto prazo. Mas se você esperar até que o NVMeF seja compatível com versões anteriores, poderá perder muito.

Reduzir a movimentação de dados


Ao planejar os vários estágios da implantação da IA, você precisa prestar atenção especial ao custo da movimentação de dados. Projetos de IA, incluindo aqueles para processamento e transformação de dados, bem como para algoritmos de treinamento, exigem grandes quantidades de dados.

O hardware e os recursos humanos necessários para concluir essas tarefas, bem como o tempo necessário para mover os dados, podem tornar os projetos de IA muito caros. Se os CIOs puderem evitar a movimentação de dados entre os estágios, é provável que eles consigam desenvolver uma infraestrutura viável de IA que atenda a essas necessidades, disse Haris Pozidis, Ph.D., gerente, especialista em tecnologia de aceleração de armazenamento da IBM Research. Os fabricantes já estão trabalhando nessa questão.

Por exemplo, a IBM está experimentando várias opções de otimização de hardware e software para reduzir a movimentação de dados para aplicativos de IA em larga escala em laboratórios em Zurique. Essas otimizações ajudaram 46 vezes a aumentar o desempenho do script de teste da popular ferramenta de análise de cliques. Pozidis diz que o aprendizado distribuído e a aceleração da GPU estão no centro deste trabalho, o que melhora o suporte a estruturas de dados esparsas.

A simultaneidade é outro componente importante na aceleração das cargas de trabalho de IA. Para treinamento distribuído, é necessário fazer alterações nos níveis de hardware e software, o que aumentará a eficiência do processamento de algoritmos de processadores gráficos paralelos. Os pesquisadores da IBM criaram uma plataforma de protótipo com paralelismo de dados, que permite dimensionar e aprender sobre grandes quantidades de dados que excedem a quantidade de memória em uma máquina. Isso é muito importante para aplicativos em larga escala. Uma nova plataforma otimizada para o aprendizado da comunicação e a localização dos dados ajudou a reduzir a movimentação de dados.

No nível do hardware, os pesquisadores da IBM usaram o NVMeF para melhorar a interconectividade dos componentes GPU, CPU e memória nos servidores, bem como entre servidores e armazenamento.

“O desempenho de diferentes cargas de trabalho de IA pode ser limitado por gargalos de rede, largura de banda de memória e largura de banda entre a CPU e a GPU. Mas se você implementar algoritmos e protocolos de conexão mais eficientes em todas as partes do sistema, poderá dar um grande passo no desenvolvimento de aplicativos de IA mais rápidos ”, diz Pozidis.


Computação Composta

Hoje, a maioria das cargas de trabalho usa um banco de dados pré-configurado otimizado para uma arquitetura de hardware específica.


Chad Miley, vice-presidente de produtos e soluções analíticas da Teradata, diz que o mercado está se movendo em direção a hardware orientado a software, o que permitirá às organizações distribuir inteligentemente o processamento entre GPUs e CPUs, dependendo da tarefa atual.


A dificuldade está no fato de as empresas usarem diferentes mecanismos de computação para acessar diferentes opções de armazenamento. As grandes empresas preferem armazenar dados valiosos que precisam de acesso regular, por exemplo, informações sobre clientes, finanças, cadeia de suprimentos, produtos e outros componentes, usando ambientes de entrada e saída de alto desempenho. Por sua vez, conjuntos de dados raramente usados, como leituras de sensores, conteúdo da Web e multimídia, são armazenados no armazenamento em nuvem de baixo custo.

Um dos objetivos da computação composta é usar contêineres para otimizar o desempenho de instâncias como mecanismos SQL, mecanismos de gráficos, aprendizado de máquina e mecanismos de aprendizado profundo que acessam dados distribuídos em diferentes repositórios. A implantação de vários mecanismos de computação analítica permite o uso de modelos de multiprocessadores que usam dados de diferentes mecanismos e, como regra, trazem melhores resultados.

Os fornecedores de TI, como Dell Technologies, Hewlett Packard Enterprise e Liquid, estão gradualmente se afastando das arquiteturas tradicionais que atribuem cargas de trabalho no nível da computação. Em vez disso, eles procuram atribuir cargas de trabalho de IA a um sistema inteiro que consiste em unidades de processamento central, GPUs, dispositivos de memória e armazenamento. Para essa transição, é necessário dominar novos componentes de rede, que aumentam a velocidade e reduzem o atraso ao conectar vários componentes do sistema.

Por exemplo, muitos datacenters em nuvem usam Ethernet para conectar componentes de computação e armazenamento, onde o atraso é de cerca de 15 microssegundos. A rede de computadores comutados de alta velocidade da InfiniBand, usada em muitas infraestruturas convergentes, pode reduzir a latência em até 1,5 microssegundos. A Liquid criou um conjunto de ferramentas para conectar nós diferentes usando o PCI Express (PCIE), o que reduz o atraso para 150 nanossegundos.

Além disso, alguns especialistas sugerem aumentar a quantidade de memória das GPUs usadas para lidar com grandes cargas com conexões rápidas. Por exemplo, o DDR4 é frequentemente usado junto com a RAM, o que reduz o atraso para 14 nanossegundos. Mas isso funciona apenas para pequenos segmentos de alguns centímetros.

Little Marrek, fundador e desenvolvedor do serviço de gerenciamento de ClusterOne AI, acredita que é necessário mais trabalho para garantir a compatibilidade das cargas de trabalho de IA em um ambiente de software. Apesar de algumas empresas já estarem tentando garantir a compatibilidade com o Docker e o Kubernetes, ainda é cedo para aplicar a mesma abordagem às GPUs.

“Em geral, executar cargas de trabalho da GPU e monitorá-las não é fácil”, diz Marrek. "Não existe uma solução universal que permita o monitoramento de todos os sistemas".



Armazenamento e GPU


Outra abordagem é usar um processador gráfico para pré-processar os dados, a fim de reduzir a quantidade necessária para um tipo específico de análise e ajudar a organizar os dados e atribuir rótulos a eles. Isso permitirá que você prepare um conjunto de dados adequado para várias GPUs envolvidas no processamento, para que o algoritmo possa funcionar a partir do interior da memória, em vez de transferir dados dos armazenamentos em redes lentas.

"Percebemos armazenamento, computação e memória como componentes separados da solução, que se desenvolveu historicamente e, portanto, tentamos aumentar os volumes de processamento", disse Alex St. John, CTO e fundador da Nyriad Ltd., uma empresa de software de armazenamento que apareceu em o resultado da pesquisa do maior radiotelescópio do mundo - um telescópio com uma antena de um quilômetro quadrado (SKA).
Quanto maiores as quantidades de dados, mais difícil é movê-las para algum lugar para processamento.

O telescópio SKA precisava de grandes quantidades de energia para processar 160 TB de dados de sinais de rádio em tempo real, que era o principal obstáculo para os pesquisadores. Como resultado, eles decidiram abandonar os armazenamentos RAID usados ​​com mais freqüência nos datacenters e implantar um sistema de arquivos em cluster paralelo, como o BeeGFS, que simplifica a preparação de dados para cargas de trabalho de IA.

Os diretores de TI que trabalham na estratégia ideal para a arquitetura de inteligência artificial devem prestar atenção especial à usabilidade. Se desenvolvedores, especialistas em dados e equipes de desenvolvimento e integração de operações puderem dominar rapidamente a nova tecnologia, poderão investir seu tempo e energia na criação de uma lógica de negócios bem-sucedida, em vez de resolver problemas de implantação e linhas de dados.

Além disso, as organizações precisam considerar cuidadosamente quanto esforço e tempo serão necessários para criar uma nova arquitetura de IA em um ecossistema existente.

“Antes de implementar novas infraestruturas e planejar grandes cargas de trabalho, os CIOs precisam avaliar quantos recursos esgotáveis ​​serão necessários”, diz Asaf Someh, fundador e CEO da Iguazio.

Source: https://habr.com/ru/post/pt415929/


All Articles