Os japoneses introduziram um processador de protótipo para o supercomputador exaflops: como o chip funciona

Anteriormente, conversamos sobre o mais poderoso supercomputador japonês para pesquisas em física nuclear. Agora, no Japão, eles estão criando um supercomputador Exaflops Post-K - os japoneses serão os primeiros a lançar uma máquina com esse poder de computação.

O comissionamento está previsto para 2021.

Na semana passada, a Fujitsu falou sobre as características técnicas do chip A64FX, que formará a base da nova "máquina". Falaremos mais sobre o chip e seus recursos.


/ photo Toshihiro Matsui CC / Computador japonês supercomputador K

Especificações A64FX


Espera-se que os recursos de computação do Post-K sejam quase dez vezes superiores ao desempenho dos mais poderosos dos supercomputadores IBM Summit existentes ( em junho de 2018 ).

O supercomputador deve desempenho semelhante ao do chip A64FX Arm. Esse chip consiste em 48 núcleos para operações de computação e quatro núcleos para controlá-los. Todos eles são divididos igualmente em quatro grupos - Core Memory Groups (CMG).

Cada grupo possui 8 MB de cache L2. Ele está conectado ao controlador de memória e à interface NoC (" rede em um chip "). O NoC conecta vários CMGs aos controladores PCIe e Tofu. Este último é responsável pela comunicação entre o processador e o restante do sistema. O controlador Tofu possui dez portas com uma taxa de transferência de 12,5 GB / s.

O layout do chip é o seguinte:



A memória HBM2 total do processador é de 32 gigabytes e seu rendimento é igual a 1024 GB / s. A Fujitsu diz que o desempenho do processador em operações de ponto flutuante atinge 2,7 teraflops para operações de 64 bits, 5,4 teraflops para 32 bits e 10,8 teraflops para 16 bits.

A criação do Post-K é monitorada pelos editores de recursos Top500, que compilam uma lista dos mais poderosos sistemas de computação. Segundo eles, para obter desempenho em um exaflops, o supercomputador usa mais de 370 mil processadores A64FX.

O dispositivo utilizará primeiro a tecnologia de extensão vetorial chamada Scalable Vector Extension (SVE). Difere de outras arquiteturas SIMD por não limitar o comprimento dos registros vetoriais, mas define um intervalo válido para eles. O SVE suporta vetores de 128 a 2048 bits de comprimento. Portanto, qualquer programa pode ser executado em outros processadores compatíveis com o SVE, sem a necessidade de recompilação.

Usando o SVE (uma vez que é uma função SIMD), o processador pode executar cálculos simultaneamente com várias matrizes de dados. Aqui está um exemplo de uma destas instruções para a função NEON, que foi usada para computação vetorial em outras arquiteturas de processadores Arm:

vadd.i32 q1, q2, q3 

Ele adiciona quatro números inteiros de 32 bits do registro de 128 bits q2 com os números correspondentes no registro de 128 bits q3 e grava a matriz resultante em q1. O equivalente a esta operação em C é assim:

 for(i = 0; i < 4; i++) a[i] = b[i] + c[i]; 

Além disso, o SVE oferece suporte à vetorização automática. Um vetorizador automático analisa os ciclos no código e, se possível, usa registradores de vetor para executá-los. Isso melhora o desempenho do código.

Por exemplo, uma função em C:

 void vectorize_this(unsigned int *a, unsigned int *b, unsigned int *c) { unsigned int i; for(i = 0; i < SIZE; i++) { a[i] = b[i] + c[i]; } } 

Ele será compilado da seguinte maneira (para um processador Arm de 32 bits):

 104cc: ldr.w r3, [r4, #4]! 104d0: ldr.w r1, [r2, #4]! 104d4: cmp r4, r5 104d6: add r3, r1 104d8: str.w r3, [r0, #4]! 104dc: bne.n 104cc <vectorize_this+0xc> 

Se você usar a vetorização automática, ficará assim:

 10780: vld1.64 {d18-d19}, [r5 :64] 10784: adds r6, #1 10786: cmp r6, r7 10788: add.w r5, r5, #16 1078c: vld1.32 {d16-d17}, [r4] 10790: vadd.i32 q8, q8, q9 10794: add.w r4, r4, #16 10798: vst1.32 {d16-d17}, [r3] 1079c: add.w r3, r3, #16 107a0: bcc.n 10780 <vectorize_this+0x70> 

Aqui, os registros SIM8 q8 e q9 são carregados com dados de matrizes apontadas por r5 e r4. Depois disso, a instrução vadd adiciona quatro valores inteiros de 32 bits por vez. Isso aumenta a quantidade de código, mas dessa forma muito mais dados são processados ​​para cada iteração do loop.

Quem mais cria supercomputadores exaflops


Os supercomputadores Exaflops não são criados apenas no Japão. Por exemplo, também estão em andamento trabalhos na China e nos Estados Unidos.

Na China, crie o Tianhe-3 (Tianhe-3). Seu protótipo já está sendo testado no Centro Nacional de Supercomputação em Tianjin. A versão final do computador está prevista para ser concluída em 2020.


/ photo O01326 CC / Supercomputador Tianhe-2 - antecessor do Tianhe-3

No coração de Tianhe-3 estão os processadores chineses Phytium. O dispositivo contém 64 núcleos, um desempenho de 512 gigaflops e uma largura de banda de memória de 204,8 GB / s.

Também foi criado um protótipo de trabalho para uma máquina da série Sunway . Está sendo testado no Centro Nacional de Supercomputadores em Jinan. Segundo os desenvolvedores, cerca de 35 aplicativos estão operando atualmente no computador - simuladores biomédicos, aplicativos para processamento de big data e programas para estudar as mudanças climáticas. Espera-se que o trabalho no computador seja concluído no primeiro semestre de 2021.

Quanto aos Estados Unidos, os americanos planejam criar seus computadores exaflops até 2021. O projeto se chama Aurora A21, e o Laboratório Nacional de Argonne do Departamento de Energia dos EUA , assim como Intel e Cray, estão trabalhando nele.

Este ano, os pesquisadores já selecionaram dez projetos para o Aurora Early Science Program, cujos participantes serão os primeiros a usar o novo sistema de alto desempenho. Entre eles estavam os programas para criar um mapa dos neurônios cerebrais, estudar a matéria escura e desenvolver um simulador de acelerador de partículas.

Os computadores Exaflops possibilitarão a construção de modelos complexos de pesquisa, pois muitos projetos científicos aguardam a criação dessas máquinas. Um dos mais ambiciosos é o Projeto Cérebro Humano (HBP), cujo objetivo é criar um modelo completo do cérebro humano e estudar cálculos neuromórficos. Segundo os cientistas da HBP, o uso de novos sistemas de exaflops pode ser encontrado desde os primeiros dias de sua existência.



O que fazemos no IT-GRAD: • IaaSHospedagem de PCI DSSNuvem -152



Conteúdo do nosso blog corporativo IaaS:



Source: https://habr.com/ru/post/pt421439/


All Articles