Hoje, a 47ª classificação mundial de supercomputadores Top500 é lançada de acordo com o teste Linpack. Diferentemente das 6 versões anteriores da classificação, o líder da lista mudou, o supercomputador chinês Sunway TaihuLight (神威 · 太湖 之 光) com o resultado de 93 petaflops no teste Linpack (desempenho teórico 125,4 petaflops) ficou no topo . Seu desempenho é cerca de 3 vezes maior que o do líder anterior da lista, o chinês Tianhe-2 .
O novo supercomputador foi desenvolvido pelo Centro Nacional de Pesquisa de Engenharia e Tecnologia de Computadores Paralelos da China (Centro Nacional de Pesquisa de Engenharia e Tecnologia de Computadores Paralelos). O sistema está localizado no Centro Nacional de Supercomputadores na província de WuxiJiangsu, no leste da China.
O supercomputador é baseado nos novos processadores chineses da família ShenWei - SW26010 com a arquitetura RISC original de 64 bits, presumivelmente fabricada com tecnologia de 28 nm. Cada processador é equipado com 260 núcleos, opera a uma frequência de 1,45 GHz e possui um desempenho de 3,06 teraflops.O processador foi desenvolvido no Shanghai High Performance IC Design Center. O processador consiste em 4 blocos principais semelhantes, conectados por uma rede integrada em um chip. Cada unidade possui um núcleo de controle (Management Processing Element, MPE), um controlador de memória DDR3 (128 bits) e 64 núcleos de processamento (Computing Processing Elements, CPE) em uma matriz 8x8. Ambos os tipos de núcleos possuem microarquitetura com extraordinária execução de comandos. Os kernels do Control MPE suportam a execução do sistema operacional e do código do usuário, usam operações vetoriais de 264 bits, contêm 32 KB de cache no primeiro nível de instruções e dados e 256 KB de cache no segundo nível. Os núcleos de CPE de computação podem executar apenas o código do usuário com vetores de 264 bits; eles usam 16 KB de cache de instruções e 64 KB de memória temporária ( Scratch Pad Memory ). Cada um dos quatro blocos principais tem acesso a 8 GB de RAM DDR3-2133, portanto, o nó possui 32 GB de RAM com uma largura de banda total de até 136,5 GB / s.O desempenho da computação SIMD nos núcleos MPE é de 16 operações flutuantes de precisão dupla (64 bits) por ciclo, nos núcleos CPE - 8 operações por ciclo. O desempenho total dos núcleos MPE a 1,45 GHz pode atingir 23,2 gigaflops, núcleos CPE - 11,6 gflops.No total, o supercomputador usa mais de 10,6 milhões de núcleos, consistindo em 40.960 nós de processador único em 40 racks de computação. Cada rack possui 4 supernós; o supernó consiste em 32 módulos de 8 nós cada. Os módulos são resfriados a água. Existem poucos detalhes sobre a rede principal do supercomputador, sabe-se que cada chip SW26010 possui conexão PCI Express 3 (16x) à rede de três níveis "Sunway Network". Diâmetro da rede - 7, “largura de banda da bissecção” - 70 TB / s. Dongarra diz que adaptadores de canal host e comutadores da empresa estão sendo usadosMellanox , com uma largura de banda de canal de cerca de 12 GB / s (100 Gb / s) e atrasos da ordem de 1 μs.A eficiência computacional no teste HPL (Linpack) foi de 74% do desempenho teórico. Ao mesmo tempo, em um teste mais complexo de HPCG, o sistema mostrou apenas 0,3% do nível de pico (alguns sistemas atingem 1-3%), o que indica uma memória relativamente lenta e largura de banda de rede insuficiente. Para o SW26010, a proporção entre o pico de flops e a largura de banda da memória é de 22,4 flops / byte (para comparação, o Intel Knights Landing possui 7,2 flops / byte). Dongarra também observou que o sistema possui relativamente pouca RAM, apenas 1,3 PB (o Tianhe-2 tem 1,4 PB, o American Titan, que já ocupa o 3º lugar no Top500 - 0,71 PB).O consumo médio de energia do supercomputador durante o teste de HPL foi de 15,3 MW (um pouco menos de 17 MW em Tianhe-2), o máximo - um pouco menos de 18 MW. Segundo Dongarra, a eficiência energética foi de 6 gigaflops por watt (considerando o processador, a memória e o consumo de rede). O novo supercomputador ficou em terceiro lugar na classificação green500.org (mais eficientes em termos energéticos são RIKEN Shoubu com 6,6 gflops / W e RIKEN Satsuki com 6,2 gflops / W)., Sunway Raise OS 2.0.5, Linux. C/C++, Fortran, , . Sunway OpenACC
OpenACC 2.0 .
— 1.8 , 270 .
: Jack Dongarra, Report on the Sunway TaihuLight System, June 2016,
http://www.netlib.org/utk/people/JackDongarra/PAPERS/sunway-report-2016.pdf; ilustrações do artigo “O supercomputador leve Sunway Taihu: sistema e aplicações”, de Fu HH, Liao JF, Yang JZ, et al., aceito para publicação em Sci. China Inf. Sci., 2016, 59 (7): 072001, doi: 10.1007 / s11432-016-5588-7.Vários slides da apresentação dos prêmios TOP500 e Green500 no ISC 2016 também foram publicados :