Derrière la puce HPC d'Intel qui percera la barrière exascale

Lundi, Intel a dévoilé de nouveaux détails du processeur qui alimenteront le supercalculateur Aurora, qui est conçu pour devenir l'un des premiers U.S.-Pords à haute performance (HPC) basés.Intel Fellow Wilfred Gomes a déclaré aux ingénieurs qui assistaient pratiquement à la conférence internationale des circuits de Solid State IEE cette semaine que le processeur a poussé les technologies d'intégration 2D et 3D Chiplet d'Intel aux limites.

Le processeur, appelé Ponte Vecchio, est un package qui combine plusieurs carreaux de calcul, de cache, de mise en réseau et de siliciums de mémoire, ou «Chiplets.«Chacun des thètiles de l'emballage est fabriqué à l'aide de différentes technologies de processus, dans un exemple brut d'une tendance appelée intégration hétérogène.

Ponte Vecchio est, entre autres, une classe de maître dans l'intégration 3D.

The result is that Intel packed 3,100 square millimeters of silicon—nearly equal to four Nvidia A100 GPUs—into a 2,330 mm² footprint.Cela représente plus de 100 milliards de transistors sur 47 morceaux de silicium.

Ponte Vecchio est en calcul multiple, cache, E / S et tuiles de mémoire connectées à l'aide de la technologie 3D et 2D.Source: Intel Corp.

Ponte Vecchio est, entre autres, une classe de maître dans l'intégration 3D.Chaque processeur Ponte Vecchio est vraiment deux ensembles d'images miroir de chiplets liés ensemble à l'aide de la technologie d'intégration 2D d'Intel co-émib.Co-emib forme un pont d'interconnexions à haute densité entre deux piles 3D de chiplets.Le pont lui-même est un petit morceau de silicium intégré dans le substrat organique d'un paquet.Les lignes d'interconnexion sur le silicium peuvent être rendues plus étroites que sur le substrat organique.Les connexions ordinaires de Ponte Vecchio au substrat de package étaient à 100 micromètres d'intervalle, alors qu'elles étaient presque deux fois plus denses dans la puce co-émib.Les matrices de co-émib connectent également la mémoire à large bande passante (HBM) et le chiplet d'E / S à liaison XE à la «base silicium», le plus grand chiplet, sur lequel d'autres sont empilés.

Les parties de Ponte Vecchio.Source: Intel Corp.

Chaque ensemble de huit tuiles de calcul, quatre chiplets de cache SRAM appelées tuiles Rambo et huit tuiles «thermiques» vides destinées à éliminer la chaleur du processeur sont connectées verticalement à une tuile de base.Cette base fournit une mémoire de cache et un réseau qui permet à toute tuile de calcul d'accéder à n'importe quelle mémoire.

Notamment, ces tuiles sont fabriquées à l'aide de différentes technologies de fabrication, selon ce qui convenait à leurs exigences de performance et à rendement.Ce dernier terme, la fraction des puces utilisables par plaquette, est particulièrement importante dans une intégration chiplet comme Ponte Vecchio, car attacher des carreaux de mauvaises signifie que vous avez ruiné beaucoup de silicium cher.Les carreaux de calcul avaient besoin de performances supérieures, ils ont donc été fabriqués à l'aide de processus N5 de TSMC (souvent appelé 5 nanomètres).La tuile Rambo et la tuile de base ont tous deux utilisé Intel 7 (souvent appelé un processus de 7 nanomètres).HBM, une pile 3D de DRAM, utilise un processus complètement différent de la technologie logique des autres chiplets, et la tuile de liaison XE a été réalisée en utilisant le processus N7 de TSMC.

Ponte Vecchio Foveros + EMIB Construction

Les différentes parties du processeur sont fabriquées à l'aide de différents processus de fabrication, tels que Intel 7 et TSMC N5.FoverostEchnology d'Intel crée les interconnexions 3D et son co-émib établit des connexions horizontales.Source: Intel Corp.

La matrice de base a également utilisé la technologie d'empilement 3D d'Intel, appelée Foveros.La technologie établit un éventail dense de connexions verticales moulues entre deux puces.Ces connexions sont à seulement 36 micromètres d'intervalle et sont faites en connectant les puces «face à face»;c'est-à-dire que le haut d'une puce est lié au sommet de l'autre.Les signaux et la puissance entrent dans cette pile au moyen de vias à travers silicium, des interconnexions verticales assez larges qui traversent la majeure partie du silicium.La technologie Foveros utilisée sur Ponte Vecchio est une amélioration par rapport à celle utilisée pour fabriquer le processeur mobile Lakefield d'Intel, doublant la densité des connexions du signal.

Attendez-vous à ce que l'ère des superordinateurs «Zettascale» commence vers 2028.

Inutile de dire que rien de tout cela n'a été facile.Il a fallu des innovations dans le rendement, les circuits d'horloge, la réglementation thermique et la livraison de puissance, Gomes a déclaré.Afin de monter les performances en haut ou en bas avec le besoin, chaque tuile de calcul pourrait fonctionner à une tension et une fréquence d'horloge différentes.Les signaux d'horloge proviennent de la matrice de base mais chaque tuile de calcul peut fonctionner à son rythme.Fournir la tension était encore plus compliquée.Les ingénieurs Intel ont choisi de fournir au processeur une tension supérieure à la normale (1.8 volts) afin qu'ils puissent simplifier la structure du package en raison des besoins de courant inférieurs.Les circuits de la tuile de base réduisent la tension à quelque chose de plus proche de 0.7 volts pour une utilisation sur les tuiles de calcul, et chaque tuile de calcul devait avoir son propre domaine de puissance dans la tuile de base.La clé de cette capacité était de nouvelles inductances à haute efficacité appelées inductances magnétiques coaxiales.Parce que ceux-ci sont intégrés dans le substrat de package, le circuit serpente en fait d'avant en arrière entre le carreau de base et le paquet avant de fournir la tension à la tuile de calcul.

Faire sortir la chaleur d'une pile de puces 3D complexe n'a pas été une exploit facile.Source: Intel Corp.

Ponte Vecchio est censé consommer 600 watts, donc s'assurer que la chaleur pouvait être extraite de la pile 3D était toujours une priorité élevée.Les ingénieurs Intel ont utilisé des carreaux qui n'avaient pas d'autre fonction que de tirer la chaleur des chiplets actifs dans la conception.Ils ont également enduit le sommet de l'agglomération entière du chiplet dans le métal conducteur thermique, malgré les différentes parties ayant des hauteurs différentes.Au sommet que c'était un matériau d'interface thermique à base de soudure (STIM) et un épandeur de chaleur intégré.Les différentes tuiles ont chacune des limites de température de fonctionnement différentes sous le refroidissement du liquide et le refroidissement de l'air, mais cette solution a réussi à les garder toutes à portée, a déclaré Gomes.

"Ponte Vecchio a commencé avec une vision que nous voulions démocratiser l'informatique et amener Petaflops au courant dominant", a déclaré Gomes.Chaque système Ponte Vecchio est capable de plus de 45 billions d'opérations à virgule flottante 32 bits par seconde (Teraflops).Quatre systèmes de ces tels s'assemblent avec deux processeurs Sapphire Rapids dans un système de calcul complet.Ceux-ci seront combinés pour un total supérieur à 54 000 Ponte Vecchios et 18 000 Rapids Sapphire pour former Aurora, une machine ciblant 2 exaflops.

Il a fallu 14 ans pour passer des premiers superordinateurs de Petaflop en 2008 - accessible à un million de milliards de calculs par seconde - à Exaflops aujourd'hui, Gomes a souligné.Une augmentation de la performance d'un 1000 fois «est une tâche vraiment difficile, et il a pris plusieurs innovations dans de nombreux domaines», a-t-il déclaré.Mais avec des améliorations dans les processus de fabrication, l'emballage, la livraison de puissance, la mémoire, le contrôle thermique et l'architecture du processeur, Gomes a déclaré aux ingénieurs, la prochaine augmentation de mille fois pourrait être accomplie en seulement six ans plutôt que sur 14 autres.

From Your Site ArticlesRelated Articles Around the Web