Intels Ponte Vecchio och AMD:s Zen 3 visar löftet om avancerad halvledarförpackningsteknik

Intel och AMD diskuterade några av sina mest avancerade chipdesigner vid International Solid State Circuits Conference denna vecka, och de lyfte fram den roll som avancerade förpackningar spelar i deras framtida high-end chipprodukter. I båda fallen kommer de imponerande nya prestandamöjligheterna från modulära tillvägagångssätt som kombinerar byggstenar gjorda på olika fabriker med olika tillverkningsprocesser. Det illustrerar den stora potentialen hos chipförpackningar i framtiden för halvledarinnovation.

Intels målmarknad för Ponte Vecchio är som en högpresterande modul som ska byggas in i stora datacentersystem. Det är en grafikprocessor (GPU) och är designad för tillämpningar inom artificiell intelligens, maskininlärning och datorgrafik. Den är uppkallad efter den medeltida stenbron som förbinder Piazza della Signoria på ena sidan av floden Arno i Florens, Italien med Pallazzo Pitti på andra sidan. En av höjdpunkterna i designen är hur den kopplar samman en mängd specialiserade chiplets – integrerade kretsbyggstenar som är avsedda att kombineras för att göra kompletta system.

Ponte Vecchio använder åtta "plattor" tillverkade på Taiwan Semiconductor Manufacturing Companys (TSMC) mest avancerade 5 nm-process. Varje bricka har åtta "Xe”-kärnor, och var och en av de åtta kärnorna har i sin tur åtta vektor- och åtta specialiserade matrismotorer. Plattorna placeras ovanpå en "basplatta", som kopplar dem till minnet och omvärlden med ett gigantiskt switchtyg. Denna basplatta är byggd med hjälp av företagets "Intel 7"-process, som är ett nytt namn på företagets förbättrade 10 nm SuperFin-tillverkningsprocess. Det finns också ett högpresterande minnessystem som kallas "RAMBO", som står för Random Access Memory, Bandwidth Optimized, som byggdes på en basplatta med Intel 7 Foveros interconnect-teknik. Många andra byggstenar ingår också.

Ponte Vecchio-designen är en fallstudie inom heterogen integration – som kombinerar 63 olika brickor (47 som utför beräkningsfunktioner och 16 för termisk hantering) med totalt över 100 miljarder transistorer i ett enda paket som är 77.5 x 62.5 mm (ungefär 3 x 2.5 tum). Det var inte så länge sedan när så mycket datorkraft fyllde ett lager och krävde en egen anslutning till elnätet. De tekniska utmaningarna i en sådan design är rikliga:

Ansluter alla delar. Designers behöver ett sätt att flytta signaler mellan alla olika chips. Förr i tiden gjordes detta med ledningar eller spår på kretskort och man fäste chips genom att löda dem på korten. Men det tog slut för länge sedan, eftersom antalet signaler och hastigheten ökade. Om du lägger allt i ett enda chip kan du koppla ihop dem med metallspår i den bakre delen av tillverkningsprocessen. Om du vill använda flera marker betyder det att du behöver många anslutningsstift och att du vill att anslutningsavstånden ska vara korta. Intel använder två tekniker för att stödja detta. Den första är dess "inbäddade multi-die interconnect bridge" (EMIB) som är gjord av en liten kiselskiva som kan tillhandahålla hundratals eller tusentals anslutningar åt gången, och den andra är dess Foveros die-to-die staplingsteknologi först används i sin Lakefield mobila processor.

Se till att alla delar är synkroniserade. När du har kopplat ihop många olika delar måste du se till att alla delar kan prata med varandra synkront. Detta innebär vanligtvis att distribuera en tidssignal som kallas en klocka, så att alla chips kan arbeta i låssteg. Detta visar sig inte vara trivialt, eftersom signaler tenderar att bli skeva och miljön är mycket bullrig, med massor av signaler som studsar runt. Varje beräkningsbricka har till exempel mer än 7,000 40 anslutningar på ett utrymme på XNUMX kvadratmillimeter, så det är mycket att hålla synkroniserat med.

Hantera värme. De modulära plattorna kräver var och en mycket kraft, och att leverera den jämnt över hela ytan samtidigt som man tar bort värmen som genereras är en stor utmaning. Minneschips har legat i stapling en tid, men värmen som genereras är ganska jämnt fördelad. Processorchips eller brickor kan ha hot spots beroende på hur hårt de används, och det är inte lätt att hantera värme i en 3D-stapel med chips. Intel använde en metalliseringsprocess för baksidorna av chips och integrerade dessa med värmespridare för att hantera de förväntade 600 watt som produceras av Ponte Vecchio-systemet.

Initiala labbresultat som Intel rapporterade inkluderade >45 Teraflops prestanda. Superdatorn Aurora som byggs vid Argonne National Laboratories kommer att använda mer än 54,000 18,000 Ponte Vecchios tillsammans med mer än 2 1,000 nästa generations Xeon-processorer. Aurora har en målinriktad toppprestanda på över 1990 Exaflops, vilket är 100 XNUMX gånger mer än en Teraflop-maskin. Tillbaka i mitten av XNUMX-talet när jag var i superdatorbranschen var en Teraflop-maskin ett vetenskapsprojekt på XNUMX miljoner dollar.

AMD:s Zen 3

AMD pratade om sin Zen 3 andra generationens mikroprocessorkärna byggd på TSMC:s 7 nm-process. Denna mikroprocessorkärna har designats för att användas över AMD:s marknadssegment, från mobila enheter med låg effekt, stationära datorer och hela vägen till dess mest kraftfulla datacenterservrar. Den centrala grundsatsen i denna strategi var att packa sin Zen 3-kärna med stödfunktioner som ett "kärnkomplex" på en enda chiplet, som fungerade som modulära byggstenar ungefär som Intels brickor. På så sätt kunde de paketera åtta chiplets tillsammans för en högpresterande stationär eller server, eller fyra chiplets för ett värdesystem, som ett billigt hemsystem jag kan köpa. AMD staplar också chips vertikalt genom att använda så kallade through-silcon vias (TSV), ett sätt att koppla ihop flera chips placerade ovanpå varandra. Den skulle också kunna kombinera två till åtta av dessa chiplets med en serverbricka gjord på en GlobalFoundries 12 nm-process för att göra sina 3rd generation EPYC-serverchips.

Den stora möjligheten som Ponte Vecchio och Zen 3 lyfter fram är förmågan att blanda och matcha marker gjorda med olika processer. I Intels fall inkluderade detta delar gjorda både på egen hand och TSMC:s mest avancerade processer. AMD skulle kunna kombinera delar från TSMC och GlobalFoundries. En stor fördel med att koppla ihop mindre chiplets eller plattor istället för att bara bygga ett stort chip är att de mindre kommer att få bättre tillverkningsutbyte och därför är billigare. Du kan också blanda och matcha nya chiplets med äldre beprövade som du vet är bra, eller som är gjorda på en billigare process.

Både AMD- och Intel-designerna är tekniska tours de force. Utan tvekan representerar de mycket hårt arbete och lärande, och representerar enorma investeringar av resurser. Men precis som IBM introducerade modulära delsystem i sin stordator System/360 på 1960-talet, och persondatorer blev modulära på 1980-talet, förebådade den modulära uppdelningen av kiselmikrosystem som exemplifieras av dessa två konstruktioner och möjliggörs av avancerad chipförpackning ett betydande teknikskifte. Visserligen är många av de funktioner som visas här fortfarande utom räckhåll för de flesta nystartade företag, men vi kan föreställa oss att när tekniken blir mer tillgänglig kommer den att släppa lös en våg av mix-and-match-innovation.

Källa: https://www.forbes.com/sites/willyshih/2022/02/22/intels-ponte-vecchio-and-amds-zen-3-show-the-promise-of-advanced-semiconductor-packaging- teknologi/