Weltgrößter Chip soll 400.000 Kerne auf 46.225 mm² Chipfläche bringen

Thread Starter
Mitglied seit
06.03.2017
Beiträge
114.149
cerebras-wse.jpg
Derzeit findet in den USA die Hotchips-Konferenz statt. Auf dieser stellen die Hersteller ihre Neuerungen im Bereich der Chipentwicklung vor – darunter auch AMD, Intel, NVIDIA und viele mehr. Deren Präsentationen werden aber erst in den kommenden Tagen folgen.Im Rahmen der Hotchips hat aber auch ein Startup namens Cerebras seine ambitionierten Pläne veröffentlicht. Die von Cerebras geplante Hardware in Form eines Chips setzt das Chiplet-Design extrem um. Anstatt mehrere Chips auf einen Wafer zu packen, die dann voneinander getrennt werden, um möglicherweise später in einem Multi-Chip-System wieder...

... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Tja, es hat aber durchaus einen Grund, warum man mehrere Chips auf einen Waver packt und das dann zerteilt: Yield/Ausbeute.
Wenn man einen 30cm-Waver mit nur einem Chip belichtet und da irgendwo der kleinste Fehler passiert, kann man den ganzen Waver wegwerfen. Wenn man das modular macht, wie bei den herkömmlichen CPUs, dann ist von dem Waver nur einer von ~50 Kernen defekt und man kann 49 davon noch weiterverwenden.
Und wenn sich die Kerne (bzw. CCX) auch noch zusammensetzen lassen, wie afaik bei AMD, warum sollte man dann das Risiko eingehen, einen einzigen riesigen Chip auf einen Waver zu packen?
 
Man könnte auch argumentieren, dass bei WSE nicht alle 400.000 Kerne funktionstüchtig sein müssen, sonders es hier sicherlich auch einen Ausschuss geben darf.
 
Wäre vielleicht in Teilen möglich, ich würde aber vermuten, das hängt davon ab, wo ein Fehler auftritt. Bei einem Rechenkern kann ich mir gut vorstellen das man dann einfach den ganzen Kern deaktiviert. Ein Fehler in den 18GB On-Chip-RAM könnte da schon deutlich schwieriger werden. Und je nach Fehlerquote dürften dann immernoch die wenigsten Chips am Ende auf volle 400.000 Kerne kommen. Das wäre dann eher das theoretische Maximum, oder neudeutsch eine CPU mit "bis zu" 400.000 Kernen. ;)

Zumal mir jetzt auch nicht klar wurde, was denn jetzt überhaupt der Vorteil davon sein soll, das alles auf einen Waver zu packen, statt aus Chiplets zusammenzusetzen.

Also ebenso wie man theoretisch auf einen Waver eine CPU mit 400.000 Kernen belichten könnte, könnte doch auch AMD theoretisch 100.000 4-Kern Chiplets zu einer CPU mit 400.000 Kernen zusammensetzen?

Ich bin mir auch nicht sicher, ob 400.000 Kerne auf 46.000mm² so eine gute Idee sind und es nicht sogar vorteilhaft wäre, wenn zusammengesetzte Chiplets eine größere Fläche hätten. Weil irgendwie wird man das Teil ja wohl auch kühlen müssen und da wird afaik die größe aktueller Chips schon langsam zum Problem.
 
Mir würden schon 350.000 funktionierende Kerne reichen. :fresse:
 
Wäre vielleicht in Teilen möglich, ich würde aber vermuten, das hängt davon ab, wo ein Fehler auftritt. Bei einem Rechenkern kann ich mir gut vorstellen das man dann einfach den ganzen Kern deaktiviert. Ein Fehler in den 18GB On-Chip-RAM könnte da schon deutlich schwieriger werden. Und je nach Fehlerquote dürften dann immernoch die wenigsten Chips am Ende auf volle 400.000 Kerne kommen. Das wäre dann eher das theoretische Maximum, oder neudeutsch eine CPU mit "bis zu" 400.000 Kernen. ;)

Zumal mir jetzt auch nicht klar wurde, was denn jetzt überhaupt der Vorteil davon sein soll, das alles auf einen Waver zu packen, statt aus Chiplets zusammenzusetzen.

Also ebenso wie man theoretisch auf einen Waver eine CPU mit 400.000 Kernen belichten könnte, könnte doch auch AMD theoretisch 100.000 4-Kern Chiplets zu einer CPU mit 400.000 Kernen zusammensetzen?

Ich bin mir auch nicht sicher, ob 400.000 Kerne auf 46.000mm² so eine gute Idee sind und es nicht sogar vorteilhaft wäre, wenn zusammengesetzte Chiplets eine größere Fläche hätten. Weil irgendwie wird man das Teil ja wohl auch kühlen müssen und da wird afaik die größe aktueller Chips schon langsam zum Problem.


1. Die latenzen dürften hier deutlich vorteilhafter sein.

2. Kühkung ist egal. Wenn die erhitzung pro mm² zu hoch wird, kommt wasser drauf, interessanter wird es da sich der riesen wafer aufgrund ausdehnung und co siched irgendwann verabschieden wird.
 
"Der WSE ist also auch hier um Größenordnungen größer und komplexer."

Das Ding ist nicht komplexer als ein Wafer voll mit belichteten CPUs, SoCs oder GPUs, mit sich wiederholenden Mustern alle paar Quadratzentimeter.

"Weiterhin nennt Cerebras 1,2 Trillion Transistoren, die im Chip verbaut sein sollen"

Nix Trillion - amerikanische Zählweise falsch übersetzt.
Es sind übrigens 26 Mio. T/mm² – Foundry 14/16nm.
18 GB SRAM entsprechen 77% der angegeben Transistorenmenge.

@Deckstein
Warmwasserkühlung. Die Temperatur bleibt immer in einem sehr schmalen Band.
 
Zuletzt bearbeitet:
Man könnte auch argumentieren, dass bei WSE nicht alle 400.000 Kerne funktionstüchtig sein müssen, sonders es hier sicherlich auch einen Ausschuss geben darf.

Wenn mit so viel Kernen geworben wird und das unter Umständen nicht stimmen kann, würde ich als Käufer oder Sponsor so meine Probleme haben. Da braucht man Garantien und berechenbare Leistung, weil es zig Millionen von Dollar sind die man in ein Startup Firma investieren/zahlen muss :hmm:
 
Zunächst mal ist der Gedankengang nicht falsch.
Es kann ja tatsächlich sogar der Extremfall vorkommen, dass zwei auf dem Wafer nebeneinander liegende Dies später wieder nebeneinander auf einem CPU-Sockel sitzen. Die mehreren Zwischenschritte könnte man sich rein theoretisch sparen.
Dass die Prozessorfertigung in der Realität aber einen anderen Weg genommen hat, also eben den, die Wafer doch zu zerschneiden und somit einzelne CPUs zu gewinnen, kommt hingegen auch nicht von ungefähr, sondern hat sich nun mal als die "richtige" Methode erwiesen.

Mit fehlerhaften Sektoren auf dem Wafer bzw. dann ja der CPU umzugehen, sollte kein gigantisches Problem sein. Das ist in der Speicherbranche (wo aber die Technik deutlich einfacher gestrickt ist) schon lange Tagesgeschäft, siehe ECC. In der Praxis würde das bei einem Prozessor dieser Größenordnung nur eine ziemlich große Einheit zur Fehlerkontrolle erfordern und ob sich das dann noch rentiert, müsste auch erstmal berechnet werden.
Das Stichwort "rentieren" bietet sich ja auch noch an, denn ein Verkauf einer solchen CPU wäre nicht ganz trivial. Man müsste wahrscheinlich mit Staffelpreisen für Zielbereiche an Funktionalität arbeiten, sprich (bspw.) 95-90 % Funktion des Wafers zum Preis x, 90-85 % für y, 85-80 % für z. Das Konzept wiederum wäre aber mit langwierigem binning jeder fertigen CPU bzw. jedes Wafers verbunden, womit der theoretische Vorteil noch weiter unter Druck geriete.
 
Ich denke man kann hier ein viel viel geringere Yield/Ausbeute anvisieren, da ja die Stückzahl solcher Chips verdammt gering sein dürfte. Da müssen am Tag nicht 10.000 CPUs aus der Fabrik laufen.
 
Ich denke man kann hier ein viel viel geringere Yield/Ausbeute anvisieren, da ja die Stückzahl solcher Chips verdammt gering sein dürfte. Da müssen am Tag nicht 10.000 CPUs aus der Fabrik laufen.
Das drückt dann aber gewaltig auf den Preis einer einzelnen CPU und damit wären Chiplets wieder günstiger, sofern das damit auch machbar ist.
Yield ist ja auch nur eine Preisfrage. Klar kann man diverse Fantastereien fertigen, aber wenn dann nur 50% Yield rauskommen, wirds halt sehr sehr teuer.
 
Also die 1.2 Trillionen Transistoren sind wohl falsch übersetzt worden. 1.2 Trillionen (im Deutschen) sind 1.2 x 10^18, Jeder der 400000 Kerne hätte also angeblich rund 100x mehr Transistoren als ein kompletter EPYC.
 
Ein Startup wollte Aufmerksamkeit und hat sie bekommen, den Rest warten wir dann mal ab, wenn es Realität ist, sollte es jemals so weit kommen.
 
Mir würden schon 350.000 funktionierende Kerne reichen. :fresse:
Ich habe aktuell "nur" 8 Kerne (16 virtuelle) und es bringt mir schon so gut wie nichts, weil das meiste was ich mache nur auf 1-3 Kernen wirklich effektiv läuft.
Wenn ich jetzt 350.000 Kerne hätte, würden halt "nur" 349.997 Kerne unnütz Idlestrom verbrauchen.
Das Problem im privaten Anwendungsfall (nicht Server!) ist halt nachwievor meist eher die Software. Hat schon ewig gedauert, bis sich manche Software auf 4 Kerne eingeschossen hat, der plötzliche Anstieg auf 8 Kerne bleibt da bei vielen Anwendungsfällen die nicht ohnehin schon auf "unendliche" Parallelisierung optimiert wurden ebenfalls mal wieder auf der Strecke.

Aber ich denke mal, für Privatanwender ist eine derartige CPU auf (nicht) absehbare Zeit ohnehin nicht gedacht.
 
Star Citizen könnte davon profitieren. ;)

War auch ein Scherz, obwohl Schachprogramme ...
 
Das drückt dann aber gewaltig auf den Preis einer einzelnen CPU und damit wären Chiplets wieder günstiger, sofern das damit auch machbar ist.
Yield ist ja auch nur eine Preisfrage. Klar kann man diverse Fantastereien fertigen, aber wenn dann nur 50% Yield rauskommen, wirds halt sehr sehr teuer.

Ich glaube, Institute die sich so eine CPU beschaffen interessieren sich überhaupt nicht für einen Preis.... Das ding wird schon ein paar Millönchen kosten.
 
Ich glaube, Institute die sich so eine CPU beschaffen interessieren sich überhaupt nicht für einen Preis.... Das ding wird schon ein paar Millönchen kosten.
Wenn das Ding 400Mio kostet und man die gleiche Rechenleistung auf Chiplets verteilt auch für 300Mio haben kann, dann interessiert diese Institute der Preis urplötzlich sehr wohl.
Die drucken ihr Geld auch nicht selber und wenn da kein Mehrwert vorhanden ist, dann kaufen auch Institute das nicht. Genau nach diesem Mehrwert frage ich ja. Aber den sehe ich aktuell nicht.
 
Also die 1.2 Trillionen Transistoren sind wohl falsch übersetzt worden. 1.2 Trillionen (im Deutschen) sind 1.2 x 10^18, Jeder der 400000 Kerne hätte also angeblich rund 100x mehr Transistoren als ein kompletter EPYC.

Richtig, muss natürlich Billion heißen.
 
Zu aller erst dachte ich verrückt! als ich das las - auch in Beziehung zu den Chiplets jetzt... ABER, wie schon angemerkt, es wird ja keine Großserienfertigung angestrengt. Sollte es realisierbar sein, wäre dies ein enormer Fortschritt in Bezug auf die Rechenleistung pro Größeneinheit, selbst wenn einige Einheiten deaktiviert werden. Das Spielchen gibt es ja auch bei den Xeons, wo teilweise bis über die Hälfte der Kerne deaktiviert werden, aka unterschiedliche Modelle angeboten werden.
Es würde sicherlich reissenden Absatz finden, sollte es umgesetzt werden können - die Kosten sind da relativ sekundär, wenn sich die Leistung eines ganzen Rechenzentrumkomplexes in nur einem Serverschrank vereinen lässt.
Allerdings, sieht das Ganze für mich eher nach gut durchdachter Konzeptstudie aus und nicht unbedingt praktisch zu bewerkstelligen.
Und hier kommt das Dilemma und die Chance für den Underdog. Die peilen natürlich Investoren für die Idee an, oder hoffen gar gleich aufgekauft zu werden. Könnte ja doch irgendwie machbar sein, somit vorsorglich ins eigene Portfolio transferieren solange noch günstig... *zuintelundnvidiazwinker*
In diesem Zusammenhang gesehen, werden bei solchen Gelegenheiten wohl zu 99% gute bis hervorragende Blender sein, deren einzige wirkliche Antriebsfeder ist, den "Großen" das Geld aus der Tasche zu ziehen. So funktioniert das System nunmal ;)

Also zurücklehnen und die Show genießen, während draussen langsam (aber immer schneller) alles vor die Hunde geht :))
 
Was wird da übehaupt für ein Instruktionssatz verwendet? ARM? RISC-V? Oder ein eigener? (Oder hat IBM oder Intel doch mal Power bzw. x86 lizenziert?)
 
Wegen der Yield-Geschichte: Die gehen davon aus, dass jeder ihrer Chips Fehler enthält, das Chip-Design soll allerdings fehlertolerant sein. Die haben wohl auch Extra-Kerne eingeplant, um defekte Kerne zu ersetzen. Und der Speicher scheint auch über den ganzen Chip verteilt zu sein.

Sicherlich ein interessantes Konzept.
 
@smalM Danke für den Link - da, kann man sich schon mehr vorstellen

Das könnte doch gar der nötige Ansporn sein, um die 450mm Wafer Fertigung zu pushen...
 
Ein Startup wollte Aufmerksamkeit und hat sie bekommen, den Rest warten wir dann mal ab, wenn es Realität ist, sollte es jemals so weit kommen.

genau das, :fresse:

mal von der Ausbeute abgesehen, gibt das ein Handling Problem, das Teil muss man wie ein rohes Ei behandeln, u. einfach Wasser drauf zur Kühlung geht auch nicht, über den Punkt sind weit hinaus,
Wasser kann ohne Metall als Wärmeleiter/Verteiler einfach nicht mehr genug Wärme pro mm² aufnehmen.
 
Letztlich zeigt das Beispiel, dass die Mikroelektronik in seinem Lauf nicht klein zu kriegen ist. :)
 
So ein großer Chip kann nur mit „Stitching“ bewerkstelligt werden....kein Lithotool schafft mehr als 33x26mm pro Schuss/Belichtung...müssen also die einzelnen Maskenebenen perfekt aneinandergereiht werden. Im Frontend (Transistorebene) wahrscheinlich noch nicht so das Problem aber im Backend (Metallisierungsebene) wird es kriminell .Möchte mal wissen was die für Yield/Ausbeute haben
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh