Werbung
Im Vorfeld der GPU Technology Conference 2016, auf der unter anderem die neue Pascal-Architektur enthüllt wurde, konnten einige ausgewählte Redaktionen das Failure Lab bei NVIDIA besuchen. Dabei handelt es sich um eine Einrichtung direkt bei NVIDIA im kalifornischen Santa Clara, die sicherstellen soll, dass es beim Design und anschließend in der Fertigung nicht zu Fehlern innerhalb des Chips kommt.
Wie wichtig dieses Thema ist, weiß NVIDIA sicherlich spätestens seit dem verspäteten Launch der Fermi-Architektur. Damals kam es zu Problemen, da eine Emulation und Simulation von GPUs bzw. einzelnen Komponenten einer GPU nicht 1:1 das abbilden können, was am Ende nach der Fertigung dabei herauskommt. NVIDIA verwendete sogenannte SMs (Streaming-Multiprozessoren), die über einen Interconnect untereinander und mit dem Speicher kommunizieren. Die Verbindungen zwischen den SMs und dem Speicher werden über ein "Fabric", ein Gewebe aus feinen Drähten (Wires), hergestellt. Da diese Verbindungen mit extrem hohen Taktraten arbeiten müssen, kommt es aufgrund der räumlichen Nähe der einzelnen Verbindungen zu elektromagnetischen Interferenzen. Als dann der erste Fermi-Chip die Fabrik verließ, funktionierten die SMs einzeln betrachtet ohne größere Probleme. Doch sie konnten weder untereinander noch mit dem Speicher kommunizieren. Maßgeblich aus diesen Gründen benötigte NVIDIA eine Entwicklung bis zum A3-Stepping. Bei der Kepler-, Maxwell- und offenbar auch Pascal-Architektur hat man aus diesen Fehlern gelernt.
Doch zurück zum Besuch des Failure Lab. Den Rundgang führte Howard Marks, Director of Technology Operations im Silicon Failure Analysis Lab bei NVIDIA. Da NVIDIA kein Unternehmen mit eigener Fertigung ist und dazu Auftragsfertiger wie TSMC beauftragt, muss ein Failure Lab unterhalten werden, um Probleme, wie das zuvor beschriebene, rechtzeitig zu erkennen. Bei 10 Millionen GPUs und SoCs, die Monat für Monat die Fertigung verlassen, können bereits kleine Ausfallraten große Probleme bereiten.
Bei 8 Milliarden Transistoren keine ganz einfache Aufgabe – die GP100, die bisher einzig vorgestellte GPU auf Basis der Pascal-Architektur, kommt sogar auf 15,3 Milliarden Transistoren. Die Transistoren sind aber nicht die einzige Fehlerquelle. Das Fabric, verantwortlich für die Übertragung der Signale innerhalb der GPU und zwischen den verschiedenen Komponenten (Shadereinheiten, Caches, Register, etc.), kann ebenfalls fehlerhaft sein, wie die Fermi-Architektur 2009/2010 bewiesen hat.
NVIDIA verwendet verschiedene Analysemethoden, um Problemen auf den Grund zu gehen oder Fehler auszuschließen. Dazu werden beispielsweise Elektronenmikroskope verwendet, die eine Vergrößerung um den Faktor 300.000 ermöglichen. Gekoppelt wird ein solches Elektronenmikroskop beispielsweise mit einer Röntgen-Analyse, um erkennen zu können, welches Material gerade betrachtet wird, um den Fehler im Aufbau eines Chips, der aus mehreren Schichten besteht, zu erkennen. Zum Beispiel könnte es zu Verunreinigungen im Material gekommen sein, die damit abgeklärt werden können. Um noch feinere Strukturen erkennen und analysieren zu können, werden zudem Ionenstrahl-Mikroskope verwendet, die eine Vergrößerung um den Faktor 1.500.000 ermöglichen. Da die Messinstrumente immer empfindlicher werden, muss NVIDIA Teile der Labore besonders abschirmen. Selbst die Stimme einer einzigen Person kann in einem solchen Raum bereits zu fehlerhaften Messungen führen.
Sollte es notwendig werden, die erste Schicht eines Chips oder mehrere Schichten zu durchbrechen, können solche Mikroskope mit Gallium-Strahl gekoppelt werden. Diese schweren Atome sind in der Lage, Löcher in die Schichten eines Chips zu bohren. Mithilfe eines AFM-Mikroskops (Atomic Force Microscope) kann dann auch in den Kleinstbereichen bis hin zu einzelnen Atomen ein Chip untersucht werden. Ist beispielsweise der fehlerhafte Transistor gefunden, kann dieser in seinen Bestandteilen abgetastet werden.
[h3]10-nm-GPUs bereits in der Analyse[/h3]
Hier fiel dann auch ein interessanter Nebensatz, denn die Analyse mittels AFM-Mikroskop wird offenbar immer wichtiger, speziell da man bereits GPUs analysiere, die in 10 nm gefertigt werden. Dabei könnte es sich bereits um den Shrink der Pascal-Architektur handeln oder aber um den Nachfolger namens Volta.
Fehler können aber nicht nur im Inneren des Chips auftreten, sondern auch an den Schnittpunkten mit dem PCB oder dem Package, in dem sich die GPU befindet. Dazu verwendet NVIDIA 3D-Röntgengeräte. Im Fokus stehen dabei die BGAs (Ball Grid Arrays). Diese kleinen Kugeln auf der Unterseite eines jeden Chips dienen als Kontaktpunkt mit der Fläche, auf die der Chip gelötet werden soll. Bereits kleinste Abweichungen können dazu führen, dass kein Kontakt eines einzelnen Balls mehr sichergestellt werden kann. Bei inzwischen mehreren tausend Balls in einem BGA für einen modernen Chip kann ein solcher Fehler schnell auftreten.
Um den Fehler erkennen zu können, wird der Chip während des Röntgen-Vorgangs langsam gedreht und von allen Seiten beleuchtet. Dies ist nicht nur für die Verbindung zwischen GPU und PCB wichtig, sondern auch für das Package selbst, in dem sich die GPU verwendet. Diese verfügt über kleine Balls, die auf die größeren Balls das Package übertragen werden müssen. Schon dabei können Fehler auftreten. Damit man aber nun sehen kann, welche Kontaktpunkte fehlerhaft sind, muss die Röntgen-Analyse in 3D erfolgen. Dabei werden 1.600 Bilder für die Analyse eines Chips erstellt. Diese werden dann zu einem 3D-Bild oder besser einem Film zusammengesetzt. Früher dauerte alleine dieser Vorgang 11 Stunden. Dank der schnellen Quadro-Karten (natürlich bringt NVIDIA hier auch gerne etwas Eigenwerbung unter) ist dies inzwischen in drei Minuten möglich.
Tesla P100 Module mit GP100-GPUs in einem QuantaPlex T21W-3U
Ebenfalls im Failure Lab durchgeführt, wird die Kalibration der Temperatursensorik innerhalb einer GPU. Diese ist mit den Boost-Mechanismen immer wichtiger geworden, zumal die Oberflächentemperatur einer GPU wenig darüber aussagt, wie warm es wirklich darin ist. Diese Temperatursensorik muss allerdings kalibriert werden – nicht für jede GPU einzeln, aber in regelmäßigen Abständen für eine bestimmte Variante (zum Beispiel GM200-310, GM200-400, etc.). Dazu wird ein Infrarot-Instrument verwendet, da das Silizium für infrarotes Licht ebenso transparent ist, wie sichtbares Licht durch eine Glasscheibe scheinen kann. Natürlich kommt es in beiden Fällen zu Absorptionen, die Analogie aber soll helfen zu verstehen, warum ein Infrarot-Instrument verwendet wird.
An der Messeinrichtung können bestimmte Bereiche der GPU angesteuert werden. Nun wird beobachtet wie warm diese und die Randbereiche werden bzw. wie schnell sie sich wieder abkühlen, damit NVIDIA abschätzen kann, unter welcher Last die GPU wie warm wird. Man wird natürlich nicht in jedem Quadratmillimeter eine Messsonsorik verbauen können, daher beruhen solche Messungen später auch auf solchen Schätzungen. Wer die Temperatur seiner GPU ausließt, bekommt letztendlich genau diese Werte geliefert, wobei NVIDIA diese auch verwendet, um bestimmte Stromsparmechanismen zu implementieren. Über eine solche Infrarotmessung können außerdem fehlerhafte Transistoren erkannt werden, da diese ohne Hitzeentwicklung als nicht funktionsfähig erachtet werden können.
Die Signalintegrität wird über Methoden sichergestellt, bei der Gigaherzsignale an verschiedenen Punkten eingespeißt werden. An den zu erwartenden Punkten sollte dieses Signal wieder auftauchen. Tut es das nicht, ist auch hier von einem Fehler auszugehen und dieser muss über die Eingrenzung über verschiedene weitere Methoden dann genauer analysiert werden.
Letzte Station war das ESD Lab. Bauteile wie GPUs sind natürlich anfällig für elektrostatische Entladungen und NVIDIA hat verschiedene Schutzmechanismen in seinen GPUs verbaut, um diese zu verhindern. Getestet werden diese über das Anlegen von 3.500 V an jeden IO des Chips. Übersteht der Chip den Test, funktionieren auch die ESD-Schutzmechanismen. Tut er das nicht, müssen weitere Analysten stattfinden, um herauszufinden, warum das nicht der Fall ist.
Blunty, ein Youtuber aus dem Hardware-Bereich, hat den Besuch des Failure Lab gefilmt.
Datenschutzhinweis für Youtube
An dieser Stelle möchten wir Ihnen ein Youtube-Video zeigen. Ihre Daten zu schützen, liegt uns aber am Herzen: Youtube setzt durch das Einbinden und Abspielen Cookies auf ihrem Rechner, mit welchen Sie eventuell getracked werden können. Wenn Sie dies zulassen möchten, klicken Sie einfach auf den Play-Button. Das Video wird anschließend geladen und danach abgespielt.
Ihr Hardwareluxx-Team
Youtube Videos ab jetzt direkt anzeigen