HWL News Bot
News
Thread Starter
- Mitglied seit
- 06.03.2017
- Beiträge
- 113.954
... weiterlesen
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: this_feature_currently_requires_accessing_site_using_safari
Wieso nicht? Die können zu Rechenfehlern, Abstürzen oder korrupten Dateien, schlimmstenfalls einen korrupten Filesystem führen. Solche Fehler kommen dann manchmal in die Zeitung, wenn da jemand z.B. für eine Stunde Parken einige 10.000€ zahlen soll, vermutlich eben weil da auch den Kassenautomate auch kein ECC RAM steckt und ein Bit im RAM gekippt ist. Beim Heimanwendern ist der Schaden nicht so groß, aber auch da können IT-Fehler Leben kosten:In Computersystemen kommen solche Bitflips durch Strahlung mit einer Wahrscheinlichkeit von weniger als einem Fehler pro Jahr pro Gigabyte an DRAM-Speicher vor. Für den Heimanwender stellen diese Fehler keine Gefahr dar
Wie man sieht, spielt halt auch das Alter der CPU eine Rolle, denn Halbleiter altern eben auch und daher ist es schwer solche Probleme durch Binning zu erkennen, da man dabei ja eben nicht viel Zeit hat und nur gerade gefertigte Dies testen kann. Es hat eben seinen Grund, warum Profis Burn-In Tests machen, bevor Hardware produktiv wird, auch wenn das in diesem Fall nicht wirklich hilft.Fertigungstechnisch ist das doch nur durch einen engeren Selektionprozess zu bewerkstelligen.
Das würde sich wohl selbst für Google nicht rechnen. Vielmehr sind wohl eher die SW Entwickler gefragt ab und zu mal Testdaten einzustreuen anhand deren ja vorab bekannter Ergebnisse man dann den Kern prüfen kann. Streut man nur 1% solcher Testdaten ein, wäre dies ungleich billiger und wahrscheinlich auch viel sicherer.bezahlt dann aber eben auch entsprechend mehr für die CPUs (vllt.10-facher Preis für doppelte Qualität).
Ja genau, das stimmt. Das hatten wir aber auch schon immer ála Elektronenmigration. Und das war schon bei 90nm ein heißes Thema und wird natürlich mit zunehmender Integrationsdichte auch immer brennender. Das ist aber auch überhaupt nichts neues und den CPU Designern ein wohl bekanntes Problem.Wie man sieht, spielt halt auch das Alter der CPU eine Rolle, denn Halbleiter altern eben auch und daher ist es schwer solche Probleme durch Binning zu erkennen, da man dabei ja eben nicht viel Zeit hat und nur gerade gefertigte Dies testen kann. Es hat eben seinen Grund, warum Profis Burn-In Tests machen, bevor Hardware produktiv wird, auch wenn das in diesem Fall nicht wirklich hilft.
Das Denke ich eben auch. Also einzige sinnvolle Lösung ist ein entsprechend gut durchdachter Testablauf im Feld.Das würde sich wohl selbst für Google nicht rechnen. Vielmehr sind wohl eher die SW Entwickler gefragt ab und zu mal Testdaten einzustreuen anhand deren ja vorab bekannter Ergebnisse man dann den Kern prüfen kann. Streut man nur 1% solcher Testdaten ein, wäre dies ungleich billiger und wahrscheinlich auch viel sicherer.
Sicher, aber trozdem gilt es nicht immer und dann kommt noch die Toleranz der Fertigung dazu. Es ist ja auch nicht so, als würde alle Kerne im Alter falsch rechnen und auch nicht alles die Mercurial Cores sind wohl erst mit der Zeit zu solchen geworden.Das ist aber auch überhaupt nichts neues und den CPU Designern ein wohl bekanntes Problem.
Da steht doch, dass es vom Algorithmus abhängt und man dann natürlich im Server die Algorithmen verwenden, die sowieso auf dem Server laufen. Es kommt ja daraif an, dass der Kern mit dem Algorithmus fehlerfrei läuft und kann einem doch egal sein, ob er bei einem anderen Algorithmus vielleicht Fehler machen würde, solange man diese anderen Algorithmus gar nicht nutzt. Auf den meisten Servern, außer natürlich bei die als VM Host genutzt werden, laufen ja immer die gleichen Algorithmen, wie eben z.B. bei Google der für ihre Suchmaschine.Aber genau da fehlt es mir dann bei dem Paper wieder an detaillierten Algorithmen/Methoden
Also mir war das neu.Das bei Zehntausenden Kernen einer Korrupt ist, ist absolut nicht neu oder interessant. Das es von Die zu Die unterschiedliches verhalten gibt, auch nicht.
Das Problem ist dass diese CPUs\Kerne nicht einfach ausgefallen sind, sondern dass sie Fehlberechnungen produzieren.Ich behaupte jetzt einfach mal ganz dreist, das Problem existiert gar nicht und ist statistisch genau innerhalb der versprechenden MTBF. Das 1:10000 dann schon nach 3 Monaten aus fällt und nicht erst nach X Jahren, ist ja davon abgedeckt.
Es geht ja auch nicht darum das Problem ausführlich zu untersuchen, zumal es ja vom Algorithmus abhängt und damit jeder SW Entwickler der SW für solche Systeme entwickelt, selbst feststellen muss ob er betroffen ist und dazu muss er sich eben zuerst überlegen, wie er dies ermitteln kann. Eben zum Beispiel indem er zuweilen Testdaten einstreut, deren Ergebniss er verifizieren kann.aber ich finde tatsächlich, dass das Problem in dem Artikel eben nicht ausführlich beschrieben wurde.
Nein, so funktioniert die Belichtung von Wafern bei modernen Fertigungsverfahren nicht, da wird nicht alles auf einmal belichtet, sondern die Maske ist für einen Die, vielleicht auch 2, 3, 4 oder so, dann wird belichtet, der Wafer zur Seite bewegt und dann wird der nächste Die belichtet. Es ist also nicht einmal die Maske drauf und Licht an, dann der nächste Schritt, sondern es gibt viele Belichtungen und Bewegungen des Wafers bis alle Dies auf ihm belichtet sind.Die Dies aus der Mitte der Wafer werden bei Intel eben i7, die von Außen, wo die Auflösung der Belichter nicht mehr so dolle ist und die Missalignments auf Grund der größeren Entfernung zu den Justierkreuzen größer sind werden zu i5.
Wie DragonTear schon schrieb, fallen die Kerne ja nicht aus, sie liefern nur falsche Ergebnisse, weshalb das mit der MTTF nichts zu tun hat.Ich behaupte jetzt einfach mal ganz dreist, das Problem existiert gar nicht und ist statistisch genau innerhalb der versprechenden MTBF. Das 1:10000 dann schon nach 3 Monaten aus fällt und nicht erst nach X Jahren, ist ja davon abgedeckt.