Für SSD Nerds: schönes Paper über 3D NAND Flash Memory Device Reliability

askling

Enthusiast
Thread Starter
Mitglied seit
23.09.2013
Beiträge
316
Mich interessiert schon immer, wie man Speicher am besten behandelt. Für die Praxis sicher relativ egal, aber es geht mir um Spaß an der Optimierung. Konkret geht es um die Frage, kühle ich meine SSDs mit Luft oder lieber nicht, oder ist es egal. Auch für NAS interessant, die ja meistens mit einem Lüfter Arbeiten

Die Frage welche Temperatur SSD Speicher haben soll, ist für mich im Internet bisher nicht ausreichend geklärt. Man findet einiges, aber es scheint mir viel Halbwissen auch auf größeren Hardware-Seiten dabei zu sein.

Daher lese ich mich aktuell etwas technisch ein. Dabei bin ich auf das Paper hier gestoßen. Ich kämpfe mich noch durch und bin Fach-fremd, daher bitte mein Fazit mit Vorsicht genießen und lieber selber lesen. Aber bisher finde ich vier Erkenntnisse interessant.

1) 3D NAND scheint sich anders zu verhalten als 2D NAND.

2) Es gibt viele Faktoren welche die Reliability beeinflussen, je nach Workload kann der eine Faktor den anderen Überwiegen.

3) Die Lesefehler, der RBER (wie ich verstehe, korrigierbare Lesefehler, erst bei zu vielen kommt es zu UBER Fehlern, die nicht korrigiert werden können), scheinen kurzfristig niedriger zu sein, wenn bei hoher Temperatur geschrieben wurde, langfristig überwiegen die Vorteile von niedriger Betriebstemperatur (weniger Retention errors[1]). Wenn ich das richtig verstehe, überwiegen schon nach 2*10^2 Sekunden (???) die Vorteile von Niedriger Temperatur (3.3. Characterizing the Temperature Effect).

Offene Frage für mich: Mir scheint es als wenn Retention errors im Betrieb sich ähnlich zu dem "Retention Power off", die nach JADEC für Consumer mit 1 Jahr bei 30°, verhält? Diese ist ja ebenfalls stark von der Temperatur abhängig.

4) Die "Haltbarkeit" ( "flash lifetime") ist neben der Temperatur auch stark davon beeinflusst, wie oft "pro Zeit" die Zelle beschrieben wird. Bei typischen Workload passiert das eher selten und es überwiegen wohl Vorteile von hoher Temperatur, bei sehr hohem Workload von niedriger Temperatur (5.1. Observations). Dabei ist mir die Definition von "Haltbarkeit" hier nicht ganz klar, im Text steht in Haltbarkeit in Bezug auf eine garantierte "three-month retention time".

Der zweite Link auf Google Schoolar ist als PDF direkt aufrufbar.


Aktuell kann ich noch keine klare Empfehlung daraus ableiten, besonders da ich (5.1. Observations) nicht ganz einordnen kann. Ich tendiere aktuell aber dazu, meine Daten-SSD doch lieber leicht mit Luft zu kühlen als sie wärmer laufen zu lassen, da Retention errors mit der Temperatur stark ansteigen. Ich bin mir nicht ganz sicher, aber niedriger Temperatur scheint mir nicht nur beim Lagern, sonder auch im Betrieb "ein" wichtiger Faktor.


[1] Definition sehe auf Seite 4 "Retention errors are errors that are induced by charge leakage from a programmed fash cell while the cell is idle....."
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Welche Bauteil-Temperatur spuckt nen System ueberhaupt aus, wenn man ne SSD ausliest?
Habe aktuell 4 im NAS. Laufen 24/7. 2 Stueck bei ~30Grad, 2 bei ~35 Grad.
Ist das nun die NAND Temperatur? Die vom Controller? Was sagt dieser Wert denn aus?

Laut Datenblatt also voll in Range des zuleassigen.
Ich kann das eh nicht groß beeinflussen, selbst wenn ich wuesste wo man genau kuehlen muesste wuerde das wohl nur mit viel Laerm machbar sein.
Fuer welchen Benefit genau? Wie lang soll nen besser gekuehltes NAND halten im Vergleich zu einem weniger gut gekuehltem?

An fuer sich ein interessantes Thema, jedoch denke ich dass es voll an der Realitaet vorbei geht.
 
Welche Bauteil-Temperatur spuckt nen System ueberhaupt aus, wenn man ne SSD ausliest?
Das hängt von der jeweiligen SSD ab, i.d.R. dürfte es die Temperatur des Controllers sein, ein paar Modelle haben aber auch zwei Sensoren und können wohl auch die Temperatur wenigstens eines NAND Chips angeben, oder vielleicht ist es ja auch der Mittelwert aller NAND Chips? Solche Details erfährt man leider meistens nicht und dann sind in jedem Chip Package ja auch bis zu 16 NAND Dies verbaut....
Wie lang soll nen besser gekuehltes NAND halten im Vergleich zu einem weniger gut gekuehltem?
Es hält nicht unbedingt länger, sondern je nach Nutzung ggf. sogar weniger lang. Der Punkt ist, dass die Isolierschicht der Zellen eben durchlässiger ist je wärmer sie sind. Dies führt zu zwei Effekten, einmal verliert die Zelle Elektronen schneller uns zum anderen leider die Isolierschicht weniger, wenn beim Schreiben und Löschen die Elektronen mit hoher Spannung da durchgeschossen werden. Der Verlust der Ladung sogar dafür, dass der Controller öfter einen Refresh ausführen muss, also P/E Zyklen verbraucht werden, auch wenn gar nichts geschrieben wird und der zweite dafür, dass die Zellen mehr P/E Zyklen aushalten. Was jetzt am Ende mehr Einfluss auf die Lebensdauer hat, dürfte davon abhängen wie und wie viel auf die SSD geschrieben wird, denn wenn sowieso viel geschrieben wird und auch viele der Daten regelmäßig überschrieben werden, dann fällt der Effekt der häufigeren Refreshs weg, die Daten werden ja überschrieben bevor ein Refresh überhaupt nötig wäre und dann spielt nur der zweite Effekt eine Rolle, die NANDs halten also mehr P/E Zyklen aus und die SSD wird länger leben.

Schreibt man aber kaum auf die SSD oder überschreibt zumindest kaum die meisten der Daten darauf, dann könnte es umgekehrt sein und die häufiger nötigen Refreshs könnten überwiegen und bei SSD bei geringeren Betriebstemperaturen länger halten. Ab wann was der Fall, dürfte aber ganz schwer zu bestimmen sein.
 
Zuletzt bearbeitet:

p4n0


Wie gesagt, es geht mir primär um Spaß an der Optimierung. Anstoß für das Thema war meine Sorge, dass Luftkühlung die für HDD entwickelt wurde schlecht für SSDs ist.

Wenn man einfach seinen PC nutzen will, sollte man wohl einfach probieren extreme zu meiden und sich keinen Kopf machen. Wichtig zu wissen finde ich dabei nur, dass möglichst warm oder kalt ist in jeden Fall besser nicht zu stimmen scheint.

Wie Holt schon sagt, es scheint leider keine einfache Daumenregel zu geben die immer stimmt was Temperatur angeht. Daher haben die in dem Paper auch ein Algorithmus (Heatwatch) entwickelt, um auf Basis verschiedener Parameter die Ansteuerung der SSD zu optimieren. Ganz passen dazu scheint mir das Zitat aus 5.1. Observations: "Thus, we find that no singletemperature or temperature range is ideal".

Ich tendiere vom Bauchgefühl dazu (Achtung Halbwissen) meine SATA Daten-SSDs, die hauptsächlich gelesen werden eher etwas kühler zu halten, weil die Retention errors sehr stark mit hoher Temperatur steigen und mir wichtiger als mehr P/E Zyklen scheinen. Ob das technisch der gleiche Effekt wie bei "Retention Power off" ist, wo also wenn man die SSD ohne Strom lagert (im Link ist eine Tabelle, hohe Temperatur hat hier einen großen Einfluss wie lange die Daten sicher lesbar sind), weiß ich dabei leider nicht.

Die optimierung der P/E Zyklen über Temperatur (0°-70° wurde getestet) scheint mir im best case maximal 1/4 mehr zu bringen (Figure 12), was ich jetzt nicht so viel finde.

Bei meiner SATA System-SSD probiere ich die Mitte zu treffen, nicht auf Zimmertemperatur durch einen starken Luftstrom kühlen, aber auch nicht zusätzlich durch andere Komponenten aufheizen lassen (habe sie daher im ODD Käfig im R5 verbaut).

M2 NVMe SSDs würde ich mit einem Luftstrom kühlen wollen. Ich finde NVMe SSDs aber für 80% der Anwendungsfälle eh total bescheuert konzipiert. Ich hätte viel lieber eine permanente Drossel bei 1500 MB/s o.ä. und dafür keine hohen Temperaturen.

Im kleinen NAS kann man vielleicht wenig machen, in den meisten PC Cases gibt es aber diverse Einbaumöglichkeiten. Da hat man die Qual der Wahl, die SSD direkt in Luftstrom hängen oder in den Käfig am Boden oder hinters Mainboard, wo kaum Airflow ist. Am liebsten wäre mir etwas in der Mitte, ein leichter Airflow der aber nicht brutal auf Zimmertemperatur kühlt.
Beitrag automatisch zusammengeführt:

Ps: Ich beziehe das oben vor allem die Durchschnittstemperatur, gerade wenn der PC wirklich lange pro Tag läuft. Peaks sind glaube ich nicht so entscheidend.
 
Zuletzt bearbeitet:
Wenn man einfach seinen PC nutzen will, sollte man wohl einfach probieren extreme zu meiden und sich keinen Kopf machen.
Eben, die JEDEC hat in der JESD218 für Consumer SSD eine Betriebstemperatur von 40°C definiert:

JEDEC_FMS2010_SSD_endurance_classes_JESD218.png


Auf der Basis sollten die SSD Hersteller auch die P/E Zyklen der NANDs definieren und ob man nun 5° darüber oder darunter ist, sollte für Heimanwender keinen spürbaren Unterschied machen und selbst 10°C mehr oder weniger dürften den Kohl nicht fett machen, zumal die wenigsten Heimanwender auch nur einen Bruchteil der spezifizierten P/E Zyklen der SSD aufbrauchen und die NANDs in den meisten SSDs wohl sowieso mehr P/E Zyklen aushalten bevor sie platt sind. Wobei man aber aufpassen muss, denn die SSDs in diesen Tests werden im Dauerbetrieb laufen und damit tendenziell mit höheren Temperaturen, wobei die Temperaturen leider meistens nicht genannt werden.
weil die Retention errors sehr stark mit hoher Temperatur steigen
Eben und dies ist die Folge des Verlusts von Ladung in den Zellen, was die ECC des Controllers, der bildet ja gewöhnlich für jede Page eine ECC und die NANDs haben auch extra zusätzliche Kapazität für jede Page um die ECC dort abzulegen, ein NAND Die mit 512 Gigabit hat also in Wahrheit mehr Kapazität als angegeben, eben weil diese zusätzliche Kapazität pro Page nicht mitgenannt wird. (Ok, dafür gibt es auf fast jedem Die auch ab Werk defekte Blöcke und die könnten mehr ausmachen als die zusätzliche Kapazität, aber lassen wir das mal weg).

Der Controller sollte dann erkennen und ein Refresh nötig ist und dies ausführen und dies war bei den ersten SSD mit TLC NAND, welches davon ja mehr betroffen ist als MLC NAND und war es noch planares 21nm bzw 19nm NAND, ja ich rede von der Samsung 840 und 840 Evo, waren genau diese Refreshs das Problem (der "Bug"), denn mit TLC NAND wurde auch die aufwendigere LPDC ECC erforderlich, die eben im Vergleich zur vorher üblichen BCH langsam ist. Nun hat man BCH nicht durch LPDC ersetzt, sondern eergänzt und nutzt wenn möglich BCH und nur wenn zu viele Auslesefehler aufgetreten sind, dann die langsam LPDC und daher war dann die Leserate bei Daten die schon lange Zeit in den Zellen gestanden haben, dann eben so gering. Die Daten waren aber trotzdem korrekt und die "Bugfix" bestanden darin Daten häufiger zu refreshen um die Nutzung der LPDC ECC und damit schlechte Leseraten zu vermeiden. Ein Feature welches Phison für seine Controller als SmartRefresh bewirbt, wobei man aber eben nicht weiß, wie smart welcher Algorithmus im einzelnen ist, denn ein smarter Algorithmus sollte einerseits erfolgreich verhindern die langsame LPDC ECC nutzen zu müssen und anderseits nicht unnötig P/E Zyklen verbraten indem er zu häufig refresht, was ja nichts anderes ist als die Daten intern umzukopieren.
Ob das technisch der gleiche Effekt wie bei "Retention Power off" ist, wo also wenn man die SSD ohne Strom lagert (im Link ist eine Tabelle, hohe Temperatur hat hier einen großen Einfluss wie lange die Daten sicher lesbar sind), weiß ich dabei leider nicht.
Der Effekt ist der gleiche, eben der Verlust von Ladung durch die Isolierschicht und dies ist ja auch logisch, denn die NAND Dies werden ja auch bei einer eingeschalteten SSD nur aktiviert, wenn darauf zugegriffen wird. Passiert dies selten, ist es für das NAND egal ob die SSD ein- oder ausgeschaltet ist, es entkommen immer wieder Elektronen durch die Isolierschicht aus den Zellen und zwar umso mehr je wärmer diese Isolierschicht und damit das NAND selbst ist. Der Unterschied zwischen On- und Offline ist, neben der Tempatur die ja Online wegen der Wärme des laufenden Rechners in dem die SSD steckt und auch der immer wieder mal erfolgenden Zugriffe meist höher ist, dass Offline der Controller keine Refreshs machen kann, da er ja ausgeschaltet ist.

Wer also seine SSD (mit TLC oder QLC NAND) nach längerer Zeit aus dem Schrank holt, sollte sich also auch nicht wundern, wenn das Lesen nicht so schnell wie gewohnt passiert, eben weil die Zellen Elektronen verloren haben, der Controller natürlich keine Refreshs machen konnte und nun die langsamere LPDC ECC anwenden muss um die Daten (hoffentlich) doch noch korrekt lesen zu können.
M2 NVMe SSDs würde ich mit einem Luftstrom kühlen wollen.
Ja, schon weil diese meist schneller sind, dafür aber auch mehr NAND Dies gleichzeitig aktivieren müssen und der Controller natürlich auch mehr Rechenleistung braucht und dann weil sie meisten leider in der Nähe anderer warmer Komponenten wie der CPU oder GPU positioniert ist und auch meist so flach über dem Mainboard, dass nur nicht selten kaum etwas von dem kühlenden Luftstrom um Gehäuse abbekommen. Die meisten Mainboardhersteller scheinen beim Layout der Boards davon auszugehen, dass alle Kunden immer Topblower CPU Kühler verwenden, die dann auch alles in der Umgebung der mit einem kühlenden Luftstrom mitversorgen.
 
Der Unterschied zwischen On- und Offline ist, neben der Tempatur die ja Online wegen der Wärme des laufenden Rechners in dem die SSD steckt und auch der immer wieder mal erfolgenden Zugriffe meist höher ist, dass Offline der Controller keine Refreshs machen kann, da er ja ausgeschaltet ist.
Danke für die Bestätigung, mir war bisher nicht ganz klar wo genau der Unterschied zwischen Strom/Stromlos ist. So macht alles Sinn. Spannend finde ich wie die SSD erkennt welche Zellen Refreshed werden müssen.

Auf der Basis sollten die SSD Hersteller auch die P/E Zyklen der NANDs definieren und ob man nun 5° darüber oder darunter ist, sollte für Heimanwender keinen spürbaren Unterschied machen und selbst 10°C mehr oder weniger dürften den Kohl nicht fett machen,
Ja das ist vermutlich das Fazit.

Nach viel unsinnigem Basteldrang und Experimenten bin ich auch schon wieder am überlegen in meinem Define R5 die SATA Daten-SSD aus Convenience wieder vom HDD-Käfig hinter den Lüftern hinter das Mainboard zu stecken, mal schauen...:lol:. Grund, dann kann ich den HDD-Käfig wieder ausbauen, denn der Airflow über die anderen Komponenten im Case wird durch den Käfig fühlbar reduziert.

Im Idle der SSD ist der Unterschied gerade um 5° zwischen beiden Positionen. Die Temperatur aller Komponenten verhält sich praktisch linear zur Umgebungstemperatur, daher sollte man gut hochrechnen können
- 21° Raum
- SSD Idle hinter Font Lüfter 23°
- SSD Idle hinter dem Mainboard, aber deutlich unterhalb der CPU, 28°
- Bei System-Vollast (1 Std, GPU + CPU 100%) steigt die Temperatur hinter dem Mainboard gerade um 2-3°.
- 500gb lesen bei 500mb/s lässt die Temperatur der SSD um 8° steigen.

Im Sommer bei 29° Raum (+7° zu jetzt) wären das hinter dem Mainboard für die SATA SSD:
- System Idle & SSD Idle = 35°
- System Idle & SSD Volllast lesen = 43-44°
- System Vollast & SSD Idle = 37°
- System Vollast & SSD Volllastlesen = 45-46°
 
Zuletzt bearbeitet:
Spannend finde ich wie die SSD erkennt welche Zellen Refreshed werden müssen.
Wie welches SSD/Controller Hersteller dies jeweils löst, dürfte deren Betriebsgeheimnis sein. Der Controller weiß es aber spätestens, wenn er beim Lesen so viele Fehler bekommt, dass die LPDC angewendet werden muss, aber weil dann auch dei Leseraten deutlich geringer sind, mit dem entsprechenden Shitstorm wie man ihne bei den Samsung 840 und 840 Evo gesehen hat, wird jeder Hersteller dies wohl lieber verhindern wollen. Leider weiß ein Controller aber eben auch nie, wie lange eine SSD offline war und wie warm die NANDs während dieser Zeit jeweils waren. Ein guter Ansatz wäre es also wohl nach dem Einschalten im Idle ein paar der NAND Pages auszulesen die vor längerer Zeit beschrieben wurden, dann braucht man aber auch die Information wann welche Page beschrieben wurde oder eben solche aus NAND Blöcken die schon am meisten P/E Zyklen hinter sich haben, diese Information braucht man für das Wear Leveling sowieso und je mehr P/E Zyklen NAND hinter sich hat, umso durchlässiger wird eben auch die Isolierschicht, aber je nachdem wie genau das Wear Leveling funktioniert, werden es im Zweifel wahrscheinlich nicht die ältesten Daten sein die in diesen Blöcken stehen, denn statische Daten wird man schon deswegen nicht ständig intern umkopieren wollen, weil sonst die Write Amplification massiv steigt.

Es könnte also darauf hinauslaufen einfach mal ein paar Pages aus den Blöcken zu lesen die die meisten und denen die die wenigsten P/E Zyklen hinter sich haben um zu schauen ob man sich überhaupt schon über Refreshs Gedanken machen muss.
 
Danke, sehr interessant und gut verständlich. Ist schon ein spannendes Thema.
 
Das ist nicht besonders gut, z.B.:
Bei Data Retention geht es darum, wie lange Daten am Ende der Lebensdauer einer SSD bei unterschiedlichen Temperaturen gespeichert werden. Mit dem Ende der Lebensdauer ist gemeint, wenn die SSD die maximale Anzahl an Schreib-Lösch-Zyklen erreicht hat. Das dauert übrigens sehr lange. Trifft dieser Fall doch einmal ein, werden Daten bei tieferer Temperatur länger gespeichert.
Bei der Data Retention geht es darum wie lange die Daten in den NANDs gehalten werden, aber dies nicht nur am Ende der Lebensdauer der SSD, sondern immer! Die Anforderung der JEDEC JESD218 ist, siehe Post #5, dass Client SSDs die bei 40°C Betriebstemperatur betrieben wurden, dann bei 30°C Lagertemperatur die Daten für 12 Monate halten können und die UBER unter 1:10^15 liegt. Danach sind die SSDs bzw. der TBW bzw., bei Consumer SSDs werden die TBW ja von Herstellern die auch stark im Enterprisesegment vertreten sind, gerne besonders gering angegeben, ist danach die Qualität der verbauten NANDs auszuwählen bzw. sind die P/E Zyklen der NANDs zu spezifizieren.

So werden laut JEDEC, der Standardisierungsorganisation für SSDs, die Daten bei 40 Grad 365 Tage lang gespeichert.
Das ist totaler Quatsch, die 40° sind entweder die Betriebstemperatur für Client SSDs, dann passen die 365 Tage, aber für die ist nur eine Lagertemperatur von 30°C vorgesehen, oder die Lagertemperatur für Enterprise SSDs, die müssen dann die müssen die Daten dann aber nur 3 Monate halten können. Außerdem beschreibt diese Spezifikation nicht den Ist-Zustand, sondern den Soll Zustand den Produkte mindestens erfüllen sollten, ob sie dies auch tun, hängt davon ab ob der Hersteller sich an die Spezifikation hält oder nicht. Dies überprüft aber keiner, auch nicht die JEDEC, sondern allefalls die Masse der Kunden wenn diese irgendwann feststellen das ihre SSDs eben die Daten offline nicht so lange halten.
Die Data Retention gilt explizit für SSDs, die die maximale Anzahl an Schreib-Lösch-Zyklen erreicht haben
Ist so natürlich nicht richtig, die Spezifikationen der JESD218 sollte von SSD eingehalten werden, bis die spezifizierten P/E Zyklen erreicht sind, denn je mehr P/E Zyklen die NANDs runter haben, umso schlechter wird die Data Retention Time, weil die Isolierschicht eben bei jedem P/E Zyklus ein wenig leidet und eben umso mehr, je kälter sie in dem Moment ist.

Das Fazit mit der Empfehlung kann man so stehen lassen, aber die Erklärung darüber besser nicht lesen, da sind wie gesagt zu viele Fehler drin, aber der Author nimmt ja nicht in Anspruch Ahnung zu haben, er schreibt ja nur "Technologie und Gesellschaft faszinieren mich" und kann ja durchaus von etwas fasziniert sein, von dem man nicht viel versteht. Schade nur, wenn man sein Halbwissen dann trotzdem im Netz verbreitet und damit andere falsch informiert.
 
Bei der Data Retention geht es darum wie lange die Daten in den NANDs gehalten werden, aber dies nicht nur am Ende der Lebensdauer der SSD, sondern immer! Die Anforderung der JEDEC JESD218 ist, siehe Post #5, dass Client SSDs die bei 40°C Betriebstemperatur betrieben wurden, dann bei 30°C Lagertemperatur die Daten für 12 Monate halten können und die UBER unter 1:10^15 liegt

Ich denke Der Zusammenhang macht so deutlich, warum pauschale Empfehlungen leider so schwer sind. Das ist gerade als PC-Tweaker aus Spass an technischer Optimierung frustrierend! :d Bei einer CPU oder GPU ist kühler unter Last immer besser, da weiß man wo man hin möchte.

Es ergibt sich daraus ja logisch, dass es auch sehr auf das Verhältnis ankommt, wie wie SSD genutzt wird und wie stark die jeweiligen Faktoren (einfach gesagt: bessere Rentation/weniger Lesefehler vs. weniger Abnutzung beim Schreiben) im ganz konkreten Fall gewichtet sind. Das reine lesen sollte nach meinem Wissen keine Abnutzung verursachen, solange kein Refresh der Zelle durch einen Fehler passiert. .

Nehmen wir an es wird auf eine SDD fast gar nicht geschrieben und nur gelesen, dann kann eine NAND Temperatur von dauerhaft 40° im PC ungünstig(er) sein, weil sie dadurch praktisch wärmer "gelagert" wird - mit dem Unterschied, dass im Betrieb bei Retention Errors ein Refresh der Zelle stattfinden und es dadurch keine (bzw. unter UBER 1:10^15)" nicht korrigierbare Lesefehler" geben sollte, die dann aber P/E Zyklen kosten, wie man hier im Thread lesen kann. Und dann kommt es zusätzlich ganz konkret darauf an, wie das Kosten/Nutzverhältnis zwischen weniger benötigten Refreshs durch niedrigere Temperatur, gegenüber der höheren "Abnutzung" beim Schreien durch niedrigere Temperatur ist.

Wenn auf der SSD mehr geschrieben wird, kann der Vorteil der geringeren Abnutzung beim Schreiben durch die 40° aber auch überwiegen, obwohl es mehr Retention Errors gibt, welche im Betrieb durch benötigte Refresh auch P/E Zyklen kosten (ich vermute aber die Schreibzugriffe durch Refreshs sind gegenüber dem Schreiben auf die SSD durch durch OS/Programmen selbst eher gering in der Praxis).

Soweit ist zumindest mein aktuelles Verständnis. Holt wird mich sicher korrigieren, wenn ich quatsch erzähle.

Am Ende muss man wohl einfach darauf Vertrauen, das die Regelung in der SSD gut gemacht sind und sollte extreme Temperaturen nach oben und deutlich unter Zimmertemperatur meiden. Das Ziel des Papers aus 1# war ja unter anderem ein Algorithmus um die verschiedenen Faktoren im Betrieb für ein optimiertes Ergebnis zu steuern.
 
Zuletzt bearbeitet:
@askling
Wenn man nur bisschen was drauf hat, bei einer M.2, kann man den Kontroller extra kühlen. Nur. Das ist in keinem Szenario suboptimal.
Mit den NANDs kann man sich das dann noch überlegen ;)

Bei den 860Pro bekomme ich dagegen kein reales Szenario hin wo egal im Gehäuse, die Temperatur ungewöhnlich erscheinen. Weder nach oben hin noch nach unten hin.

Ich hab fast den gleichen Text imho auch irgendwo bei Thomas Krenn mal überflogen und da stand das mit der data retention ähnlich. Hmm...
Es gibt da aber paar mehr Infos die richtig und interessant sind.

Eine andere Sache die mir dazu einfällt:
Welche anderen NANDs nutzen USB-Sticks? Da hab ich schon mehrmals nach Jahren irgendwelche alte Gurken in der hinteren Ecke einer Schublade gefunden und bisher jedenfalls konnte ich die Daten drauf immer lesen. Dei hatten auch mal 2-4 Jahre immer nur Zimmertemperatur abbekommen bevor ich sie wiederfand.
 
Zuletzt bearbeitet:
wie stark die jeweiligen Faktoren (einfach gesagt: bessere Rentation/weniger Lesefehler vs. weniger Abnutzung beim Schreiben) im ganz konkreten Fall gewichtet sind.
Wobei man diese Lesefehler nicht als solche merken sollte, sondern nur als Performanceverlust, da der Controller in dem Fall wohl die LPDC ECC anwenden muss und die Daten danach hoffentlich refresht. Vielleicht refresht er aber vorher schon aufgrund irgendwelche anderen Parameter die den Algorithmus bestimmen. Wenn der Algorithmus die Temperatur bei der Entscheidung wann wieder ein Refresh erfolgt, gar nicht in Betracht zieht, sondern etwa nur die Betriebsstunden, dann hat man im Zweifel mit sehr geringen Temperaturen auch gar nichts gewonnen.

Das reine lesen sollte nach meinem Wissen keine Abnutzung verursachen, solange kein Refresh der Zelle durch einen Fehler passiert.
Doch, der Effekt nennt sich Read Disturb und sagt dafür, dass öfter Refreshs nötig sind, wenn viel gelesen wird. Es macht also schon einen Unterschied ob von der SSD gelesen wird oder nicht, aber der Unterschied ist gering und wenn man schon nicht darauf schreibt und dann auch nicht von der SSD liest, dann ist sie ja eigentlich irgendwie überflüssig.

Würde man die NANDs der SSD also extrem kühlen, etwa mit einem Chiller und nur davon lesen, dann könnte dies die Lebensdauer sogar verkürzen, denn dann leidet beim Schreiben und Löschen während der immer noch erforderlichen, je nach Algorithmus der FW des Controllers vielleicht unnötig häufig erfolgenden Refreshs die Isolierschicht der Zellen ganz besonders stark.

weil sie dadurch praktisch wärmer "gelagert" wird - mit dem Unterschied, dass im Betrieb bei Retention Errors ein Refresh der Zelle stattfinden und es dadurch keine (bzw. unter UBER 1:10^15)" nicht korrigierbare Lesefehler" geben sollte, die dann aber P/E Zyklen kosten
Wann genau ein Refresh stattfindet, weiß man im Zweifel nicht, dies steckt im Algorithmus der FW und wird von den Herstellern natürlich nicht verraten. Die UBER ist aber bei SSDs anderes als bei HDDs und ist anfangs 0 und steigt dann mit dem Verschleiß der Zellen an:

UBER_HDD-SSD.png


Beachte das dies ein sehr altes Bild ist und die TBW Rating daher nicht mit dem TBW von heutigen Consumer SSDs zu vergleichen ist, sondern eher mit den spezifizierten P/E Zyklen. Die Nutzung von TBW hat sich mit der Zeit geändert, Consumer SSDs hatten damals noch keine TBE Angaben, dies kam erst nachdem immer mehr Enterpriseanwender Consumer SSDs verwendet, kaputtgeschrieben und dann die Garantie in Anspruch genommen haben. Bei Enterprise SSDs hat sich daher die Angabe der TBW in Form der DWPD (Drive Write per day) durchgesetzt, die i.d.R. weit realistischer mit den spezifizierten P/E Zyklen der NANDs korreliert.

Auch erzeugen die Fälle der nicht korrigierbaren Lesefehler keine Refreshs, denn wenn die Daten so falsch sind dass man sie auch mit der ECC nicht mehr korrigieren kann, was sollte man dann bei einem Refresh als neue Daten schreiben? Die echten Daten sind verloren, der Versuch sie zu lesen führt zu einem Lesefehler als Antwort statt korrupte Daten zu schicken und erst wenn die Adresse (LBA) unter der diese Daten geschrieben wurden, wieder mit neuen Daten überschrieben wurde, dann gibt es wieder gültige Daten die auch refresht werden müssen und können. Ein Refresh sollt erfolen, wenn ein Retention Error erfolgt ist, also einzelne Zellen nicht mehr einfach so korrekt gelesen werden können und eben die aufwendigere ECC nötig und auch erfolgreich war.

Welche anderen NANDs nutzen USB-Sticks? Da hab ich schon mehrmals nach Jahren irgendwelche alte Gurken in der hinteren Ecke einer Schublade gefunden und bisher jedenfalls konnte ich die Daten drauf immer lesen.
USB Sticks nutzen die gleichen NAND Typen wie SSD, vielleicht andere Qualitäten, dann aber im Zweifel eher schlechtere als bessere Qualitäten. Aber es ist eben wie immer mit Spezifikationen, die geben nur die Mindesanforderungen an!

Zu verstehen was Mindestanforderungen sind, scheint aber vielen Leuten schwer zu fallen, denn die werfen ja auch Lebensmittel ungeprüft weg, wenn das Mindesthaltbarkeitsdatum auch nur um einen Tag überschritten wurde. Dabei ist auch dies nur eine Mindestanforderung und Lebensmittel sind am nächsten Tag nicht automatisch verdorben, ungenießbar oder gar giftig, aber Produkte die z.B. eine Kühlung verlangen, können schon vorher verdorben sein, wenn die Kühlkette unterbrochen war. Die meisten Lebensmittel halten aber länger als das Mindeshaltbarkeitsdatum, je nachdem wie lange dies ab der Produktion ist, Frischmilch hat nur Tag, Konservendosen haben Jahre und während eine Konservendose die 3 Jahre MHD hat, auch noch Jahre nach dessen Ablauf gut sein kann, sollte man dies von der Milchtüte nicht erwarten, aber auch die halten oft zwei oder drei länger als das MHD. Genauso ist es auch mit den NAND, gerade wenn die erst wenige P/E Zyklen runter haben, dann halten sie die Daten weitaus länger.

Die 12 Monate in der JESD218 bezieht sich auf SSDs am Ende der geplanten Nutzungsdauer, also wenn die spezifizierten P/E Zyklen der NANDs aufgebraucht sind, was bei den wenigsten USB Sticks die man so rumliegen hat, der Fall sein dürfte. Dazu kommt die Temperatur, die wenigstens dürften bei durschnittlich 30°C gelagert worden sein und je nach Quelle verdoppelt sich die Data Retention Time je 10°C oder sogar je 5°C weniger Lagertemperatur.
 
Die 12 Monate in der JESD218 bezieht sich auf SSDs am Ende der geplanten Nutzungsdauer, also wenn die spezifizierten P/E Zyklen der NANDs aufgebraucht sind
Neee. Das haben wir ja schon geklärt, daß dies so nicht stimmt und das "nicht nur am Ende der Lebensdauer der SSD, sondern immer!" gilt. Das hat schon jemand in #10 alles beschrieben.
Trotzdem danke.
 
Zuletzt bearbeitet:
Das haben wir ja schon geklärt, daß dies so nicht stimmt und das "nicht nur am Ende der Lebensdauer der SSD, sondern immer!" gilt.
Da es eine Mindestanforderung ist und die Data Retention Time mit zunehmenden P/E Zyklen fällt, sollte klar sein, dass die DRT der SSDs m Neuzustand bis eben zum Erreichen des Ender des Lebensdauer, bzw. der TBW oder spezifizierten P/E Zyklen der NANDs, die Daten bei 30°C länger als 12 Monate halten können müssen. Immer ist falsch, denn nach dem Erreichen der TBW oder spezifizierten P/E Zyklen der NANDs, werden sie diese 12 Monate irgendwann nicht mehr erreichen und dann bei weiterer Nutzung komplett ausfallen.

Es ergibt sich also aus der Natur der Sache, da die DRT neuer NANDs höher ist, dass meine Aussage stimmt und deine nicht, denn immer ist falsch, nach dem Erreichen des Zeitpunktes an dem die JESD218 die 12 Monate fordert, wird die DRT nicht mehr spezifiziert, die 12 Monate werden nicht mehr gefordert und irgendwann (je nach Güte der NANDs und der Betriebstemperatur mit denen sie betrieben wurden) auch nicht mehr erreicht.
 
Es ergibt sich also aus der Natur der Sache, da die DRT neuer NANDs höher ist, dass meine Aussage stimmt und deine nicht
DAS ist wohl wahrhaftig nicht mehr von der Hand zu weisen :LOL: Bis vielleicht auf die Neuance, daß ich bisher garkeine Ausagen dazu machte. Das kommt jetzt erst:
[...]
Damit hat sich der Kreis aber auch diesmal geschlossen, den die 12 Monate gelten wie zuerst zitiert, eben nah am Ende der Lebenszeit. Davor liegen sie höher, da sie ja kontinuierlich fallen. Es muss also höher angesetzt werden um die Mindestanforderung zum Ende hin noch zu halten. Wie man draus "das ist nicht besonders gut" machen kann, bleibt ein weiteres Geheimnis. Imho geht es immer nur darum etwas halbkaputt zu deuten, um im Anschluss unbedingt das richtigere Recht zu haben.

:bigok:
 
Wie man draus "das ist nicht besonders gut" machen kann, bleibt ein weiteres Geheimnis.
Das "das ist nicht besonders gut" bezog sich auf den Beitrag bei galaxus.de, dessen Fehler und Schwächen ich aufgezeigt haben, zumindest teilweise, denn die Aufzählung ist ohne den Anspruch auf Vollständigkeit. Wer dies nicht erkennt, dem kann und werde ich auch nicht weiterhelfen.
 
Ja. Ich meinte auch das von galaxus. Schwächen aufzeigen, der anderer, hat aber selbstverständlich die höhste Priorität. Immer.
 
Zuletzt bearbeitet:
Wer glauben möchte das "laut JEDEC, der Standardisierungsorganisation für SSDs, die Daten bei 40 Grad 365 Tage lang gespeichert" werden, statt das die JEDEC in der JESD218 die Mindestanforderung stellt, wonach bei Client SSDs die Daten bei 30°C Lagertemperatur für mindestens 12 Monate gehalten werden müssen, wenn sie bei 40°C Betriebstemperatur betrieben wurde, solange die TBW/spezifizierten P/E Zyklen der NAND noch nicht überschritten wurden, der soll dies gerne machen. Ich haben keine Lust mich hier ständig im Kreis zu drehen und daher ab auf die IL und gut.
 
Das könnte in der Tat was helfen. Ich hatte ihn selbst auf der Ignore noch bis vor kurzem (!), wollte mal schauen, ob sich was gebessert hat. Hat es nicht...
Wenn ich seine Beiträge also weiterhin gerade Stelle, und er das nicht direkt sieht, wäre es in der Tat möglich aus den vielen Kreisen eine Linie zu machen. Ich bin daher ebenfalls klar dafür.

Bis denne.
 
Uhrzeit, ganz ohne Argwohn! Da es nicht der einzige Thread ist wo dich offentsichtlich etwas stört und es daher latent in Richtung Off-Topic driftet: Ich würde dir empfehlen, dass du Holt wieder auf deine IL stellst? Irgendwie scheint dich da etwas zu triggern, was ich aber nicht nachvollziehen kann. Vielleicht ist es der direkte Ton in der Sache? Denn als unfreundlich empfinde ich ihn nicht.

Holts Posts sind durchgängig qualitativ sehr weit oben, klar begründet und weisen selbst auf Limitierungen in der Faktenlage hin. Unterm Strich meist extrem Hilfreich und besonders bei Themen um Storage immer ein großer Gewinn für das Forum.
 
Zuletzt bearbeitet:
Wie du dich an jede sich bietende Silbe klammerst, um das richtigere Recht zu haben... Dir ist schon klar, daß ich das ab und zu extra mache, damit du mal ein Ventil findest? ;) (da bin ich halt Mensch drin)
Da ging es um:
Die aktuelle Version ist aber eben:
NVMe 3.0 ist nun einmal keine brauchbare Abkürzung für PCIe 3.0 mit NVMe Protokoll und nur dies hatte ich klargestellt:
NVMe 3.0 gibt es nicht, allenfalls NVMe SSDs mit PCIe 3.0 Anbindung
Irgendwann wird es vermutlich auch eine Version 3.0 der NVMe Spezifiktion geben, aber davon sind wir wohl noch einige Zeit entfernt. Man muss eben aufpassen, dass man beim Versuch Dinge zu vereinfachen diese nicht verfälscht, sonst ist Verwirrung vorprogrammiert!

Aber er scheint eben noch ein Schüler zu sein und viel lernen zu müssen:
Stinknormale Leute (Stichwort RL-Fälle) machen stinknormale Videos für YT und lassen etwas von verschiedenen Datenträgern durchlaufen/starten, um die Zeiten zu vergleichen. Das gibt es als Hausaufgabe, das zu suchen UND finden, um zu verstehen was gemeint ist.
Noch wichtiger also zu verstehen was gemeint ist, wäre es die Qualität der Quelle beurteilen zu lernen.
 
Irgendwann wird es vermutlich auch eine Version 3.0 der NVMe Spezifiktion geben, aber davon sind wir wohl noch einige Zeit entfernt. Man muss eben aufpassen, dass man beim Versuch Dinge zu vereinfachen diese nicht verfälscht, sonst ist Verwirrung vorprogrammiert!
Das ist zwar richtig und wenigstens hast du die Intention auch anerkannt, aber die Stelle wo DAS Leute verwirrt, die ist mir halt entgangen. Man kanns aber halt gut behaupten.

Aber er scheint eben noch ein Schüler zu sein und viel lernen zu müssen:
Noch wichtiger also zu verstehen was gemeint ist, wäre es die Qualität der Quelle beurteilen zu lernen.
Und dann? Was kann man da grundsätzlich falsch machen, WENN alle solche Tester SEHR eng beieinander liegen? (bei "vs." Vergleiche)
 
Ehrlich gesagt eine triviale Erkenntnis, aber was ich etwas übersehen habe ist der Unterschied zwischen Sommer/Winter im Zusammenhang mit Rentation power off. ich ärgere mich gerade etwas über mich selber.

Dazu kommt eine große Variable durch unterschiedliche Idle-Temperaturen von SSDs. Meine evo 860 ist fast 10° kühler im absoluten idle als meine Crucial. Wie weit das geringerer Verbrauch im Idle ist oder einen andere Positionierung des Sensors weiß ich nicht.

Aktuell ist es hier wieder etwas kälter. Meine Evo 860 im idle bei 20° Raumtemperatur ist so gerade mal bei 22° im HDD-Cage. Dabei macht es keinen Unterschied ob der Fan vor dem Cage an/aus ist. Auch bei 0 Rpm bleibt die evo 860 bei 22° im idle.

Im Sommer ist der Raum eher um 28°. Auch wenn die Evo beim schreiben schnell wärmer wird, so gibt es dennoch einen Bereich der im "Winter" relativ kühl geschrieben wurde.

Es kann so also zu der Situation kommen, dass "Active Use" kälter war als "Power off" beim Lagern/abgeschalteten PC. Wie man hier sehen kann https://www.anandtech.com/show/9248/the-truth-about-ssd-data-retention ist das ungünstig.

Bin tatsächlich am überlegen die ganze Bastelei wieder Rückgängig zu machen und die Evo 860 eher etwas wärmer (28°) hinter dem Mainboard zu betreiben. Bei der Crucial ist es weniger ungünstig, da sie im Idle einfach fast 10° wärmer als die Evo ist. Anders, der Energiesparmodus der Evo 860 scheint nicht nur positiv zu sein. :d

Auf der anderen Seite, wenn es gibt auch keine Auflage die SSD im Idle zu erwärmen. Dieser Fall, SSD im Drive-Cage, dürfte sehr häufig sein, sprich eigentlich auch bedacht sein. Und auch direkt nach dem Start des PCs wird auf der SSD im "Winter" kühler geschrieben, das lässt sich gar nicht verhindern, Vermutlich spielt es am Ende wieder keine große Rolle, trotzdem ein Punkt wenn man schon über Temperaturen optimieren nachdenkt.
 
Zuletzt bearbeitet:
Nur um die Messungen in Relation zu setzen. In meinem Fall waren die Evo 860 und die Crucial wechselnd in gleichen Positionen, aber wenn man ohne Bezug über absolute SSD Temperaturen sprechen sollte, hast du natürlich recht. Die evo startet dabei sogar genau bei Zimmertemperatur, nur steigt sie im Idle eben selbst ohne Lüfter eben nur 2°, was ich erstaunlich finde. Auch das Gehäuse ist genauso warm wie sie anzeigt (Infrarot-Thermometer). Zumindest scheint da kein großer Offset drin zu sein. Bei der Crucial könnte es einen geben, die startet meist bei 24° im Monitoring-Tool. Aber vielleicht steigt sie auch nur schneller.
 
Zuletzt bearbeitet:
Ich habe mir heute mal wieder etwas Zeit für mein neues Hobby SSD Reliability Theorie genommen.

Aktuelle Frage für mich: Kalte Tage vs. warme Tage im Sommer. Eine kühle SSD lieber an einem wärmeren Platz im PC, damit auch an kalten Tagen immer über Sommer-Raumtemperatur geschrieben wird? Denn wenn die Power Off Temperatur niedriger als in aktive Use ist, sinkt die Rentation Time sehr stark. JEDEC nimmt ja 40° für den Betrieb an.

Dabei habe ich ein interessanten Vortrag gefunden. Kurz, es geht um "passiv Heating" von SSDs durch andere Komponenten. Durch passiv Heating steigt die Raw Error Rate (ich verstehe das als in der Regel korrigierbare Fehler, nicht 100% sicher) mit höheren Temperaturen im Betrieb recht stark an. Das Video bei Minute 9:06 starten:

Im Paper dazu findet man noch mehr Details, aber auch der explizite Hinweis, dass nur planaren NAND getestet wurde. Ob sich 3D NAND anders verhält, bleibt daher ungewiss.

Das ergibt leider erneut eine Pattsituation für die Frage welche Temperatur sollte die SSD denn haben? :d

Meine Evo 860 ist im Idle ohne aktive Kühlung und ohne "passive Heating" durch andere Komponenten, wie Montage hier dem Mainboard kaum über Raumtemperatur (Raum = 20°, Evo 860 = 22/°23°)

- Daher die Sorge, wenn im Winter/kalten Tagen bei 22° geschrieben wird und der Raum im Sommer plötzlich über Wochen 30° ist, könnte das zu sehr kurzen "Data Retention Power Off" (PC ohne Strom) Zeiten führen. Ich weiß nicht, ob die Zahlen auch für aktuelle SSDs überhaupt gelten (ist von 2015), aber die Grafik bei anandtech ergibt als Anhaltspunkt, niedriger als 25° ist leider nicht aufgeführt:
- 25° schreiben / 25° nicht im Betrieb-> 58 Wochen​
- 25°schreiben / 35° nicht im Betrieb -> 14 Wochen​
- Wie gut starke und plötzliche Temperaturänderungen der Umgebungstemperatur von der SSD im Betrieb durch Refreshs abgefangen werden, weiß ich nicht.​
- Das Szenario dürfte direkt nach dem start des PCs aber immer auftreten, denn da ist die SSD immer auf Raumtemperatu ! Das Szenario müssen die Hersteller eigentlich bedacht haben.​

- Die Idee, die SSD daher durch andere Komponenten passiv aufzuheizen, um nie eine höhere Umgebungstemperatur als im Betrieb zu haben (z.B. auf 30° durch Montage hinter dem Mainboard), scheint nicht nur Vorteile zu haben.

Was mich wundert. In den Threads zu SMART Werten, gibt es fast keine Samsung SATA SSDs die so kühl sind wie meine. Klar, es gibt ganz viele Faktoren... trotzdem Frage ich mich, ob niedrige SSD Temperaturen wie bei mir wirklich so unüblich sind. Die SATA Samsungs haben einfach einen sehr geringen Idle verbrauch.

Die 40° welche die JEDEC für aktive Use annimmt, scheinen mir nur in einigen Setups möglich! Die Tabelle bei anandtech für active Use/Power Off scheint mir zu trivial als wirklich zu helfen. Auch in dem Vortrag sprechen sie von 25° Idle Temperatur in ihren Setup, was deutlich niedriger ist als JEDEC annimmt.
 
Zuletzt bearbeitet:
...
Meine Evo 860 ist im Idle ohne aktive Kühlung und ohne "passive Heating" durch andere Komponenten, wie Montage hier dem Mainboard kaum über Raumtemperatur (Raum = 20°, Evo 860 = 22/°23°)
...
Meine SATA EVOs sind allesamt im 28-29°C Bereich und Crucials ideln bei 36°C (MX500) und 31°C (BX300). Was NVMe-SSDs angeht, so ideln sie zwischen 38 und 45°C. Bei Belastung gehen die Temps der jeweiligen SSD aber so 10-15°C locker hoch, bei starker Belastung - bis zu + 20-25°C... (die Frage ist nur was genau die Controller-Temp und was NAND-Flash-Temp ist).
 
Interessant, darf ich dich noch etwas ausfragen? :)

- Welches Case?
- Wo sind die SATA Evos verbaut (Drive-Cage/hinter Mainboard)
- In deiner Sig sehe ich semipassiv, d.h. kaum Belüftig im Idle? d.h. das Gehäuse hat vermutlich keine Raumtemperatur? Bei mir macht das deutlich etwas aus. Im passivem Betrieb (nur CPU Lüfter drehen sich) heißt sich das Gehäuse um gute 5° auf und damit auch die SSDs. Ich habe bei mir die Lüfter normal bei 500RPM laufen, damit bleibt die Temperatur im Gehäuse bei Raumtemperatur.
- Die Temperaturen die du nennst sind nicht direkt nach dem start, sondern wenn der Pc schon läuft, oder?
 
Altes LianLi Bigtower
- Wo sind die SATA Evos verbaut (Drive-Cage/hinter Mainboard)
Liegen im HDD-Käfig, keine Befestigung, da der Rechner nicht bewegt wird/stationär.
- In deiner Sig sehe ich semipassiv, d.h. kaum Belüftig im Idle? d.h. das Gehäuse hat vermutlich keine Raumtemperatur? Bei mir macht das deutlich etwas aus. Im passivem Betrieb (nur CPU Lüfter drehen sich) heißt sich das Gehäuse um gute 5° auf und damit auch die SSDs. Ich habe bei mir die Lüfter normal bei 500RPM laufen, damit bleibt die Temperatur im Gehäuse bei Raumtemperatur.
Genau, eher schlecht belüftet. Über dem Netzteil habe ich einen 120er Bequiet Lüfter und drunter 2x80er, alles langsam drehend. Aktuelle Graka ist nicht wassergekühlt und heizt das Gehäuse evtl. zusätzlich auf.
- Die Temperaturen die du nennst sind nicht direkt nach dem start, sondern wenn der Pc schon läuft, oder?
Nein, gerade reingeguckt, Rechner läuft seit heute früh.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh