Festplatten-Überwachung mit S.M.A.R.T.
Festplatten befinden sich fast in jedem Server. In unseren Maschinen sind es typischerweise mindestens zwei, oftmals jedoch auch mehr. Da Festplatten zu den wenigen Dingen in einem Computer gehören, welche sich mechanisch bewegen, unterliegen Sie einem besonders hohen Verschleiß und sind dadurch vergleichsweise oft defekt. Zudem sind Festplatten-Defekte im Vergleich zu anderen Hardware-Ausfällen eher schlimm, da sich die Geräte nicht 1:1 gegen neue Hardware austauschen lassen. Nach jedem Austausch sind die vorher vorhandenen Daten verloren und müssen z.B. durch einen RAID-Sync oder das Rückspielen eines Backups wiederhergestellt werden.
Je nach Hersteller, Modell und persönlichem Glück kann die Ausfallrate einer Festplatte zwischen einem und 30 Prozent pro Jahr liegen. Daher möchte man möglichst gerne wissen, wie „fit“ die Festplatten im Server sind und nicht erst überrascht werden, wenn es bereits zu spät ist und eine Festplatte defekt ist.
Zu diesem Zweck haben namhafte Festplattenhersteller bereits vor 20 Jahren die Self-Monitoring, Analysis and Reporting Technology, kurz S.M.A.R.T. erfunden. Hierbei handelt es sich um ein System zur Selbstdiagnose von Festplatten. Die Hardware führt hierbei Buch über Ihren Zustand, z.B. über die Anzahl nicht korrigierbarer Fehler, Temperaturen, Anzahl Betriebsstunden, etc. Durch eine Software-Schnittstelle lassen sich diese Werte vom Betriebssystem abfragen. Durch Vorgaben der Hersteller warnen die Festplatten hierbei auch selbständig vor dem drohenden Ausfall, falls die gemessenen Werte bestimmte Grenzwerte unterschreiten.
Heutzutage wird S.M.A.R.T. von fast allen Festplatten und SSDs standardmäßig unterstützt. Wir haben bislang minütlich die Festplatten-Temperaturen, sowie den S.M.A.R.T. Status abgefragt. Sobald eine Festplatte meldet, dass sie droht, kaputt zu gehen, wird sie von uns ausgetauscht, noch bevor sie tatsächlich ausfällt. S.M.A.R.T. schützt zwar nicht vor plötzlichen Hardware-Defekten, aufgrund derer eine Festplatte auch immer noch ohne Vorankündigung kaputt gehen kann, hilft jedoch, viele dieser Überraschungsmomente zu vermeiden.
Inzwischen haben wir unsere Überwachung der S.M.A.R.T.-Daten noch weiter ausgebaut und kontrollieren zusätzlich die folgenden Festplatten-Werte:
Reallocated_Sector_Ct
Wear_Leveling_Count
Used_Rsvd_Blk_Cnt_Tot
Uncorrectable_Error_Cnt
Command_Timeout
Airflow_Temperature_Cel
Temperature_Celsius
Current_Pending_Sector
Offline_Uncorrectable
UDMA_CRC_Error_Count
Host_Writes_32MiB
Available_Reservd_Space
Total_LBAs_Written
Total_LBAs_Read
Host_Reads_32MiB
NAND_Writes_1GiB
Es handelt sich hierbei nicht um alle von S.M.A.R.T. zurück gelieferten Werte, sondern um die, welchen besondere Hinweise auf drohende Ausfälle geben. Geholfen, die Liste zusammen zu stellen hat uns hierbei neben eigener Erfahrung auch ein Artikel von Backblaze.
Einige der Messwerte gibt es nur bei SSDs. Da diese einen technisch komplett anderen Ansatz verfolgen, macht es Sinn, SSDs anhand anderer Parameter, als gewöhnliche Festplatten zu untersuchen. So gibt es bei SSDs z.B. keine Raw_Read_Error_Rate, welche auf mechanische und elektrische Fehler beim Lesen der Festplattenoberfläche hindeutet. Stattdessen gibt z.B. der Parameter Available_Reservd_Space an, wie groß der von der SSD reservierte Platz ist, in den die SSD bei defekten Speicherzellen ausweichen kann.
Die Werte werden von uns regelmäßig ausgelesen und über einen Zeitraum von einem Jahr gespeichert. Hierdurch erkennen wir bereits sehr frühzeitig Verschlechterungen bei einzelnen Festplatten und können entsprechende Gegenmaßnahmen treffen, noch bevor es zu einem Datenverlust kommt.
Erfahren Sie mehr über die Wichtigkeit von Festplattenüberwachung.