/ / Wie kann ich ein zeitweise auftretendes Festplattenverbindungsproblem diagnostizieren und beheben? - debian, ssd, freeze, sata, smart

Wie kann ich ein zeitweise auftretendes Festplattenverbindungsproblem diagnostizieren und beheben? - debian, ssd, freeze, sata, smart

Ich habe ein Lenovo X250-Notebook, auf dem Debian-Tests laufen. Es hat eine 512 GB Crucial MX100 2,5 "SATA SSD.

Gelegentlich st├╝rzt der Computer ab und ich muss neu starten. Wenn ich zu einer Konsole wechseln kann, werden viele Meldungen angezeigt ATA COM RESET und btrfs Lese / Schreibfehler. Manchmal reagiert es, aber das Root-Dateisystem ist schreibgesch├╝tzt und nicht wirklich lesbar. Dateien im Cache k├Ânnen gelesen werden, andere Dateien jedoch nicht.

Seltsame Dinge:

  • es kann viele Tage dauern, ohne aufzutreten
  • es ist stark korreliert mit dem Bewegen des Computers, w├Ąhrend er eingeschaltet ist; ich habe versucht, den Deckel beim Bewegen immer zu schlie├čen
  • Um das Problem zu beheben, muss der Computer aus- und wieder eingeschaltet werden. Bei einem Neustart ├╝ber magic sysreq wird das BIOS kein bootf├Ąhiges Ger├Ąt finden

Mein vager Glaube ist, dass es irgendeine Art von Kontakt gibt, der durch die Biegung des Chassis beeinflusst wird. Dinge, die ich versucht habe:

  • SMART-Status ├╝berpr├╝fen (alles klar)
  • Erneutes Einsetzen des Laufwerks

Ich habe keine Ersatz-2,5-Zoll-SATA-SSD zum Testen. Ich kann mir zwar eine neue zulegen, w├╝rde es aber vorziehen, wenn ich nicht erwarte, dass sie die Probleme behebt.

Irgendein Ideen w├Ąren sehr dankbar!

Ausgabe von smartctl -A:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.14.0-2-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
5 Reallocate_NAND_Blk_Cnt 0x0033   100   100   000    Pre-fail  Always       -       0
9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       5888
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       7741
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
173 Ave_Block-Erase_Count   0x0032   086   086   000    Old_age   Always       -       431
174 Unexpect_Power_Loss_Ct  0x0032   100   100   000    Old_age   Always       -       126
180 Unused_Reserve_NAND_Blk 0x0033   000   000   000    Pre-fail  Always       -       4403
183 SATA_Interfac_Downshift 0x0032   100   100   000    Old_age   Always       -       0
184 Error_Correction_Count  0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   074   040   000    Old_age   Always       -       26 (Min/Max 12/60)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
202 Percent_Lifetime_Used   0x0031   086   086   000    Pre-fail  Offline      -       14
206 Write_Error_Rate        0x000e   100   100   000    Old_age   Always       -       0
210 Success_RAIN_Recov_Cnt  0x0032   100   100   000    Old_age   Always       -       0
246 Total_Host_Sector_Write 0x0032   100   100   000    Old_age   Always       -       31996614953
247 Host_Program_Page_Count 0x0032   100   100   000    Old_age   Always       -       1008715183
248 Bckgnd_Program_Page_Cnt 0x0032   100   100   000    Old_age   Always       -       258122736

Antworten:

0 f├╝r Antwort Ôäľ 1

Sie haben keines dieser Dinge erw├Ąhnt, deshalb werde ich sie auflisten:

  1. ├ťberpr├╝fen Sie die SMART-Fehlerprotokolle der Festplatte. Wenn Sie nachweisen k├Ânnen, dass Fehler vorliegen und das Laufwerk weiterhin unter die Herstellergarantie f├Ąllt, wird es von Crucial ersetzt.

    smartctl -l error /dev/sda
    
  2. F├╝hren Sie einen Bef├Ârderungstest durch und bewegen Sie den Laptop, w├Ąhrend der Test ausgef├╝hrt wird.

    smartctl -t conveyance /dev/sda
    

    Aus der Manpage:

    ├ťbermittlung - [Nur ATA] f├╝hrt eine SMART-├ťbermittlung durchSelbsttest (Minuten). Diese Selbsttestroutine soll Sch├Ąden identifizieren, die beim Transport des Ger├Ąts entstanden sind. Dieser Selbsttest sollte einige Minuten dauern. Beachten Sie, dass dieser Befehl w├Ąhrend des normalen Systembetriebs ausgef├╝hrt werden kann (sofern er nicht im Captive-Modus ausgef├╝hrt wird - siehe unten stehende Option "-C").

  3. Lauf long Selbsttest.

    smartctl -t long /dev/sda
    

    long - [ATA] f├╝hrt den erweiterten SMART-Selbsttest aus (ZehnMinuten bis zu mehreren Stunden). Dies ist eine l├Ąngere und gr├╝ndlichere Version des oben beschriebenen kurzen Selbsttests. Beachten Sie, dass dieser Befehl w├Ąhrend des normalen Systembetriebs ausgef├╝hrt werden kann (sofern er nicht im Captive-Modus ausgef├╝hrt wird - siehe unten stehende Option "-C").

  4. Wenn es vor M├Ąrz 2015 hergestellt wurde, gibt esist ein Firmware-Update f├╝r das Laufwerk. Das k├Ânnte helfen. Der letzte Hinweis in der Versionszusammenfassung zum Korrigieren der Berichterstellung f├╝r das SMART-Attribut 5, bei dem es sich um eine neu zugewiesene Sektoranzahl handelt (technisch ausgefallene Flash-Speicherbl├Âcke, da es sich um eine SSD handelt), ist f├╝r mich besonders verd├Ąchtig. M├Âglicherweise haben Sie eine gro├če Anzahl von neu zugewiesenen Sektoren, und SMART meldet dies nicht korrekt.

    Erscheinungsdatum: 10.03.2015

    Die Firmware f├╝r den MX100 (alle Formfaktoren) wird von Version MU01 auf MU02 aktualisiert. Der MX100 kann mit den von Micron bereitgestellten Tools von fr├╝heren Versionen auf diese neue Firmware aktualisiert werden.

    Dieses Update ist obligatorisch f├╝r NeueinsteigerProdukt in Micron Fabriken gebaut und ist ein optionales Update f├╝r jedes Laufwerk im Feld. F├╝r Endbenutzer wird empfohlen, wenn der Benutzer Probleme mit den folgenden Elementen hat oder verhindern m├Âchte.

    Version MU02 enth├Ąlt die folgenden ├änderungen:

    Verbesserte Stabilit├Ąt, Effizienz und Leistung bei Leistungszustands├╝berg├Ąngen
    Verbesserter Umgang mit Umgebungen mit instabilen Netzteilen
    Verbesserte Handhabung von Umgebungen mit Problemen mit der Signalintegrit├Ąt der SATA-Schnittstelle
    Verbesserte Antwortzeit f├╝r SMART-Lesebefehle
    Fehler bei der Behandlung von NCQ-Trim-Befehlen behoben
    Berichtigung des SMART-Attributs 5

    http://www.crucial.com/usa/en/support-ssd-firmware

  5. Ziehen Sie in Betracht, das Laufwerk neu zu partitionieren und m├Âglicherweise ein anderes Betriebssystem zu testen. Zumal Sie das verwenden testen Geschmack von Debian.

  6. Bedenken Sie, dass Ihr Problem nicht das Laufwerk und m├Âglicherweise das Motherboard ist.

  7. Entfernen Sie das Laufwerk und booten Sie von einer Debian-Live-Umgebung (Flash-Laufwerk oder CD). Versuchen Sie, das Einfrieren zu wiederholen. Wenn es immer noch funktioniert, kann es nat├╝rlich nicht das Laufwerk sein.