Hardwaredefekt? Aber was?

:’(
Hallo Wissende,
seit ein paar Tagen habe ich bei meinem neuesten PC einige Probleme erkannt, es fing mit dem Update von openSUSE 11.3-32bit von KDE 4.4 auf 4.6.1 und auf das Tumbleweed Repo an.
Dann hab ich noch meine zweite Installation auf der gleichen Hardware von 11.3-x86-64 auf 11.4-x86-64 mittels Zypper durchgeführt.
Ab da funktionierte erst die 64 Bit Installation nicht mehr zuverlässig und ich musste die NVIDIA Treiber runterladen, aber sie wurden immer als fehlerhaft erkannt. Egal mit welchem Browser oder Version ich runtergeladen habe, die Fehlermeldung blieb und ich war nicht in der Lage die Treiber zu installieren.
Zurück zur 32 Bit Version, versuchte ich ebenso die NVIDIA Treiber runterzuladen, aber es klappte nicht ohne Fehlermeldung.
Weiter wollte ich die DVD für 11.4-64 Bit laden und es wurde zuerst mit passender MD5 Checksumme geladen, nach dem Brennen auf eine DVD+RW lies sich das System aber nicht installieren, weil es fehlerhaft sei.
Nach nochmaligem MD5 Check war die Summe falsch, obwohl sie zuerst richtig war. Ich hatte die iso-Datei auf einer der lokalen Platten des PC.
Hab sie auf mein NAS kopiert und mit rsync von einem anderen PC repariert.
Danach war sie von diesem anderen PC mit der richtigen MD5 bestätigt, aber von dem vorhergehenden immer noch als falsche Checksumme berechnet.
Dann Check der /var/log/messages hier:

Mar 20 22:23:49 wolfi-E8400 kernel:   856.085630] npviewer.bin[5431]: segfault at 0 ip   (null) sp bfc48f6c error 14 in npviewer.bin[8048000+2a000]
Mar 20 22:23:49 wolfi-E8400 kernel:   856.103336] npviewer.bin[5441]: segfault at 0 ip   (null) sp bfb4483c error 14 in npviewer.bin[8048000+2a000]
Mar 20 22:23:49 wolfi-E8400 kernel:   856.121615] npviewer.bin[5451]: segfault at 0 ip   (null) sp bfdc159c error 14 in npviewer.bin[8048000+2a000]
Mar 20 22:23:49 wolfi-E8400 kernel:   856.137978] npviewer.bin[5461]: segfault at 0 ip   (null) sp bfc90a4c error 14 in npviewer.bin[8048000+2a000]
Mar 20 22:24:19 wolfi-E8400 kernel:   885.497038] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 22:26:37 wolfi-E8400 kernel:  1023.493039] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 22:34:13 wolfi-E8400 kernel:  1479.533039] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 22:34:31 wolfi-E8400 kernel:  1497.501030] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 22:37:29 wolfi-E8400 kernel:  1675.501043] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 22:38:27 wolfi-E8400 kernel:  1733.532037] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 22:40:05 wolfi-E8400 smartd[2451]: Device: /dev/sda [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 58 to 59
Mar 20 22:40:05 wolfi-E8400 smartd[2451]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 253 to 100
Mar 20 22:40:05 wolfi-E8400 smartd[2451]: Device: /dev/sdb [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 58 to 57
Mar 20 22:40:05 wolfi-E8400 smartd[2451]: Device: /dev/sdb [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 112 to 109
Mar 20 22:40:05 wolfi-E8400 smartd[2451]: Device: /dev/sdb [SAT], SMART Usage Attribute: 200 Multi_Zone_Error_Rate changed from 253 to 100
Mar 20 22:53:51 wolfi-E8400 kernel:  2657.534042] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 22:58:17 wolfi-E8400 kernel:  2923.533043] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 22:59:35 wolfi-E8400 kernel:  3001.498040] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 23:03:15 wolfi-E8400 kernel:  3221.536039] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 23:04:15 wolfi-E8400 kernel:  3281.536036] usb 1-1: reset high speed USB device using ehci_hcd and address 2
Mar 20 23:10:05 wolfi-E8400 smartd[2451]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 51 to 53
Mar 20 23:10:05 wolfi-E8400 smartd[2451]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 49 to 47
Mar 20 23:29:51 wolfi-E8400 rsyslogd: -- MARK --

Einen Speichertest hab ich schon ohne Fehler gemacht.

Ist eine oder beide Festplatten defekt?
Für die 32 Bit Installation liegt Sys-Root auf sda und /home auf sdb, bei der 64 Bit Installation ist es genau umgekehrt, also Sys-Root auf sdb und /home auf sda.

Hat jemand Tipps, was und wie ich noch retten kann?

Danke
Wolfi

Nicht dass ich mich gerade von der Bezeichnung oben angesprochen fühlen würde;) - aber mein Senf dazu:

Was sagen denn SMART (S.M.A.R.T. - Self-Monitoring, Analysis and Reporting Technology) bzw. Disk Utility (gibt es eine Entsprechung auch für KDE?) oder smartmontools - vielleicht von einer - mit einem anderen PC auf Integrität geprüften - live CD aus gestartet?

Viel Glück und allzeit gute Datensicherung…
Martin
(pistazienfresser)

Hallo Martin,

danke für deine Anregungen, dachte ich hätte die wichtigsten Punkte aus der /var/log/messages für die HDD Smart Parameter schon gepostet gehabt…
Ja dein Punkt mit der Datensicherung ist schon gut, aber ich bin jetzt am Zweifeln, ob an den Daten irgendetwas korrupt ist und wann es geschah. Das bedeutet für mich die Unsicherheit, wie weit zurück ich gehen muss in der Sicherung, um noch komplett gute Daten zu finden.
Sichere da eh bloss die /home Partition, damit ich meine wichtigsten Daten wieder habe. Die Systempartition muss ich eh neu aufsetzen.

So jetzt die SMART-Testergebnisse für die Platte auf der System ist:

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 113 097 006 Pre-fail Always - 57364157
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1600
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 070 060 030 Pre-fail Always - 120630489740
9 Power_On_Hours 0x0032 086 086 000 Old_age Always - 13098
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 099 099 020 Old_age Always - 1265
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 051 043 045 Old_age Always In_the_past 49 (0 99 51 26)
194 Temperature_Celsius 0x0022 049 057 000 Old_age Always - 49 (0 18 0 0)
195 Hardware_ECC_Recovered 0x001a 056 050 000 Old_age Always - 198510815
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 Data_Address_Mark_Errs 0x0032 100 253 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error

1 Extended offline Completed without error 00% 13093 -

2 Short offline Completed without error 00% 13042 -

3 Short offline Completed without error 00% 13040 -

4 Short offline Completed without error 00% 11837 -

5 Short offline Completed without error 00% 11834 -

6 Extended offline Aborted by host 70% 114 -

7 Short offline Aborted by host 90% 113 -

8 Short offline Completed without error 00% 112 -

9 Extended offline Interrupted (host reset) 40% 67 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Und hier die Ergebnisse der Platte auf der /home ist:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 100 100 051 Pre-fail Always - 1
3 Spin_Up_Time 0x0007 100 100 015 Pre-fail Always - 7808
4 Start_Stop_Count 0x0032 098 098 000 Old_age Always - 2611
5 Reallocated_Sector_Ct 0x0033 253 253 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 253 253 051 Pre-fail Always - 0
8 Seek_Time_Performance 0x0025 253 253 015 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 16042
10 Spin_Retry_Count 0x0033 253 253 051 Pre-fail Always - 0
11 Calibration_Retry_Count 0x0012 253 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1348
190 Airflow_Temperature_Cel 0x0022 056 053 000 Old_age Always - 44
194 Temperature_Celsius 0x0022 106 097 000 Old_age Always - 44
195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 249262551
196 Reallocated_Event_Count 0x0032 253 253 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 253 253 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 253 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0
202 Data_Address_Mark_Errs 0x0032 253 253 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error

1 Extended offline Completed without error 00% 16036 -

2 Short offline Completed without error 00% 7125 -

Note: selective self-test log revision number (0) not 1 implies that no selective self-test has ever been run
SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Wenn ich sie richtig interpretiere eigentlich bis auf die Hardware_ECC_Recovered auf der Systemplatte nichts auffälliges. Aber wieso dann dieses komische Verhalten mit den falschen MD5SUM’s der openSUSE 11.4 DVD mit diesem Rechner und dem Abbruch der Installation. Von meinem anderen Rechner aus ist die MD5 in Ordnung. Auch hatte ich beim Update mit Zypper diverse Pakete, wo mir ein fehlerhaftes Digest ausgegeben wurde nach dem Download vor dem Installieren. Sachen die ich früher nie hatte.

Weiterhin Danke für euere Ideen und Hilfe!
Wolfi

Wie gesagt würde ich mich (hier) nicht gerade als Wissenden bezeichnen, aber ich würde mal versuchen, die lustige ISO Datei auf eine externe Festplatte oder ähnliches zu kopieren und dann lokal auf beiden Rechnern die MD5 checksum und andere Prüfsummen berechnen lassen, um zu versuchen, das Problem näher einzugrenzen. Dumm wie ich bin, sehe ich jetzt nicht, warum es an der/den Festplatten liegen sollte. Ich hatte mal einen Rechner, der nicht (mehr) richtig rechnen konnte (ich glaube, nachdem ich ihn umgeworfen hatte :wink: ) - Textverarbeitung funktionierte aber noch …
Viel Glück und einen klügeren Ratekandidaten…
Martin
(pistazienfresser)

Danke für deine Bemühungen, Martin!

Die MD5 hatte ich ja von zwei verschiedenen Rechnern aus berechnen lassen, da die ISO auf meinem NAS gespeichert ist und da fiel mir eben dieser Effekt auf, das der eine PC sie richtig berechnet und der andere nicht.
Gestern hab ich auch mal als Test unter Windows7-64Bit gestartet, da stürzten gleich einige Programme beim aufruf ab, z.B. Google Chrome lies sich nicht starten und gab einen Exception Error bei 0000000000???

Da ich schon einen Speichertest gemacht habe, dachte ich das es nicht am RAM liegen kann, ist der Test von der Suse Install DVD zuverlässig?

Kann es die CPU sein? Also runtergefallen ist mir der Rechner nicht, dazu ist er zu wenig tragbar…

HILFE!!!

Danke
Wolfi

Also hier gibt es denke ich einige Möglichkeiten. Dein RAM könnte tatsächlich einen Treffer haben. Ein Memtest wird Dir nicht zuverlässig nach einem Durchlauf ein stabiles System attestieren können, da musste den Test einige Stunden laufen lassen müssen. Overclocker machen das mal eine Nacht durch. Weitere Probleme könnten durch eine mangelhafte Kühlung mit der Zeit entstehen. Schau mal, ob der CPU Lüfter richtig fest sitzt und ob der Kühlkörper nicht zu sehr eingestaubt ist. Staub kann eine wunderbare Dämmschicht sein, die zur Überhitzung und damit Fehlern führt. Gugg mal im Bios, wie Deine Temperaturwerte im PC Health Status Bereich sind. Sollten die nach dem Hochfahren aus dem abgekühlten Bereich zu sehr noch oben gehen (wie stark hängt sicher von der CPU ab) und der Lüfter vorallem sehr schnell an Geschwindigkeit zulegen, dann haste eher ein thermisches Problem.
Was noch sein kann ist, dass Deine Platten zu warm werden. Ich lese da was von 50°C. Das ist für eine Platte schon deftig. Eventuell bringt die deswegen Fehler und Windows langt in eine defekte Auslagerungsdatei rein, was Dir dann die nette Bluescreen bringt. Ebenso tausche mal die SATA Kabel. Auch hier kann eine wackelige Verbindung für Spaß sorgen, wenn man einem Windows plötzlich seine Swap unter dem Hintern wegzieht.
Zu guter letzt: Ist die Kiste übertaktet? Wenn ja, dann mal alles zurücksetzen. Falls nicht kann ein Reset der Standardsettings auch zwischendrin nichts schaden. Manche Autoeinstellungen verhaspeln sich auch mal gerne mit der Zeit, denn Deine elektronischen Bauteile werden mit der Zeit sicher nicht besser. Da kann es durchaus sein, dass sich da mal was verstellt.

cu
Pierre

Danke Pierre,
stimmt ich muss wohl den Memtest über lange Zeit laufen lassen, da war ich wohl zu optimistisch.
Das MB ist nicht übertaktet, hab nen E8400 mit 8GB RAM auf nem ASUS P5Q Pro Turbo.
Hatte kurz vor dem Auftreten der ersten Fehler das BIOS auf AHCI umgestellt, damit ich ne externe eSATA Platte mit Hotplug anschliessen kann und diese auch erkannt wird. Hat aber eh nicht geklappt. Werde mal diese Einstellung mit dem Rücksetzen auf Werkseinstellungen probieren.
Zur Überwachung der Temperaturen und Parameter des MB hab ich immer auf dem KDE Desktop gkrellm laufen, dann seh ich ob alles passt. Da wurde nichts schlimmes angezeigt, also CPU zwischen 48 und 56 Grad C. Die Lüfter laufen alle ok.
Die SATA Kabel werd ich mal umtauschen, auch wollte ich auch die zwei Platten durch eine neue ersetzen, nur hab ich Angst davor, wenn ich die Partitionen von den vermeintlich defekten Platten auf die neue kopiere, dass ich dann die Probleme mit rüber nehm. Komplett neu aufsetzen ist halt bei meiner Vielfalt an OS’n richtig viel Arbeit. Allein schon wegen des Partitionsmappings und den manuellen Anpassungen nach dem Kopieren.

Kennt ihr eigentlich einen verlässlichen Test für die CPU oder MB Chipset?

Nochmals Danke
Wolfi

So, jetzt hab ich das BIOS zurück gesetzt und nur etwas weniger aggresives RAM Timing eingestellt, also die Riegel nicht voll ausgereizt.
Dann einen Tag lang den Speichertest der 11.4er Installations DVD laufen lassen, ohne einen Fehler. Habe alle sATA Kabel an den Steckern fest gesteckt und die Lüfter ausgeblasen.
Dann mit der Rettungsfunktion der DVD meine 64Bit Installation wieder repariert.
Anschliessend lief die Version wieder nach kurzen Tests klaglos, ob alles wieder funktioniert, kann ich nach der kurzen Zeit nicht sagen. Die 11.3 32 Bit Version mit Tumbleweed und neuestem Kernel läuft auch. Windows 7 64Bit habe ich noch nicht weiter getestet.

Meine hoffentlich nicht zu verfrühte Meldung ist, dass ich glaube, dass ich das Problem wieder in den Griff bekommen habe. Es lag wohl an den BIOS Einstellungen und / oder ein paar anderen Kleinigkeiten.

Danke nochmal für euere Tipps!
Wolfi

Ich drücke die Daumen :slight_smile: Bei 8 GB haste eventuell 4 Speicherriegel drin? Eventuell unterschiedliche Hersteller? Da kann dann schonmal die Geschichte wackeliger aufgestellt sein. Eventuell wenn es nochmal krachen sollte mal die Ram Spannung minimal erhöhen (nur schrittweise). Das kann auch helfen, macht den Speicher aber auch wärmer und kann die Lebensdauer des Ram einschränken. Also da nur mit Bedacht damit umgehen :wink: