Sporadische Neustarts / Neustarts beim Booten

Ich bin mir nicht sicher, ob das Hardware-Forum hier die richtige Stelle ist. Ich vermute allerdings einen Hardware-Fehler und bräuchte Ideen um die Ursache einzugrenzen.

Ich habe ein Problem mit sporadischen Neustarts meines Computers (Ryzen 9 3900X, MSI B450-A Pro Max Mainboard, 32GB RAM, RX 480 Grafikkarte). Das System startet also einfach neu, natürlich ohne sauber herunterzufahren. Manchmal kommt dies 3 mal täglich vor, manchmal dann auch einige Tage gar nicht.

Bisher konnte ich das Problem nur unter Linux feststellen. Unter Windows ist es noch nicht aufgetreten. Das muss aber nicht viel bedeuten. Der Rechner läuft in der Regel täglich 8-10 Stunden unter Linux, während Windows kaum verwendet wird. Das Problem trat nicht von Anfang an auf sondern erst seit vielleicht 3 Monaten. Ganz ausschließen, dass es an Linux Updates liegt kann ich also nicht. In den Logs habe ich aber nichts auffälliges gefunden.

Meistens erfolgt der Neustart sogar am ehesten wenn gerade nichts gemacht wird, ich also gar nicht vor dem Rechner bin, z.B. in der Mittagspause. Mittlerweile ist es aber auch ein paar mal passiert während ich am Rechner war.

Ich hatte dann die Idee das BIOS upzudaten, auf dem Mainboard war noch eine Version von 2019. Ich hatte dann also die neueste nicht Beta BIOS Version für dieses Mainboard installiert. Mit dem Erfolg, dass Linux eigentlich gar nicht mehr funktioniert. Windows scheint auch mit dem neuen BIOS stabil zu laufen.

Linux bootet und es erfolgt ein Neustart in der Regel kurz bevor der Login Bildschirm kommen sollte. In seltenen fällen kann man sich einloggen, aber so spätestens nach einer Minute erfolgt der Neustart. Ich hatte dann neben dem installierten openSUSE Leap 15.3, andere Live Versionen getestet. Z.B. openSUSE Tumbleweed, Leap 15.2, Rettungssystem, das neueste Ubuntu. Überall der gleich Effekt: Meist Absturz/Neustart beim Booten.

Auffällig war hier allerdings folgende Meldung:


 
 2021-12-29T07:44:45.758137+01:00 localhost kernel:     0.554353] smpboot: CPU0: AMD Ryzen 9 3900X 12-Core Processor (family: 0x17, model: 0x71, stepping: 0x0)

 2021-12-29T07:44:45.758138+01:00 localhost kernel:     0.554405] mce: [Hardware Error]: Machine check events logged

 2021-12-29T07:44:45.758139+01:00 localhost kernel:     0.554405] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: fea020000004010b

 2021-12-29T07:44:45.758139+01:00 localhost kernel:     0.554407] mce: [Hardware Error]: TSC 0 ADDR 8141d7b60 MISC d012000400000000 SYND 1bce91d470b08 IPID 700b020350100 

 2021-12-29T07:44:45.758139+01:00 localhost kernel:     0.554409] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1640763873 SOCKET 0 APIC 0 microcode 8701021

 

Diese kommen bei jedem booten und unterscheiden sich eigentlich nur bei ADDR/MISC und natürlich TIME.

Diese Meldungen kommen allerdings ziemlich am Anfang des Boot-Vorgangs, lange bevor der Neustart stattfindet.

Kann jemand aus diesen Fehlermeldungen etwas herauslesen? Auf welchen Fehler deuten sie hin?

Hat jemand Ideen für die Fehlersuche? Momentan ist für mich schwer zu sagen ob überhaupt ein Hardware-Fehler vorliegt, denn Windows läuft ja, bzw. wo der Fehler liegt, CPU, RAM, Mainboard, Grafikkarte oder gar Netztteil.

Ausschließen kann ich ein Temperaturproblem und ein Speichertest (memtest86) hat keine Auffälligkeiten gezeigt.

  • Overclocking?
  • Vielleicht, überlegen ob, eine Mutterplatine mit X570 Chipsatz besser wird.

Nein kein Overclocking. Der Rechner lief ja durchaus über 1 1/2 Jahre problemlos. Auch bei, dank Homeoffie, mehr als 8 Stunden Betrieb täglich. Die sporadischen Neustarts kommen erst seit neuestem.

Was ja aber eigentlich gar nicht sein kann, dass nach aktualisiertem BIOS Linux quasi stabil beim Booten abstürzt, Windows aber scheinbar problemlos läuft. Daher wäre es interessant zu wissen, was der MCE Fehler genau aussagt? Auf welchen Fehler deutet er hin?

Prinzipiell denke ich nicht, dass der Chipsatz das Problem ist. Wie gesagt alles lief ja gut. Wüsste ich dass das Mainboard defekt ist, würde ich natürlich einen aktuellen Chipsatz wählen.

Ausschließen sollte man gar nichts. Extra Spaß: https://forums.opensuse.org/showthread.php/561241-Segfault-Trouble-Shooting

Dieser Benutzer hatte zwei Probleme:

  1. Über 5 Jahre hinweg hatte sich auf der Hauptplatine eine ziemlich breite Leiterbahn allmählich verflüchtigt.
  2. Aus der häuslichen Stromversorgung gab es hochfrequente Störungen, die nicht nur den Computer, sondern auch die Peripherie wie Stereoanlage und Laserdrucker plagten.

Die Abhilfe war einfach:

  1. Neue Hauptplatine
  2. Supraline Steckerleiste

Seither läuft der Computer normal wie jeder andere auch. Um “Linux Updates” als Ursache auszuschließen empfiehlt sich ein Live System.
Apropos, sein kann alles: Customer Built a New PC That Won’t Work! An eye-opening diagnostic!

Mittlerweile ist klar was das Problem war. Der Prozessor war defekt und wurde von AMD auf Garantie problemlos getauscht.

Ich hatte vorher das Mainboard getauscht, was aber keine Besserung brachte. Da ich den Speicher intensiv getestet hatte, war dann ziemlich klar, dass es wirklich an der CPU liegt. Immerhin habe ich nach der ganzen Aktion jetzt auch ein etwas besseres Mainboard. lol!

Bei den Prozessoren hatte ich den bisher einzigen Garantiefall im Februar 1995: http://davefaq.com/Opinions/Stupid/Pentium.html Ich hatte den PC bei einem Arbeitskollegen gekauft, der von Intel erreichte, dass ich den fehlerhaften Prozessor nicht einschicken musste. Als der Ersatz eingetroffen war erledigten wir den Tausch auf dem Heimweg von der Arbeit.