Ich bin mir nicht sicher, ob das Hardware-Forum hier die richtige Stelle ist. Ich vermute allerdings einen Hardware-Fehler und bräuchte Ideen um die Ursache einzugrenzen.

Ich habe ein Problem mit sporadischen Neustarts meines Computers (Ryzen 9 3900X, MSI B450-A Pro Max Mainboard, 32GB RAM, RX 480 Grafikkarte). Das System startet also einfach neu, natürlich ohne sauber herunterzufahren. Manchmal kommt dies 3 mal täglich vor, manchmal dann auch einige Tage gar nicht.



Bisher konnte ich das Problem nur unter Linux feststellen. Unter Windows ist es noch nicht aufgetreten. Das muss aber nicht viel bedeuten. Der Rechner läuft in der Regel täglich 8-10 Stunden unter Linux, während Windows kaum verwendet wird. Das Problem trat nicht von Anfang an auf sondern erst seit vielleicht 3 Monaten. Ganz ausschließen, dass es an Linux Updates liegt kann ich also nicht. In den Logs habe ich aber nichts auffälliges gefunden.

Meistens erfolgt der Neustart sogar am ehesten wenn gerade nichts gemacht wird, ich also gar nicht vor dem Rechner bin, z.B. in der Mittagspause. Mittlerweile ist es aber auch ein paar mal passiert während ich am Rechner war.



Ich hatte dann die Idee das BIOS upzudaten, auf dem Mainboard war noch eine Version von 2019. Ich hatte dann also die neueste nicht Beta BIOS Version für dieses Mainboard installiert. Mit dem Erfolg, dass Linux eigentlich gar nicht mehr funktioniert. Windows scheint auch mit dem neuen BIOS stabil zu laufen.



Linux bootet und es erfolgt ein Neustart in der Regel kurz bevor der Login Bildschirm kommen sollte. In seltenen fällen kann man sich einloggen, aber so spätestens nach einer Minute erfolgt der Neustart. Ich hatte dann neben dem installierten openSUSE Leap 15.3, andere Live Versionen getestet. Z.B. openSUSE Tumbleweed, Leap 15.2, Rettungssystem, das neueste Ubuntu. Überall der gleich Effekt: Meist Absturz/Neustart beim Booten.



Auffällig war hier allerdings folgende Meldung:


Code:
 
 2021-12-29T07:44:45.758137+01:00 localhost kernel: [    0.554353] smpboot: CPU0: AMD Ryzen 9 3900X 12-Core Processor (family: 0x17, model: 0x71, stepping: 0x0)

 2021-12-29T07:44:45.758138+01:00 localhost kernel: [    0.554405] mce: [Hardware Error]: Machine check events logged

 2021-12-29T07:44:45.758139+01:00 localhost kernel: [    0.554405] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: fea020000004010b

 2021-12-29T07:44:45.758139+01:00 localhost kernel: [    0.554407] mce: [Hardware Error]: TSC 0 ADDR 8141d7b60 MISC d012000400000000 SYND 1bce91d470b08 IPID 700b020350100 

 2021-12-29T07:44:45.758139+01:00 localhost kernel: [    0.554409] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1640763873 SOCKET 0 APIC 0 microcode 8701021

Diese kommen bei jedem booten und unterscheiden sich eigentlich nur bei ADDR/MISC und natürlich TIME.



Diese Meldungen kommen allerdings ziemlich am Anfang des Boot-Vorgangs, lange bevor der Neustart stattfindet.


Kann jemand aus diesen Fehlermeldungen etwas herauslesen? Auf welchen Fehler deuten sie hin?


Hat jemand Ideen für die Fehlersuche? Momentan ist für mich schwer zu sagen ob überhaupt ein Hardware-Fehler vorliegt, denn Windows läuft ja, bzw. wo der Fehler liegt, CPU, RAM, Mainboard, Grafikkarte oder gar Netztteil.


Ausschließen kann ich ein Temperaturproblem und ein Speichertest (memtest86) hat keine Auffälligkeiten gezeigt.