PDA

View Full Version : LEAP 15.4 ¿¿errores en discos nvm?



soyasi
16-Aug-2022, 17:17
Hoy revisando logs, me he encontrado con esto


journalctl | grep nvm
ago 16 11:12:05 tuf kernel: nvme nvme0: pci function 0000:03:00.0
ago 16 11:12:05 tuf kernel: nvme0: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2) DNR
ago 16 11:12:05 tuf kernel: nvme nvme0: 32/0/0 default/read/poll queues
ago 16 11:12:05 tuf kernel: nvme0n1: p1 p2 p3 p4
ago 16 10:12:08 tuf lvm[777]: Udev database has incomplete information about device /dev/nvme0n1.
ago 16 10:12:08 tuf lvm[777]: /dev/nvme0n1: Failed to get external handle [udev].
ago 16 10:12:08 tuf lvm[777]: Udev database has incomplete information about device /dev/nvme0n1p1.
ago 16 10:12:08 tuf lvm[777]: /dev/nvme0n1p1: Failed to get external handle [udev].
ago 16 10:12:08 tuf lvm[777]: Udev database has incomplete information about device /dev/nvme0n1p2.
ago 16 10:12:08 tuf lvm[777]: /dev/nvme0n1p2: Failed to get external handle [udev].
ago 16 10:12:08 tuf lvm[777]: Udev database has incomplete information about device /dev/nvme0n1p3.
ago 16 10:12:08 tuf lvm[777]: /dev/nvme0n1p3: Failed to get external handle [udev].
ago 16 10:12:08 tuf lvm[777]: Udev database has incomplete information about device /dev/nvme0n1p4.
ago 16 10:12:08 tuf lvm[777]: /dev/nvme0n1p4: Failed to get external handle [udev].
ago 16 10:12:28 tuf smartd[1924]: Device: /dev/nvme0, opened
ago 16 10:12:28 tuf smartd[1924]: Device: /dev/nvme0, WDS100T1X0E-00AFY0, S/N:2116B5444506, FW:613200WD, 1.00 TB
ago 16 10:12:28 tuf smartd[1924]: Device: /dev/nvme0, is SMART capable. Adding to "monitor" list.
ago 16 10:12:28 tuf smartd[1924]: Device: /dev/nvme0, state read from /var/lib/smartmontools/smartd.WDS100T1X0E_00AFY0-2116B5444506.nvme.state
ago 16 10:12:29 tuf smartd[1924]: Device: /dev/nvme0, number of Error Log entries increased from 4993 to 5017
ago 16 10:12:29 tuf smartd[1924]: Device: /dev/nvme0, state written to /var/lib/smartmontools/smartd.WDS100T1X0E_00AFY0-2116B5444506.nvme.state


me ha preocupado en concreto estas dos entradas:


nvme0: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2) DNR
Device: /dev/nvme0, number of Error Log entries increased from 4993 to 5017

Creo que ambas estan relacionadas, por lo que he leido en las listas de kernel.org (https://lore.kernel.org/lkml/20220610120554.ry7w37jbf3g6w3p3@quentin/T/)

el nvmeo en este caso, es donde tengo windows 11 instalado.

he estado revisando los logs de linux, ya que cada vez que entro en windows, me hace un chequeo del disco nvm0

Lo que no tengo claro, es si realmente está degradando/afectando al disco.

Como mi ingles es de traductor, haber si hay alguno que se entere mas que yo y me da más luz al tema.

estoy con el kernel 5.14.21-150400.24.18-default.


Gracias!!

soyasi
16-Aug-2022, 17:30
dejo la misma entrada que he visto en el post de kernel.org, pero no se interpretarla.


nvme id-ctrl /dev/nvme0
NVME Identify Controller:
vid : 0x15b7
ssvid : 0x15b7
sn : 2116B5444506
mn : WDS100T1X0E-00AFY0
fr : 613200WD
rab : 4
ieee : 001b44
cmic : 0
mdts : 7
cntlid : 0x2020
ver : 0x10400
rtd3r : 0x7a120
rtd3e : 0xf4240
oaes : 0x200
ctratt : 0x2
rrls : 0
cntrltype : 1
fguid :
crdt1 : 0
crdt2 : 0
crdt3 : 0
nvmsr : 0
vwci : 0
mec : 0
oacs : 0x17
acl : 4
aerl : 7
frmw : 0x14
lpa : 0x1e
elpe : 255
npss : 4
avscc : 0x1
apsta : 0x1
wctemp : 357
cctemp : 361
mtfa : 50
hmpre : 0
hmmin : 0
tnvmcap : 1000204886016
unvmcap : 0
rpmbs : 0
edstt : 102
dsto : 1
fwug : 1
kas : 0
hctma : 0x1
mntmt : 273
mxtmt : 357
sanicap : 0x60000002
hmminds : 0
hmmaxd : 0
nsetidmax : 0
endgidmax : 0
anatt : 0
anacap : 0
anagrpmax : 0
nanagrpid : 0
pels : 1
domainid : 0
megcap : 0
sqes : 0x66
cqes : 0x44
maxcmd : 0
nn : 1
oncs : 0x5f
fuses : 0
fna : 0
vwc : 0x7
awun : 0
awupf : 0
icsvscc : 1
nwpc : 0
acwu : 0
ocfs : 0
sgls : 0
mnan : 0
maxdna : 0
maxcna : 0
subnqn : nqn.2018-01.com.wdc:nguid:E8238FA6BF53-0001-001B444A46F1EABA
ioccsz : 0
iorcsz : 0
icdoff : 0
fcatt : 0
msdbd : 0
ofcs : 0
ps 0 : mp:9.00W operational enlat:0 exlat:0 rrt:0 rrl:0
rwt:0 rwl:0 idle_power:0.6300W active_power:9.00W
ps 1 : mp:4.10W operational enlat:0 exlat:0 rrt:0 rrl:0
rwt:0 rwl:0 idle_power:0.6300W active_power:4.10W
ps 2 : mp:3.50W operational enlat:0 exlat:0 rrt:0 rrl:0
rwt:0 rwl:0 idle_power:0.6300W active_power:3.50W
ps 3 : mp:0.0250W non-operational enlat:5000 exlat:10000 rrt:3 rrl:3
rwt:3 rwl:3 idle_power:0.0250W active_power:-
ps 4 : mp:0.0050W non-operational enlat:5000 exlat:45000 rrt:4 rrl:4
rwt:4 rwl:4 idle_power:0.0050W active_power:-

krovikan
17-Aug-2022, 02:12
Le dicen al principio que es algo inofensivo, de lo que no hay que preocuparse. Pero que están en ello para suprimir esos mensajes.

Luego ya todo da vueltas entre el Samsung X5 y el Samsung 970 EVO Plus.

Sólo lei los 5 primeros mensajes, pero parece que el resto siguen dándole vueltas a los Samsung.

Siento no ayudar más, demasiados mensajes en inglés.


Saludos

mikrios
17-Aug-2022, 08:49
Hola:

Creo que se debería filtrar el Nº de serie, pero lo hecho, hecho está .

No he probado las herramientas que vienen con el comando de nvme , hay una para wdc (para la ayuda escribir nvme) .

A mi me aparecen errores .
Son todos de 1 Tera . (excepto raid0 que es de 2Teras) .




mikrios:~ # journalctl |grep "nvm"
Aug 17 16:13:00 mikrios kernel: nvme nvme0: pci function 0000:02:00.0
Aug 17 16:13:00 mikrios kernel: nvme nvme1: pci function 0000:47:00.0
Aug 17 16:13:00 mikrios kernel: nvme nvme2: pci function 0000:a1:00.0
Aug 17 16:13:00 mikrios kernel: nvme nvme3: pci function 0000:a2:00.0
Aug 17 16:13:00 mikrios kernel: nvme nvme4: pci function 0000:a3:00.0
Aug 17 16:13:00 mikrios kernel: nvme nvme5: pci function 0000:a4:00.0
Aug 17 16:13:00 mikrios kernel: nvme nvme6: pci function 0000:e1:00.0
Aug 17 16:13:00 mikrios kernel: nvme nvme7: pci function 0000:e2:00.0
Aug 17 16:13:00 mikrios kernel: nvme6: Get Log Page(0x2), Invalid Namespace or Format (sct 0x0 / sc 0xb)
Aug 17 16:13:00 mikrios kernel: nvme6: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2)
Aug 17 16:13:00 mikrios kernel: nvme4: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2) DNR
Aug 17 16:13:00 mikrios kernel: nvme7: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2) DNR
Aug 17 16:13:00 mikrios kernel: nvme nvme6: 3/0/0 default/read/poll queues
Aug 17 16:13:00 mikrios kernel: nvme6n1: p1 p2
Aug 17 16:13:00 mikrios kernel: nvme nvme4: 24/0/0 default/read/poll queues
Aug 17 16:13:00 mikrios kernel: nvme nvme7: 24/0/0 default/read/poll queues
Aug 17 16:13:00 mikrios kernel: nvme1: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2) DNR
Aug 17 16:13:00 mikrios kernel: nvme4n1: p1
Aug 17 16:13:00 mikrios kernel: nvme7n1: p1
Aug 17 16:13:00 mikrios kernel: nvme nvme1: 24/0/0 default/read/poll queues
Aug 17 16:13:00 mikrios kernel: nvme1n1: p1
Aug 17 16:13:00 mikrios kernel: nvme nvme0: 24/0/0 default/read/poll queues
Aug 17 16:13:00 mikrios kernel: nvme nvme3: 24/0/0 default/read/poll queues
Aug 17 16:13:00 mikrios kernel: nvme nvme2: 24/0/0 default/read/poll queues
Aug 17 16:13:00 mikrios kernel: nvme nvme5: 24/0/0 default/read/poll queues
Aug 17 16:13:00 mikrios kernel: BTRFS: device fsid 901087e2-77f2-4684-a096-a2fcfe4d8c5b devid 1 transid 8639 /dev/nvme6n1p2 scanned by systemd-udevd (533)
Aug 17 16:13:00 mikrios kernel: nvme0n1: p1
Aug 17 16:13:00 mikrios kernel: nvme5n1: p1
Aug 17 16:13:00 mikrios kernel: nvme2n1: p1
Aug 17 16:13:00 mikrios kernel: nvme3n1: p1
Aug 17 16:13:00 mikrios kernel: BTRFS: device label nvme6 devid 1 transid 114 /dev/nvme7n1p1 scanned by systemd-udevd (541)
Aug 17 16:13:00 mikrios kernel: BTRFS: device label nvme4 devid 1 transid 113 /dev/nvme4n1p1 scanned by systemd-udevd (543)
Aug 17 16:13:00 mikrios kernel: BTRFS: device label nvme1 devid 1 transid 548 /dev/nvme1n1p1 scanned by systemd-udevd (516)
Aug 17 16:13:00 mikrios kernel: BTRFS: device label nvme5 devid 1 transid 114 /dev/nvme5n1p1 scanned by systemd-udevd (515)
Aug 17 16:13:00 mikrios kernel: BTRFS: device label nvme3 devid 1 transid 490 /dev/nvme3n1p1 scanned by systemd-udevd (481)
Aug 17 16:13:00 mikrios kernel: BTRFS: device label nvme2 devid 1 transid 579 /dev/nvme2n1p1 scanned by systemd-udevd (534)
Aug 17 16:13:00 mikrios kernel: BTRFS: device label nvme0 devid 1 transid 559 /dev/nvme0n1p1 scanned by systemd-udevd (539)
Aug 17 16:13:01 mikrios kernel: BTRFS info (device nvme6n1p2): flagging fs with big metadata feature
Aug 17 16:13:01 mikrios kernel: BTRFS info (device nvme6n1p2): disk space caching is enabled
Aug 17 16:13:01 mikrios kernel: BTRFS info (device nvme6n1p2): has skinny extents
Aug 17 16:13:01 mikrios kernel: BTRFS info (device nvme6n1p2): enabling ssd optimizations
Aug 17 16:13:02 mikrios kernel: BTRFS info (device nvme6n1p2): disk space caching is enabled
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme6n1.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme6n1: Failed to get external handle [udev].
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme6n1p1.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme6n1p1: Failed to get external handle [udev].
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme6n1p2.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme6n1p2: Failed to get external handle [udev].
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme4n1.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme4n1: Failed to get external handle [udev].
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme7n1.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme7n1: Failed to get external handle [udev].
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme4n1p1.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme4n1p1: Failed to get external handle [udev].
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme7n1p1.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme7n1p1: Failed to get external handle [udev].
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme1n1.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme1n1: Failed to get external handle [udev].
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme1n1p1.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme1n1p1: Failed to get external handle [udev].
Aug 17 16:13:02 mikrios lvm[787]: Udev database has incomplete information about device /dev/nvme0n1.
Aug 17 16:13:02 mikrios lvm[787]: /dev/nvme0n1: Failed to get external handle [udev].



Se recorta el log . Ver completo en :https://paste.opensuse.org/71868918



mikrios:~ # uname -a
Linux mikrios 5.14.21-150400.24.18-default #1 SMP PREEMPT_DYNAMIC Thu Aug 4 14:17:48 UTC 2022 (e9f7bfc) x86_64 x86_64 x86_64 GNU/Linux



Me supongo que blockdev --getalignoff /dev/ , no funcione con nvme, y se tenga que usar el comando apropiado, para ver si están alineadas las particiones .


mikrios:~ # smartctl --all /dev/nvme1
smartctl 7.2 2021-09-14 r5237 [x86_64-linux-5.14.21-150400.24.18-default] (SUSE RPM)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number: WDS100T3X0C-00SJG0
Serial Number: 201947449101
Firmware Version: 111110WD
PCI Vendor/Subsystem ID: 0x15b7
IEEE OUI Identifier: 0x001b44
Total NVM Capacity: 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 8215
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 001b44 4a44fed5b7
Local Time is: Wed Aug 17 16:33:36 2022 WEST
Firmware Updates (0x14): 2 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x0e): Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size: 128 Pages
Warning Comp. Temp. Threshold: 84 Celsius
Critical Comp. Temp. Threshold: 88 Celsius
Namespace 1 Features (0x02): NA_Fields

Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 6.00W - - 0 0 0 0 0 0
1 + 3.50W - - 1 1 1 1 0 0
2 + 3.00W - - 2 2 2 2 0 0
3 - 0.1000W - - 3 3 3 3 4000 10000
4 - 0.0025W - - 4 4 4 4 4000 40000

Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 2
1 - 4096 0 1

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 44 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 2,033,251 [1.04 TB]
Data Units Written: 2,090,305 [1.07 TB]
Host Read Commands: 2,950,233
Host Write Commands: 3,497,940
Controller Busy Time: 13
Power Cycles: 472
Power On Hours: 865
Unsafe Shutdowns: 167
Media and Data Integrity Errors: 0
Error Information Log Entries: 1
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0

Error Information (NVMe Log 0x01, 16 of 256 entries)
No Errors Logged





Idem, todas ok con smartctl .

Son muchas , para suponer que estén mal, estoy de acuerdo, en lo que comenta @krovican .

Saludos .

P.D. Tengo otras marcas, toshiba, samnsung, etc , me supongo que daría algo por el estilo .

mikrios
17-Aug-2022, 12:32
Hola:

Probado en la 15.3, hay log pero 0 fallos .
" " 15.4 los ya indicados en anteriores post.
" " en TW y da uno , pero creo que es por alguna otra cosa, sobre los de 15.4 no figura ninguno, pero si un log grande.

Dejo pequeña muestra del de TW :



Aug 17 20:59:57 mikrios kernel: nvme6n1: p1 p2
Aug 17 20:59:57 mikrios kernel: nvme nvme4: 24/0/0 default/read/poll queues
Aug 17 20:59:57 mikrios kernel: nvme nvme7: 24/0/0 default/read/poll queues
Aug 17 20:59:57 mikrios kernel: nvme nvme1: 24/0/0 default/read/poll queues

Aug 17 20:00:06 mikrios systemd-udevd[731]: nvme6c6n1: Failed to get device name: No such file or directory


Aug 17 20:00:13 mikrios smartd[1471]: Device: /dev/nvme0, opened



La mayor parte de la información es de informes de estado , de identificación de los dispositivos, etc , fallo solo el indicado .

Saludos

mikrios
17-Aug-2022, 13:02
Hola:

Perdón se me olvido comentar, que TW hubo actualización del kernel, por lo que los logs posteriores al cambio son otros :Se repite mucho, por lo que he cortado el log, para que no sea muy largo .




Aug 17 18:33:32 X299-D-II systemd[1]: Auto-connect to subsystems on FC-NVME devices found during boot was skipped because of a failed condition check (ConditionPathExists=/sys/class/fc/fc_ud
ev_device/nvme_discovery).
Aug 17 19:18:03 X299-D-II systemd[1]: Auto-connect to subsystems on FC-NVME devices found during boot was skipped because of a failed condition check (ConditionPathExists=/sys/class/fc/fc_ud
ev_device/nvme_discovery).
Aug 17 21:09:00 X299-D-II systemd[1]: Auto-connect to subsystems on FC-NVME devices found during boot was skipped because of a failed condition check (ConditionPathExists=/sys/class/fc/fc_ud
ev_device/nvme_discovery).
Aug 17 20:48:34 X299-D-II systemd[1]: Auto-connect to subsystems on FC-NVME devices found during boot was skipped because of a failed condition check (ConditionPathExists=/sys/class/fc/fc_ud
ev_device/nvme_discovery).


Este error se me paso y corresponde a la 15.3 (el log era largo y no lo vi, y para colmo el archivo de texto tenía el mismo nombre en los dos Home , disculpas . El log del anterior post, es de la 15.3.

Aug 17 20:00:06 mikrios systemd-udevd[731]: nvme6c6n1: Failed to get device name: No such file or directory

TW kernel :
X299-D-II:~ # uname -a
Linux X299-D-II 5.19.1-1-default #1 SMP PREEMPT_DYNAMIC Thu Aug 11 11:32:52 UTC 2022 (a5bf6c0) x86_64 x86_64 x86_64 GNU/Linux


X299-D-II:~ # uname -r
5.19.1-1-default



Saludos

PD. en 15.4 no hay ningún error pero me refiero del smart

mikrios
17-Aug-2022, 13:56
Hola:

Este tema me pico un poco la curiosidad (tengo una P.B. con 9 nvme) y apenas se de ellos y sus posibles comandos .

Mirando en yast soft. vi que tenia instalado nvme-cli , intente ejecutarlo desde consola y nada , busque por : compgen -c |grep "nvme-cli"

Y tampoco.

Mire por la web y es que esa utilidades se ejecutan por nvme (ejemplo nvme help) .

Bien solo comentar del tuto que hay por la web este comando :


HP-OMEN:~ # nvme smart-log /dev/nvme0
Smart Log for NVME device:nvme0 namespace-id:ffffffff
critical_warning : 0
temperature : 40 C
available_spare : 100%
available_spare_threshold : 10%
percentage_used : 0%
endurance group critical warning summary: 0
data_units_read : 10233250
data_units_written : 6398921
host_read_commands : 63815929
host_write_commands : 48282731
controller_busy_time : 147
power_cycles : 1677
power_on_hours : 10819
unsafe_shutdowns : 467
media_errors : 0
num_err_log_entries : 0
Warning Temperature Time : 0
Critical Composite Temperature Time : 0
Thermal Management T1 Trans Count : 0
Thermal Management T2 Trans Count : 0
Thermal Management T1 Total Time : 0
Thermal Management T2 Total Time : 0



Y este en exclusiva, por si sospechais que teneis algún problema.
Como hay limitación de tiempo, para editar, lo añado , por considerarlo importante.

Gracias y un saludo cordial .

DiabloRojo
18-Aug-2022, 00:16
Hola soyasi.

Coincido con krovikan.

Como tienes Windows instalado, supongo que será la versión 10 u 11, da igual, ambas versiones son eficientes y bien configurados con discos NVM. Te sugiero que instales CrystalDiskInfo (https://crystalmark.info/en/software/crystaldiskinfo/) en Windows y chequees la salud de tus discos duros.

Pega un pantallazo de lo que dice Crystal sobe ese disco NVM.

Saludos cordiales.

soyasi
18-Aug-2022, 07:40
https://i.ibb.co/Fqgz9kZ/disk-info.png

hacia años que no usaba esos programas en windows, pero evidentemente, el programa demuestra que el disco no falla.

No me quedo satisfecho, porque me ha picado, igual que a Mikrios la curiosidad del motivo que arroja el kernel esos avisos, pero ya descubriré algo mas.

Gracias a todos por los comentarios.


me ha dado por mirar las horas que han estado funcionando los discos y tengo 2 identicos con cero fallos y que me arrojan:

9 Power_On_Hours 0x0032 020 020 000 Old_age Always - 58662 --> 6,696575342465753 años
9 Power_On_Hours 0x0032 020 020 000 Old_age Always - 58669 --> 6,697374429223744 años

les restan otras 22000 horras minimo ;)