El sistema se congela Debian Testing KDE Plasma (problema con memoria RAM) exDebian

El sistema se congela Debian Testing KDE Plasma (problema con memoria RAM)

17 envíos / 0 nuevos
Último envío
#1 Dom, 14/02/2021 - 12:43
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

El sistema se congela Debian Testing KDE Plasma (problema con memoria RAM)

Estado: 
[SOLUCIONADO]

Buen día, comunidad.

Tengo ya por lo menos un mes intentando dar solución a este problema y hasta ahorita no he podido ni encontrar por lo menos el problema exacto de raiz. Explico la situación:

En enero me dispuse a realizar una instalación nueva del sistema (ya tocaba), en la instalación nueva instalé Debian Testing (siempre he sido usuario de testing sin muchos problemas la verdad) y como escritorio mi querido KDE Plasma, terminando la instalación pues me dispuse a instalar todo el software que habitualmente uso (no es mucho en realidad, creo) y todo bien el primer día.

Cabe mencionar que previo a dicha reinstalación de Debian (desde 0) mi sistema funcionaba, incluso hasta jugaba Dota2 en Steam, también en testing con KDE Plasma.

A los días noto comportamientos extraños en mi sistema, por ejemplo, yo uso 2 navegadores, Firefox para uso personal y Google Chrome para uso laboral, ya que soy docente universitario y nos proporcionan una cuenta en GSuite con algunos "superpoderes" y pues recurro mucho a Google Meet para las clases en línea modalidad videoconferencia con mis alumnos, además, tiene una mayor integración Chrome con el ecosistema de aplicaciones de Google (obviamente). Total, empiezo a notar que algunas pestañas en ambos navegadores se empiezan a crashear, en Firefox la más recurrente era la pestaña donde tenía abierto Facebook, en Chrome las pestañas más recurrentes a crashear eran cuando había una exigencia en audio, video, imágenes, por ejemplo en las videoconferencias en vivo por Google Meet en ocasiones se me crasheaba la pestaña en plena clase, también se me crasheaban pestañas donde tenía cargadas las presentaciones que acompañan mis clases que eran presentaciones elaboradas y cargadas directamente en Canva. Estos crasheos era o son diario y varias veces al día.

Lo anterior, me daba pistas que era algo relacionado con la tarjeta de video.

También KDE se empezaba a congelar completamente, de hecho, el sistema se congelaba, ya que no podía ni acceder a las diversas ttys para ver qué pasaba. Solo me restaba reiniciar el equipo.

Comparto información de mi equipo y sistema:

:~$ inxi
CPU: 8-Core AMD Ryzen 7 2700X (-MT MCP-) speed/min/max: 1838/2200/3700 MHz Kernel: 5.10.0-3-amd64 x86_64 Up: 39m
Mem: 2928.3/64305.2 MiB (4.6%) Storage: 1.35 TiB (0.5% used) Procs: 297 Shell: Bash inxi: 3.3.01

:/home/ricardo/14_03# screenfetch

OS: Debian testing bullseye
Kernel: x86_64 Linux 5.10.0-3-amd64
Uptime: 45m
Packages: 1880
Shell: bash
Resolution: 2560x1440
KDE 5.78.0
WM: KWin
Disk: 7.2G / 463G (2%)
CPU: AMD Ryzen 7 2700X Eight-Core @ 16x 3.7GHz
GPU: Radeon RX 590 Series (POLARIS10, DRM 3.40.0, 5.10.0-3-amd64, LLVM 11.0.1)
RAM: 3103MiB / 64305MiB

Mi gráfica es una Gigabyte Radeon RX 590 y recientemente cambié la memoria RAM de mi equipo, un set Corsair Vengeance RGB Pro 64GB DDR4 3200 C16.

:/home/ricardo/14_03# df -h
S.ficheros Tamaño Usados Disp Uso% Montado en
udev 32G 0 32G 0% /dev
tmpfs 6.3G 1.7M 6.3G 1% /run
/dev/nvme0n1p2 28G 6.1G 21G 24% /
tmpfs 32G 0 32G 0% /dev/shm
tmpfs 5.0M 4.0K 5.0M 1% /run/lock
/dev/nvme0n1p1 495M 9.3M 485M 2% /boot/efi
/dev/nvme0n1p3 404G 1.2G 382G 1% /home
tmpfs 6.3G 92K 6.3G 1% /run/user/1000

Lo que hasta ahorita he hecho es probar el firmware (sin este no tengo video) para mi tarjeta de video, tirando de firmware-amd-graphics primero de testing y luego de sid, los resultados son los mismos, luego tirando de vulkan de sid, mismos resultados. Uso el driver xserver-xorg-video-amdgpu de testing.

:/home/ricardo/14_03# lsmod | grep amd
edac_mce_amd 32768 0
kvm_amd 114688 0
kvm 913408 1 kvm_amd
ccp 106496 1 kvm_amd
amdgpu 6598656 38
gpu_sched 40960 1 amdgpu
ttm 114688 1 amdgpu
drm_kms_helper 274432 1 amdgpu
drm 618496 15 gpu_sched,drm_kms_helper,amdgpu,ttm
i2c_algo_bit 16384 2 igb,amdgpu
gpio_amdpt 20480 0
gpio_generic 16384 1 gpio_amdpt

NO he probado hasta el momento el driver xserver-xorg-video-amdgpu de sid porque según verifiqué es el mismo el que está en testing y en sid. NO he probado el driver propietario AMDGPU PRO, ya que he leído que el rendimiento del driver es inferior al driver que maneja Debian.

Hoy realicé de nuevo una instalación desde 0, limpia y fresca sin instalar prácticamente nada para gradualmente ir instalando e ir descartando, se sigue presentando los cuelges del sistema completo, como dije es una instalación fresca desde 0:
- Debian testing bullseye
- Kernel Linux 5.10.0-3-amd64
- KDE 5.78.0
- firmware-amd-graphics de testing (lo tuve que instalar, si no, no tengo video)
- xserver-xorg-video-amdgpu (se instala por default en el proceso de instalación del sistema, he notado que tambien tengo xserver-xorg-video-ati y xserver-xorg-video-radeon)
- Firefox 85.0.1 (lo instalé directamente de sid)
- Google Chrome (paquete google-chrome-stable versión 88.0.4324.150-1 del repo de Google Chrome)

Observaciones, en los cuelgues el ventilador del procesador (Wraith Prism Cooler) se dispara en su uso, se escucha como aumenta la potencia de giro pues prácticamente al máximo.

Comparto algunos logs donde presenté el cuelgue más reciente, hace un par de horas aproximadamente, el cuelgue fue a las 14:03 horas (algunos logs marcan horarios, pero no encontré algo que me guiara).
Dmesg

Syslog

Xorg

Journalctl

Cualquier ayuda es bienvenida, bueno lo que más de interesa es encontrar el problema de raiz para ya con eso buscar una solución en la red y comunidades Linux.

Quedo atento y, ¡muchas gracias de antemano!

Dom, 14/02/2021 - 14:03
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

Nueva información, se me reinicio el escritorio, uso SDDM, pero el log sddm.log no tenía info, estaba en blanco.

Dom, 14/02/2021 - 16:09
Panko
Imagen de Panko
Desconectado/a
moderador
se unió: 18/02/16

Una vez te vuelva a pasar y toque apagar y encender el equipo, pasanos la salida de los comandos journalctl -b -1 -p err (para ver errores en el arranque tras el cual te ha sucedido) y journalctl -b -p err (para ver errores en el arranque actual).
El comportamiento que comentas suele ser culpa de un consumo excesivo de RAM, pero viendo la que tienes lo descartaría...

  No hay bar que por bien no venga....
Dom, 14/02/2021 - 16:43
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

Hola, gracias por tus comentarios Panko.

Por curiosidad acabo de probar lo que comentas y noto un par de líneas justo en el horario en que se presentó el error, las 14:03 horas, voy a investigar, hacer pruebas y comento.

Comparto:
:/home/ricardo/14_03# journalctl -b -1 -p err
-- Journal begins at Sun 2021-02-14 00:55:03 UTC, ends at Sun 2021-02-14 19:35:22 UTC. --
feb 14 13:40:10 inlimbo kernel: rtw_8822be 0000:07:00.0: firmware: failed to load rtw88/rtw8822b_fw.bin (-2)
feb 14 13:40:10 inlimbo kernel: firmware_class: See for information about missing firmware
feb 14 13:40:10 inlimbo kernel: rtw_8822be 0000:07:00.0: failed to request firmware
feb 14 13:40:10 inlimbo kernel: rtw_8822be 0000:07:00.0: failed to load firmware
feb 14 13:40:10 inlimbo kernel: rtw_8822be 0000:07:00.0: failed to setup chip efuse info
feb 14 13:40:10 inlimbo kernel: rtw_8822be 0000:07:00.0: failed to setup chip information
feb 14 13:40:11 inlimbo pipewire[810]: Failed to receive portal pid: org.freedesktop.DBus.Error.NameHasNoOwner: Could not get PID of name 'org.freedesktop.>
feb 14 13:40:12 inlimbo kernel: bluetooth hci0: firmware: failed to load rtl_bt/rtl8822b_fw.bin (-2)
feb 14 13:40:12 inlimbo kernel: Bluetooth: hci0: RTL: firmware file rtl_bt/rtl8822b_fw.bin not found
feb 14 13:40:17 inlimbo pipewire[963]: Failed to receive portal pid: org.freedesktop.DBus.Error.NameHasNoOwner: Could not get PID of name 'org.freedesktop.>
feb 14 14:03:19 inlimbo kernel: BUG: unable to handle page fault for address: ffff8c2500d54a60
feb 14 14:03:19 inlimbo kernel: #PF: supervisor read access in kernel mode

--------------------

Voy a correr un memtest para ver que sale por ahí.

Dom, 14/02/2021 - 21:40
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

ACTUALIZACIÓN

Pues inicié un test a la memoria RAM con memtest86 en una USB booteable, lamentablemente en la primera hora del test me arrojó 70 errores, interrumpí el proceso, ya que tengo 64gb en RAM y tardaría mucho. He cambiado a los módulos de memoria RAM que tenía anteriormente y voy a probar mañana para confirmar al 100% el problema.

Lun, 15/02/2021 - 04:54
Panko
Imagen de Panko
Desconectado/a
moderador
se unió: 18/02/16

La verdad es que no veo nada relacionado en ese log. Ahi lo unico que te dice es que te falta el firmware del bluetooth, que se encuentra en el paquete firmware-realtek (almenos en la versión de Unstable, no se si estará en la que uses).
Por otro lado, para los errores de memtest, no siempre quieren decir que la ram esté mal, puede ser un error momentaneo, por eso es mejor dejar que pase el test completo y repetirlo para descartar este caso. Si tienes posibilidad, limpia el zócalo de la placa base con un pincel, y los conectores de los modulos de ram con una goma de borrar. Mirate también si tu BIOS tiene algo para configurar el modo de trabajo de la RAM, como pueda ser dual channel.

  No hay bar que por bien no venga....
Mar, 16/02/2021 - 11:32
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

Creo que sí es por ahí el problema, estoy sospechando que fue una configuración del perfil de overclocking en el BIOS no adecuada. Cuándo cambié la RAM pues por default las memorias trabajan a 2133MHZ de frequencia, yo la cambié a 3200MHZ a la cual trabajan, pero lo hice de manera manual, solo cambiando ese parámetro, pero he descubierto que el BIOS detecta los bancos de memoria por medio de DOCP y genera perfiles de configuración óptimos (o lo más cercano) seteando latencias, voltaje y otras opciones.

Ahora, lo que me causa dudas, es que tengo entendido que si hay problemas en la configuración de esos perfiles de overclocking, simplemente el equipo no arranca y posteriormente setea una configuración de fábrica en las memorias para poder arrancar.

De igual forma estoy testeando los 64GB en RAM (4 módulos de 16GB cada uno) con lo que presenté el problema, llevo un módulo apenas y salió limpio. Por el trabajo y la ocupación de la PC solo puedo hacer los testeos por la noche que ya no ocupo la PC.

----------------------
Hasta ahorita el conjunto de memoria RAM que usaba anteriormente, que he vuelto a instalar en el PC, no han presentado ningún problema, pero igual es poco el tiempo el que tengo probando y ha sido poco el estrés al que han sido sometidas, mañana será la prueba de fuego, ya que tengo varias videoconferencias para mis clases y le doy un uso más "rudo" al equipo.

Seguiré informando.

Saludos.

Mar, 16/02/2021 - 19:44
PabliNet
Imagen de PabliNet
Desconectado/a
se unió: 28/10/16


CPU: AMD Ryzen 7 2700X Eight-Core @ 16x 3.7GHz
RAM: 64 GB

¿Y le hacés overclocking a esa bestialidad de máquina? Yo tengo una notebook con un dual core y Mint 20 64-bit sin el overclocking con 2GB de RAM…

Mar, 16/02/2021 - 21:16 (Responder a #8)
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

No es tanto un overclocking tal cual, es que cuando compras memoria RAM por lo regular cuando las instalas se setean en una frecuencia estándar de 2133 MHz, las mías trabajan a una frecuencia de 3200 MHz entonces tengo que ajustarlas a dicha frecuencia para realmente usar el potencial de dicha RAM, no tiene caso comprar una RAM con frecuencia alta si cuando la instalas la dejas en la frecuencia estándar de 2133MHZ.

Mar, 16/02/2021 - 21:53 (Responder a #9)
PabliNet
Imagen de PabliNet
Desconectado/a
se unió: 28/10/16

blaw wrote:

No es tanto un overclocking tal cual, es que cuando compras memoria RAM por lo regular cuando las instalas se setean en una frecuencia estándar de 2133 MHz, las mías trabajan a una frecuencia de 3200 MHz entonces tengo que ajustarlas a dicha frecuencia para realmente usar el potencial de dicha RAM, no tiene caso comprar una RAM con frecuencia alta si cuando la instalas la dejas en la frecuencia estándar de 2133MHZ.


En GNU/Linux que no importa tanto la frecuencia, más teniendo tanta memoria. Incluso no necesitás ni Swap…

Vie, 19/02/2021 - 09:46
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

[ACTUALIZACIÓN]

Ya tengo 4 días con el set de memoria RAM anterior y todo ha funcionado a la perfección.

Ya pude terminar de testear el set de memoria RAM que me daba problemas y los testeos han pasado, han salido limpios. Anteriormente me arrojó 70 errores, pero ya recientemente, con más calma y tiempo todo ha salido bien. Fueron aproximadamente 16 horas de testeo de la RAM, pero lo hice por módulo, son 4 de 16 GB cada uno y he usado memtest86 (la versión gratuita) desde una USB booteable.

Mi siguiente paso es volver a utilizar dicho set de memoria y configurarlo muy bien en el BIOS y esperar por su comportamiento en mi sistema que hasta ahorita está estable.

Seguiré informando.

Vie, 19/02/2021 - 13:50
PabliNet
Imagen de PabliNet
Desconectado/a
se unió: 28/10/16

¿Las cuatro memorias son iguales?

Vie, 19/02/2021 - 18:09
Panko
Imagen de Panko
Desconectado/a
moderador
se unió: 18/02/16

Se puede instalar memtest en debian y tendrás una opción en el grub para el mismo.

  No hay bar que por bien no venga....
Vie, 19/02/2021 - 19:15 (Responder a #13)
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

Panko wrote:

Se puede instalar memtest en debian y tendrás una opción en el grub para el mismo.

Gracias, tengo memtest86+ de los repos, pero me resultó un poco confuso, me falta explorarlo a detalle. Cuando arrancó memtest86+ inició el test en automático y no encontré de momento formas de configurar los tipos y cantidades de testeos.

Vie, 19/02/2021 - 19:17 (Responder a #14)
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

PabliNet wrote:

¿Las cuatro memorias son iguales?

Confirmo, un set Corsair Vengeance RGB Pro 64GB (4 x 16 GB) DDR4 3200 C16.

Saludos.

Sáb, 20/02/2021 - 01:51 (Responder a #15)
PabliNet
Imagen de PabliNet
Desconectado/a
se unió: 28/10/16

blaw wrote:

PabliNet wrote:

¿Las cuatro memorias son iguales?

Confirmo, un set Corsair Vengeance RGB Pro 64GB (4 x 16 GB) DDR4 3200 C16.

Saludos.


Te pregunto porque personas que van agregando memorias RAM y le ponen de distintas cantidades o frecuencias (a mí nunca me funcionó). Si bien no lo recomendable, se sugiere en ese caso poner siempre de menor a mayor…

Lun, 22/02/2021 - 18:43
blaw
Imagen de blaw
Desconectado/a
colaborador
se unió: 18/02/16

Buenas tardes, ya tengo 3 días con el set de memoria RAM donde presenté el problema, hasta ahorita va perfecto ya mi equipo.

Por lo anterior doy por solucionado/terminado el tema.

El problema se debió a una configuración de la memoria RAM no adecuada en el BIOS, solucionando el problema mediante la carga automática del perfil que admite la MoBo y las memorias RAM mediante DOCP (en el BIOS).

Gracias por sus comentarios.