Linux 6.9 aggiunge il supporto per il pensionamento della problematica riga AMD MI300 di memoria HBM

Linux 6.9 aggiunge il supporto per il pensionamento della problematica riga AMD MI300 di memoria HBM

Per il prossimo ciclo del kernel Linux 6.9, ci sono una serie di aggiunte AMD Instinct MI300 ai driver EDAC (Error Detection and Correction) e ai driver RAS (Reliability, Availability, Serviceability).

Questo lavoro include l'adattamento del driver AMD EDAC per utilizzare la libreria di traduzione degli indirizzi AMD, Supporto MI300 per quella libreria ATL, Altri componenti aggiuntivi RAS MI300Poi c'è una nuova funzionalità per i dispositivi MI300 Sostegno alla classe di pensionamento.

Chip AMD MI300A

Il supporto ritirato per la riga MI300 all'interno del driver amd64_edac è riepilogato in questa patch per gestire la memoria HBM (High Bandwidth Memory) difettosa/errata sull'MI300:

“I sistemi AMD MI300 dispongono di memoria a larghezza di banda elevata. Questa memoria ha un tasso di errore relativamente più elevato e non può essere sostituita individualmente come i DIMM.

Gli errori ECC non correggibili vengono segnalati individualmente come errori ritardati utilizzando l'interruzione dell'errore differito AMD. Ogni errore segnalato corrisponde ad un singolo errore hardware.

Gli errori ECC correggibili vengono segnalati in batch fino alla soglia MCA. Gli utenti possono configurare il limite di soglia in base alla loro policy. Ogni errore correggibile segnalato rappresenta un evento del massimo raggiunto.

Le attuali indicazioni dei progettisti AMD prevedono che la memoria interessata da errori ECC all'interno di una riga DRAM debba essere ritirata. Dovrebbe essere intrapresa un'azione per ogni errore ECC segnalato.

Aggiungi una funzione di supporto per applicare questa policy ai sistemi MI300.

Questa e funzioni simili potrebbero anche essere gestite meglio in un modulo generico separato. Nel frattempo, fallo in AMD64 EDAC per semplicità.”

Un commento sul codice all'interno di questa patch di supporto per il ritiro della riga conferma l'intenzione di ritirare tutta la memoria all'interno di questa riga DRAM quando si verificano errori:

“Quando si verifica un errore ECC DRAM sui sistemi MI300, si consiglia di ritirare tutta la memoria in quella riga DRAM. Questo vale per la memoria che contiene un banco DRAM.”

L'ultimo lavoro AMD MI300 può essere trovato in Linux 6.9 ora che queste patch fanno parte del ramo Git “edac-for-next” di RAS.git.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *