Questo documento sull'intelligenza artificiale dalla Cina presenta SegMamba: un modello Mamba di segmentazione di immagini mediche 3D progettato per catturare in modo efficace le dipendenze a lungo raggio all'interno di funzionalità su vasta scala su ogni scala.

Questo documento sull'intelligenza artificiale dalla Cina presenta SegMamba: un modello Mamba di segmentazione di immagini mediche 3D progettato per catturare in modo efficace le dipendenze a lungo raggio all'interno di funzionalità su vasta scala su ogni scala.
https://arxiv.org/abs/2401.13560v2

Migliorare la portata futura dei modelli è fondamentale per un’efficace segmentazione delle immagini mediche 3D. Le tradizionali reti neurali convoluzionali (CNN) spesso hanno difficoltà a catturare informazioni globali da immagini mediche 3D ad alta risoluzione. Una soluzione proposta consiste nell'utilizzare una convoluzione profonda con dimensioni del kernel maggiori per acquisire una gamma più ampia di funzionalità. Tuttavia, i metodi basati sulla CNN hanno bisogno di aiuto per catturare le relazioni tra pixel distanti.

Recentemente, è stata condotta un'ampia esplorazione delle architetture dei trasformatori, sfruttando meccanismi di auto-attenzione per estrarre informazioni globali per la segmentazione di immagini mediche 3D come TransBTS, che combina 3D-CNN con trasformatori per catturare sia le caratteristiche spaziali locali che le dipendenze globali in caratteristiche di alto livello. ; UNETR, che utilizza il Vision Transducer (ViT) come codificatore per apprendere informazioni contestuali. Tuttavia, i metodi basati su trasformatori spesso devono affrontare sfide computazionali a causa dell’elevata risoluzione delle immagini mediche 3D, con conseguenti prestazioni a bassa velocità.

Per affrontare i problemi di modellazione a lunga sequenza, i ricercatori hanno precedentemente introdotto Mamba, un modello dello spazio degli stati (SSM), per modellare in modo efficiente le dipendenze a lungo termine attraverso un algoritmo sensibile all’hardware e un meccanismo di selezione. Vari studi hanno applicato Mamba nelle attività di visione artificiale (CV). Ad esempio, U-Mamba integra il livello Mamba per migliorare la segmentazione delle immagini mediche.

Nel frattempo, Vision Mamba propone il blocco Vim, che include SSM bidirezionale per modellare il contesto visivo globale e l'incorporamento della posizione per la comprensione della posizione. VMamba offre anche un modulo CSM per colmare il divario tra la scansione a matrice 1D e la normale scansione 2D. Tuttavia, i blocchi trasformatori tradizionali devono affrontare sfide nella gestione di elementi su larga scala, che richiedono correlazioni di modellazione all'interno di elementi ad alta dimensione per migliorare la comprensione visiva.

READ  Netflix lancerà la funzione Shuffle Play a livello globale nei prossimi mesi

Motivati ​​da ciò, i ricercatori dell’Accademia di Intelligenza Artificiale di Pechino hanno introdotto SegMamba, una nuova architettura che combina la struttura a forma di U con Mamba per modellare caratteristiche globali su vasta scala a diversi livelli. Usano Mamba specificamente per la segmentazione delle immagini mediche 3D. SegMamba mostra capacità impressionanti nella modellazione delle dipendenze a lungo termine all'interno dei dati volumetrici, pur mantenendo un'eccezionale efficienza di inferenza rispetto alla tradizionale CNN e ai metodi basati su trasformatori.

I ricercatori hanno condotto esperimenti approfonditi sul set di dati BraTS2023 per confermare l'efficacia e l'efficienza di SegMamba nelle attività di segmentazione delle immagini mediche 3D. A differenza dei metodi basati su trasformatori, SegMamba sfrutta i principi di modellazione dello spazio degli stati per eccellere nella modellazione di funzionalità su vasta scala mantenendo una velocità di elaborazione superiore. Anche con una risoluzione di 64 x 64 x 64 (equivalente ad una lunghezza di sequenza di circa 260 KB), SegMamba mostra una notevole efficienza.


Controlla il carta E github. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre non dimenticare di seguirci Twitter E Google News. si unisce Abbiamo 36k+ ML SubReddit, Oltre 41.000 comunità Facebook, Canale DiscordiaE Grammo di LinkedInoperazione.

Se ti piace il nostro lavoro, adorerai il nostro lavoro le notizie..

Non dimenticare di unirti a noi Canale Telegram

Arshad è uno stagista presso MarktechPost. Attualmente sta lavorando per raggiungere il suo obiettivo. Master in Fisica presso l'Indian Institute of Technology, Kharagpur. Comprendere le cose a livello base porta a nuove scoperte che portano a progressi tecnologici. La sua passione è comprendere a fondo la natura con l'aiuto di strumenti come modelli matematici, modelli di apprendimento automatico e intelligenza artificiale.

READ  Google Gemini: tutto quello che devi sapere sulla nuova piattaforma di intelligenza artificiale generativa

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *