Questo documento AI propone un modello di diffusione latente per il 3D (LDM3D) che genera dati di immagini e mappe di profondità da un dato vettore di testo.

https://arxiv.org/abs/2305.10853

Nel campo dell’intelligenza artificiale generativa, la visione artificiale ha fatto passi da gigante negli ultimi anni. Stable Diffusion ha trasformato la produzione di contenuti nella creazione di immagini offrendo software gratuito per produrre immagini casuali RGB ad alta risoluzione da prompt di testo. Questo documento propone un modello di diffusione latente 3D (LDM3D) basato su diffusione stabile v1.4. A differenza del modello precedente, la Figura 1 mostra come LDM3D può produrre mappe di profondità e dati immagine da un determinato prompt di testo. Gli utenti possono creare rappresentazioni RGBD complete dei prompt di testo, dando loro vita in una vibrante prospettiva a 360 gradi. Il loro modello LDM3D è stato ottimizzato su un set di dati di circa 4 milioni di insiemi che includevano un’immagine RGB, una mappa di profondità e una descrizione.

Per creare questo set di dati è stata utilizzata una parte del set di dati LAION-400M, un grande set di dati di didascalie di immagini contenente più di 400 milioni di abbinamenti di didascalie di immagini. Il modello di stima della profondità elevata DPT, che fornisce stime di profondità relativa molto accurate per ogni pixel dell’immagine, è stato utilizzato per generare le mappe di profondità utilizzate per la messa a punto. L’uso delle giuste mappe di profondità era essenziale per creare viste a 360 gradi realistiche, coinvolgenti e che consentissero agli utenti di sperimentare i loro messaggi di testo in modo molto dettagliato. I ricercatori di Intel Labs e Blockade Labs hanno creato DepthFusion, un’applicazione che sfrutta immagini grezze 2D RGB e mappe di profondità per calcolare una vista a 360 gradi utilizzando TouchDesigner, dimostrando le capacità di LDM3D.

Figura 1Panoramica LDM3D: le mappe di profondità in scala di grigi a 16 bit vengono compresse in immagini di profondità a 3 canali simili a RGB, che vengono poi coniugate con immagini RGB lungo la dimensione del canale, per mostrare il flusso di lavoro di addestramento. KL-AE modificato viene utilizzato per mappare l’input RGBD serializzato allo spazio latente. La rappresentazione latente riceve il rumore prima che venga ripetutamente distorta dal modello U-Net. Il codificatore di testo congelato CLIP viene utilizzato per crittografare il vettore di testo e l’interesse reciproco viene utilizzato per mapparlo a diversi livelli U-Net. Il decodificatore KL riceve l’uscita denoised dallo spazio latente e la rimappa nello spazio dei pixel come uscita RGBD a sei canali. Il risultato viene quindi suddiviso in una mappa di profondità in scala di grigi a 16 bit e un’immagine RGB. Il percorso di inferenza dal testo all’immagine è mostrato in una cornice blu.

DepthFusion ha il potenziale per cambiare completamente il modo in cui le persone interagiscono con i materiali digitali. Il framework flessibile chiamato TouchDesigner consente la creazione di esperienze multimediali interattive e immersive. Il loro software utilizza le capacità creative di touchdesigner per produrre straordinari panorami a 360 gradi che rappresentano chiaramente i messaggi di testo. Con l’aiuto di DepthFusion, gli utenti possono ora sperimentare i loro suggerimenti testuali in un modo prima inimmaginabile, sia che si tratti di una descrizione di una foresta serena, di una vivace scena cittadina o di un mondo di fantascienza. Questa tecnologia potrebbe rivoluzionare vari settori, tra cui il gioco, l’intrattenimento, il design e l’architettura.

Hanno dato complessivamente tre diversi contributi. (1) propongono LDM3D, un nuovo modello di diffusione che, in luce guidata da testo, genera immagini RGBD (immagini RGB con corrispondenti mappe di profondità). (2) Hanno creato DepthFusion, un software che utilizza immagini RGBD prodotte da LDM3D per offrire esperienze di visione coinvolgenti a 360 gradi. (3) Valutano l’efficacia delle immagini RGBD prodotte e dei film immersivi a 360 gradi attraverso studi completi. Lo studio presenta LDM3D, un modello di diffusione avanzato che produce immagini RGBD da segnali testuali. Hanno anche creato DepthFusion, un programma che utilizza immagini RGBD prodotte da TouchDesigner per fornire esperienze di visualizzazione a 360 immersive e interattive per dimostrare ulteriormente le capacità di LDM3D.

READ  Il nuovo driver della scheda N porta la tecnologia nera? Insegnarti a migliorare in modo significativo le prestazioni del gioco - nVIDIA-cnBeta.COM

I risultati di questo studio potrebbero cambiare radicalmente il modo in cui le persone interagiscono con i materiali digitali, trasformando tutto, dall’intrattenimento e dai giochi all’architettura e al design. I contributi di questo lavoro aprono nuove opportunità per l’IA generativa multidisplay e la ricerca sulla visione artificiale. Sono interessati a come quest’area possa essere ulteriormente sviluppata e desiderano che la comunità tragga beneficio dal lavoro offerto.


scansiona il carta. Non dimenticare di iscriverti 21k+ML Sottotitoli RedditE canale discordiaE E Notiziario via e-mail, dove condividiamo le ultime notizie sulla ricerca sull’IA, fantastici progetti di intelligenza artificiale e altro ancora. In caso di domande sull’articolo di cui sopra o se ci siamo persi qualcosa, non esitare a inviarci un’e-mail all’indirizzo [email protected]

🚀 Dai un’occhiata a 100’s AI Tools nell’AI Tools Club

Anish Teeku è un consulente in formazione presso MarktechPost. Attualmente sta proseguendo i suoi studi universitari in Data Science e Intelligenza Artificiale presso l’Indian Institute of Technology (IIT), Bhilai. Trascorre la maggior parte del suo tempo lavorando a progetti volti a sfruttare la potenza dell’apprendimento automatico. Il suo interesse di ricerca è nell’elaborazione delle immagini ed è appassionato di costruire soluzioni attorno ad esso. Ama comunicare con le persone e collaborare a progetti interessanti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *