Questo documento AI propone un modello di diffusione latente per il 3D (LDM3D) che genera dati di immagini e mappe di profondità da un dato vettore di testo.

Nel campo dell’intelligenza artificiale generativa, la visione artificiale ha fatto passi da gigante negli ultimi anni. Stable Diffusion ha trasformato la produzione di contenuti nella creazione di immagini offrendo software gratuito per produrre immagini casuali RGB ad alta risoluzione da prompt di testo. Questo documento propone un modello di diffusione latente 3D (LDM3D) basato su diffusione stabile v1.4. A differenza del modello precedente, la Figura 1 mostra come LDM3D può produrre mappe di profondità e dati immagine da un determinato prompt di testo. Gli utenti possono creare rappresentazioni RGBD complete dei prompt di testo, dando loro vita in una vibrante prospettiva a 360 gradi. Il loro modello LDM3D è stato ottimizzato su un set di dati di circa 4 milioni di insiemi che includevano un’immagine RGB, una mappa di profondità e una descrizione.

Per creare questo set di dati è stata utilizzata una parte del set di dati LAION-400M, un grande set di dati di didascalie di immagini contenente più di 400 milioni di abbinamenti di didascalie di immagini. Il modello di stima della profondità elevata DPT, che fornisce stime di profondità relativa molto accurate per ogni pixel dell’immagine, è stato utilizzato per generare le mappe di profondità utilizzate per la messa a punto. L’uso delle giuste mappe di profondità era essenziale per creare viste a 360 gradi realistiche, coinvolgenti e che consentissero agli utenti di sperimentare i loro messaggi di testo in modo molto dettagliato. I ricercatori di Intel Labs e Blockade Labs hanno creato DepthFusion, un’applicazione che sfrutta immagini grezze 2D RGB e mappe di profondità per calcolare una vista a 360 gradi utilizzando TouchDesigner, dimostrando le capacità di LDM3D.

**Figura 1**Panoramica LDM3D: le mappe di profondità in scala di grigi a 16 bit vengono compresse in immagini di profondità a 3 canali simili a RGB, che vengono poi coniugate con immagini RGB lungo la dimensione del canale, per mostrare il flusso di lavoro di addestramento. KL-AE modificato viene utilizzato per mappare l’input RGBD serializzato allo spazio latente. La rappresentazione latente riceve il rumore prima che venga ripetutamente distorta dal modello U-Net. Il codificatore di testo congelato CLIP viene utilizzato per crittografare il vettore di testo e l’interesse reciproco viene utilizzato per mapparlo a diversi livelli U-Net. Il decodificatore KL riceve l’uscita denoised dallo spazio latente e la rimappa nello spazio dei pixel come uscita RGBD a sei canali. Il risultato viene quindi suddiviso in una mappa di profondità in scala di grigi a 16 bit e un’immagine RGB. Il percorso di inferenza dal testo all’immagine è mostrato in una cornice blu.

DepthFusion ha il potenziale per cambiare completamente il modo in cui le persone interagiscono con i materiali digitali. Il framework flessibile chiamato TouchDesigner consente la creazione di esperienze multimediali interattive e immersive. Il loro software utilizza le capacità creative di touchdesigner per produrre straordinari panorami a 360 gradi che rappresentano chiaramente i messaggi di testo. Con l’aiuto di DepthFusion, gli utenti possono ora sperimentare i loro suggerimenti testuali in un modo prima inimmaginabile, sia che si tratti di una descrizione di una foresta serena, di una vivace scena cittadina o di un mondo di fantascienza. Questa tecnologia potrebbe rivoluzionare vari settori, tra cui il gioco, l’intrattenimento, il design e l’architettura.

🚀 Dai un’occhiata a 100’s AI Tools nel nostro AI Tools Club

Hanno dato complessivamente tre diversi contributi. (1) propongono LDM3D, un nuovo modello di diffusione che, in luce guidata da testo, genera immagini RGBD (immagini RGB con corrispondenti mappe di profondità). (2) Hanno creato DepthFusion, un software che utilizza immagini RGBD prodotte da LDM3D per offrire esperienze di visione coinvolgenti a 360 gradi. (3) Valutano l’efficacia delle immagini RGBD prodotte e dei film immersivi a 360 gradi attraverso studi completi. Lo studio presenta LDM3D, un modello di diffusione avanzato che produce immagini RGBD da segnali testuali. Hanno anche creato DepthFusion, un programma che utilizza immagini RGBD prodotte da TouchDesigner per fornire esperienze di visualizzazione a 360 immersive e interattive per dimostrare ulteriormente le capacità di LDM3D.

READ Apple aggiorna il documento interno per i "prodotti inediti" tra le voci di nuovi iPad e Mac

I risultati di questo studio potrebbero cambiare radicalmente il modo in cui le persone interagiscono con i materiali digitali, trasformando tutto, dall’intrattenimento e dai giochi all’architettura e al design. I contributi di questo lavoro aprono nuove opportunità per l’IA generativa multidisplay e la ricerca sulla visione artificiale. Sono interessati a come quest’area possa essere ulteriormente sviluppata e desiderano che la comunità tragga beneficio dal lavoro offerto.

scansiona il carta. Non dimenticare di iscriverti 21k+ML Sottotitoli RedditE canale discordiaE E Notiziario via e-mail, dove condividiamo le ultime notizie sulla ricerca sull’IA, fantastici progetti di intelligenza artificiale e altro ancora. In caso di domande sull’articolo di cui sopra o se ci siamo persi qualcosa, non esitare a inviarci un’e-mail all’indirizzo [email protected]

🚀 Dai un’occhiata a 100’s AI Tools nell’AI Tools Club

Anish Teeku è un consulente in formazione presso MarktechPost. Attualmente sta proseguendo i suoi studi universitari in Data Science e Intelligenza Artificiale presso l’Indian Institute of Technology (IIT), Bhilai. Trascorre la maggior parte del suo tempo lavorando a progetti volti a sfruttare la potenza dell’apprendimento automatico. Il suo interesse di ricerca è nell’elaborazione delle immagini ed è appassionato di costruire soluzioni attorno ad esso. Ama comunicare con le persone e collaborare a progetti interessanti.

➡️ Scopri Bright Data: la piattaforma di dati web n. 1 al mondo

Angioletto Bellucci

“Esploratore. Scrittore appassionato. Appassionato di Twitter. Organizzatore. Amico degli animali ovunque.”

Questo documento AI propone un modello di diffusione latente per il 3D (LDM3D) che genera dati di immagini e mappe di profondità da un dato vettore di testo.

Il primo iPhone pieghevole potrebbe seguire il design del Galaxy Z Flip 6, ma non aspettatevi prima del 2026

Perdite sulle dimensioni di Google Pixel 9 Pro XL rispetto a Pixel 8 Pro

Confronto trapelato tra Pixel 9 Pro XL e Pixel 8 Pro [Gallery]

Samsung potrebbe lanciare Z Fold 6 Slim il prossimo ottobre: ecco cosa sappiamo

Samsung collabora con KRAFTON per produrre il telefono DARK AND DARKER MOBILE – Samsung International Newsroom

Warner Bros. Games acquisisce gli sviluppatori di MultiVersus

Lascia un commento Annulla risposta

You may have missed

Trump critica Harris durante l'arrivo di Netanyahu nella sua residenza in Florida – The Irish Times

Sei studenti furono spediti sulla “luna” nelle viscere del San Gottardo

Il Giappone e l’Associazione delle Nazioni del Sud-Est asiatico si impegnano a rafforzare i legami di sicurezza nel contesto dell’ascesa della Cina

Il primo iPhone pieghevole potrebbe seguire il design del Galaxy Z Flip 6, ma non aspettatevi prima del 2026

Gli scienziati risolvono “l'ultimo problema del parsec”

More Stories

Lascia un commento Annulla risposta

You may have missed