I ricercatori di Google presentano AudioPaLM: un punto di svolta nella tecnologia vocale, un nuovo importante paradigma linguistico che ascolta, parla e traduce con una precisione senza precedenti

I ricercatori di Google presentano AudioPaLM: un punto di svolta nella tecnologia vocale, un nuovo importante paradigma linguistico che ascolta, parla e traduce con una precisione senza precedenti
https://arxiv.org/abs/2306.12925

I Language Large Models (LLM) sono sotto i riflettori da alcuni mesi. Essendo uno dei migliori sviluppi nel campo dell’intelligenza artificiale, questi modelli stanno cambiando il modo in cui gli esseri umani interagiscono con le macchine. Poiché ogni settore adotta questi modelli, sono il miglior esempio di come l’intelligenza artificiale stia conquistando il mondo. LLM eccelle nella produzione di testo per attività che comportano interazioni complesse e recupero di conoscenza, il miglior esempio è il popolare chatbot sviluppato da OpenAI e ChatGPT, basato sull’architettura Transformer di GPT 3.5 e GPT 4. Non solo nella generazione di testo ma in modelli come CLIP (Differential Language – Image Pre-Training) per la produzione di immagini, consentendo la generazione di testo in base al contenuto dell’immagine.

Per far progredire la creazione e la comprensione del suono, un team di ricercatori di Google ha introdotto AudioPaLM, un modello linguistico di grandi dimensioni in grado di affrontare le attività di comprensione e generazione del parlato. AudioPaLM combina i vantaggi di due modelli esistenti, ovvero il modello PaLM-2 e il modello AudioLM, al fine di produrre un’architettura multimediale unificata in grado di elaborare e produrre sia testo che parlato. Ciò consente ad AudioPaLM di gestire un’ampia varietà di applicazioni, dal riconoscimento vocale alla conversione da audio a testo.

Mentre AudioLM è eccellente nel preservare le informazioni non linguistiche come l’identità del parlante e il tono della voce, PaLM-2, un modello linguistico basato sul testo, è specializzato nella conoscenza linguistica specifica del testo. Combinando questi due modelli, AudioPaLM sfrutta l’esperienza linguistica di PaLM-2 e la conservazione delle informazioni pseudo-linguistiche di AudioLM, ottenendo una comprensione e una creazione più complete sia del testo che del parlato.

AudioPaLM utilizza un vocabolario comune che può rappresentare sia il parlato che il testo utilizzando un numero limitato di token separati. La combinazione di questo vocabolario condiviso e delle descrizioni delle attività di codifica consente di addestrare un modello solo decodificatore su una varietà di attività audio e testuali. Attività come il riconoscimento vocale, la sintesi vocale e la traduzione vocale, tradizionalmente gestite da paradigmi separati, ora possono essere unificate in un’unica architettura e processo di formazione.

READ  Scadenza per lo scambio di quote di proprietà in ingegneria 15

Se valutato, AudioPaLM supera di gran lunga i sistemi esistenti nella traduzione vocale. Ha dimostrato la capacità di eseguire la traduzione vocale in testo gratuita per famiglie di lingue, il che significa che può tradurre accuratamente il parlato in testo per lingue mai viste prima, aprendo possibilità per un supporto linguistico più ampio. AudioPaLM può anche trasmettere suoni in più lingue sulla base di brevi istruzioni vocali e può catturare e riprodurre suoni distinti in diverse lingue, consentendo la trasformazione e l’adattamento della voce.

I principali contributi menzionati dal team sono:

  1. AudioPaLM utilizza le funzionalità del pre-training di solo testo PaLM e PaLM-2.
  1. Ha studiato i punteggi SOTA negli standard di traduzione vocale automatica e di traduzione vocale e le prestazioni competitive negli standard di riconoscimento vocale automatico.
  1. Il modello esegue la traduzione da parlato a parlato con trasmissione del suono tramite altoparlante invisibile, superando i metodi attuali in termini di qualità del parlato e conservazione del suono.
  1. AudioPaLM dimostra il potenziale dell’imaging zero eseguendo la traduzione vocale automatica con combinazioni linguistiche invisibili.

In conclusione, AudioPaLM, un LLM unificato che gestisce sia la voce che il testo utilizzando funzionalità LLM basate su testo e che incorpora tecnologie di prompt audio, è un’aggiunta promettente all’elenco LLM.


scansiona il carta E progetto. Non dimenticare di iscriverti Subreddit 25k+MLE canale discordiaE E Notiziario via e-mail, dove condividiamo le ultime notizie sulla ricerca sull’IA, fantastici progetti di intelligenza artificiale e altro ancora. In caso di domande sull’articolo di cui sopra o se ci siamo persi qualcosa, non esitare a inviarci un’e-mail all’indirizzo [email protected]


🚀 Dai un’occhiata a 100’s AI Tools nell’AI Tools Club

Tania Malhotra è all’ultimo anno della University of Petroleum and Energy Studies, Dehradun, perseguendo un BTech in Computer Science Engineering con una specializzazione in Intelligenza Artificiale e Machine Learning.
È appassionata di scienza dei dati e ha un buon pensiero analitico e critico, insieme a un vivo interesse per l’acquisizione di nuove competenze, la conduzione di gruppi e la gestione del lavoro in modo organizzato.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *