LA VOCE NEURALE. CHE COS’È, COME FUNZIONA E QUALI LE SFIDE FUTURE
di Enzo Manuel Castro*
La voce neurale è una tecnologia che permette di generare una voce sintetica a partire da un testo o da un audio di riferimento, sfruttando i modelli di intelligenza artificiale. Questa tecnologia ha molte potenzialità, ma anche alcune criticità, sia dal punto di vista tecnico che etico. In questo articolo, cercheremo di spiegare cos’è la voce neurale, come funziona, quali sono i legami con la voce umana, quali le possibili applicazioni anche all’interno della didattica del canto e le eventuali controversie.
CHE COS’È LA VOCE NEURALE
La voce neurale è una voce sintetica che viene generata da un modello di intelligenza artificiale, chiamato rete neurale, che impara a replicare le caratteristiche di una voce umana a partire da esempi di audio o di testo. La voce neurale può essere personalizzata, cioè adattata a uno specifico stile, tono, accento, lingua o persona, fornendo al modello dei dati di training adeguati. Inoltre può essere usata per sintetizzare un testo in una voce naturale e realistica, oppure per trasformare una voce in un’altra, mantenendo il contenuto ma cambiandone l’identità o le caratteristiche.
La voce neurale si basa su due componenti principali: il modello di intelligenza artificiale e i dati di training.
Il modello di intelligenza artificiale è una rete neurale, cioè un insieme di unità di calcolo che si ispirano al funzionamento dei neuroni biologici, e che sono in grado di apprendere da dati complessi e non strutturati. La rete neurale viene allenata con dei dati di training, che sono degli esempi di audio o di testo che rappresentano la voce che si vuole generare. La rete neurale impara a riconoscere le caratteristiche della voce, come la frequenza, il timbro, l’intonazione, la pronuncia, il ritmo, il lessico, la grammatica, il contesto, ecc. e a riprodurle in modo coerente e naturale.
Esistono due modalità principali per generare una voce neurale: la sintesi vocale e la conversione vocale.
La sintesi vocale consiste nel trasformare un testo in una voce, cioè nel dare una pronuncia a delle parole scritte. La conversione vocale consiste invece nel trasformare una voce in un’altra, cioè nel modificare le caratteristiche vocali di un audio di input. In entrambi i casi, la rete neurale riceve in input dei dati (testo o audio) e produce in output una voce sintetica.
POSSIBILI APPLICAZIONI
La voce neurale ha molteplici possibili applicazioni, sia nel campo dell’informazione che dell’intrattenimento, sia nel settore pubblico che privato.
Alcuni esempi sono:
– Assistenti virtuali: può essere utilizzata per creare assistenti virtuali più naturali e personalizzati, che possano interagire con gli utenti in modo conversazionale e adattarsi alle loro preferenze e bisogni. Per esempio, può essere impiegata per creare una voce unica per il proprio marchio, per il proprio personaggio o per il proprio servizio.
– Narrativa: può essere usata per creare narrazioni coinvolgenti e immersive, che possano variare lo stile, il tono, l’accento e la lingua a seconda del contesto e del pubblico. La possiamo trovare negli audiolibri, podcast, videogiochi, film, serie, animazioni, ecc.
– Educazione: la voce neurale può essere un mezzo per creare contenuti educativi più accessibili e personalizzabili, che possano adattarsi al livello, al ritmo e allo stile di apprendimento degli studenti.
– Comunicazione: la voce neurale può facilitare la comunicazione tra persone che parlano lingue diverse, o che hanno difficoltà di espressione o di comprensione. Il suo impiego è utile per creare traduzioni, sottotitoli, doppiaggi, trascrizioni, sintesi, ecc.
– Salute: può essere uno strumento utile per migliorare la qualità della vita e il benessere di persone che hanno problemi vocali, come disfonia, afasia, mutismo, ecc. Per esempio, può essere applicata per la creazione di protesi vocali, terapie, riabilitazioni vocali, ecc.
POSSIBILI CONTROVERSIE
Come ogni tecnologia, anche la voce neurale possiede dei rischi e delle sfide da affrontare, sia dal punto di vista tecnico che etico. Vediamo alcune prospettive:
– Qualità: pur essendo una tecnologia molto avanzata, non è ancora perfetta, e può presentare degli errori, delle incongruenze, delle distorsioni o delle anomalie che ne compromettono la naturalezza e la realistica. I maggiori problemi si possono riscontrare nella pronuncia, l’intonazione, la coerenza, la fluidità, l’emotività, ecc.
– Sicurezza: la voce neurale, essendo basata su dei modelli di intelligenza artificiale, può essere vulnerabile a degli attacchi, delle manipolazioni, delle falsificazioni o delle contraffazioni che ne alterano il funzionamento o il risultato. Per esempio, può essere usata per creare deepfake, phishing, spam, truffe, cyberbullismo, ecc.
– Etica: la voce neurale, essendo in grado di replicare le caratteristiche di una voce umana, può sollevare delle questioni etiche, legali, sociali o morali che riguardano il diritto, il consenso, la privacy, la proprietà, l’identità, la veridicità, la responsabilità, la trasparenza, la diversità, l’inclusione, ecc. Essa infatti può essere mezzo per violare, appropriarsi, ingannare, influenzare, discriminare, offendere, ecc.
INTEGRAZIONE NELLA DIDATTICA DEL CANTO
Se vogliamo guardare ed immaginare un futuro non troppo lontano, dove l’intelligenza artificiale sarà pienamente integrata all’interno delle mansioni quotidiane possiamo prevedere anche l’impatto che le voci neurali potranno avere nella didattica del canto.
Dal punto di vista degli studenti, per esempio, attraverso l’utilizzo di appositi dispositivi le voci neurali potrebbero generare feedback istantanei che consentano di comprendere meglio la meccanica vocale e sviluppare una tecnica più raffinata tramite la simulazione e l’analisi. Inoltre vi potrà essere la possibilità di realizzare esperienze di apprendimento immersive esplorando diversi generi e stili vocali in modo interattivo e si potrà beneficiare dell’esperienza con le voci neurali per prepararsi a lavorare con tecnologie vocali in contesti professionali, come lo studio di registrazione o le performance dal vivo.
Con applicazioni IA di produzione musicale è già possibile generare, con degli input testuali, delle composizioni musicali che includono una linea cantata da una voce neurale, da cui poter ricavare idee, spunti melodici e creativi.
Dal punto di vista dell’insegnante le voci neurali invece potrebbero essere sfruttate nella creazione e personalizzazione dell’apprendimento attraverso la creazione di modelli che si adattano alle esigenze individuali degli studenti, offrendo in tal modo un’esperienza di studio maggiormente mirata e efficace. In questo modo si potrà ampliare la proposta didattica anche con l’ausilio e la costruzione di esercizi vocali e musicali specifici.
CONCLUSIONI
La voce neurale è una tecnologia che si ispira e si basa sulla voce umana, ma che non la sostituisce né la supera in quanto quest’ultima è uno degli elementi fondamentali della comunicazione, dell’espressione, dell’identità e della creatività delle persone, e possiede una ricchezza, una complessità, una variabilità e una spontaneità che la voce neurale non può eguagliare.
La voce neurale è uno strumento che può ampliare, arricchire, facilitare e migliorare la voce umana, ma che deve essere utilizzata con consapevolezza, rispetto, etica e responsabilità.
Essa non è una minaccia, ma una opportunità e una nuova risorsa da integrare.
RISORSE E RIFERIMENTI
– Panoramica della voce neurale personalizzata – Servizio Voce – Azure AI
https://learn.microsoft.com/it-it/azure/ai-services/speech-service/custom-neural-voice
– Asimov, intelligenza artificiale e voci neurali: la rivoluzione del giornalismo…
www.repubblica.it/tecnologia/2021/08/19/news/asimov_intelligenza_artificiale_e_voci_neurali_la_rivoluzione_del_giornalismo_parte_da_roma-314428746/
– Convertitore Testo a Parlato Realistico e Generatore Voce IA
https://speechgen.io/it
In collaborazione con AICI – Associazione Insegnanti di canto Italiana
* Enzo Manuel Castro è Cantante, Insegnante di Canto, Musicoterapista, Performing Arts Medicine Educated Coach (PAMEC).
AICI – ASSOCIAZIONE INSEGNANTI DI CANTO ITALIANA
AICI nasce e si sviluppa con il proposito di realizzare un punto di aggregazione, formazione e approfondimento sulle tematiche legate alla vocalità e alla sua pedagogia. Tutto ciò attraverso l’incontro, il confronto e la collaborazione fra tutte le figure, professionali e amatoriali, a contatto con il fenomeno della voce. L’obiettivo di AICI è che gli insegnanti di canto possano trovare nell’Associazione confronto e scambio, approfondimento, ricerca, studio e stimolo verso una sempre più aggiornata pedagogia e didattica del Canto.
È iscritta nel registro del Ministero dello Sviluppo Economico tra le associazioni che rilasciano la certificazione di qualità dei servizi prestati dai soci a seguito di una formazione permanente e si propone come punto di riferimento per gli allievi che desiderino avvicinarsi allo studio del canto avvalendosi di un insegnamento serio, preparato e aggiornato sottolineando quest’ultimo come libero e fondato sull’autonomia delle competenze e sull’indipendenza metodologica di ogni insegnante. AICI riconosce nel canto un’arte che va oltre il tecnicismo, avvalorandolo come espressione di emozioni, di libertà e bellezza.