La startup canadese Lyrebird sta lavorando a un sistema di intelligenza artificiale (IA) che può imitare quasi perfettamente la voce di chiunque. Basta un solo minuto di analisi della voce e l’IA può riprodurre una conversazione che appare molto naturale.

Le applicazioni possibili di una tecnologia del genere potranno essere varie. Qualcuna più utile, qualcun’altra più pericolosa.

 

La particolarità dell’IA di Lyrebird

Il programma di Lyrebird analizza un minuto di registrazione vocale di una persona. Da questa registrazione poi ne estrae il “DNA del linguaggio” attraverso il machine learning (apprendimento automatico). Dopodiché aggiunge un ulteriore livello di emozione o di intonazione speciale finché non trova un buon grado di corrispondenza con il tono e la voce della persona.

Ma un esempio vale più di mille parole. Ascolta la conversazione elaborata da Lyrebird con le voci di Barack Obama, Donald Trump e Hillary Clinton.

Incredibile, vero? Sembrano proprio loro. Non è un caso che la startup si chiami Lyrebird, ovvero “uccello lira”, un uccello in grado di imitare alla perfezione diversi suoni. Il linguaggio generato dall’IA suona ancora un po’ robotico, ma con i futuri progressi non ci saranno più distorsioni. Le voci artificiali saranno identiche a quelle naturali: diventerà impossibile distinguere le une dalle altre.

Uno scenario che potrebbe portare a nuove possibilità, vantaggiose e pericolose. Ma procediamo con calma.

 

L’approccio di Lyrebird

I sintetizzatori vocali, di per sé, non sono pericolosi. Le persone che non possono comunicare o che sono paralizzate possono sfruttare al meglio queste tecnologie. Anche i non vedenti grazie a questi sistemi hanno vita più facile. Infatti, uno degli obiettivi principali dei programmi di sintesi vocale è trasformare il testo in voce in tempo reale. Per raggiungere questo scopo, il sistema deve “comprendere” le diverse parti del testo e generare suoni appropriati.

Può sembrare strano che l’analisi del testo possa contribuire a sviluppare una buona sintesi vocale. Ma se ci pensiamo bene, gran parte delle intonazioni delle parole e delle frasi dipendono proprio dal loro significato. Basti pensare a quando poniamo le domande: nella parte finale cambiamo l’intonazione.

Oggi i sintetizzatori vocali sfruttano enormi database di registrazioni vocali di numerose persone. Database che sono davvero difficili da costruire e migliorare per le pluralità dei linguaggi e dei significati. Il loro ruolo è importante: se manca una parola, il sintetizzatore vocale si blocca.

Ma il sistema di Lyrebird adotta un approccio diverso. L’IA ascolta le registrazioni vocali e apprende la pronuncia delle lettere, dei fonemi e delle parole. È simile a quando una persona deve imparare una nuova lingua. Si basa sugli esempi appresi per estrapolare nuove parole e frasi, anche quelle che non ha mai imparato prima. In seguito aggiunge le intonazioni emotive come rabbia, simpatia o stress.

Quella di Lyrebird è una rete neurale artificiale multistrato, un tipo di software che imita il cervello umano. Come il cervello biologico, le reti artificiali “imparano” attraverso l’esempio, modificando i collegamenti tra ciascun “neurone” fino a quando la rete genera il risultato corretto.

All’inizio ci vogliono molte ore di registrazioni vocali e numerose ripetizioni. Ma una volta che l’IA è stata addestrata sulla voce di una persona, può imitare un’altra voce con migliaia di frasi al secondo. Questo perché le voci, anche se sono diverse, condividono molte informazioni simili già “memorizzate” nella rete artificiale.

Come accennato prima, la qualità vocale dell’IA non è ancora il massimo. Secondo Alexandre de Brébisson, uno dei fondatori di Lyrebird, col tempo migliorerà anche quella: “A volte possiamo sentire un po’ di rumore nei nostri campioni. Questo perché abbiamo addestrato i nostri modelli su dati reali e il modello sta imparando il rumore di fondo o il rumore del microfono.

L’aggiunta di altri suoni labiali o di respirazione rende il tutto ancora più realistico. Le voci dei futuri assistenti digitali suoneranno ancora più umane. Ciò ci permetterà di comunicare con le macchine con più naturalezza. Oppure potremo fornire il doppiaggio più appropriato in ambito cinematografico anche quando i più abili e amati doppiatori non saranno più tra noi.

Per de Brébisson è solo questione di tempo: tra pochi anni saremo in grado di imitare perfettamente una voce umana.

 

Gli aspetti negativi

Lo stesso de Brébisson ammette che l’imitazione accurata delle voci potrebbe causare però qualche problema. Innanzitutto, le registrazioni vocali effettuate tramite un’IA di questo tipo potrebbero essere usate per ingannare gli altri. Una sorta di furto di identità che solleverebbe grandi preoccupazioni in termini di privacy e sicurezza.

La startup Lyrebird sta lavorando affinché si evitino problemi di questo genere. L’intenzione è quella di riuscire a stabilire un'”impronta vocale” che possa distinguere le voci originali da quelle registrate con l’IA.

Anche il dottor Timo Baumann, ricercatore esperto del linguaggio presso la Carnegie Mellon University, ha descritto dei rischi che sono meno ovvi. Baumann ha evidenziato che gli umani istintivamente si fidano di più delle fonti basate su voci, soprattutto se da queste traspaiono delle emozioni. Interagendo con un’IA come quella di Lyrebird, quindi, saremmo più propensi a condividere informazioni personali o a fare acquisti basati sui suoi suggerimenti.

Lyrebird è consapevole dei rischi sociali ed etici legati all’uso improprio di questa tecnologia. Lo dichiara sul suo sito e sottolinea che ignorare la tecnologia non è la soluzione giusta. Bisogna, invece, diffondere educazione all’uso delle tecnologie e consapevolezza.

“Rilasciando pubblicamente la nostra tecnologia e rendendola disponibile a chiunque, vogliamo assicurarci che non ci saranno tali rischi. Speriamo che tutti saranno ben presto consapevoli del fatto che tale tecnologia esiste e che la copia della voce di qualcun altro è possibile.”

Forse il team di Lyrebird è troppo ottimista per approfondire i rischi. Oppure non vuole generare un clima di panico mentre la tecnologia è in fase di perfezionamento. In fondo si tratta anche di business. Ma non c’è dubbio che le registrazioni false o manipolate di voci umane ad alta fedeltà prima o poi arriveranno. E probabilmente si aggiungeranno alle immagini ritoccate e alle notizie false, stravolgendo la realtà e creando scompigli.

Ma prima di raggiungere quel livello (se lo raggiungeremo), assisteremo ad altre evoluzioni digitali. Vedremo, ad esempio, sistemi di IA rilevare le personalità con precisione, alla maniera di Calibermind. Vedremo assistenti virtuali comprendere meglio il nostro linguaggio e anticipare le nostre intenzioni e azioni. E chissà, magari assisteremo persino alla candidatura presidenziale da parte di un’intelligenza artificiale.

O forse non raggiungeremo mai un livello simile di precisione e prestazione. Di sicuro, però, sistemi di IA come quelli di Lyrebird ci fanno riflettere sul come e perché determinate tecnologie andrebbero adottate.

In ogni caso, dobbiamo essere pronti. Se non l’hai già fatto, iscriviti alla newsletter per ricevere aggiornamenti sul mondo delle tecnologie digitali dirompenti. Non farti cogliere impreparato 😉

Controcorrente Newsletter

Fonte: Singularity Hub

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.