Gli ingegneri della Columbia University traducono i segnali cerebrali in parole
In una prima scientifica, i neuroingegneri della Columbia hanno creato un sistema che traduce il pensiero in un linguaggio comprensibile e riconoscibile. Monitorando l’attività cerebrale di qualcuno, la tecnologia può ricostruire le parole che una persona ascolta con una chiarezza senza precedenti. Questa scoperta, che sfrutta la potenza dei sintetizzatori vocali e dell’intelligenza artificiale, potrebbe portare a nuovi modi per i computer di comunicare direttamente con il cervello. Inoltre, pone le basi per aiutare le persone che non sanno parlare, come quelli che vivono con sclerosi laterale amiotrofica o che si riprendono dall’ictus, a riconquistare la capacità di comunicare con il mondo esterno.
“Le nostre voci ci aiutano a connetterci con i nostri amici, la famiglia e il mondo che ci circonda, ed è per questo che perdere il potere della propria voce a causa di lesioni o malattie è così devastante”, ha detto Nima Mesgarani, PhD, l’autore senior del giornale e investigatore principale all’Istituto di Brain Behaviour della Mortimer B. Zuckerman della Columbia University. “Con lo studio di oggi, abbiamo un modo potenziale per ripristinare quel potere. Abbiamo dimostrato che, con la giusta tecnologia, i pensieri di queste persone potrebbero essere decodificati e compresi da qualsiasi ascoltatore. ”
Decenni di ricerche hanno dimostrato che quando le persone parlano nel loro cervello compaiono modelli di attività rivelatori. Un distinto schema di segnali emerge anche quando ascoltiamo qualcuno che parla o immaginiamo di ascoltare. Gli esperti, cercando di registrare e decodificare questi modelli, vedono un futuro in cui i pensieri non devono rimanere nascosti all’interno del cervello – ma invece potrebbero essere tradotti in un discorso verbale a volontà.
Ma realizzare questa impresa è stato difficile. I primi tentativi di decodificare i segnali cerebrali del Dr. Mesgarani e altri si sono concentrati su semplici modelli di computer che analizzavano gli spettrogrammi, che sono rappresentazioni visive delle frequenze del suono.
Ma poiché questo approccio non è riuscito a produrre qualcosa che assomiglia a un linguaggio intelligibile, il dott. Mesgarani e il suo team, incluso il primo autore del documento Hassan Akbari, si sono rivolti invece a un vocoder, un algoritmo informatico in grado di sintetizzare il parlato dopo essere stato formato su registrazioni di persone che parlano.
“Questa è la stessa tecnologia utilizzata da Amazon Echo e Apple Siri per dare risposte verbali alle nostre domande”, ha detto il dottor Mesgarani, che è anche professore associato di ingegneria elettrica presso la Columbia Engineering.
Per insegnare il vocoder ad interpretare l’attività cerebrale, il Dr. Mesgarani ha collaborato con Ashesh Dinesh Mehta, neurochirurgo presso il Northwell Health Physician Partners Neuroscience Institute e coautore del lavoro di oggi. Il dott. Mehta cura i pazienti con epilessia, alcuni dei quali devono essere sottoposti a regolari interventi chirurgici.
“Lavorando con il Dr. Mehta, abbiamo chiesto ai pazienti con epilessia già sottoposti a chirurgia cerebrale di ascoltare le frasi pronunciate da persone diverse, mentre abbiamo misurato i modelli di attività cerebrale”, ha detto il dott. Mesgarani. “Questi modelli neurali hanno allenato il vocoder”.
Successivamente, i ricercatori hanno chiesto a quegli stessi pazienti di ascoltare gli altoparlanti che recitavano cifre da 0 a 9, mentre registravano segnali cerebrali che potevano quindi essere passati attraverso il vocoder. Il suono prodotto dal vocoder in risposta a quei segnali è stato analizzato e ripulito dalle reti neurali, un tipo di intelligenza artificiale che imita la struttura dei neuroni nel cervello biologico.
Il risultato finale era una voce dal suono robotico che recitava una sequenza di numeri. Per testare l’accuratezza della registrazione, il Dr. Mesgarani e il suo team hanno incaricato le persone di ascoltare la registrazione e riferire ciò che hanno sentito.
“Abbiamo scoperto che le persone potevano capire e ripetere i suoni circa il 75% delle volte, che è ben al di sopra e al di là di ogni precedente tentativo”, ha detto il dott. Mesgarani. Il miglioramento dell’intelligibilità è stato particolarmente evidente confrontando le nuove registrazioni con i precedenti tentativi basati su spettrogrammi. “Il vocoder sensibile e le potenti reti neurali rappresentavano i suoni che i pazienti avevano originariamente ascoltato con sorprendente accuratezza.”
Il dottor Mesgarani e il suo team hanno in programma di testare parole e frasi più complicate e vogliono eseguire gli stessi test sui segnali cerebrali emessi quando una persona parla o immagina di parlare. In definitiva, sperano che il loro sistema possa essere parte di un impianto, simile a quelli indossati da alcuni pazienti affetti da epilessia, che traduca i pensieri di chi li indossa direttamente in parole.
“In questo scenario, se chi lo indossa pensa” ho bisogno di un bicchiere d’acqua “, il nostro sistema potrebbe prendere i segnali cerebrali generati da quel pensiero e trasformarli in un discorso verbale sintetizzato”, ha detto il dott. Mesgarani. “Questo sarebbe un punto di svolta. Darebbe a chiunque abbia perso la capacità di parlare, sia per infortunio che per malattia, la rinnovata possibilità di connettersi al mondo che li circonda.”