Un equipo de la Universidad de California en Berkeley y San Francisco diseñó un dispositivo capaz de traducir la actividad cerebral en palabras habladas casi en tiempo real. Esto permitió que una mujer de 47 años con tetraplejia hablara después de 18 años.
El avance resuelve el problema de la latencia en las neuroprótesis del habla, el tiempo que pasa entre intentar hablar y producir sonido. Gracias a la inteligencia artificial (IA), los investigadores lograron sintetizar las señales cerebrales en habla audible casi instantáneamente. El artículo se publicó en Nature Neuroscience.
A paper in @NatureNeuro presents a new device capable of translating speech activity in the brain into spoken words in real-time. This technology could help people with speech loss to regain their ability to communicate more fluently in real time. https://t.co/KfIb57KoDR pic.twitter.com/QINMnq1dVx
— Nature Portfolio (@NaturePortfolio) March 31, 2025
“Este enfoque de transmisión rápida, similar al de Alexa y Siri, permite una síntesis más natural y fluida del habla”, afirma Gopala Anumanchipalli, co-investigador principal.
Edward Chang, otro líder del estudio, destacó el potencial de esta tecnología para mejorar la vida de personas con parálisis que afectan su habla. A través de un ensayo clínico, implantaron una interfaz cerebro-computadora en la paciente que no había podido hablar tras sufrir un accidente cerebrovascular.
Scientists have developed a device that can translate thoughts about speech into spoken words in real time. Although it’s still experimental, they hope the brain-computer interface could someday help give voice to those unable to speak. pic.twitter.com/HzCaQlq98i
— The Associated Press (@AP) April 1, 2025
Para entrenar el algoritmo, los investigadores pidieron a la paciente que visualizara frases y las pronunciara internamente. Los datos neuronales fueron utilizados para decodificar su intención de hablar y generar una voz similar a la suya, previamente grabada antes de su lesión.
La neuroprótesis descifra señales de la corteza motora, que controla la producción del habla, usando IA para convertirlas en palabras. Este sistema reduce la latencia de descodificación, que antes tomaba unos 8 segundos, y ahora genera salida casi en tiempo real.
El modelo también puede sintetizar palabras no incluidas en los datos de entrenamiento, como el alfabeto fonético de la OTAN, lo que demuestra que la IA está aprendiendo los componentes básicos del sonido y la voz, concluye Anumanchipalli.