Иновативна технология помага на хора, загубили речта си, да "проговорят" отново
В основата ѝ са мозъчно-компютърни интерфейси и големи езикови модели
Мозъчно-компютърните интерфейси са иновативна технология, която може да помогне на парализирани хора да възвърнат загубените си функции, като например да движат ръката си. Тези устройства записват сигналите от мозъка и дешифрират желаното от потребителя действие, като заобикалят увредените или разрушени нерви, които обикновено предават тези мозъчни сигнали за управление на мускулите.
От 2006 г. насам демонстрациите на мозъчно-компютърни интерфейси при хора са съсредоточени предимно върху възстановяването на движенията на ръцете и дланите, като им позволяват да управляват компютърни курсори или роботизирани ръце. Неотдавна обаче изследователите започват да разработват мозъчно-компютърни интерфейси за реч, за да възстановят вербалните възможности на хора, които не могат да говорят.
Докато потребителят се опитва да говори, тези мозъчно-компютърни интерфейси записват уникалните мозъчни сигнали, свързани с опитите за мускулни движения при говор, и ги преобразуват в думи. След това тези думи могат да се показват като текст на екран или да се произнасят на глас с помощта на софтуер за преобразуване на текст в реч.
Николас Кард e научен сътрудник в лабораторията по невропротезиране към University of California, Davis, която е част от клиничното изпитване BrainGate2.
“Наскоро с колегите ми демонстрирахме речеви мозъчно-компютърен интерфейс, който дешифрира опитите за говорене на човек с АЛС (амиотрофична латерална склероза), известна още като болестта на Лу Гериг. Интерфейсът преобразува невронните сигнали в текст с над 97% точност. Ключът към нашата система е набор от езикови модели на изкуствения интелект - изкуствени невронни мрежи, които помагат да се интерпретират естествените такива”, разказва той пред Fast Company.
Записване на мозъчни сигнали
Първата стъпка в речевия мозъчно-компютърен интерфейс на лабораторията е записването на мозъчни сигнали. Съществуват няколко източника на такива, някои от които изискват хирургическа намеса, за да бъдат записани. Хирургично имплантираните записващи устройства могат да улавят висококачествени мозъчни сигнали, тъй като се поставят по-близо до невроните, което води до по-малко смущения. Тези устройства за невронен запис включват мрежи от електроди, поставени на повърхността на мозъка, или електроди, имплантирани директно в мозъчната тъкан.
“В нашето изследване използвахме масиви от електроди, поставени хирургически в моторната кора на речта - частта от мозъка, която контролира мускулите, свързани с говоренето, на участника Кейси Харел. Записахме невронната активност от 256 електрода, докато той се опитваше да говори”, разказва Николас Кард.
Декодиране на мозъчни сигнали
Следващото предизвикателство е да се свържат сложните мозъчни сигнали с думите, които потребителят се опитва да каже. Един от подходите е да се съпоставят моделите на невронната активност директно с изговорените думи. Този метод изисква многократно записване на мозъчните сигнали, съответстващи на всяка дума, за да се определи връзката между невронната активност и конкретните словосъчетания. Въпреки че тази стратегия работи добре за малки набори обаче, както е показано в проучване от 2021 г. с речник от 50 думи, тя става непрактична за по-големи.
“Представете си, че поискате от потребителя на мозъчно-компютърния интерфейс да се опита да каже всяка дума в речника си многократно - това може да отнеме месеци и пак няма да работи за нови думи”, казва ученият.
Вместо това екипът използва алтернативна стратегия: съпоставяне на мозъчните сигнали с фонеми - основните звукови единици, от които се състоят думите. По този начин той може да измери многократно нервната активност, свързана с всяка фонема, само като помоли участника да прочете няколко изречения на глас. Като съпоставят точно невронната активност с фонемите, учените могат да ги сглобят в думи - дори такива, с които не е била изрично обучаване системата.
“За да съпоставим мозъчните сигнали с фонемите, използваме усъвършенствани модели за машинно обучение. Те са особено подходящи за тази задача заради способността им да откриват модели в големи количества сложни данни, които хората не биха могли да разпознаят”, разказва Николас Кард. “Представете си тези модели като свръхинтелигентни слушатели, които могат да избират важна информация от шумните мозъчни сигнали, подобно на това, да се съсредоточите върху разговор в претъпкана стая. Използвайки тези модели, успяхме да дешифрираме последователности от фонеми по време на опит за говорене с над 90% точност”.
От фонеми към думи
След като дешифрират последователности от фонеми, те трябва да бъдат превърнати в думи и изречения. Това е предизвикателство, особено ако дешифрираната последователност от фонеми не е напълно точна. За да решат този ребус, учените използват два допълващи се типа езикови модели за машинно обучение.
Първият от тях предвижда коя дума е най-вероятно да последва набор от определени други думи.
“Обучихме модел за пет думи, върху милиони изречения, за да предскажем вероятността за конкретна дума въз основа на предишните четири, като уловим местния контекст и общите фрази”, посочва ученият. “Например след „Много съм добър“ той може да предложи „днес“ като по-вероятна дума от „картоф“. Използвайки този модел, превръщаме нашите последователности от фонеми в 100-те най-вероятни последователности от думи”.
Вторият голям езиков модел в уравнението е като тези, които захранват чатботове с изкуствен интелект, и също може да предвижда кои думи най-вероятно следват други.
“Използваме големи езикови модели, за да прецизираме избора си. Тези модели, обучени върху огромни количества разнообразен текст, имат по-широко разбиране за структурата и значението на езика. Те ни помагат да определим кое от нашите 100 кандидат-изречения има най-голям смисъл в по-широк контекст”, продължава Николас Кард. “Чрез внимателно балансиране на вероятностите от първата платформа, големия езиков модел и нашите първоначални прогнози за фонемите можем да направим висококвалифицирано предположение за това какво се опитва да каже потребителят на мозъчно-компютърния интерфейс. Този многоетапен процес ни позволява да се справим с несигурността при декодирането на фонемите и да създадем последователни, контекстуално подходящи изречения”.
Ползи в реалния свят
На практика тази стратегия за декодиране на речта е забележително успешна. Проектът дава възможност на Кейси Харел, който е диагностициран с АЛС, да „говори“ с над 97% точност, като използва само мислите си. Този пробив му позволява лесно да разговаря със семейството и приятелите си за първи път от години, и то в уюта на собствения си дом.
Речевите мозъчно-компютърни интерфейси представляват значителна стъпка напред във възстановяването на комуникацията за пациенти с подобни заболявания. Все още обаче остават редица предизвикателства, като например да се направи технологията по-достъпна, преносима и издръжлива през годините на употреба. Въпреки тези пречки речевите мозъчно-компютърни интерфейси са мощен пример за това как науката и технологиите могат да се обединят, за да решат сложни проблеми и да подобрят значително живота на хората.