解碼說話的嘗試
說話是身體所做的最複雜的動作之一。大腦會向嘴唇、舌頭、下巴和聲帶的肌肉發送一連串快速的指令。語音神經義肢是為那些仍能*產生*這些指令、卻再也無法執行它們的人設計的——例如,在罹患肌萎縮性脊髓側索硬化症(一種使肌肉變弱的疾病,ALS)或腦幹中風之後。這個人嘗試說話,肌肉卻沒有反應;但指令依然存在於大腦皮質中,等待被讀取。
為了捕捉這些指令,研究者會把電極放在語音運動皮質之上或之內——這片腦區負責統籌聲道的運作。大多數系統使用皮質腦電圖(ECoG,一片貼在大腦表面的電極)或植入組織內的細薄皮質內陣列。ECoG涵蓋範圍更廣;皮質內陣列則更貼近地「聆聽」小群神經元。無論哪種方式,目標都一樣:記錄大腦想要說的話,而不是那些(沉默的)肌肉。
文字與聲音
訊號一旦被記錄下來,解碼器就得把它們轉化為語言。輸出方式大致有兩種。腦到文字把大腦活動對應到字母、語音或詞語上,並顯示在螢幕上——就像一套極快、極其個人化的聽寫系統。腦到聲音則更進一步,*合成出真正的聲音*,幾乎即時地讓這個人被「聽見」在出聲說話,有時甚至能重現他們從前自己的嗓音。
兩種方式都重度依賴機器學習。在一段訓練期內,神經網路會學習這個*特定*的人的大腦模式如何與他們試圖發出的聲音和詞語對應起來。最棘手的地方在於,腦訊號嘈雜且彼此重疊,所以解碼器很少能看到一個乾淨的「這是字母B」的訊號——它必須隨時間權衡各種證據,猜出最可能的語音序列,很像依賴上下文的預測輸入法。
近來的突破
在很長一段時間裡,這些系統都很慢,而且只能辨識少數幾個詞。後來有幾件事同時發生了變化。記錄硬體改進了:如今的陣列能從語音運動皮質採集更多通道、更乾淨的訊號。與此同時,那些驅動現代語言工具的模型——擅長讀取順序與上下文的序列模型——結果證明非常適合把嘈雜的神經證據串成流暢的詞句。
第三個要素是資料。隨著參與者花更多時間使用自己的裝置,解碼器就能在數量大得多的真實說話嘗試上接受訓練。這些因素疊加在一起,帶來的提升與其說是量上的,不如說是質上的:詞彙量從寥寥數詞增長到龐大、開放式的規模,輸出明顯更快、更流暢,合成的聲音也開始聽起來更自然。誠實的說法是:這些是*研究上的里程碑*,是在很少數參與者身上取得的——令人矚目,但仍處於早期。
仍然困難的地方
最大的未解難題是泛化。如今的解碼器基本上要為每個人從零開始訓練,而且即便對同一個人,隨著大腦和電極日復一日的變化,它也會「漂移」,需要反覆重新校準。要做出一個能在不同人之間乾淨遷移、或者數月不重新訓練也能保持穩定的模型,仍是擺在我們面前的挑戰。
其次是自然度。真實的言語帶有韻律——那種節奏、重音和音調起伏,能把一句平板的話變成疑問、玩笑或真切的情感。要恢復的不只是詞語,還有這些韻律,這很難。耐久性同樣如此:植入的電極必須在活體組織內安全、可靠地工作多年,這本身就是一道苛刻的工程與生物學難題。
最後,從一次成功的實驗室演示,到一個人能在家中真正依靠的產品,這條路很長。臨床轉化意味著在嚴謹的試驗中證明其安全與獲益、簡化設備、培訓臨床團隊,以及取得監管核准——在第一個激動人心的結果之後,還有數年耐心的工作。誠實的總結是:語音神經義肢已經從「也許可能」跨越到「確實可行」,這真的令人動容——但它們仍然處於早期,仍然脆弱,還遠不是一種常規的治療手段。