​音声言語処理技術における世界最大規模の国際会議「INTERSPEECH 2025」にサイレントスピーチに関する論文が採択

脳波・筋電を用いた“声なき会話”の実現へ

株式会社アラヤ

 人工知能(AI)・脳神経科学の研究・研究開発支援を行う株式会社アラヤ(東京都千代田区 代表取締役社長:金井 良太、以下 アラヤ)は同社X-communicationチームが取り組むSilent Speech(無声発話)解読技術に関する論文(筆頭著者:井上昌和)が、音声言語処理技術における世界最大規模の国際会議「INTERSPEECH 2025」に採択されたことをお知らせいたします。本研究は、音声での発話が問題なく可能な方(以下:健常者)の脳波・筋電データによるAI訓練を通じて、発声が困難な患者の発話を高精度に解読可能とする、次世代のBrain-Machine Interface(BMI)技術の実現に向けた重要な一歩となる成果です。

論文採択の背景と概要

 INTERSPEECHは、International Speech Communication Association(ISCA)が主催する、音声・言語処理分野で最も権威ある国際会議の一つです。今回アラヤから採択された論文では、脳波(EEG)および筋電(EMG)を用いて、声を出さずに行う発話(Silent Speech)の内容の解読を試みました。健常者のデータを用いることで、神経変性症患者の発話解読精度の向上が可能なことの発見、並びに、多様な発話タスク・電極構成に対応可能なニューラルネットワークの設計を行うことで、多くの既存のデータを有効活用し、精度向上を達成した点が新規性として評価されました。特に、使用する計測機器や電極の配置が異なるという課題に対応し、多様な電極構成に対応可能なニューラルネットワークの設計を行った点が新規性として評価されました。

従来、BMIの高精度な音声解読には開頭手術が必要な侵襲的アプローチが主流でしたが、本研究では非侵襲なEEG/EMGを用いた、発話困難な患者に対する実用的な解読技術の可能性を大きく前進させています。

採択論文の内容と技術的特徴

「A Silent Speech Decoding System from EEG and EMG with Heterogeneous Electrode Configurations」

著者

井上 昌和, 佐藤 元重, 留岡 健一, Nathania Nah, 畠山 恵璃, Kai Arulkumaran, 堀口 維里優, 笹井 俊太朗

 本論文では、神経変性症患者が選択した日常生活に必要な64単語をSilent Speechで発話する際の脳波・筋電データを健常者8名・患者1名から収集し、発話した単語を脳波・筋電から解読する深層学習モデルを構築しました。本研究で収集したデータセットに加え、既存のデータを有効活用するために、異なる電極構成の脳波・筋電データを統合的に扱うトークナイザ(脳波筋電データを音声特徴量へ変換する変換器)と、複数の発話関連タスクを扱うためのマルチヘッド機構で構成される新規の深層学習モデルのアーキテクチャを導入し、異種データセットを混合したマルチタスク学習を実施しました。

その結果、異種データセット混合で学習したモデルの単語解読精度は、個人のデータのみで学習したモデルと比較して解読精度が大幅に向上する(健常者:70.1%→95.3%, 神経変性症患者:13.2%→54.5%)ことを確認しました。特に注目すべきは、音声を出せない患者のデータが少ない状況でも、健常者のデータによって補完的に精度を上げられる点です。これは、BMIの未来において「他者のデータが誰かの言葉を取り戻す手段となる」という希望を示唆するものです。

笹井俊太朗(Chief Research Officer)のコメント

 本研究は、脳波・筋電の大規模なデータ学習を通じて、発話困難な方々のコミュニケーション支援に大きく貢献する可能性を示しました。特に注目すべき発見は、「健常者によるデータ収集が、発話困難な方々のSilent Speech解読精度を飛躍的に向上させる」という点です。AIの訓練には正解ラベルが必要ですが、発話できない方からそれを取得するのは困難です。一方、健常者であれば自然な音声データを簡単に収集・ラベリングできます。この“他者のデータが誰かを助ける”構造は、倫理的にも技術的にも重要な意味を持っています。さらに、追加の解析により、脳波データが筋電データと比較してより解読精度に寄与していることを確認しました。解析の結果、顔面近傍ではなく発話に必要な筋肉から遠い脳波電極が最も解読精度に寄与することが判明し、これは「脳波そのものが発話解読に貢献している」ことを強く示唆します。今後は、複数言語での健常者データやより多くの患者データを収集し、実用的なSilent Speechインターフェースの構築に向けてさらに研究を進めてまいります。

アラヤのX-communicationチームについて

 アラヤのX-communicationチームは、非侵襲型発話解読BMI(ブレイン・マシン・インターフェース)の実装に取り組んでいます。同社の強みである最先端AIとニューロサイエンス、意識の理論的研究を融合し、発話に代わる新たなコミュニケーション手段の可能性を探ることで、多様な人々がこれまで以上にわかり合える社会の実現を目指しています。また、本チームは国立研究開発法人科学技術振興機構 ムーンショット型研究開発事業 目標1 金井プロジェクト「Internet of Brains(IoB)」の一環として実施されています。

https://research.araya.org/ja/research/x-communication-team

https://brains.link/

関連実績

脳波を用いた深層学習におけるスケーリング則を発見〜非侵襲Speech BMIの実用化に向けた活路へ〜
https://www.araya.org/publications/news20240716/

筆頭著者 紹介

井上昌和(研究開発部 チーフリサーチャー)

2019年に東京大学大学院で修士(情報理工学)取得後、アラヤへ入社。機械学習エンジニアとして、画像認識・エッジAIを中心にさまざまなプロジェクト携わる。2023年より、研究開発部へ異動し、機械学習エンジニアとしての経験を活かしながら、かねてより興味のあったBMI研究に取り組む。
https://research.araya.org/ja/members/%e4%ba%95%e4%b8%8a-%e6%98%8c%e5%92%8c

INTERSPEECH 2025について

INTERSPEECHは、音声・言語・聴覚信号処理に関する最新の研究成果が発表される世界最大規模の国際会議です。

会期:2025年8月17日(日)〜21日(木)

開催地:オランダ・ロッテルダム(Rotterdam Ahoy コンベンションセンター)

公式サイト:https://www.interspeech2025.org/home

【アラヤ会社概要】

会社名:株式会社アラヤ

代表者:代表取締役 金井 良太

設 立:2013年12月

所在地:東京都千代田区神田佐久間町1-11 産報佐久間ビル6F

URL:https://www.araya.org/

事 業:ディープラーニング、エッジAI、自律AI、ニューロテック、研究受託

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


ダウンロード
プレスリリース素材

このプレスリリース内で使われている画像ファイルがダウンロードできます

会社概要

株式会社アラヤ

12フォロワー

RSS
URL
https://www.araya.org/
業種
情報通信
本社所在地
東京都千代田区神田佐久間町1-11 産報佐久間ビル6F
電話番号
03-6426-5144
代表者名
金井良太
上場
未上場
資本金
1億円
設立
2013年12月