最大10,000ドル賞金、多言語会話音声言語モデルワークショップコンテスト応募開始！

Datatang株式会社は、Meta、Googleなどの世界大手会社と共に、INTERSPEECH2025多言語会話音声言語モデルワークショップコンテストを開催、音声認識研究者向けに参加者募集中です。

Datatang株式会社

2025年3月12日 17時48分

大規模言語モデル（LLM）ベースの音声認識や対話モデルの開発が注目されていますが、現実世界の多言語会話音声データの複雑さが課題となっています。Datatang株式会社は、Meta、Google、Samsung、Naverなど世界大手会社と共に、多言語会話音声言語モデルをテーマにしたワークショップコンテスト（略称：MLC-SLM Workshop）を開催します。INTERSPEECH2025ワークショップとして、多言語会話音声モデルの研究者向けに参加者を募集中です。優勝チームに最大10,000ドルの賞金を授与します。　

背景

大規模言語モデル(LLM)は、言語理解・生成のタスクにおいて強力な基盤モデルとして機能しています。近年では、LLMを自動音声認識(ASR)、オーディオキャプション、音声対話モデルなどの最先端分野の音声言語処理タスクに適用する研究が多くなっています。

現実世界の会話音声データは、自然な一時停止・中断、話者の重複、多様な会話スタイルなど、人間のコミュニケーションの複雑さを捉えているため、LLMベースの音声対話モデルの開発に不可欠です。しかし、多言語環境の音声認識研究において、データ不足が大きな課題となっています。

現実世界の会話型音声コーパスは、多言語でダイナミック、かつ文脈に富んだ環境における高精度なAIシステムの構築や、音声対話が主要なコミュニケーションモードとして機能する次世代AI対話システムの開発に欠かせないです。

したがって、本ワークショップ・コンテストは、高精度な多言語会話音声言語モデルの構築に挑み、現実世界における多言語会話音声データセットを作成することで、音声認識の発展に寄与致します。

タスク設定

タスク1:多言語会話型音声認識モデルの開発

参加者には、会話ごとにオラクルセグメンテーションが提供されます。

目的: 多言語 LLM ベースのASRモデルの開発。このタスクでは、多言語環境での文字起こしの精度の最適化に焦点を当てています。

タスク2:多言語会話音声のダイアライゼーションと認識

評価中に事前情報は提供されません。(たとえば、事前にセグメント化された発話や話者ラベルなど)

目的:話者のダイアライゼーション(誰がいつ話しているかを特定する)及び認識(音声の文字起こし)の両方のシステム開発。

システムの設計・実装に柔軟性をもたらすため、パイプラインベースのシステムとエンドツーエンドのシステムの両方が推奨されます。

重要な日程

2025年2月20日:申し込み開始

2025年3月10日:トレーニングデータ公開

2025年3月17日:開発セットとベースラインシステムのリリース

2025年5月15日:評価セットのリリースとランキング公開

2025年6月01日:ランキング終了、提出ポータル公開(CMTシステム)

2025年6月20日:提出の締切

2025年7月10日:採否通知

2025年8月22日:ワークショップ開催（INTERSPEECH2025開催地ロッテルダム）

データセットの説明

チャレンジデータセットは、英語(en)、フランス語(fr)、ドイツ語(de)、イタリア語(it)、ポルトガル語(pt)、スペイン語(es)、日本語(jp)、韓国語(ko)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)の約11言語で構成されています。

各セットは、ランダムに割り当てられたトピックに関する2人のスピーカーの会話スピーチで構成されています。iPhoneなどのデバイスを使用して静かな屋内環境で、自然・流暢に録音され、スピーカーにより各トピックについての有意義な対話になります。

英語データセットは、イギリス英語、アメリカ英語、オーストラリア英語、インド英語、フィリピン英語など、さまざまな地域からの約 500 時間の録音で構成されています。他の言語はそれぞれ約 100 時間で、合計で約 1500 時間の多言語会話音声データになります。

データセットの詳細や使用についてはこちら：https://www.nexdata.ai/competition/mlc-slm

応募方法

詳細については以下のリンク：

2025年4月1日までに署名したデータ使用契約書をアップロードし、登録フォームに必要事項をご記入ください。

応募詳細：https://www.nexdata.ai/competition/mlc-slm

賞金について

賞金総額 : 20,000ドル

タスク１

1位チーム　5,000ドル

2位チーム　3,000ドル

3位チーム 2,000ドル

タスク2

1位チーム　5,000ドル

2位チーム　3,000ドル

3位チーム 2,000ドル

委員会

Shinji Watanabe カーネギーメロン大学准教授

Eng Siong Chng 南洋理工大学准教授

Khalid Choukri（ハリド・チョウクリ）欧州言語資源協会事務局長

Junlan Feng, IEEE 特別研究員 & チャイナモバイルチーフサイエンティスト

Qiangze Feng、共同創業者兼データサイエンティスト、Datatang株式会社

Daliang Wang、データサイエンティスト、Datatang株式会社

Lei Xie、中国西北工業大学音声認識教授

Pengcheng Guo、中国西北工業大学博士　

Bingshen Mu 中国西北工業大学博士　

コンテストに関するお問い合わせ先：mlc-slmw@nexdata.ai

Datatang株式会社について

社　名：データ・タング株式会社（Datatang株式会社）

所在地：東京都千代田区神田淡路町2-105ワテラスアネックス6階

新ブランド名：Nexdata

設　立： 2020年2月

資本金： 5000万円

事業概要：AI学習データ提供事業（自社データ・カスタマイズデータ）

　　　　　AI学習データの収集・アノテーション・プラットフォーム提供事業

URL 　： https://www.datatang.co.jp/

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザーログイン

メディアユーザー新規登録無料

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像

種類: イベント
ビジネスカテゴリ: システム・Webサイト・アプリ開発アプリケーション・セキュリティ
キーワード: 音声認識コンテストワークショップ音声言語処理研究者参加者募集人工知能学習用データセットアノテーションINTERSPEECH2025
関連リンク: https://www.nexdata.ai/competition/mlc-slm
ダウンロード: プレスリリース素材
このプレスリリース内で使われている画像ファイルがダウンロードできます