CES 2021 Innovation Award受賞「議事録スマート・スピーカー」

日本IBM

IBM Digital Makers Lab.が開発した議事録スマートスピーカー「Integrated Spatial Assistant Console(ISAC)」がCES 2021 Innovation Awardを受賞しました。この画期的なソリューションの開発秘話を、開発責任者の松永と Digital Makers Lab. を率いる嶋田にインタビューしました。

議事録スマート・スピーカーを操作する松永議事録スマート・スピーカーを操作する松永


CES 2021 Innovation Awardと、受賞内容について

松永:CES 2021は、全米民生技術協会(CTA:Consumer Technology Association)が開催する、50年以上続く家電見本市です。最近では、世界最大かつ最先端のテクノロジーが集まるカンファレンスとして認識され、世界各国の企業から有識者が17万人以上集結し世界最先端の動向が共有されます。CES Innovation Award は、出展企業・製品の中から、特にデザインとエンジニアリングにおいて優れたものに贈られます。
そして、この度、議事録スマート・スピーカーは、Computer Peripherals & Accessories分野でこのCES Innovation Awardを受賞しました。

過去にIBM Corporationが受賞したことがありますが、日本IBMとしては初の受賞です。
テクノロジー企業であるIBMがなぜ?と思われるかもしれません。その辺りは、後ほどご説明します。

 


議事録スマート・スピーカー(ISAC: Integrated Spatial Assistant Console)とは

Photo by Michinori AokiPhoto by Michinori Aoki


嶋田:会議の議事録作成において、話者を特定して記録をするのはかなり難しいです。録音して書き起こす場合は、聞き直したりすると、実際の会議の何倍も時間がかかりますし、音声だけで話者を判別するのは難易度が高く、同時に話していたら、お手上げです。また、人間が議事録をとると、どうしても恣意的になり、その文章を、読み手が、さらに自分なりに解釈するとなると、公平性の観点からも看過できません。

松永:それらの問題点を解決するのが、「議事録スマート・スピーカー(ISAC)」です。複数話者の文字起こしを可能にする会議ソリューションで、会議出席者の特定および複数話者が同時に会話するシーンでの発話内容のテキスト化を可能にし、「誰が何を話したのか」を記録します。最先端の音声処理、画像処理、Cloud技術を組み合わせた世界初のソリューションです。

 


議事録スマートスピーカー(ISAC)開発の背景

嶋田:2年半ほど前に、某社のスマート・スピーカーが日本でも発売され、実際に使ってみたところ、言葉のやり取りの面で改善の余地があると、漠然と感じていました。 その時、前職で、会議に若手社員が議事録を取っていた時、会議に出席はしているものの、参加はできていないこと、議事録の精度も人により左右されることを悩んでいたことなどを思い出し、エンジニアの松永さんに相談したところ、面白い!と開発が始まりました。
まさか実現できるなんて思っていなかったので、嬉しい限りです。

松永:将来的に会議の場では議事録以外にもプロジェクターへの資料投影を音声で行うなど、個人を特定しないとなしえない機能が求められていると思いました。今回はその基礎になるソリューションですが、IBM のエンジニア、デザイナーに加え、ハードウェアのベンダー、音響特性のスペシャリスト、大学院生時代に勤務していた産総研など、組織を超えた人との繋がりと能力の結集の成果です。

議事録スマートスピーカーの特徴と想定するビジネス利用シーン

松永:前述の通り、話者を特定して文字を書き起こせること、複数話者が同時に話した場合も分話ができること、そして、ビジネスのためのAIであるIBM Watson のSpeech to Textを活用することで、複雑な業界用語や社内用語の聞き取りも可能になります。専門用語が飛び交う会議で必死に議事録を取っている若手社員に朗報です。

嶋田:ビジネスでの利用シーンは、「会議用議事録の作成」、話した内容がテキスト・データとして記録されるので「会話内容のデータマイニング」ができ、また、「ガバナンスが問われる会議や業務のモニタリング」にも有効です。モニタリングの例は、保険や投資などの窓口業務で、お客様とのやり取りが適切に行われているか、監査の際に、手作業でサンプリングして調べて提出する場合、かなりの工数がかかっていますが、このソリューションを使うと、全ての会話データから、必要な情報を検索するなどもでき、作業効率が格段に上がります。

今後の展開について

嶋田:昨今、物理的スペースで個人を認識してパーソナライズした体験が求められています。今回実現した、個人の特定と音声のインタフェースの基礎となる技術は、今後、様々な分野での利用が考えられます。

松永:例えば、会議中に、クラウドファイル管理サービスに保存されているファイルをプロジェクターに投影するには、誰が指示しているかなど、個人の認識と認証が必要です。登壇してファイルへのアクセス、投影、スライド送り、字幕などの自動生成ができるようになるかもしれません。このように音声で指示したユーザーの個人を特定できれば、様々なフィジカル環境でユニークなサービスの開発に繋がり、エンドユーザーの利便性を向上させることができます。こういったスマート・スピーカーが会議で必要な全ての機能を備え、PCなど持ち込む必要もない世界が来るのではないでしょうか。
IoT/画像解析/音声解析/クラウド技術や私たちの知見を元に、お客様の商品やサービスにお役立てしたいと考えています。

IBM Digital Makers Lab.とは

嶋田:2018年に発足したDigital Makers Lab.はIBMのテクノロジーと外部のテクノロジーを組み合わせて「世界初」「産業初」「地域初」のものづくりを目指すラボであり、お客様に新しい価値を提案しています。
ラボ立ち上げから3期目に入り、これまでに8つのソリューションを創出。世界の先端技術からソリューション、プロダクトまで幅広くトレンド・スカウティングし、2-3年先のビジネスの芽になるものづくりを目指してきました。今年は、Digital Makers Lab. 所属の柴山が特許出願に成功、私自身、プロジェクトで世界三大広告賞の入選を果たしました。 そしてCESInnovation Award 受賞は、まさに目指していた大舞台であり、我々の取り組みが評価されたこと大変嬉しく思います。 これからも、スタートアップのような大胆な発想とスピード感を持って、社内外のタレントとコラボしながら、ワクワクするもの、驚くもの、を開発し、社会課題を楽しく解決していきたいと思います。
 

 

すべての画像


会社概要

URL
https://www.ibm.com/jp-ja
業種
情報通信
本社所在地
東京都港区虎ノ門二丁目6番1号  虎ノ門ヒルズ ステーションタワー
電話番号
03-6667-1111
代表者名
山口明夫
上場
未上場
資本金
1053億円
設立
1937年06月