デジタルヒューマンを活用した新たな接客・コミュニケーションの共同実験を開始
NTTコミュニケーションズ株式会社(以下 NTT Com)、東映株式会社(以下 東映)および株式会社NTT QONOQ(以下 コノキュー)は、デジタルヒューマンを活用し、接客やコミュニケーションを行う実証実験(以下 本実証実験)を2023年3月9日より開始します。
本実証実験では、東映ツークン研究所のもつデジタルヒューマン技術※1で生成された”ビジュアル”とNTT人間情報研究所がもつモーションや音声を生成する技術により表現された”パーソナリティ”(ふるまいや音声)を掛け合わせることにより生み出された、リアリティのあるデジタルヒューマン「CONN(コン)」が、NTT Comのワークプレイス「OPEN HUB Park」※2で接客やコミュニケーションを行い、企業における新たな顧客接点としてのデジタルヒューマン活用の可能性を検証します。
- 1.背景
先進技術活用の検討が進んでいます。中でも、コンタクトセンターや店舗などの顧客接点において、チャットボットやバーチャルなキャラクターの導入が広がってきましたが、リアルな人との接点を求めるお客さまは依然として多く、さらなる普及に向けてはよりリアルな人間に近い動きやコミュニケーションが可能なバーチャルキャラクターが求められています。
このような背景をふまえ3社は、東映ツークン研究所のデジタルヒューマン生成技術とNTT人間情報研究所が開発した「モーション生成AI技術」※3「音声合成AI技術」※4を連携させることで、より人間に近い自然なふるまいができるデジタルヒューマン「CONN」を生み出しました。「CONN」は「OPEN HUB for Smart World」(以下 OPEN HUB)※5において接客・コミュニケーションを行う「デジタルカタリスト」※6として活動することで、これまで主にエンターテイメント分野で展開されてきたデジタルヒューマンの、企業における新たな顧客接点としての活用の可能性を検証します。
- 2.本実証実験の概要
(1)「CONN」の生成
①ビジュアル
実在のカタリスト9名の顔を、東映ツークン研究所の最新版の「LightStage(ライトステージ)」※7にてスキ ャンし、CGによりリアルな人間(デジタルヒューマン)を生成する技術を活用して生成
②パーソナリティ(ふるまい、音声)
実在するカタリストのモーションキャプチャデータと音声データをNTTグループが開発するAIエンジンに学習させ、カタリストのふるまいと声の特徴を再現
③ビジュアルデータとパーソナリティデータの融合
NTT Comが開発した、独自ソフトウェアの活用により、生成したビジュアルデータとパーソナリティデータの特徴点を組み合わせ、学習済みのプログラムをもとに、モーション生成/音声生成を行うことで、「CONN」の3DCG※8化を実現
(2)「CONN」による「OPEN HUB Park」案内
「CONN」自らが思考しているかのように、表情やふるまい、声のトーンなどをお客さまとの対話の中で柔軟に変化させ、自然なコミュニケーションをしながら「OPEN HUB Park」内の以下のゾーンを案内します。
① レセプションゾーン
7つのLEDモニターとARグラス上で「CONN」が「OPEN HUB Park」のコンセプトをご紹介
② プレゼンゾーン
等身大のモニターに「CONN」が登場し、巨大LEDモニター上に表示される映像コンテンツの説明を行うとともに、お客さまとインタラクティブな会話を楽しめる簡単な質疑応答も実施
③ ライブラリーゾーン※9
ARグラス上にSmart Worldの取り組みを象徴する動物たちが登場し、「OPEN HUB Park」内のライブラリーゾーンをご案内
(3)「CONN」が複数のデバイス間をシームレスに移動
ARグラスや7つのLEDモニター、等身大のモニター上に、それぞれのデバイス用に最適化された3DCGの「CONN」が登場し、さまざまなコンテンツを提供します。
- 3.各社の役割
・ 東映:「デジタルカタリスト」の監修、制作、システム構築
・ コノキュー:ソフトウェア開発および実証実験内容の検討、ビジネス展開に向けた検討
- 4.本実証実験の開始日
- 5.今後の展開
※1 デジタルヒューマン技術は、高精細スキャン、モーションキャプチャを活用し、3DCGと先端テクノロジーを組み合わせて、写真のようにリアルな人物を創り出すことができます。
※2 「OPEN HUB Park」は、NTT Comが2022年2月に開設した最先端技術を備えたワークプレイスです。
※3 「モーション生成AI技術」は、NTT人間情報研究所にて研究開発中の技術で、特定の人物の発話とその時のモーションのデータから構築されたモーション生成モデルにより、その人物の発話音声のみから対応する「特定の人物らしいモーション」を自動で生成する技術です。
※4 「音声合成AI技術」は、NTT人間情報研究所が開発した技術で、Deep Neural Network技術と多数話者の音声のデータベースを活用し、特定の人物の少量の音声データから、その人物の話者性を保ったまま高い肉声感をもつ明瞭で自然な音声を合成することができます。
※5 「OPEN HUB」は、NTT Comが、お客さまやパートナーの皆さまと新しい事業コンセプトを共創し、社会実装するために2021年10月に開始した事業共創プログラムです。
※6 「OPEN HUB」において、企業のみなさまとともに共創を行う社内外の専門家を「カタリスト」と呼び、2023年2月現在、約400名が在籍しています。「デジタルカタリスト」は、東映ツークン研究所の技術とNTT人間研究所の技術の掛け合わせにより誕生したデジタルヒューマンのカタリストです。
※7 「LightStage」は、人間の顔のスキャンシステムで、天球状に設置された多数の照明をコントロールしながら撮影することで、形状だけでなく、質感までも高精細に再現することができます。
※8 3DCGとは、「3 Dimensional Computer Graphics」の略で、3次元空間で物体を立体として平面上に表現する手法です。
※9 ライブラリーゾーンでの「CONN」の案内は、本実証実験開始当初は実装せず、今後実装予定です。
本件に関する報道機関からのお問い合わせ先
NTTコミュニケーションズ株式会社
ビジネスソリューション本部 事業推進部
openhub-pr@ntt.com
東映株式会社
ツークン研究所
zukun@toei.co.jp
株式会社NTTコノキュー
XRコマース担当
info-xr-commerce @ml.nttqonoq.com
すべての画像