D-ID、LLMと連携しリアルタイムな対話が可能なAIアバターの新版、「V4 Expressive Visual Agents」を発表

～企業ユーザー向けの長尺動画コンテンツの生成にも対応～

D-ID

2026年3月18日 09時34分

（2026年3月16日、ニューヨーク発）商用グレードのAIアバターソリューションを提供するD-IDは本日、大規模言語モデル（LLM）と連携したリアルタイムの会話および、台本に基づく長尺の動画コンテンツの生成に対応する、次世代の超高精細デジタルヒューマン「V4 Expressive Visual Agents」を発表しました。

新たな拡散モデルを基盤とし、実在の俳優の演技データを学習したV4 Expressive Visual Agentsは、生成速度の向上、低遅延（0.5秒未満）の対話応答、最大4K解像度での高精度なリップシンク（音声と口の形の同期）を実現します。これにより、企業が求める品質を満たした、表情豊かで自然なインタラクションを安定的に実装できるようになります。

V4 Expressive Visual Agentsは、本日より1500社のエンタープライズ顧客と数百万規模のユーザー向けに提供を開始しました。今回のモデルは低遅延配信に特化して設計されているため、リアルタイムの対話体験に加え、研修モジュール、説明動画、多言語教育コンテンツといった長尺コンテンツにも適しています。これまでに、D-IDの従来モデルを活用して80万体以上のビジュアルエージェントと3億以上の非対話型アバターが作成されてきました。V4 Expressive Visual Agentsは、月額5.90ドルから利用可能なすべてのD-IDプランで利用可能です。

外部調査によれば、人間らしい表情の手がかりは、知識の伝達、記憶の定着、理解度の向上に寄与することが示されています。こうした背景から、企業はオンボーディング、研修、顧客エンゲージメント、社内コミュニケーションなど、とりわけ明確さ、信頼性、一貫性が重視される領域において、高精細アバターの導入を加速させています。

V4 Expressive Visual Agentsは、選択した感情トーンに応じて表現を動的に一致させる、初の高品質かつ表情豊かなアバターです。これにより、トーンと意図がメッセージ内容と整合し、自然な間や強調を伴って、メッセージをより明確かつ自信を持って伝えることができます。さらに、AIシステムのビジュアルインターフェース層として設計されており、一方向の動画再生ではなく、リアルタイムでの双方向コミュニケーションを可能にします。LLMが応答する際、アバターは文脈や感情に応じて表情や話し方を自動的に調整するため、共感はより深く、緊急性はより切迫感を持って、自信はより自信を伴って伝わります。これにより、顧客向けエージェントと従業員向けエージェントの双方において、より自然で信頼性が高く、効果的な体験を実現します。

また、V4 Expressive Visual Agentsには、話し相手の感情認識を可能にする任意のカメラレイヤーが追加されています。これにより、非言語的な手がかりがLLMの応答とアバターの表現の双方に反映され、声のトーンや表情にも生かされます。加えて、会話中に画像、グラフ、動画といった文脈に応じたビジュアルや、フォーム、クイズなどの構造化されたインタラクションを、D-IDのMCP Appsを通じてインライン表示できます。

数秒の短尺クリップの生成に最適化されたショートフォーム動画の生成ツールとは異なり、V4 Avatarsは継続的かつ一貫した出力を行うことを前提に設計されています。企業は、安定したアバターのアイデンティティを維持したまま数分から数時間におよぶ動画を生成できるほか、大規模なリアルタイム会話も運用できます。動画制作にかかるコストはGoogle VEO 3 Fastと比較して約70分の1に抑えられ、講座、説明動画、多言語研修、継続的なコンテンツシリーズの制作において、はるかに高い費用対効果を発揮します。リアルタイム対話ではその効果がさらに大きく、D-IDの利用コストは1チャットあたり数セント程度です。

「静止画を話すポートレートへと変え、世界を驚かせた最初のモデルから、私たちは大きく進化してきました」（D-ID共同創業者兼CEOのGil Perry）。「今回のV4により、リアルタイム会話に十分な高速性を保ちながら、アバターの忠実度とパフォーマンスにおける新たな基準を打ち立てます。さらに、エンタープライズ規模に求められる一貫性、効率性、セキュリティも備えています。このアバター技術の進化により、企業がより自然で人間らしいインタラクションを求める次世代のAI導入において、D-IDはビジュアルインターフェース層を提供する先導的存在としての地位を強化します」。

D-IDは、2025年9月のsimpleshow買収後、エンタープライズ向けの販売網を拡大するとともに、simpleshowの企業研修および説明動画エコシステムに自社のAIアバター機能を統合してきました。以降、D-IDの年間経常収益（ARR）は250％成長しており、クロスセルの拡大と、インタラクティブなAI駆動型動画に対する企業需要の高まりを反映しています。

D-IDについて

D-IDは、動画およびデジタルヒューマン向け生成AIのグローバルリーダーです。Real-Time Streaming APIを通じて、シームレスなリアルタイム対話を実現し、Fortune 500企業からミッションドリブンな組織まで、リアルなデジタルプレゼンター、学習コンパニオン、バーチャルアシスタントを提供しています。

https://www.d-id.com

simpleshowについて

simpleshowは、AIベースの説明動画制作におけるグローバルパイオニアです。ベルリンに拠点を置くsimpleshowは、70カ国以上の組織に対し、スマートで拡張性が高く、人間中心の動画コミュニケーションを通じて複雑なメッセージをシンプルに伝える支援を行っています。

メディア関係者の問い合わせ先

日本語による問い合わせ

D-ID 日本PR担当

info@d-id.jp

英語による問い合わせ

Leah Stern

D-ID Press Office

press@d-id.com

関連資料