世界最大級のAI技術カンファレンス『NVIDIA GTC 2024』に弊社社員が登壇します
自然言語処理及び関連分野の研究開発や取り組みについて、博報堂テクノロジーズAI研究開発部に所属する社員が発表します。
本講演では、画像のタグ付け、画像検索、テキストからの画像生成、画像に対する質問応答など、幅広い応用が可能な、日本語に特化した視覚言語事前学習モデルの開発を紹介します。
【GPU Technology Conference(GTC)】
NVIDIA社が主催する、AI時代を牽引する技術カンファレンスです。ディープラーニングやデータサイエンス、HPC、ロボティクス、データセンター、ネットワーク、グラフィックスなどさまざまな分野での発表が行われます。 世界をリードするビジネスリーダーや開発者たちが一堂に会し、最先端の事例や技術を披露します。
GTC の一環として、日本のお客様向けスペシャルイベント「Japan AI Day」が最終日の3月22日(日本時間)に開催されます。
日時:2024年3月17日(日)~3月21日(木)(米国時間)
主催:NVIDIA
会場:ハイブリッド開催(米国 150 West San Carlos Street, San Jose, CA 95113、およびオンライン)
セッション数:650 以上のライブセッションとオンデマンドコンテンツ
参加対象者 : 企業のビジネスリーダー、IT 関連の責任者や担当者、開発者、研究者、学生等
公式サイト: https://www.nvidia.com/ja-jp/gtc/
登壇について
・登壇テーマ:日本語特化の視覚と言語を組み合わせた事前学習(VLP)モデルの開発
・登壇者:Zhi Wang
・所属:博報堂テクノロジーズプロダクト開発センターAI研究開発部
・登壇日時:Thursday, Mar 21 9:00 PM - 9:25 PM PDT (Friday, Mar 22 1:00 PM - 1:25 PM JST)
視覚と言語を組み合わせた事前学習(Vision-Language Pre-training、VLP)は、多くのタスクに対してFine-Tuningなしでも一定の性能を発揮します。特に、VLP モデルの一つである CLIP は、ゼロショットで教師あり ResNet-50と同等の画像分類性能を持つとされますが、その多くは英語向けであり、日本語特化CLIP での性能は 10 - 20 %劣ります。我々は、画像エンコーダと訓練データを約 8 倍大にし、さらに言語エンコーダの拡大を行うことで、日本語特化CLIPの性能を 14 %改善させることができました。これは OpenAI が公開する英語版CLIPの精度を 2 %上回るものであり、顕著な性能改善です。追加実験でハイパーパラメータの影響を調査し、大きなバッチサイズが性能向上に重要であることを明らかにしました。
プロダクト開発センター
博報堂テクノロジーズでAI研究開発を推進するプロダクト開発センターでは、広告におけるAIの研究開発からプロダクトの実装までを行っています。AIのエンジン部分からアプリケーションまでフルスクラッチで開発しており、広告業界に対しユニークなプロダクト・技術を打ち出しています。
博報堂テクノロジーズ
フルファネルマーケティング・生活者インターフェース市場・メディア・クリエイティブ領域をはじめとした各種テクノロジー戦略の立案・開発を行うテクノロジー専門会社。マーケティング×テクノロジーの力で、社会と生活者に新しい価値や体験を提供するテクノロジー戦略会社として、博報堂DYグループの開発体制を集結し、体制強化・進化を目的として2022年4月に設立。
Webサイト:https://www.hakuhodo-technologies.co.jp/
すべての画像