画像認識世界最高峰の学会、CVPR2024のコンペ「Ego4D EgoSchema Challenge」でパナソニック コネクトが世界で第2位の評価を獲得
パナソニック コネクト株式会社(本社:東京都中央区、代表取締役 執行役員 プレジデント・CEO:樋口 泰行、以下、パナソニック コネクト)は、画像認識世界最高峰の学会、CVPR2024のコンペ「Ego4D EgoSchemaChallenge(※1)」にて3分間の動画を見て、「映像の中の人物の行動から、人物が何をしようとしているのかを推測してください」等の質問に対する最適な回答を5つの選択肢から選んでAI認識技術で回答するタスク(Video Question Answering:VideoQAタスク)に取り組み、開発した生成AIマルチエージェントシステムにより正解率71%を達成し、世界で2位の評価を獲得しました。
■開発の背景
静止画を認識する能力と異なり、動画の内容を理解して質問に答えるためには、長時間の動画の中で時間の経過に伴い変化する様々な動きの中から重要な行動やその目的を認識して判断し、同時に言語で表現された質問文と回答文を解釈する必要があり、動画と言語の相互理解を行う高度な技術開発が求められます。
パナソニック コネクトでは、2021年の同学会で受賞歴のある動画を用いた行動予測タスクの研究開発経験(※2)を活かし、動画と自然言語処理の融合領域であるVideo Question Answeringタスクにチャレンジしました。
■今後の展望
これまでの画像認識技術は、人がいること、モノがそこにあること、人の手で何かを持っているといったその場、その時の事象を把握することに限られていましたが、今回のAIマルチエージェントシステムの開発を通じて、長い動画の内容を過去からの経緯を理解して推測、判断することが可能になります。なぜ人がそこにいるのか、それを持っているのか、何をしようとしているのか、を把握することで、人が次に取るべき行動の推奨や、過去から今に至るまでの一連の行動の中から修正や改善が望まれる行動の抽出に活用できるようになると考えています。
例えば工場のものづくりの工程の中で非効率な作業を把握し、工程の見直しが可能となるため、製造の現場の改善につながります。今後は、パナソニック コネクトが事業領域として注力しているサプライチェーンの領域、製造、物流、流通の現場でのAIマルチエージェントシステムの活用を視野に、さらなる開発に取り組んでまいります。
※1 一人称視点の動画と、動画に関する質問文、質問に対する5つの回答文選択肢が与えられ、動画に関する質問文に対して最も適した回答文を選択すること(Video Question Answering:VideoQAタスク)を競う大会です。
※2 世界最高峰の画像認識国際学会 CVPR2021のワークショップの一つ
全文は以下プレスリリースをご覧ください。
▼[プレスリリース]画像認識世界最高峰の学会、CVPR2024のコンペ「Ego4D EgoSchema Challenge」でパナソニック コネクトが世界で第2位の評価を獲得(2024年7月16日)
https://news.panasonic.com/jp/press/jn240716-1
<関連情報>
・パナソニックが、「EPIC-KITCHENS-100 2021 Challenges」コンテスト動作予測部門で、準優勝(2021年7月9日発表)
https://news.panasonic.com/jp/press/jn210709-1
・Egocentric Live 4D Perception (Ego4D)
・視覚と言語情報を同時に扱うAIマルチエージェントシステム ソースコード(GitHub)
https://github.com/PanasonicConnect/VDMA
・視覚と言語情報を同時に扱うAIマルチエージェントシステム テクニカルレポート(arXIV)
https://arxiv.org/abs/2407.03610
・パナソニック コネクト株式会社 ウェブサイト
・パナソニック コネクト Newsroom
https://connect.panasonic.com/jp-ja/newsroom
・パナソニック コネクト DEI(Diversity, Equity & Inclusion)
https://connect.panasonic.com/jp-ja/about/sustainability/dei
【差し替え】2024年7月16日
「AIマルチエージェントシステムを用いたVideo Question Answering の仕組み」イメージ画像を差し替えました。
すべての画像