博報堂テクノロジーズ、機械学習・深層学習分野の国際会議「ICLR2025」に論文採択
~部分観測報酬に対するオフライン方策学習の新手法「HyPeR」を提案~

株式会社博報堂テクノロジーズ(東京都港区、代表者:米谷修)は、国際学会「ICLR 2025 (International Conference on Learning Representations)」において、当社の研究者が共著者として参加した論文「A General Framework for Off-Policy Learning with Partially-Observed Reward」が採択されたことをお知らせいたします。
博報堂テクノロジーズにて AI研究開発を推進するプロダクト開発センターは、 AIのエンジン部分からアプリケーションまでフルスクラッチで開発しており、広告業界に対しユニークなプロダクト・技術を打ち出しています。本論文は、プロダクト開発センターの研究開発活動の一環として、早稲田大学(武樋 力哉)、コーネル大学(齋藤 優太)との共同研究を通じて執筆されたものです。「ICLR」は「NeurIPS」「ICML」と並ぶ機械学習・深層学習分野の世界最高峰の国際会議の一つであり、毎年世界中から多数の最先端研究が投稿されます。
■研究の背景・本論文の概要
広告配信やレコメンドシステム、医療における治療選択など、多くの実世界のアプリケーションでは「どの行動を選択したか」という過去の意思決定と、それに対するユーザや環境からのフィードバックを大量に蓄積しています。これらの蓄積データを活用して「次にどの行動を選択することが最適であるか」を学習するオフライン方策学習(Off-Policy Learning, OPL)の研究が近年活発に進められています。しかし、実務や現場のデータではしばしば、報酬(例:購買や長期コンバージョン、視聴完了率など)が一部しか観測できなかったり、時間遅延や欠損が生じたりするなどの「部分観測」という問題が生じます。既存の手法ではこのような部分観測下での学習時に推定の分散(バラつき)が大きくなり、実運用で十分な性能が安定して得られないケースが課題となっていました。
この課題を解決するため、本研究では「HyPeR(Hybrid Policy Optimization for Partially-Observed Reward)」と呼ばれる新しい学習手法を提案しました。本手法は、ターゲットとして最適化したい主要な指標(例:購買・長期リテンションなど)が欠損や遅延を伴う状況においても、より頻繁に得られるセカンダリ指標(例:クリックや滞在時間などの補助的指標)を併用することで、安定的かつ高精度な方策学習を実現します。本研究は、特に以下の点で学術的・実務的に大きなインパクトを与えます。
-
部分観測を考慮した汎用フレームワーク
欠損や遅延、データ融合、複数段階報酬など、多岐にわたる部分観測の状況を一つの枠組みに集約し、理論的に整理。 -
セカンダリ報酬活用による高精度推定
セカンダリの補助情報を活用しつつも、真に最適化したいターゲット報酬に対する偏り(バイアス)を抑えた新しい推定手法を提案。シミュレーションおよび実データ実験の双方で性能向上を実証。 -
汎用性の高い実装
レコメンドや広告、マーケティング領域のみならず、医療やロボット制御など報酬観測が部分的であるあらゆる領域に応用が可能。
■今後の展望
本研究の成果により、広告配信における入札最適化やレコメンドシステムでのレイテンシ(遅延)を伴う成果指標など、部分観測が不可避な環境でも、より正確かつ安定的に新しいアルゴリズムの性能評価および学習が可能になると期待されます。さらに、医療領域における治療効果の遅延観測や一部患者のデータ欠損といったシビアな環境に対しても、安全性と有効性のバランスを取りながら最適な方策を探索できる可能性が高まります。
また、今回の提案手法はオフライン強化学習全般への発展が見込まれ、ロボット制御や自動運転など、長期にわたる複雑な報酬構造を持つタスクへの適用も今後期待されます。博報堂テクノロジーズは、これからも学術コミュニティおよび実ビジネスの場に対して積極的に貢献してまいります。
◆論文情報
-
論文タイトル: A General Framework for Off-Policy Learning with Partially-Observed Reward
-
著者: Rikiya Takehi (Waseda University), Masahiro Asami (HAKUHODO Technologies Inc.), Kosuke Kawakami (HAKUHODO Technologies Inc.), Yuta Saito (Cornell University)
-
学会: ICLR 2025 (International Conference on Learning Representations)
■開発部署:プロダクト開発センター
博報堂テクノロジーズのプロダクト開発センターは、AI技術の研究開発をリードし、エンジン部分からアプリケーションに至るまでの開発をフルスクラッチで手がけています。このセンターは、広告業界に限らず、多様な分野に革新的なソリューションを提供することを目指しています。
■博報堂テクノロジーズについて

フルファネルマーケティング・生活者インターフェース市場・メディア・クリエイティブ領域をはじめとした各種テクノロジー戦略の立案・開発を行うテクノロジー戦略会社。博報堂DYグループの開発体制を集結し、体制強化・進化を目的として2022年4月に設立。
・会社名:株式会社博報堂テクノロジーズ
・所在地:東京都港区赤坂5丁目3番1号
・事業内容:博報堂DYグループ/得意先の課題解決に向けての各種テクノロジー戦略の立案・
実施及び各種テクノロジー戦略のプロダクト・ソリューション・サービス開発
・会社URL:https://www.hakuhodo-technologies.co.jp/
■お問い合わせ先
・報道関係のお問い合わせ:博報堂テクノロジーズ広報窓口
hr-koho@hakuhodo-technologies.co.jp
すべての画像
- 種類
- イベント
- ビジネスカテゴリ
- マーケティング・リサーチシステム・Webサイト・アプリ開発
- ダウンロード