東洋経済新報社とVisual Bank　生成Al向け学習用データに関するデータパートナーシップ契約を締結

東洋経済の保有するテキストデータ等を『Qlean Dataset』において、LLM／生成Al／マルチモーダルAl向けのAl学習用データとして提供開始

株式会社東洋経済新報社

2024年11月28日 13時00分

　株式会社東洋経済新報社（東京都中央区、代表取締役社長：田北浩章、以下「東洋経済新報社」）はVisual Bank株式会社（東京都渋谷区、代表取締役CEO：永井真之、以下「Visual Bank」）傘下の株式会社アマナイメージズ（以下「アマナイメージズ」）を通じて、データパートナーシップ契約を2024年11月19日に締結したことをお知らせします。

　東洋経済新報社の有するテキスト等の大規模データを、Visual BankのAI学習用データセット開発サービス『Qlean Dataset（キュリンデータセット）』を通じ、AI学習用途に対して販売開始します。

　本契約締結により東洋経済新報社の有する膨大なテキスト、グラフ等のデータを日本のAI開発現場に届け、日本のAI開発が加速・発展することに貢献していきます。

背景

●AIの隆盛と良質な日本語コーパスの必要性

　人工知能（AI）技術の進化のスピードは著しく、社会・生活の様々な場面に活用されています。特に2022年以降は生成AIやマルチモーダルAIの技術革新が注目を集めています。LLM（大規模言語モデル）のハルシネーション逓減を含めた自然言語処理技術の向上において、豊富かつ良質な学習用データセットは不可欠です。しかし、グローバルで英語を用いたLLMの研究開発が進む一方で、日本においては信頼性の高いテキストデータを大量に入手する手段が限られており、日本語の独自LLMの開発は依然としてデータの質と量がボトルネックになっています。代表的な日本語公開コーパスとしては、CC-100、mC4、OSCAR、Swallow Corpus等がありますが、品質のばらつきもあり、学習データとして利用するためにはデータのクリーニングなどの前処理が必要になります。

●テキスト、グラフ等の大規模データ提供による、AI開発現場の支援を目指したデータパートナーシップ契約

　こうした背景の中、東洋経済新報社とVisual Bankは、AIの研究開発におけるデータの多様性と品質を確保し、イノベーションを加速させることを目的とし、日本市場に向けたAI学習用のテキスト、グラフ等の大規模データの提供を開始します。LLM・生成AI・マルチモーダルAIでの活用を念頭に、良質で信頼性の高い日本語コーパス等を提供することで、日本におけるAIの研究開発を支援していきます。

データパートナーシップ契約の内容

本契約は、東洋経済新報社の有する良質でクローズドなテキスト、グラフ等のデータを、Visual BankのAI学習用データセット開発サービス『Qlean Dataset（キュリンデータセット）』を通じて販売開始するものです。AI開発企業や研究機関に対して提供し、LLM／生成AI／マルチモーダルAIの学習用途にご利用いただくことを想定しています。

Qlean Dataset（キュリンデータセット）とは

AI開発の加速を支援するために、高品質かつ権利クリアなデータセットを開発するサービスで、40年にわたり権利許諾のノウハウを持つアマナイメージズが提供。画像・映像・テキスト・音声・3Dなど多領域の「権利許諾済みデータベース」を基盤にデータセットを開発し、利用に応じた対価をデータ権利者に還元。本契約では、データセットの企画・開発と販売機能を提供。
https://qleandataset.amanaimages.com/

「東洋経済オンライン」及び「会社四季報オンライン」を含む東洋経済新報社が提供・公開している記事・テキストデータベースは、東洋経済新報社の著作物で、日本の著作権法や国際条約などで保護されており、かつ、『Qlean Dataset』を通じてAIの学習用に有償で提供しているデータとなります。スクレイピングやクローリングなどいずれの方法を問わず、無断でのAIの学習利用を禁止致します。万が一、無断利用が発覚した際は、著作権の侵害として法的措置を含め厳正に対処します。

各社コメント

Visual Bankグループ　株式会社アマナイメージズ　代表取締役CEO：望月　逸平様

　日本において生成AI・LLMの研究開発が急ピッチで進行しています。そのなかで、良質なテキストやグラフデータを求める声は多く聞かれます。東洋経済新報社様とのデータパートナーシップ契約により、東洋経済新報社様の有する貴重な素材を『Qlean Dataset』を通じてAI開発現場に届けることで、新たなテクノロジーやユースケースが創出される一助になることを目指します。Visual Bankグループは、今後も適切な権利処理・用途管理・対価還元のもと、クローズド・データのAI学習用としての社会での利活用を推進し、安心・安全なAI開発を裏側から支援していきます。

『Qlean Dataset』：　https://qleandataset.amanaimages.com/

株式会社東洋経済新報社　取締役：廣田　充彦

　この度はVisual Bank様にお力添えをいただき、「東洋経済オンライン」や『週刊東洋経済』に掲載している記事などをご提供させていただくこととなり大変有り難く思います。AI規制が進むなかで、法的に問題がないことが明らかな学習用データを提供している『Qlean Dataset』の存在が重要性を増しており、その充実に微力ながら貢献して参ります。

【Qlean Dataset × 東洋経済新報社のサービス概要】

特設LPはこちらをご覧ください。
https://qleandataset.amanaimages.com/toyokeizai

●特長

①東洋経済新報社の過去20年以上の記事テキスト、グラフデータの提供

②LLM／生成AI／マルチモーダルAIの学習用データに使用可能

③専門的なインストラクションデータも作成可能

【LLM（大規模言語モデル）／生成AI／マルチモーダルAIにおける想定ユースケース】

●LLMの開発

高品質な日本語コーパスを利用した汎用性の高いLLM開発、ファインチューニング

経済領域での特化型のLLM開発、ファインチューニング

●図表×テキストのマルチモーダルAIの開発

IR資料、決算資料に関連するマルチモーダルAI