株式会社リコーへドキュメント読み取りに対応したLLM開発に必要な独自データを作成し提供

国内企業のIR情報や帳票フォームの収集及びアノテーション業務を通じGENIAC第2期を支援

FastLabel

Data-centric AI[※1]開発に必要なデータ収集・生成からアノテーション、モデル開発、DataOps構築までの全工程を支援するFastLabel株式会社(本社:東京都新宿区、代表取締役CEO:鈴木健史、以下「当社」)は、株式会社リコー (本社:東京都大田区、社長執行役員:大山 晃、以下「リコー」)へ、日本企業の図表を含むドキュメントの読み取りに対応した LMM の基本モデルの開発に必要な、独自のデータを作成し提供したことをお知らせします。

[※1] Data-centric AI:AIのデータセットを改善することでモデルの精度改善を実現するアプローチ

今回の当社が支援したデータ作成と提供は、経済産業省・NEDOが実施する国内における生成AI開発力強化を目的にしたプロジェクト(以下、GENIAC)[※2]」の第2期(2024年10月発表[※3])の中で行われ、リコーによるきめ細かな画像認識を必要とするビジネス文書の読解精度を高めた独自のLLM開発に活用されました。

[※2] GENIAC(Generative AI Accelerator Challenge):GENIACは、主に生成 AI のコア技術である基盤モデルの開発に対する計算資源の提供や、データエコシステムの構築や、生成 AI の利活用に向けた先進事例創出に関する支援等が行われます。

 

[※3]リコーの発表:https://jp.ricoh.com/release/2024/1017_1

【LLM開発に際しての課題

今回のリコーによるLLM開発は、以下の課題を踏まえてプロジェクトを進行しました。

企業内文書活用の限界:企業には請求書、経営資料、技術文書など多様な形式の文書が蓄積されていますが、従来のテキスト検索では意図した結果が得られず、効果的な活用ができていません。

労働環境の変化への対応:労働力減少、ベテラン社員の退職による技能継承問題、外国人労働者増加に伴う多言語化ニーズなど、企業が直面する経営課題への対応が求められています。

既存AI技術の技術的制約:既存のLLMでは、図表や画像を含む複雑なビジネス文書の読解精度が不十分で、企業知の高度活用に限界があります。

【当社の支援内容

当社では、上記の課題を解決につなげるアプローチとしてリコーへ以下の支援を行いました。

国内企業のIR情報の収集:モデルのベンチマークとして活用するために国内企業のIR情報を対象にグラフや表を中心に1万件以上のデータ収集を行いました。

帳票フォームの収集:モデルに取り込むデータとして省庁や市区町村が発行している帳票フォームを、商用化も対象にした著作権規約を確認した上で数千件の単位でデータ取集を行いました。

収集したデータへのアノテーション:収集した多様かつ複雑な帳票に対して要件定義を行いながらアノテーションの具体的な方法を定めて作業を実施しました。

【プロジェクトの成果

最終的に今回のリコーのプロジェクトでは、以下のような成果が上がっています。

学習用データの人工生成:モデルの開発に際し、文字/円グラフ/棒グラフ/フローチャートなどの視覚データ合計600万枚以上を人工生成することで、大量の学習用データの整備が可能となり、モデルの性能向上に寄与しています。

省コスト・省リソースでの運用:今回のモデルではアーキテクチャを改良する独自技術と大量の人工データによる学習を組み合わせており、同規模のオープンソースモデルを凌ぐ性能を確保しながら、省コスト・省リソースでの運用を実現しています。

プライベートモデルの性能向上:保険業務に対応するように学習を行なったモデルでは基本モデルに比べて顕著に性能が向上しました。今後、保険業務に関する規定、マニュアル、Q&Aデータなどを学習させて実用化に向けた開発を行なっていく予定です。

当社では今回の事例をはじめとしたLLMの開発を行う企業に、AI開発のデータ作成という観点で質の高い支援を引き続き行なってまいります。

【リコー リコーデジタルサービスBU AIサービス事業本部 本部長 梅津様より本支援に関する所感

FastLabel様には学習・評価に使えるデータの大量収集とアノテーションを実施いただきました。これら質の高いデータにより、モデル開発が加速し、ベンチマークの公開も可能になりました。誠にありがとうございます。今後も連携により、AI研究開発をさらに加速させていきたいと考えておりますので、引き続きよろしくお願いいたします。

【当社事業について】
当社は「データセット提供」、「アノテーション代行」、「モデル開発支援」、「FastLabel Data Factory」など、AI開発を行うお客様に向けたトータルソリューションを提供しています。

データセット提供:権利クリアかつ高品質な各種データの収集、販売を行います。ストックの提供や新規撮り下ろしにも対応しています。
アノテーション代行:あらゆる非構造化データに対応し、弊社独自の品質管理によりデリバリー品質 を担保しています。ドメイン知識が必要な仕様にも対応可能です。
モデル開発支援:画像や動画の撮影条件や正確性/統一性を読み解きながらモデルの学習・評価を実施し、評価結果を精度向上につなげていきます。
FastLabel Data Factory:データ収集・管理、アノテーション、モデル開発までワンストップで提供するSaaSです。DataOps構築を実現し教師データ準備を大幅に効率化できます。

当社は各業界リーディング企業への豊富な支援実績を有し、権利クリアかつ高品質なデータ作成に強みを置いております。豊富な経験を通して培ったアノテーション仕様作成をはじめとしたAI開発のノウハウで、今後も多くのお客様を支援してまいります。

【当社の概要について】
社名:FastLabel株式会社
代表者:代表取締役CEO 鈴木健史
事業内容:Data-centric AI開発を支援するプロフェッショナルサービスとプロダクトの提供
設立:2020年1月23日
本社所在地:〒163-0224 東京都新宿区西新宿2-6-1  新宿住友ビル24階
URL:https://fastlabel.ai/

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


ダウンロード
プレスリリース素材

このプレスリリース内で使われている画像ファイルがダウンロードできます

会社概要

FastLabel株式会社

30フォロワー

RSS
URL
https://fastlabel.ai/
業種
情報通信
本社所在地
東京都新宿区西新宿2-6-1 新宿住友ビル24階
電話番号
-
代表者名
鈴木健史
上場
未上場
資本金
1億円
設立
2020年01月