FastLabel、ストックマーク株式会社へ日本語特化型LLM開発に必要な独自データを作成し提供
ハルシネーションを抑止したドキュメント読解基盤モデルにおけるGENIAC第2期を支援 〜 本発表に関連した事例ウェビナーを6月4日(水)12時に開催 〜
Data-centric AI[※1]開発に必要なデータ収集・生成からアノテーション、モデル開発、DataOps構築までの全工程を支援するFastLabel株式会社(本社:東京都新宿区、代表取締役CEO:鈴木健史、以下「当社」)は、ストックマーク株式会社(本社:東京都港区、社長:林 達、以下「ストックマーク」)へ、ハルシネーションを抑止したドキュメント読解基盤モデルの開発に必要な、独自のデータを作成し提供したことをお知らせします。
[※1] Data-centric AI:AIのデータセットを改善することでモデルの精度改善を実現するアプローチ

今回の当社のデータ作成と提供は、経済産業省・NEDOが推進する国内生成AI開発プロジェクト(以下、GENIAC)[※2]」の第2期(2024年10月発表[※3])の中で行われ、ストックマークによる高い日本語能力と深いビジネス知識を併せ持ったビジネスドメインで信頼して活用できる複雑なドキュメント読解のためのLLM開発に活用されました。
[※2]GENIAC: 経済産業省が2024年2月に立ち上げた国内の生成AI開発力強化プロジェクト
[※3]ストックマークの発表:https://stockmark.co.jp/news/20241010
【日本のLLM開発における課題】
日本のLLM開発は主にデータと人員においていくつかの課題があります。
データの課題:日本語は英語圏に比べて公開データが少なく、特に高品質な公開データセット(書籍、論文、SNS、ニュース記事など)が限られていて、ライセンス面でも制約が多いです。また、日本語特有の表記揺れや曖昧さも多く、同じ言葉でも漢字・ひらがな・カタカナ・ローマ字の混在、文脈依存の意味変化や助詞・敬語表現の複雑さなど、モデルが学習しづらい要素が多いです。
人員の課題:日本国内においてLLM開発をリードできるAIエンジニア・研究者は限られており、実際に大規模なモデルの学習・運用を行った経験者が少ない中で開発を推進していかなければなりません。そのため、本質的な研究や開発の業務ではないデータ作成や収集に、限られた人員のリソースが割かれてしまうことは本意ではありません。
【当社の支援内容】
課題を踏まえ、今回当社ではストックマークへ以下の支援を行いました。
AI開発に必要なデータの作成:ストックマークが指定する数万枚のパワーポイントデータをテキストデータに変換しつつ、資料内に含まれる図版やグラフなどの意味や意図の読み取りを含めて実施。
GENIAC要件への対応:GENIACにおける当社の豊富な採択支援実績に基づき、審査基準を満たすデータ作成を支援。

【ストックマーク Senior Researcher森長様より本支援に関する所感】
この度は、FastLabel様へパワーポイントデータへの詳細なアノテーションデータの作成を依頼しました。本プロジェクトに際しては図や表、画像といったテキストで表現されていないデータの意味をどうモデルに学習させるかといった課題がありましたが、アノテーションにあたり、図や表、画像の意味や意図を可能な限り自然言語でテキストとして変換していただいたことで円滑に開発を進行できたと感じています。

【本プレスリリースに関連した事例ウェビナーのご案内】
開催日時:2025年6月4日(水)13時00分〜14時00分
タイトル:GENIAC 採択プロジェクトに学ぶ!LLM開発の現在地と課題解決のリアル
概要:GENIACの採択企業2社による研究テーマや成果、課題への具体的なアプローチを紹介
登壇者:ストックマーク株式会社、NABLAS株式会社、FastLabel 株式会社
参加費:無料
申し込み:https://fastlabel.ai/seminar/lp-20250604
【当社事業について】
当社は「データセット提供」、「アノテーション代行」、「モデル開発支援」、「FastLabel Data Factory」など、AI開発を行うお客様に向けたトータルソリューションを提供しています。
データセット提供:権利クリアかつ高品質な各種データの収集、販売を行います。ストックの提供や新規撮り下ろしにも対応しています。
アノテーション代行:あらゆる非構造化データに対応し、弊社独自の品質管理によりデリバリー品質 を担保しています。ドメイン知識が必要な仕様にも対応可能です。
モデル開発支援:画像や動画の撮影条件や正確性/統一性を読み解きながらモデルの学習・評価を実施し、評価結果を精度向上につなげていきます。
FastLabel Data Factory:データ収集・管理、アノテーション、モデル開発までワンストップで提供するSaaSです。DataOps構築を実現し教師データ準備を大幅に効率化できます。
当社は各業界リーディング企業への豊富な支援実績を有し、権利クリアかつ高品質なデータ作成に強みを置いております。豊富な経験を通して培ったアノテーション仕様作成をはじめとしたAI開発のノウハウで、今後も多くのお客様を支援してまいります。
【当社の概要について】
社名:FastLabel株式会社
代表者:代表取締役CEO 鈴木健史
事業内容:Data-centric AI開発を支援するプロフェッショナルサービスとプロダクトの提供
設立:2020年1月23日
本社所在地:〒163-0224 東京都新宿区西新宿2-6-1 新宿住友ビル24階
URL:https://fastlabel.ai/
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像