AI学習データ構築のバオバブ、 LLM（大規模言語モデル）の精度を高めるRAG用データセット作成サービスを開始　〜サンプルデータの無料配布も

株式会社バオバブ

2024年1月17日 15時00分

AI学習データの作成サービスを提供する株式会社バオバブ（本社：東京都渋谷区、代表取締役社長：相良美織、以下「バオバブ」）は、LLM（Large Language Model: 大規模言語モデル）に Retrieval-augumented Generation （RAG）を実装するためのデータセット構築サービスを2024年1月17日から提供開始するとともに、サンプルデータの無料配布もスタートします。

生成AIの不正確な出力をRAG（検索強化型生成）で低減

米OpenAI社の ChatGPT や Google社の Bard に代表されるLLM（Large Language Model: 大規模言語モデル）の研究開発は国内外で急速に進展し、官民学のあらゆる領域での活用が求められています。

LLMは流暢な文章生成能力や一般常識レベルの知識を獲得していることが期待される一方で、専門知識や非公開情報、事実性が重要視される文脈等において、時に作話や不正確な情報を提示してしまうハルシネーション（Hallucination) と呼ばれる傾向があり、生成AIの導入を検討する企業にとっては最も懸念するリスクの1つといえます。

バオバブはこの課題に注目し、2024年現在ハルシネーションを回避する有力な技術として重要視されている検索強化型生成（Retrieval-augumented Generation: RAG）をLLMに実装するためのデータセット構築サービスの提供を開始します。

RAG（検索強化型生成）とは

検索強化型生成（Retrieval-augumented Generation: RAG）はLLMとデータベース等の外部知識源を組合せ、知識源から得られた情報をユーザが入力するコンテキストと併用することで、正しい情報を出力したり、「適切な情報がない」という事実を回答できるようにする手法です。

LLMでRAGを利用するには、RAGを実施させるためのプロンプトの設計に加え、LLMをRAGのためにチューニングする高品質なデータセットを用意する必要があります。

RAG用データセットに含まれる情報

・ユーザの質問文

・知識源からユーザの質問に合致する情報を抽出するクエリ

・知識源から抽出された情報

・言語モデルの回答文

バオバブは10年以上に渡るテキストデータセット構築ノウハウを元に、タスクに特化したチームを編成し高品質なRAG用データセットを迅速に提供致します。また、自然言語処理のAI開発に関する豊富な実績と見識を持つ専門家による、LLM開発のコンサルティングも承ります。

サンプルデータ無料配布

RAG用データセット構築サービスの提供スタートに合わせ、サンプルデータを無料配布いたします。

サンプルデータの概要

・Wikipediaデータベースを用いたQAデータセット
・作成回答数：1150件

・作業日数：12日
・配布方法：下記よりダウンロードいただけます

サンプルデータセットをダウンロード

株式会社バオバブについて

バオバブは、創業以来ＡＩのための学習データ構築サービス事業を展開し、LLM（大規模言語モデル）向けのデータセット構築をはじめ、画像認識・対話シナリオ・マルチモーダル向けの多様なアノテーションサービスを提供しています。プロジェクトにあたる「パートナー（Baopart）」を独自に育成し、緻密な業務フローと組織、システムで実現する高品質の学習データは、国内外の大学、学術機関、研究所等から高く評価されています。

2023年には社会的・環境的課題の解決や新たなビジョンの実現と、持続的な経済成長を目指す企業として経済産業省からJ-Startup Impactの1社としても選定されました。

これからもバオバブは、社会・顧客の課題解決を担う高品質なAIモデルに欠かせない質の高い学習データを提供し、「誰もがその人らしくいることが受け入れられ、人生の選択肢が開かれている社会」を目指します。