RAGのデータソースとしてPDF内の画像・グラフも学習可能に。ChatSenseがアップデート。スキャンPDFにも対応

株式会社ナレッジセンス

株式会社ナレッジセンスは、セキュリティ高い環境でChatGPTをRAG活用できる法人向けRAGサービス「ChatSense」を提供しております。この度、社内データを活用して簡単にRAGサービスを構築できる「追加学習」機能(RAG機能)について、
PDF内の画像・グラフについても学習される機能をリリースしました。これまでPDFをアップロードしてもテキスト部分しか学習対象ではありませんでしたが、今後はPDF内の画像やグラフについても学習ソースとなります。これにより、社内データを学習したチャットボットとしてChatSenseを活用する際に、決算資料やプレゼン資料などの、画像が多く含まれるPDFについても、精度高く回答することができるようになります。法人向けRAGサービスの詳細については以下をご確認ください。
https://chatsense.jp/function/rag-chatbot-service?utm_source=138

大企業の知的活動を最速にする株式会社ナレッジセンス(本社:東京都港区、代表取締役:門脇敦司、以下ナレッジセンス)は、チャットGPTを活用した法人向けRAGチャットボット「ChatSense」について、PDF内の画像・グラフ・フローチャート等も学習することができる機能をリリースしました。

rag pdf 画像 グラフ フローチャート 学習ソース 前処理rag pdf 画像 グラフ フローチャート 学習ソース 前処理

本日(2024年10月22日)、「追加学習」オプション加入済の全てのユーザーにリリースいたします。社内データでRAGできる「追加学習」(RAG)サービスは、今年始めにリリースされ、すでに多くのお客様にご利用いただいている機能です。RAGサービスへのご加入については、こちらよりお問い合わせ下さい。https://chatsense.jp/function/rag-chatbot-service?utm_source=138


RAG...Retrieval-Augmented Generation


■ 背景 ― 「PDF内の画像やグラフも、RAGの学習対象としたい」

ChatGPTは、自然な言葉でやりとりできるAIチャットボットです。ChatGPTは、業務効率化を目的として多くの企業で導入され始めています。ナレッジセンスの提供する法人向けChatGPTサービス「ChatSense」においても、セキュリティなど法人向けの強みが注目され、東証プライム上場企業を含む大手企業等、400社以上に導入されています。

ChatSenseでは、社内データをもとに生成AIが回答してくれる、「追加学習」機能(RAG)が人気の機能となっております。ChatSenseのRAGではこれまでも、PDF形式のファイルをアップロードすることは可能でした。しかし、PDF内に含まれるテキスト・表のみが学習対象という制約がありました。


そのため、ChatSenseをご利用中のユーザーからは、「PDF内の画像をどうしても学習させたいため、コストを掛けて手動で文字起こしする必要があり、手間になっている」というご要望を複数いただいておりました。


この度、PDF内の画像、グラフ、フローチャート等を学習できる機能をリリースしました。これにより、PDF内で、画像によって表現されている情報も、生成AIが回答可能になります。また、文字起こしされてないPDFファイル(いわゆる「スキャンPDF」)についても、RAGのデータソースにすることが出来ます。


■ ChatSenseを活用した、RAG精度の継続的な改善について

chatsense rag PDF内部の画像も学習可能にchatsense rag PDF内部の画像も学習可能に

1.PDF内の画像データも学習可能に

これまでのChatSenseでは、PDF内に含まれるテキスト・表データのみを学習対象にしておりました。この度のアップデートにより、PDFに含まれる画像データについても学習可能になります。


2.具体的な用途①

例えば、以下のような棒グラフで表現されたPDFデータについても、AIが読み取りやすい形式に自動で変換され、AIの学習対象となります。

chatsense rag pdf内のグラフも学習可能chatsense rag pdf内のグラフも学習可能


3.具体的な用途②

また、以下のようなフローチャートも学習し、AIが回答することが可能になります。

chatsense rag フローチャートも学習可能chatsense rag フローチャートも学習可能


4.具体的な用途③

また、紙データをスキャンしたPDF(OCR未処理)についても、学習対象となります。スキャンデータをアップロードするだけで自動で文字起こしされ、RAGの学習対象となります。


5.ユーザー負担なし。PDF内の画像が、自動で構造化される

この度のアップデートに伴い、ユーザー側で必要な作業はございません。これまで通りPDFファイルをアップロードすることで、自動的に画像が文字起こし・構造化されます。


■ ChatGPTに社内データを学習させる「追加学習」機能(RAG)について

社内データを読み込んでRAG活用できるragサービス社内データを読み込んでRAG活用できるragサービス

1.ChatGPTにもない独自機能 ― 自社データを取り込んだAIの構築 ―

ChatSenseの新機能「追加学習」プラグイン機能では、以下のファイル形式のドキュメントをアップロードし、それに基づいてAIが回答するよう設定が可能です。


アップロード可能な独自データ形式:txt, csv, xlsx, docx, pdf, pptx, html, URLで特定のページを指定

また、複数ファイルの読み込み可能、複数のAIの作成が可能、原稿用紙100万枚分までの学習が可能(上限の引き上げも相談可)です。



2.回答の参照元も必ず提示、AIの嘘を見抜く

ChatGPTのデメリットの一つには、回答生成に用いた情報が確認できない、という点があります。しかし、ChatSenseの追加学習機能 (RAG)では、回答に利用した社内データの参照を常に表示することが可能です。いつでも元のドキュメントを確認し、AIの回答をダブルチェックすることが出来ます。

読み込ませた社内データを参照してソースとして表示可能 chatgpt RAGサービス読み込ませた社内データを参照してソースとして表示可能 chatgpt RAGサービス

ChatSense「追加学習機能」(RAG)導入についての詳細は、以下の紹介ページをご覧ください。

https://chatsense.jp/function/rag-chatbot-service?utm_source=138


■ ナレッジセンスについて

ナレッジセンスは、企業のDXを加速し、あらゆる社員の生産性を向上させるため、法人向けChatGPTサービス「ChatSense」・事業コンサルティングを提供しています。ChatSenseだけでなく、生成AIに関する複数のサービスをリリースし、グローバルのユーザーに提供している実績がございます。ナレッジセンスでは、生成AIを活用して社員の業務効率を加速したい企業からのご相談をお待ちしております。

https://knowledgesense.jp/


ナレッジセンスは、生成AIを利用して社員の生産性を大幅に向上させ、デジタルトランスフォーメーションを推進するための活動に尽力して参ります。


以上


■ 会社概要
会社名:株式会社ナレッジセンス
本社:東京都港区六本木七丁目18番18号 住友不動産六本木通ビル2階
代表者:代表取締役CEO 門脇 敦司

設立: 2019年4月10日

事業内容:

・「ChatSense」および生成AIテストサービス「Ozone」などの企画・運営

・生成AIを活用したDX戦略コンサルティング

・社内外向けのソリューション開発

社内データ活用(RAG)

https://chatsense.jp/function/rag-chatbot-service

コードインタープリター

https://chatsense.jp/function/code-interpreter

画像読み込み

https://chatsense.jp/function/vision-understanding



本文中に記載されている会社名、製品・サービス名は、各社の登録商標または商標です。

すべての画像


会社概要

株式会社ナレッジセンス

20フォロワー

RSS
URL
https://knowledgesense.jp/
業種
情報通信
本社所在地
東京都港区六本木七丁目18番18号 住友不動産六本木通ビル2階
電話番号
-
代表者名
門脇敦司
上場
未上場
資本金
2600万円
設立
2019年04月