Insight Edge が LLM を用いたドキュメント解析ライブラリを開発
AI エージェント/RAG 向けに最適化したマルチモーダル解析基盤「Exparso」を OSS として公開
株式会社Insight Edge(本社:東京都千代田区、代表取締役社長:小坂 順一、以下当社)は、LLM(大規模言語モデル)を活用した Python のドキュメント解析ライブラリ 「Exparso(エクスパーソ)」 を OSS(オープンソースソフトウェア)として公開したことをお知らせします。Exparso は PDF・Office ファイル・画像などの非構造データをマルチモーダル LLM で解析し、RAG(Retrieval Augmented Generation)の検索精度と回答品質の向上を実現します。

背景
LLM を活用したテキストデータ解析が急速に普及するなか、RAG はその代表的な手法として広く活用されています。しかし、図表やフローチャート、手書き文字などを含むドキュメントから高精度な情報抽出と検索性の確保は、RAG システムの精度を左右する大きな課題となっていました。
当社では、住友商事グループをはじめとする様々な業界の DX プロジェクトに対する技術支援を通じて、現場の業務ドキュメントが多様であることや、その前処理がプロジェクトの成果に直結することを実感してきました。一方で、ドキュメント処理が属人的になりやすく、プロジェクトごとの品質や立ち上がり速度にばらつきが生じるという課題も明確になってきました。このように、当社では属人性を排除しつつ提供品質を平準化し、複数プロジェクトに共通して持続的な価値を提供できる基盤技術の必要性から、「Exparso」の開発に至りました。
「Exparso」の概要と特徴
Exparso は、以下のような幅広いドキュメント形式に対応した、マルチモーダル LLM ベースのドキュメント解析ライブラリです。
対応ドキュメント形式:
-
文書ファイル:PDF、Word、PowerPoint、テキスト、Markdown
-
画像ファイル:JPEG, PNG, BMP
-
表データ:Excel, CSV
主な特徴:
-
マルチモーダル LLM による高度な内容理解:ページ単位でドキュメントの種別(テキスト、グラフ、テーブル、画像など)を判別し、特性に応じたプロンプトを生成。これにより、テキスト情報だけでなく、図表の内容やフローチャートが示す意味まで解析が可能です。
-
多様な形式への対応と拡張性:ビジネスの現場で一般的に利用されるドキュメント形式を網羅。今後は HTML や動画ファイルへの対応も予定しており、解析対象を拡大します。
-
大容量ファイルへの対応:LLM のトークン制限を超えるファイルも、文書を適切に分割・処理。コンテキストを維持したまま情報を抽出し、長文文書でも高精度な理解を実現します。
-
柔軟な LLM 連携機能:LangChain に対応し、AzureChatOpenAI, ChatOpenAI, ChatVertexAI, ChatAnthropic など、利用環境に応じた LLM との連携が可能です。
-
RAG システムの検索精度向上に貢献:精度の高いテキスト抽出により、RAG システムでの検索対象データの品質が向上し、最終的な回答生成の精度向上に繋がります。
想定されるユースケース:
-
社内文書(報告書、契約書、マニュアル、議事録など)からのナレッジ抽出と検索システムへの活用
-
技術文書や研究論文など、図表やフローチャートを多用した文書の解析
-
手書き文字や複雑なレイアウトを含むの帳票(請求書、申請書など)からの自動データ入力支援
-
大規模なデータソースを活用した RAG システムによる基盤構築
入手方法
GitHub リポジトリ : https://github.com/InsightEdgeJP/exparso
※ Office ファイル解析には、別途 LibreOffice のインストールが必要です。
評価と今後の展望
社内での検証において、Exparso がフローチャートの読み取りや各種グラフ(折れ線・円グラフ)のテキスト化において高い性能を示しました。一方で、情報量が多い1ページでの出力安定性や、マルチモーダル LLM の利用トークン効率の最適化など、継続的な改善にも取り組んでまいります。
今後はさらなる機能追加や対応ドキュメント形式の拡充を進め、OSS コミュニティとの連携を通じて得られた知見やベストプラクティスの還元も推進します。Exparso は、より多くの現場におけるナレッジの共有と発展に貢献してまいります。
会社概要
株式会社Insight Edgeは、2019年、住友商事グループのデジタルトランスフォーメーション(DX)を加速する為の技術専門会社として設立されました。DXの推進に必要となるデータ分析、MVPなどの素早いシステム開発及び先端技術の取り込みから適用までをワンストップで行うべく、データサイエンティスト、ITアーキテクト等の先端技術エンジニアにより構成されております。
社名:株式会社Insight Edge
設立:2019年7月
代表:代表取締役CEO 小坂 順一
株主:住友商事株式会社(100%)
URL:https://insightedge.jp/
本件に関するお問い合わせ
Email :contact@insightedge.jp
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像