ナレッジベース構築プラットフォーム「Toposoid」がPDFドキュメントをナレッジグラフに一括変換する機能を追加。
AIガバナンスをデータからサポート。特許出願中。

Linked Ideal合同会社(本社:東京都立川市、代表社員:久保寺誠)は、PDFドキュメントに対応したナレッジベース構築プラットフォーム「Toposoid」バージョン0.6を、2025年7月29日(火)にオープンソースソフトウェアとして公開しました。また公開前に処理内容に関して特許出願を致しました。
URL: https://toposoid.com
OSSのURL: https://github.com/toposoid/toposoid
■追加機能の内容
これまでご要望の多かった「ドキュメントでのナレッジベース登録」を新機能として追加しました。
対応ドキュメントフォーマットはPDF、対応言語は日本語と英語です。今回の対応で「Toposoid」は、可能な限りPDFの文章、画像、表の関係性をナレッジグラフ化いたします。合わせて、タイトルの抽出、画像や表のラベル対応付け、目次、参考文献の分離も行います。昨今OCR技術も発達しPDFからのコンテンツ抽出は以前より容易になりました。しかし段組みやページの切れ目などを考慮したPDF解析には高度な技術が必要です。今回PDF解析にはAdobe社提供のPDF Extract APIを採用し(アカウント作成後一定の条件のもとで無料使用可能)、文章と画像と表データの関連をしっかりとグラフデータとして紐づけ、かつ構造的にまとまりのある文章のかたまりを認識してナレッジベースに格納することが可能となりました。そしてヒトにわかりやすい分割単位でのドキュメント要素のナレッジベース保存と検索の実現方法に関してを特許出願を致しました。

■課題
今回の新機能で既知の未対応内容。
-
縦書きのPDF
-
LaTeX等で描画された数式
-
一部の特殊なフォント
-
句点やピリオドのない文章の分割
-
パワーポイントが元資料であるPDFでの文章分割(ページ単位での分割は可能)
-
複数ファイルの一括登録
上記は、今後のバージョンアップでの改善を目指します。
■AIガバナンスに向けた布石
昨今生成AIの能力が高くなり、生成AIの社会実装が進んでおります。しかし一方で大規模言語モデル
(LLM)が、あたかも理解しているかのように振る舞うものの、実際の応用場面では概念を正しく理解・適用できていない状態が学術的にも指摘されております(※1)。AIもヒトと同様まだまだフォローアップが必要であり、そのためにもまずは生成AIに与えるデータの質向上が重要だと感じており、今回の「Toposoid」バージョンアップはそのアプローチとなりました。今後RAG(※2)としての利用も視野に改善していく予定です。
また生成AIの文脈では推論からのアプローチが世界中で注目されており技術革新に暇がない状況です。「Toposoid」では生成AIに帰納的推論を割り当て、演繹的推論を弊社の独自技術で実装して、お互いが協調して推論に取り組むように設計されております。今後AIにガバナンスが求められるフェーズにおいてこのような試みは重要となってくることが見込まれ、今後は推論強化も視野入れてバージョンアップをしていく所存です。
■ライセンスの変更
この度「Toposoid」の商用化を見据えて、ライセンスをApache-2.0からGNU Affero General Public License v3.0 or laterと商用ライセンスのDualライセンスに変更させていただきました。
■ 参考文献と用語説明
(※1) Potemkin Understanding in Large Language Models
(※2) RAG(Retrieval-Augmented Generation、検索拡張生成)とは、大規模言語モデル(LLM)に検索機能を組み合わせることで、生成AIの回答精度を高める技術です。これにより、LLMは自身の知識だけでなく、外部のデータベースや情報源から関連情報を取得し、より正確で信頼性の高い回答を生成できるようになります。RAGは、特に最新情報や専門知識を必要とする場面で、生成AIの活用を大きく広げる可能性を秘めています。
■ 【会社概要】
会社名:Linked Ideal合同会社
所在地:東京都立川市錦町1-4-4 サニービル2F CS-109
代表社員:久保寺誠
設立:2021年4月
事業内容:人工知能を活用したデータ分析
Toposoidへのお問合せ: https://toposoid.com/contct
会社へお問合せ: https://linked-ideal.com/contact
すべての画像