ナレッジベース構築プラットフォーム「Toposoid」が英語文章に対応。日本語、英語の同時推論も可能に。
DX時代の新しいプラットフォームは、言語を超えて世界をつなげる。
URL: https://toposoid.com
GitHub: https://github.com/toposoid/toposoid
■ 今回のバージョンアップにより、改善した点
- 日本語同様、英語の文章を入力するだけで、ナレッジデータベースが構築できます。
- 英語と日本語のナレッジを同時に文章を入力するだけで、ナレッジベースに問合わせできます。
- 日本語同様、自然言語処理で有用な固有表現、類義語、数量表現も自動抽出しナレッジベース構築します。
■ ナレッジベース活用の背景と「Toposoid」の取り組み。
◯加速的に増加するデータ 2025年までに180ゼタバイト
ドイツの調査企業Statistaによれば、データ生成量は2025年までに180ゼタバイトを超えると予測されており(※1)、2020年よりも約118.8ゼタバイト多くなりました。1ゼタバイトは、1兆ギガバイトに相当します。私たちは急激に増加するデータから必要な情報を得る手段が必要です。
◯正しさが担保された情報の必要性
米国の法律事務所ReadSmithの調査によれば、COVID-19パンデミックの開始時にサイバー詐欺は開始前に比べて400%増加したことを報告しています(※2)。どういう状況であっても個人ユーザーや企業の責任者は、インターネット上の偽の情報を認識する必要があります。
◯非構造化データの重要性
非構造化データとは、テキスト、音声、画像、動画など構造化されていないデータのことであり、高度な分析技術が必要になるため、一般的には分析が困難になります。米国調査企業IDG社が出版するCIOによれば、現状生成されるデータの80〜90%は構造化されていないと報告しております(※3)。ただし、米国の経済誌Forbesによれば、企業の95%は非構造化データを管理する必要性をビジネスの問題として挙げていると報告しております(※4)。
上記のような課題に対し「Toposoid」では、非構造化データである文章データをそのまま知識グラフ化して分析可能なナレッジベースを構築します。また、「Toposoid」では、単純なキーワード一致の検索ではなく構築されたナレッジベースからできるだけ論理的に正しいと推測される結果を返します。今後「Toposoid」は大規模データ、高負荷に耐えられる商用向けクラウドサービス開発も進めてまいります。現在「Toposoid」Community Edition(https://github.com/toposoid/toposoid)はApache-2.0 LicenseのOSSとして提供しておりますので、どなたでもご利用いただけます。
■ 引用
(※1)https://www.statista.com/statistics/255968/global-big-data-market-growth-forecast/
(※2)https://www.reedsmith.com/en/perspectives/2020/03/coronavirus-is-now-possibly-the-largest-ever-security-threat
(※3) https://www.cio.com/article/220347/ai-unleashes-the-power-of-unstructured-data.html
(※4)https://www.forbes.com/sites/rkulkarni/2019/02/07/big-data-goes-big/?sh=562fe28b20d7
■ 【会社概要】
- 会社名:Linked Ideal合同会社
- 所在地:東京都立川市錦町1-4-4 サニービル2F CS-109
- 代表社員:久保寺誠
- 設立:2021年4月
- 事業内容:人工知能を活用したデータ分析
- URL:https://linked-ideal.com/
- Toposoidに関するお問合せ::https://toposoid.com/contact
- Linked Idealに関するお問合せ: https://linked-ideal.com/contact
すべての画像