ISID、文書活用AIソリューション「TexAIntelligence」最新版を提供開始
~解釈性向上・不均衡データ対応・辞書作成支援機能を搭載~
株式会社電通国際情報サービス(本社:東京都港区、代表取締役社長:名和 亮一、以下ISID)は、蓄積された大量の文書の分類・要約・検索をAI技術により自動化する文書活用AIソリューション「TexAIntelligence(テクサインテリジェンス)」に、新機能を搭載した「TexAIntelligence V2.0」の提供を本日より開始します。
最新版では、解釈性の向上、データ不均衡対応、同義語や専門用語の辞書作成支援などの機能実装により、AIの実業務への適用における課題を解決し、分析精度の向上を実現します。
最新版では、解釈性の向上、データ不均衡対応、同義語や専門用語の辞書作成支援などの機能実装により、AIの実業務への適用における課題を解決し、分析精度の向上を実現します。
ISIDは、さらなるAIの社会実装を進めるべく、機械学習モデルを協力ゲーム理論を用いて解釈できるSHAP(SHapley Additive exPlanations)※1や合成データを作成し自動で学習データを追加するSMOTE(Synthetic Minority Over-sampling Technique)※2の自然言語処理タスクへの適用、複合語を考慮したWord Embedding※3などの研究開発に取り組んできました。今般、これらの研究開発から得た知見をTexAの新機能として実装し、提供を開始します。
(1) 文章自動分類の解釈性向上
文書の自動分類機能において、分類判定結果にポジティブまたはネガティブに影響した単語やフレーズを可視化する機能を新たに追加します。 AIがどうしてそのような結果を出したのかを明らかにすることにより、分類精度向上のための施策が打てるようになり、判定結果をブラックボックス化させずにAIモデルの改善につなげていくことが可能となります。
(2)不均衡データ対応機能
実業務で使われる文書データは、例えばある事象に関する文書は数百件あるが、別の事象に関する文書は数十件しかないなど、偏りがあるもの(不均衡データ)が多く、そのようなデータを基にした場合、高い分析精度を出すことが難しい課題がありました。
本機能は、データ数に偏りがあっても高い分析精度を出すことができる仕組みで、、AIモデル作成の際に、クラス間の重み調整(Loss Weighting)やオーバーサンプリング(SMOTE)を使用することが可能になりました。
(3) 辞書自動作成支援機能
AIによる分析精度をあげるために、同義語(同一の意味だが異なる表記の単語)や専門用語(特定分野や社内で用いられる複合語)の辞書を用いることが有効とされていますが、その作成には多くの工数を要するため、実際の現場では着手のハードルが高いという課題がありました。
本機能は、AIが自動で用語登録のレコメンドを行い、同義語辞書と専門用語辞書の作成を支援するものです。辞書を作成する工数を極小化し、より高精度なAIモデルをより短時間で構築し、運用することを可能にします。
ISIDは2020年2月に、社内のAI人材と知見を集約した全社横断組織「AIトランスフォーメーションセンター」を設置、2020年4月にはAIを搭載した3製品を発表し、顧客企業のAI活用を支援しています。今後もTexAIntelligenceをはじめとしたAI製品の更なる機能拡充を図り、幅広い領域でAIの実務適用を加速させることで、顧客企業や社会の課題解決に貢献してまいります。
※1 SHAP:協力ゲーム理論「シャープレイ値」(Shapley Value)を機械学習モデルに解釈性を与えるために応用した、オープンソースライブラリ。
※2 SMOTE:データ補間を用いて擬似的データを作成し、データ数の少ないラベルの学習データとする手法。
※3 Word Embedding:自然言語処理において、単語や語句のベクトル化の際に使用する手法。単語の埋め込みともいう。
https://isid-ai.jp/products/texa.html
- 背景
ISIDは、さらなるAIの社会実装を進めるべく、機械学習モデルを協力ゲーム理論を用いて解釈できるSHAP(SHapley Additive exPlanations)※1や合成データを作成し自動で学習データを追加するSMOTE(Synthetic Minority Over-sampling Technique)※2の自然言語処理タスクへの適用、複合語を考慮したWord Embedding※3などの研究開発に取り組んできました。今般、これらの研究開発から得た知見をTexAの新機能として実装し、提供を開始します。
- TexAIntelligence V2.0の特徴
(1) 文章自動分類の解釈性向上
文書の自動分類機能において、分類判定結果にポジティブまたはネガティブに影響した単語やフレーズを可視化する機能を新たに追加します。 AIがどうしてそのような結果を出したのかを明らかにすることにより、分類精度向上のための施策が打てるようになり、判定結果をブラックボックス化させずにAIモデルの改善につなげていくことが可能となります。
(2)不均衡データ対応機能
実業務で使われる文書データは、例えばある事象に関する文書は数百件あるが、別の事象に関する文書は数十件しかないなど、偏りがあるもの(不均衡データ)が多く、そのようなデータを基にした場合、高い分析精度を出すことが難しい課題がありました。
本機能は、データ数に偏りがあっても高い分析精度を出すことができる仕組みで、、AIモデル作成の際に、クラス間の重み調整(Loss Weighting)やオーバーサンプリング(SMOTE)を使用することが可能になりました。
(3) 辞書自動作成支援機能
AIによる分析精度をあげるために、同義語(同一の意味だが異なる表記の単語)や専門用語(特定分野や社内で用いられる複合語)の辞書を用いることが有効とされていますが、その作成には多くの工数を要するため、実際の現場では着手のハードルが高いという課題がありました。
本機能は、AIが自動で用語登録のレコメンドを行い、同義語辞書と専門用語辞書の作成を支援するものです。辞書を作成する工数を極小化し、より高精度なAIモデルをより短時間で構築し、運用することを可能にします。
ISIDは2020年2月に、社内のAI人材と知見を集約した全社横断組織「AIトランスフォーメーションセンター」を設置、2020年4月にはAIを搭載した3製品を発表し、顧客企業のAI活用を支援しています。今後もTexAIntelligenceをはじめとしたAI製品の更なる機能拡充を図り、幅広い領域でAIの実務適用を加速させることで、顧客企業や社会の課題解決に貢献してまいります。
※1 SHAP:協力ゲーム理論「シャープレイ値」(Shapley Value)を機械学習モデルに解釈性を与えるために応用した、オープンソースライブラリ。
※2 SMOTE:データ補間を用いて擬似的データを作成し、データ数の少ないラベルの学習データとする手法。
※3 Word Embedding:自然言語処理において、単語や語句のベクトル化の際に使用する手法。単語の埋め込みともいう。
- TexAIntelligence/テクサインテリジェンスについて
https://isid-ai.jp/products/texa.html
- 電通国際情報サービス(ISID)について
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザーログイン既に登録済みの方はこちら
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像