EC商品推薦チャットの品質を可視化するオープンソースベンチマーク「SOUK」を公開
〜 GPT・Claude・Geminiなど複数AIモデルで"接客品質"を自動採点。ハルシネーションやプロンプトインジェクションの検知にも対応 〜
株式会社NITI Technology(本社:東京都文京区本郷、代表:金子友哉)は、ECサイトにおける商品推薦チャットの品質を定量的に評価するオープンソースベンチマーク「SOUK」(スーク)を、GitHub上で公開いたしました。

■ 開発の背景 ── 急拡大するAI対話型EC市場と"品質の死角"
市場の爆発的成長
会話型コマース市場は2025年に約129億ドル規模に達し、2026年には141億ドルへと拡大が見込まれています(CAGR 9.0%)[1]。生成AI搭載チャットボットに限れば成長率はさらに高く、CAGR 34.9%で急伸しています[2]。
Amazonの「Rufus」は2.5億人以上のユーザーに利用され、年間100億ドル規模の売上押し上げ効果があると報じられています[3]。ShopifyやOpenAIも「ChatGPT内での直接購入」機能を展開するなど、AIチャットが購買チャネルそのものになりつつあります[4]。AIチャットを利用した購入者のコンバージョン率は12.3%と、非利用者(3.1%)の約4倍に上るというデータもあります[5]。
見過ごされる品質リスク
一方で、品質上の深刻な問題も顕在化しています。
-
ハルシネーション — ECサイトのAIが存在しない配送手順を案内したり、実際には発送していない代替品の「発送完了」を顧客に通知するなど、実害を伴う事例が2025年以降相次いで報告されています[6]。複雑なシナリオではハルシネーション発生率が25%を超えるとの調査結果もあります[7]。
-
セキュリティ脆弱性 — プロンプトインジェクションによってシステムプロンプトの漏洩や不正な割引適用が可能であることが、セキュリティ研究者によって実証されています[8]。
-
法的リスクの現実化 — 2024年にはAir Canadaのチャットボットが誤った運賃案内を行い、裁判所が航空会社の責任を認める判決を下しました[9]。
規制の強化
2026年8月にはEU AI Actが完全施行を迎え、チャットボットがAIであることの明示義務や、高リスクAIシステムへの厳格な要件が適用されます[10]。日本も原則ベースのAIガイドラインを策定し、透明性と責任あるAI利用を求めています[11]。
しかし、「ECチャットの品質を客観的に測る」ための標準的なベンチマークは、これまで存在しませんでした。 SOUKはこの空白を埋めるために開発されました。
■ SOUKとは
SOUKは、EC商品推薦チャットの品質を複数のAIジャッジモデルで自動的にスコアリングするオープンソースのベンチマークツールです。プロジェクト名は中東の伝統的な市場(スーク)に由来し、「活気ある商取引の場における対話品質」を評価するという意志を込めています。
【SOUKの5つの特長】
1.マルチモデルジャッジ
GPT、Claude、Gemini、Amazon Bedrock、またはOpenAI互換の任意のエンドポイントを「審査員」として利用可能。単一モデルの偏りを排除し、多角的な品質評価を実現。
2.10種類の評価基準(0〜10点スコア + 詳細ルーブリック)
SOUKは、ECチャットに求められる品質を以下の10軸で体系的に評価します。
接客品質に関する基準(6項目):

セキュリティに関する基準(4項目):

3. 3言語完全対応
すべての評価基準とテストケースが英語・日本語・中国語に対応。グローバル展開するECサービスの多言語品質評価が可能です。
4. 静的評価 + ライブ評価
記録済みの会話ログだけでなく、稼働中のチャットエンドポイントに対してリアルタイムに評価を実行可能。CI/CDパイプラインへの組み込みにも対応しています。
5.即座に導入可能
pip install souk のワンコマンドでインストール完了。Docker対応により環境構築も不要。MCPサーバー機能により、AI開発ワークフローへのシームレスな統合も実現しています。
【HTML評価レポートの出力イメージ】
SOUKは評価結果をChart.jsを用いたインタラクティブなHTMLダッシュボードとして出力します。上記10基準のスコアをレーダーチャートで可視化し、ジャッジモデル別・カテゴリ別の棒グラフ、各テストケースの会話内容と採点理由(reasoning)まで一画面で確認可能です。JSON形式での出力にも対応しており、BIツールやCI/CDパイプラインへの組み込みも容易です。

■ 当社サービス「Lemonavi」との連携
NITI Technologyが提供する商品推薦AIエージェント「Lemonavi(レモナビ)」は、SOUKを用いた継続的な品質評価を開発プロセスに組み込んでいます。
SOUKによるベンチマーク結果をもとにLemonaviの応答品質を定量的に改善するサイクルを確立しており、ハルシネーション率の低減やプロンプトインジェクション耐性の向上といった成果を、数値として検証可能にしています。
SOUKをオープンソースとして公開することで、同様の品質改善サイクルをチャットコマース業界全体で共有し、業界水準の底上げに貢献したいと考えています。
■ 想定される利用シーン
-
ECプラットフォーム事業者 — 自社チャットボットの品質を定期的にベンチマークし、リリース前の品質ゲートとして活用
-
チャットボット開発企業 — 複数のLLMを比較評価し、最適なモデル選定の根拠として利用
-
セキュリティ・コンプライアンス部門 — プロンプトインジェクション耐性や情報漏洩リスクの定量的な監査ツールとして導入
-
研究機関・大学 — 対話品質評価の標準ベンチマークとして、研究に活用
■ 今後の展望
SOUKは今後、以下の機能拡充を予定しています。
-
評価基準の拡張 — 業界特化(ファッション、食品、不動産等)の評価基準追加
-
リアルタイムモニタリング — 本番環境のチャット品質を継続的に監視するダッシュボード機能
-
ベンチマークランキング — 匿名化されたスコアの共有による業界横断のベンチマーク比較
SOUKはOSS(オープンソースソフトウェア)の形式をとっており、有志による改良を受け付けています。ユーザーとともに成長し続けるプラットフォームになることを期待しています。
■ 関連リンク
SOUK GitHub: https://github.com/NITI-Lab/SOUK
Lemonavi: https://www.lemonavi.com/lp
前回プレスリリース(Lemonavi提供開始): https://prtimes.jp/main/html/rd/p/000000009.000151759.html
■ NITI Technologyについて
NITI Technologyは、最先端のAI技術を駆使し、企業のビジネスプロセスを革新するテクノロジーカンパニーです。商品推薦AIエージェント「Lemonavi」の開発・提供を軸に、実務に即したAIプロダクトの提供と柔軟な受託開発を通じて、企業のDX推進と持続的な成長を支援しています。
社名: 株式会社NITI Technology
URL: https://nititech.jp/
■ 本件に関するお問い合わせ
株式会社NITI Technology 広報担当
E-mail: info@nititech.jp
■ 引用元・参考資料
[1] The Business Research Company, "Conversational Commerce Global Market Report," 2025. https://www.thebusinessresearchcompany.com/report/conversational-commerce-global-market-report
[2] The Business Research Company, "Artificial Intelligence (AI) Chatbot Global Market Report," 2026. https://www.thebusinessresearchcompany.com/report/artificial-intelligence-ai-chatbot-global-market-report
[3] D. Smith, "Amazon says its AI shopping assistant Rufus is on pace to pull in an extra $10 billion in sales," Fortune, November 2, 2025. https://fortune.com/2025/11/02/amazon-rufus-ai-shopping-assistant-chatbot-10-billion-sales-monetization/
[4] A. Palmer, "OpenAI's first crack at online shopping stumbled. It's preparing for the next wave," CNBC, March 20, 2026. https://www.cnbc.com/2026/03/20/open-ai-agentic-shopping-etsy-shopify-walmart-amazon.html
[5] Rep AI, "The Future of AI In Ecommerce: 40+ Statistics on Conversational AI Agents for 2025," HelloRep.ai, 2025. https://www.hellorep.ai/blog/the-future-of-ai-in-ecommerce-40-statistics-on-conversational-ai-agents-for-2025
[6] Yuma AI, "AI Hallucinations in Customer Service: Why Quality Control Architecture Matters," Yuma AI Blog, 2025. https://yuma.ai/blogs/ai-hallucinations-in-customer-service-why-quality-control-architecture-matters
[7] H. Ehtesham, "AI Hallucination Report 2026: Which AI Hallucinates the Most?," All About AI, December 4, 2025. https://www.allaboutai.com/resources/ai-statistics/ai-hallucinations/
[8] EdgeTier, "When Chatbots Go Wrong: The New Risk Landscape in AI Customer Service," EdgeTier Blog, October 29, 2025. https://www.edgetier.com/chatbots-the-new-risk-in-ai-customer-service/
[9] B. B. Sookman, "Moffatt v. Air Canada: A Misrepresentation by an AI Chatbot," McCarthy Tétrault – TechLex, February 19, 2024. https://www.mccarthy.ca/en/insights/blogs/techlex/moffatt-v-air-canada-misrepresentation-ai-chatbot
[10] Programming Helper, "EU AI Act 2026: Rules, Risk Categories & Business Impact," Programming Helper Tech, 2026. https://www.programming-helper.com/tech/ai-act-2026
[11] So & Sato Law Offices, "AI Regulation in the EU and Japan: A Practical Guide for Cross-Border Businesses," Innovation Law / So & Sato, January 23, 2026. https://innovationlaw.jp/en/eu-japan-ai-regulation-cross-border-guide/
すべての画像
