AIセキュリティスタートアップSherLOCK、人工知能学会にて「AI対AI」自律的評価の必然性を提言 -大規模言語モデルのセキュリティ評価：敵対的AIセキュリティ評価の有効性に関する体系的レビュー

SherLOCK代表の築地テレサが学術界との連携により脆弱性の発見から自律修復へ、次世代AIセキュリティ評価の新たなパラダイムとして生成AIの「AI対AI競争的評価」の必要性を体系的に論じました。

SherLOCK株式会社

2025年12月2日 07時00分

慶應義塾大学日吉キャンパス来往舎中会議室にて人工知能学会合同研究会2025 第4回安全性とセキュリティ研究会（SIG-SEC)が開催され、弊社代表の築地が登壇致しました。

SherLOCK株式会社（本社：東京都港区、代表取締役CEO：築地テレサ、以下「SherLOCK」）は、代表の築地テレサが情報セキュリティ大学院大学大塚玲教授との共同研究成果を、2025年12月1日に開催された「人工知能学会第4回SIG-SEC研究会（安全性とセキュリティ研究会（SIG-SEC)）」にて発表したことをご報告させて頂きます。

SherLOCKは、生成AI開発企業や生成AIユーザー企業がセキュリティと安全性を維持しながらAIによるイノベーションを高速に進めていくために必要な最先端のAIセキュリティ/セーフティソリューションを提供するAIスタートアップです。私たちは、”Unlock AI Potential, Be Human Centric”という信念のもと、"AIを信頼できるパートナーに"するため、最先端のAIリスク管理手法として、AIレッドチーミングテストからガードレール、AIガバナンスまでを一貫してご支援し、エンドツーエンドのAIセキュリティソリューションプロバイダーとして、AIリスクの多層防御をご支援しております。

人工知能学会での本研究発表においてSherLOCKは、従来の人間主導による評価手法が構造的な限界を迎えていることを指摘し、「AIがAIを評価・防御する（AI対AI）」自律型評価エコシステムへの移行が不可欠であるとし、その有効性を学術的根拠と国際動向に基づき論じました。

■ 発表の背景：従来のレッドチーミング手法が直面する「3つの壁」と「人間の限界」

大規模言語モデル（LLM）が外部ツールを利用し、自律的に行動する「エージェント（Agentic AI）」へと進化する中、人間が手動でテストを行う従来のレッドチーミングは、以下の3点において限界を迎えています。

攻撃空間の爆発的増加：AIの機能拡張に伴い、攻撃の組み合わせが指数関数的に増大しています。人間によるテストでは、膨大な攻撃パターンを網羅的に探索することが物理的に不可能となっています。
ロングテールリスクの死角：開発者が想定しやすい典型的な脆弱性とは異なり、パラメータ空間の深層に潜む「稀だが致命的なリスク（ロングテールリスク）」は、人間の直感では発見が極めて困難であり、これはまさにAIセキュリティでカバーすべき主要リスクです。
多段階攻撃の非再現性：AIエージェントによる「ツール操作」や「多段階の推論」を悪用した複雑な攻撃パスは、人間が直観的に設計・再現することが難しく、検証のボトルネックとなっています。

■ 発表の概要：LLMの堅牢性を担保する「敵対的AIセキュリティ評価」

こうした課題に対し、SherLOCKは「敵対的AIセキュリティ評価（AI対AI）」への転換を提唱しました。これは、攻撃AIと防御AIを競わせることで、システムの堅牢性を飛躍的に高めるアプローチです。
競争的学習による「動的な防御」：敵対的生成ネットワーク（GAN）や強化学習を応用し、攻撃側AIが新たな手口を編み出せば、防御側AIが即座にそれを学習して防ぐという「自己進化型の防御システム」構築の必要性を提唱しました。
国際的研究の潮流との整合性：本アプローチは、英国AISI（AI安全性研究所）や米国CAISI（NIST）が進める高リスク領域（CBRN、サイバーセキュリティ等）での評価の潮流とも合致しており、国際的なAIセキュリティ / セーフティ評価研究の潮流に沿ったものと言えます。

■ 今後の展望：SherLOCKが目指す「自律修復型AIセキュリティ」の世界

本研究成果を踏まえ、SherLOCKは評価にとどまらず、「脆弱性の発見から修復まで」をAIが自律的に完結させる未来の実現に向けて、以下の研究開発を強化して参ります。

「階層型エージェント」による高度な攻撃シミュレーション
- 戦略を練る「司令塔AI」と、実行を担う「実行部隊AI」を分けた階層型アーキテクチャを開発し、人間ハッカーのような長期的・戦略的な攻撃シナリオに対する耐性を評価・強化します。
「自律的な修復（Autonomous Remediation）」の実装
- 現在のAIセキュリティ評価は「脆弱性を見つけること」がゴールになりがちです。SherLOCKは、発見された脆弱性に対し、AIが自動でパッチ（修正プロンプトやガードレール）を生成・適用する「自律的な修復フェーズ」の実用化を目指します。
- これにより、セキュリティ担当者が不在の時間帯であっても、AIシステムが自己防衛し続ける環境を実現します。

■ 登壇者コメント：SherLOCK株式会社代表取締役CEO 築地テレサ

AIの進化は、今や人間の管理能力を遥かに超える速度で進んでいます。私たちが目指すべきは、「人間が懸命にAIを守る」時代から、「AI技術そのものを活用してAIを堅牢にする」時代への転換です。今回の発表は、まさにその次なるフェーズを実現するための、理論的な基盤を情報セキュリティ大学院大学大塚教授と共に提示させて頂きました。私たちSherLOCKは、この「AI対AI」の技術を社会に実装します。優れたAIテクノロジーを解き放ち、人々の能力を拡張し、人類の可能性を拓くために、人間とAIが共創する社会において、我々が確かな羅針盤となることを目指します。
「日本から、AI社会の信頼のスタンダードを世界へ」という揺るぎない信念のもと、日本発のAIセキュリティ技術を世界に通用する技術・インフラとし、未来の安全なAI社会を支えて参ります。

■ 学会発表概要

発表日：2025年12月1日
会議名：人工知能学会第4回SIG-SEC研究会（セキュリティと徳倫理研究会）
- https://www.ai-gakkai.or.jp/sig-sec/%E7%AC%AC4%E5%9B%9Esig-sec%E7%A0%94%E7%A9%B6%E4%BC%9A/
発表題目：大規模言語モデルのセキュリティ評価: 敵対的AIセキュリティ評価の有効性に関する体系的レビュー
- https://drive.google.com/drive/folders/1qUudWH0uvBLjk-KcNjcmOXRTkQulzHGP
発表者：築地テレサ（SherLOCK株式会社代表取締役）、大塚玲（情報セキュリティ大学院大学教授）

【SherLOCK株式会社について】

SherLOCKは、生成AI開発企業や生成AIユーザー企業がセキュリティと安全性を維持しながらイノベーションを促進するために最先端のAIセキュリティ/セーフティソリューションを提供するリーディングカンパニーです。LLMの脆弱性診断、自律型AIエージェントの監視、セーフティガードレールの構築支援など、AIと人間が共存するための安全な技術基盤を提供しています。アカデミアの最先端知見と実務的なセキュリティ技術を融合させ、安全なAI社会の実装をリードします。

【会社概要】

会社名：SherLOCK株式会社 (SherLOCK, Inc.)
代表者：代表取締役CEO 築地テレサ
設立日：2024年01月
所在地：〒105-0001 東京都港区虎ノ門五丁目9番1 麻布台ヒルズガーデンプラザB 5階 TOKYO VENTURE CAPITAL HUB内
事業内容：AIセキュリティソリューションの開発・販売・提供
URL：https://shlck.com/

【お問い合わせ先】

SherLOCKの詳細情報や製品デモについては、以下の連絡先までお問い合わせください
Email：contact@shlck.com

以上

すべての画像

種類: その他
ビジネスカテゴリ: アプリケーション・セキュリティ
キーワード: AIセキュリティAIセーフティAI安全性生成AISherLOCK株式会社SherLOCKAgentic AIエージェンティックAI
位置情報: 東京都港区（本社・支社）
ダウンロード: プレスリリース素材
このプレスリリース内で使われている画像ファイルがダウンロードできます