Claude Opus 4.8・GPT-5.5 Pro・Gemini 3.5など200+モデルを最大10%割引で利用可能な「OrcaRouter月額プラン」を提供開始 ― AIコストを最大40%削減

プロンプト単位で最適モデルを自動選択する「アダプティブ・ルーティング」により、AIコストを最大40%削減しながらフロンティアモデル並みの品質を維持。トークン上乗せ0%・ルーティング遅延＜1msを実現

FlashLabs株式会社

2026年6月3日 19時40分

FlashLabs株式会社（本社：東京都千代田区、代表取締役：細井洋一）は、2026年6月3日、AIコストを最大40%削減しながらフラグシップモデル並みの出力品質を維持する適応型推論ゲートウェイ「OrcaRouter」の月額プランを日本市場に投入しました。月額契約により、Claude Opus 4.8 API（$5/$25）、OpenAI GPT-5.5 Pro API（$30/$180）、Gemini 3.5 API（$0.10/M tokens）など200以上のLLMモデルを最大10%のボーナスクレジット付きで利用可能になります。

背景・狙い

2026年、エンタープライズAI市場は急速に拡大する一方で、AIコストの高騰が深刻な課題となっています。日本のAI市場は2025年の79億ドルから2034年には391億ドルに達すると予測され（年平均成長率18.80%）、企業のAI投資は加速しています。しかし、すべてのプロンプトを高価なフロンティアモデル（Claude Opus、GPT-5.5 Pro等）に投げると、過剰な支払いが発生します。一方、自作ルーティングは新モデルが出るたび陳腐化し、保守負担が開発チームに残ります。

2026年には37%の企業が5つ以上のモデルを本番環境で使用しており、AIルーティング市場は「単なる安価モデルへの置き換え」から「プロンプト単位で最適モデルを選択する知的ルーティング」へと進化しています。OrcaRouterは、この課題を解決するために開発された、品質を見極めてルーティングする次世代AIゲートウェイです。

OrcaRouterの概要

主要機能:

アダプティブ・ルーティング: プロンプトごとに難易度を判定し、難しい推論はフロンティアモデルへ、定型処理はオープンモデルへ自動振り分け
200+モデル対応: Claude Opus 4.8、GPT-5.5 Pro、Gemini 3.5、DeepSeek V4 Pro、Qwen3.6-plus、Kimi K2.6など
LinUCBコンテキスト・バンディット: リクエスト結果から学習し、成果が悪いモデルへの振り分けを自動削減
ルーティング遅延<1ms: ミリ秒未満の判定で、ユーザー体験を損なわない
完全可視化: 判定結果、モデル、プロバイダー、公開価格をリクエスト単位で記録

価格:

月額プラン: 最大10%ボーナスクレジット自動付与（毎月の請求サイクルごと）
トークン課金: プロバイダー公開価格と同額（上乗せ0%）
ルーティング手数料: 0%

対応環境/URL:

OpenAI互換API（1行で導入可能）
OrcaRouter 公式サイト

利用可能モデル例:

企業にもたらす価値

1. 品質を守りながらAIコストを約40%削減

OrcaRouterは、プロンプトごとに難易度を判定し、定型処理（抽出・分類・整形・簡易要約など、全体の約65%）を約1/15のコストで処理可能なオープンモデルへルーティングします。高度な推論（多段推論・長文コンテキスト・コード生成など、全体の約35%）のみフロンティアモデルを使用することで、品質を保ちながら年間純削減額は約$47,700（月1万ドル規模のチーム想定、Team plan $29/月控除後）に達します。回収期間は1日未満です。

2. トークン上乗せ0%・ルーティング手数料0%の透明な価格設定

トークン課金はプロバイダー公開価格と同額で、上乗せは一切ありません。ルーティング手数料も0%です。月額プランでは、コミットメントに応じて最大10%のボーナスクレジットが毎月自動付与され、実質的に最大10%割引でClaude Opus 4.8、GPT-5.5 Pro、Gemini 3.5などのフロンティアモデルを利用できます。

3. 1行で導入、同じSDK、同じモデル名

OpenAI互換APIのため、既存コードのbase_urlを変更するだけで導入完了です。導入も切り戻しも低コストで、検証から本番まで進めやすい設計です。Cursor、Cline、Continue、Aider、LangChain、LlamaIndexなど既存ワークフローにそのまま統合できます。

技術的特徴

LinUCBコンテキスト・バンディット

単なるif/elseではなく、リクエスト結果から学習するコンテキスト・バンディットです。特定のプロンプト群で成果が悪いモデルには、自動的に振り分けを減らします。

各プロバイダーへ直接接続

Anthropic Direct、OpenAI Direct、Bedrock、Vertex等へ直接送信。再販業者を挟まず、プロバイダー規約を直接適用します。社内ポリシーに合うプロバイダーだけに固定できます。

完全可視化

判定結果、モデル、プロバイダー、公開価格をリクエスト単位で記録。ヘッダー（X-Orca-Grade、X-Orca-Resolved-Model、X-Orca-Fallback-From）やダッシュボードから判断を再現できます。

ガードレール・セキュリティ機能

本番運用に必要なセキュリティ統制を、モデル到達前にゲートウェイで適用

OrcaRouterは、コスト最適化だけでなく、エンタープライズ本番環境で求められるセキュリティ・コンプライアンス機能を統合しています。個人情報、シークレット、プロンプトインジェクション、ブランド安全性など、8つのガードレール機能をテンプレートまたはカスタムルールで適用し、本番運用の統制を強化します。

8つのガードレール機能:

PII Shield(個人情報保護): メール、氏名、住所、電話番号、SSN等を検知・マスキング。個人情報がLLMに送信される前にブロックし、データ保護規制への対応を支援します。
Secrets & API Keys(認証情報保護): OpenAI、AWS、GitHub等の認証情報漏えいをブロック。APIキーやアクセストークンの誤送信を防止し、セキュリティインシデントを未然に防ぎます。
Prompt Injection(プロンプトインジェクション対策): 脱獄、ロールプレイ、システムプロンプト上書き試行を検知。悪意のあるプロンプト操作からシステムを保護します。
Profanity & Brand Safety(ブランド安全性): 入力・出力の不適切表現をフィルタ。重大度を調整可能で、ブランドイメージを保護します。
Financial Data (PCI)(金融データ保護): カード番号、口座情報、金融系PIIをブロック。PCI DSS準拠を支援し、金融データの漏えいを防止します。
System-Prompt Leak(システム情報保護): システム指示や内部スキャフォールドの漏えい出力を検知。企業の知的財産やシステム設計情報を保護します。
Compliance Logger(コンプライアンス監査): 監査用にログだけ残すObserve-onlyテンプレート。ブロックせずに記録し、事後分析とコンプライアンス対応を支援します。
Prompt-Size Cap(入力サイズ制限): ルート、キー、モデルごとに入力長の上限を適用。過大なリクエストによるコスト増加やシステム負荷を防止します。

設定方法: 事前テンプレート、Builder/JSON、テストサンドボックス、入力/出力ステージで適用、カスタムルール対応により、企業のセキュリティポリシーに合わせた柔軟な設定が可能です。

今後の展開

FlashLabsは、OrcaRouterを通じて日本企業のAI導入を加速させ、エンタープライズグレードのAIインフラを提供してまいります。今後は、ガードレール機能（PII Shield、Secrets & API Keys、Prompt Injection検知など）の強化、ミッドストリーム切り替えによる99.99% 稼働率 SLAの提供、および日本語ドキュメントの拡充を予定しています。また、日本市場特有のニーズに応じたカスタマイズや、エンタープライズ向け専用環境の提供も検討しています。

代表コメント

FlashLabs株式会社代表取締役細井洋一

「OrcaRouterは、『品質を見極めてルーティングする』という新しいアプローチで、この課題を解決します。単なる安価モデルへの置き換えではなく、プロンプトごとに最適なモデルを選択することで、フロンティアモデル並みの品質を保ちながらコストを約40%削減します。トークン上乗せ0%、ルーティング手数料0%という透明な価格設定と、月額プランによる最大10%のボーナスクレジットにより、企業はAI投資のROIを最大化できます。

私たちは、日本企業がAIを活用して新しい価値を創造し、グローバル市場で競争力を維持できるよう、最高水準のAIインフラを提供してまいります。OrcaRouterが、日本企業のAI変革を加速させる一助となることを確信しています。」

OrcaRouterについて

OrcaRouterは、Continuum AI（米国）が開発し、FlashLabsが日本独占販売する適応型推論ゲートウェイです。プロンプトごとに難易度を判定し、難しい推論はフロンティアモデルへ、定型処理はオープンモデルへ自動ルーティングすることで、品質を守りながらLLM支出を約40%削減します。判断根拠はリクエスト単位で可視化され、トークン上乗せは0%、ルーティング遅延は<1msです。200+モデルを1エンドポイントで利用可能で、導入は1行から可能です。

OrcaRouter 公式サイト