OrcaRouterで次世代AIモデル「MiniMax M3」APIをサポート開始 ― 超長文コンテキスト処理を従来比15.6倍高速化、100万トークン対応で企業のAI活用を加速

スパースアテンション技術により、コード生成・エージェントワークフローの性能が飛躍的に向上。最大100万トークンのコンテキストウィンドウで、大規模文書処理やコードベース全体の解析が可能に

FlashLabs株式会社(本社:東京都千代田区、代表取締役:細井洋一)は、提携先のContinuum AIが提供するLLMルーティングゲートウェイ「OrcaRouter」において、MiniMax社の次世代AIモデル「MiniMax M3」の提供を2026年6月1日(月)より開始しました。MiniMax M3は、独自のスパースアテンション技術「MiniMax Sparse Attention(MSA)」を採用し、最大100万トークン(保証最小512K)のコンテキストウィンドウを実現。従来モデル比で15.6倍の高速化を達成し、エージェントワークフローやコーディング支援における性能が大幅に向上しています。

背景・狙い
企業のAI活用が進む中、大規模な文書処理やコードベース全体の解析、長時間のエージェント実行など、超長文コンテキストを必要とする業務が急増しています。しかし、従来のAIモデルでは、コンテキストウィンドウの制約により、文書を分割して処理する必要があり、処理速度の低下やコスト増加が課題となっていました。
特に、法務文書の全文解析、大規模コードベースのリファクタリング、複数ドキュメントを横断した情報抽出など、エンタープライズ領域では100万トークン規模のコンテキスト処理が求められるケースが増加しています。また、AIエージェントが自律的にタスクを実行する際、長時間の推論プロセスを維持するためには、超長文コンテキストの高速処理が不可欠です。

FlashLabsは、OrcaRouterを通じて200以上のAIモデルへのアクセスを提供していますが、今回のMiniMax M3 APIの追加により、超長文コンテキスト処理が必要な企業ユースケースに対して、より高速かつコスト効率の高いソリューションを提供できるようになりました。
MiniMax M3の概要
価格:
- OrcaRouterを通じて利用可能(トークン上乗せ0%)
- 詳細な価格情報はOrcaRouter公式サイトをご確認ください

主要機能:
- 超長文コンテキスト処理: 最大100万トークン(保証最小512K)のコンテキストウィンドウ
- スパースアテンション技術: MiniMax Sparse Attention(MSA)により、従来比15.6倍の高速化を実現
- 高度なコーディング性能: SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%など、最先端のベンチマークスコアを達成
- エージェントワークフロー最適化: 自律的なタスク分解、ツール呼び出し、多段階推論に対応
- ネイティブマルチモーダル: テキスト、画像、動画入力に対応

対応環境/URL:
- OrcaRouter API経由でアクセス可能
- 公式サイト

企業にもたらす価値
1. 大規模文書処理の効率化
法務契約書、技術仕様書、研究論文など、数百ページに及ぶ文書を分割せずに一度に処理できます。従来は文書を複数のチャンクに分割して処理する必要がありましたが、MiniMax M3では最大100万トークン(約75万語、日本語で約50万文字相当)を一度に処理可能。文書全体のコンテキストを維持したまま、要約、分析、情報抽出が行えます。
2. コードベース全体の解析とリファクタリング
大規模なソフトウェアプロジェクトにおいて、複数ファイルにまたがるコードベース全体を一度に解析できます。従来モデルでは数千行のコードを処理するのが限界でしたが、MiniMax M3では数万行規模のコードベースを一度に読み込み、依存関係の分析、バグ検出、リファクタリング提案が可能になります。
3. AIエージェントの長時間実行
複雑なタスクを自律的に実行するAIエージェントにおいて、長時間の推論プロセスを維持できます。従来モデルでは、コンテキストウィンドウの制約により、エージェントが過去の実行履歴を忘れてしまう問題がありましたが、MiniMax M3では100万トークンのコンテキストを維持したまま、数時間にわたるエージェント実行が可能です。

技術的特徴:スパースアテンション技術による革新
MiniMax M3の最大の特徴は、独自開発の「MiniMax Sparse Attention(MSA)」技術です。従来のフルアテンション方式では、トークン数の2乗に比例して計算量が増加するため、100万トークンの処理には膨大な計算リソースが必要でした。
MSAは、重要な情報に選択的に注意を向けるスパースアテンション方式を採用することで、計算量を大幅に削減。100万トークンのコンテキストにおいて、従来モデル(MiniMax M2.7)比で以下の性能向上を実現しています:
- プリフィル速度: 9.7倍高速化
- デコード速度: 15.6倍高速化
- 推論コスト: 約1/20に削減

この技術革新により、超長文コンテキスト処理が実用的な速度とコストで利用可能になりました。

OrcaRouterとの統合による相乗効果
OrcaRouterは、プロンプトごとに難易度を判定し、最適なAIモデルへ自動ルーティングするプラットフォームです。MiniMax M3の追加により、以下のような最適化が可能になります:
- 定型処理: 軽量なオープンモデルで高速・低コスト処理
- 超長文コンテキスト処理: MiniMax M3で100万トークン規模の文書を一度に処理
- 高度な推論: フロンティアモデル(Claude Opus、GPT-5.5等)で複雑な推論を実行

OrcaRouterの自動ルーティング機能により、ユーザーは最適なモデルを意識することなく、品質を保ちながらLLM支出を約40%削減できます。

ガードレール・セキュリティ機能
本番運用に必要なセキュリティ統制を、モデル到達前にゲートウェイで適用
OrcaRouterは、コスト最適化だけでなく、エンタープライズ本番環境で求められるセキュリティ・コンプライアンス機能を統合しています。個人情報、シークレット、プロンプトインジェクション、ブランド安全性など、8つのガードレール機能をテンプレートまたはカスタムルールで適用し、本番運用の統制を強化します。

8つのガードレール機能:
1. PII Shield(個人情報保護):
メール、氏名、住所、電話番号、SSN等を検知・マスキング。個人情報がLLMに送信される前にブロックし、データ保護規制への対応を支援します。
2. Secrets & API Keys(認証情報保護):
OpenAI、AWS、GitHub等の認証情報漏えいをブロック。APIキーやアクセストークンの誤送信を防止し、セキュリティインシデントを未然に防ぎます。
3. Prompt Injection(プロンプトインジェクション対策):
脱獄、ロールプレイ、システムプロンプト上書き試行を検知。悪意のあるプロンプト操作からシステムを保護します。
4. Profanity & Brand Safety(ブランド安全性):
入力・出力の不適切表現をフィルタ。重大度を調整可能で、ブランドイメージを保護します。
5. Financial Data (PCI)(金融データ保護):
カード番号、口座情報、金融系PIIをブロック。PCI DSS準拠を支援し、金融データの漏えいを防止します。
6. System-Prompt Leak(システム情報保護):
システム指示や内部スキャフォールドの漏えい出力を検知。企業の知的財産やシステム設計情報を保護します。
7. Compliance Logger(コンプライアンス監査):
監査用にログだけ残すObserve-onlyテンプレート。ブロックせずに記録し、事後分析とコンプライアンス対応を支援します。
8. Prompt-Size Cap(入力サイズ制限):
ルート、キー、モデルごとに入力長の上限を適用。過大なリクエストによるコスト増加やシステム負荷を防止します。

設定方法: 事前テンプレート、Builder/JSON、テストサンドボックス、入力/出力ステージで適用、カスタムルール対応により、企業のセキュリティポリシーに合わせた柔軟な設定が可能です。

関連リンク
- MiniMax M3
- DeepSeek V4 Pro API
- Anthropic Claude Opus 4.8 API
- OpenAI GPT 5.5 API
- Qwen3.7 Max
- Gemini 3.5 Flash

今後の展開
FlashLabsは、OrcaRouterを通じて、今後も最新のAIモデルを迅速に提供していきます。特に、超長文コンテキスト処理、マルチモーダル対応、エージェントワークフロー最適化など、エンタープライズ領域で求められる機能を強化していく予定です。FlashLabsは、企業のAI活用を支援していきます。

代表コメント
FlashLabs株式会社代表取締役細井洋一
「企業のAI活用において、超長文コンテキスト処理は避けて通れない課題です。法務文書の全文解析、大規模コードベースのリファクタリング、複数ドキュメントを横断した情報抽出など、実務では100万トークン規模のコンテキスト処理が日常的に求められます。
OrcaRouterは、プロンプトごとに最適なモデルを自動選択するプラットフォームです。定型処理は軽量モデルで高速・低コスト処理し、超長文コンテキストが必要な場合は特定のモデルへルーティングする。この最適化により、企業は品質を保ちながらAIコストを大幅に削減できます。
FlashLabsは、営業とカスタマーエクスペリエンスを自動化、そして最終的には自律化へ導くことを目指すAI応用研究所です。OrcaRouterを通じて、企業のAI活用を加速し、Human-AI Hybridの未来を実現していきます。」

OrcaRouterについて
OrcaRouterは、プロンプトごとに難易度を判定し、最適なAIモデルへ自動ルーティングするプラットフォームです。難しい推論はフロンティアモデルへ、定型処理は高性能なオープンモデルへ自動ルーティングすることで、品質を守りながらLLM支出を約40%削減します。
200以上のAIモデルに1エンドポイントでアクセス可能で、トークン上乗せは0%。判断根拠はリクエスト単位で可視化され、導入は1行のコード変更から可能です。ガードレール、トレーシング、監視、評価機能を統合し、APIキーも請求も一本化できます。

主要機能:
- プロンプト単位での難易度判定と自動ルーティング
- 200以上のモデルへのアクセス(トークン上乗せ0%)
- リクエスト単位での可視化と監査ログ
- ミッドストリーム切り替えによる高可用性
- ガードレール、トレーシング、監視、評価の統合

OrcaRouter 公式サイト

FlashLabs株式会社について
FlashLabsは、営業とカスタマーエクスペリエンスを自動化、そして最終的には自律化へ導くことを目指すAI応用研究所です。機械の処理速度・精度と人間の戦略的洞察を融合させた"Human-AI Hybrid"で、従来手法を凌駕する成果を企業にもたらします。

FlashLabs株式会社公式サイト

Continuum AIについて
Continuum AIは、次世代AIインフラを開発する米国の研究機関です。適応型推論ゲートウェイ「OrcaRouter」を開発し、企業のAI活用における品質とコストの両立を実現する技術を提供しています。

Continuum AI 公式サイト

本件に関するお問い合わせ先
FlashLabs株式会社マーケティング部
[email protected]
URL: https://www.flashlabs.ai/

企業プレスリリース詳細へ
PRTIMESトップへ