Microsoft Foundry Models のクォータと制限

この記事では、Azure によって直接販売される Foundry Models のクォータと制限のクイックリファレンスと詳細な説明を提供します。 Foundry モデルの Azure OpenAI に固有のクォータと制限については、「Quotas と Azure OpenAI の制限」を参照してください。

2025 年 5 月 6 日以降のクォータ管理の更新

Microsoft Foundry では、デプロイ全体でクォータを管理する方法の一貫性と予測可能性を実現するために、クォータ管理の更新プログラムが導入されています。 Realtime Translate と Realtime ささやき以降、デプロイのクォータは、リソースまたはリージョンごとに個別に割り当てられるのではなく、すべてのリソースとリージョンで共有されるサブスクリプションレベルで追跡されます。

この変更により、クォータが共有プールに統合されます。

グローバル標準: 同じモデルとバージョンのデプロイは、サブスクリプション内のすべてのリージョンで 1 つのクォータプールを共有します。
データゾーン標準: 同じモデルとバージョンのデプロイは、データゾーン (米国や EU など) ごとに 1 つのクォータプールを共有します。

何が変わりますか?

新しいクォータ管理システムがオンボードされているモデルの場合:

サブスクリプションの下にある同じモデルとバージョンのすべてのグローバル標準デプロイは、すべてのリージョンで 1 つの共有クォータプールから引き出されるようになりました。
サブスクリプションの下にある同じモデルとバージョンのすべての Data Zone Standard デプロイは、各データゾーン内の共有クォータプールから引き出されるようになりました。
既存の承認済みクォータは保持され、サブスクリプションレベルで自動的に適用されます。アクションは必要ありません。

この統合により、Microsoft Foundry では、リソースまたはリージョン間でのクォータの分散方法に関係なく、すべての Foundry リージョンでサポートされているモデルを一貫して提供できます。

重要

更新されたクォータ管理は現在、リアルタイム翻訳とリアルタイムささやきにのみ適用されます。この記事で取り上げるその他すべての Foundry モデルについては、クォータと制限は、リージョンごと、サブスクリプションごと、モデルまたはデプロイの種類ごとに管理されます。今後、これらのクォータガイドラインは、一部の既存のモデルおよび新しい Foundry Model の起動にも適用されます。

クォータと制限のリファレンス

次のセクションでは、Foundry モデルに適用される既定のクォータと制限に関するクイックガイドを提供します。クォータと制限は、テナントレベルでは適用されません。代わりに、クォータ制限の最上位レベルは、Azure サブスクリプションレベルでスコープ設定されます。トークン/分 (TPM) と 1 分あたりの要求数 (RPM) の制限は、リージョンごと、サブスクリプションごと、モデルまたはデプロイの種類ごとに定義されます。

リソース制限 (Azure サブスクリプションごと、リージョンごと)

制限名	制限値
Azure サブスクリプションあたりのリージョンあたりの Foundry リソース数	100
リソースあたりの最大プロジェクト数	250
リソースあたりの最大デプロイ数 (Foundry リソース内のモデルデプロイ)	32

レート制限

次の表に、以下のレートに対する Foundry Models の制限を示します。

1 分あたりのトークン数
1 分あたりの要求数
同時要求

モデル	1 分あたりのトークン数	1 分あたりの要求数	同時実行リクエスト
Azure OpenAI モデル	モデルと SKU によって異なります。 Azure OpenAI の「限界」を参照してください。	モデルと SKU によって異なります。 Azure OpenAI の「限界」を参照してください。	異なります。 Azure OpenAI の制限を参照してください。
- DeepSeek-R1 - DeepSeek-V3-0324	5,000,000	5,000	300
- Llama 3.3 70B Instruct - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - グロク 3 ミニ	400,000	1,000	300
- Flux.2-Pro	適用されません	- 低 (既定値): 15 - ミディアム: 30 - High (Enterprise): 100	適用されません
- Flux-Pro 1.1 - Flux.1-Kontext Pro	適用されません	2 容量ユニット (1 分あたり 6 要求)	適用されません
残りのモデル	400,000	1,000	300

割り当てを増やすには:

Azure OpenAI の場合は、Foundry Service: クォータの引き上げ要求を使用して要求を送信します。
その他のモデルについては、既定の制限への要求の増加に関するページを参照してください。

需要が高いため、制限の引き上げ要求は個別に評価されます。

その他の制限

制限名	制限値
API 要求のカスタムヘッダーの最大数¹	10

¹ つの現在の API では、パイプラインが通過して返すカスタムヘッダーを最大 10 個使用できます。このヘッダー数を超えると、要求によって HTTP 431 エラーが発生します。このエラーを解決するには、ヘッダーボリュームを減らします。 今後の API バージョンでは、カスタムヘッダーは渡されません。今後のシステムアーキテクチャでは、カスタムヘッダーに依存しないでください。

使用量レベル

グローバル標準デプロイでは、Azureのグローバルインフラストラクチャを使用して、顧客の推論要求に最適な可用性を備えたデータセンターに顧客トラフィックを動的にルーティングします。このインフラストラクチャにより、トラフィックレベルが低から中程度の顧客に対して一貫した待機時間が実現します。使用率が高い継続的なレベルの顧客には、応答の待機時間の変動が増える可能性があります。

[使用制限] は、応答待ち時間の変動が大きくなる可能性がある使用量の上限を決定します。顧客の使用状況はモデルごとに定義され、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。

既定の制限の引き上げを要求する

quota の増加要求フォームを送信して、Azure、Azure OpenAI モデル、およびAnthropic モデルによって直接販売されるファンドリーモデルのクォータの引き上げを要求します。 Anthropicモデルを除き、パートナーやコミュニティのモデルはクォータの引き上げをサポートしていません。

クォータの引き上げ要求は受け取った順序で処理され、優先度は既存のクォータ割り当てを積極的に使用している顧客に適用されます。この条件を満たしていない要求は拒否される可能性があります。

レート制限内を維持するための一般的なベストプラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用します。

アプリケーションに再試行ロジックを実装します。
ワークロードの急激な変更を避けます。ワークロードを徐々に増やします。
さまざまな負荷増加パターンをテストします。
デプロイメントに割り当てられているクォータを増やす。必要に応じて、別のデプロイからクォータを移動します。

クライアント側のタイムアウトの設定

次のガイダンスに基づいて、クライアント側のタイムアウトを明示的に設定します。

メモ

明示的に設定しない場合、クライアント側のタイムアウトは使用されるライブラリに従って存在し、上記と同じ制限ではない可能性があります。

推論モデル (要約された応答を生成する前に中間推論トークンを生成するモデル): 最大 29 分。
非推論モデル:
- ストリーミングの場合、最大 60 秒。
- ストリーミング以外の要求の場合は、最大 29 分です。

ここで 29 分は、すべての要求が 29 分かかるという意味ではなく、コンテキストトークン、生成されたトークン、キャッシュヒット率に応じて、要求に最大 29 分かかる場合があります。

トラフィックパターンに合わせて、これらの値より小さいタイムアウトを設定します。

ストリーミング要求を含む推論モデルでは、すべての推論トークンが最初に生成され、その後、最初の応答トークンがユーザーに送信される前に要約されます。

推論作業パラメーターを変更して、プロセスで生成される推論トークンの数を制御できます。

トラブルシューティング

症状	原因	解決方法
HTTP 429 要求が多すぎます	1 分あたりのトークン数または 1 分あたりの要求数の制限を超えました	指数バックオフを使用して再試行ロジックを実装します。 `Retry-After` ヘッダー値を使用します。
HTTP 431 要求ヘッダーフィールドが大きすぎる	10 を超えるカスタムヘッダーが送信されました	カスタムヘッダーを 10 以下に減らします。
クォータページには使用可能な数が0で表示している	サブスクリプションまたはリージョンのクォータが完全に割り当てられている	未使用のクォータを別のデプロイから移動します。制限を引き上げるには、クォータの引き上げを要求します。
モデルはリージョンで利用できません	選択したリージョンでモデルがデプロイまたはサポートされていない	モデルの可用性を確認し、使用可能なリージョンを選択します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-05-08