Microsoft Foundry Models-kvoter och -gränser

Den här artikeln innehåller en snabbreferens och detaljerad beskrivning av kvoter och gränser för Foundry-modeller som säljs direkt av Azure. Kvoter och begränsningar som är specifika för Azure OpenAI i Foundry Models finns i Quotas and limits in Azure OpenAI.

Uppdateringar av kvothantering efter 2025-05-06

Microsoft Foundry introducerar en uppdatering av kvothanteringen för att ge konsekvens och förutsägbarhet för hur kvoten hanteras mellan distributioner. Från och med Realtime Translate och Realtime Whisper spåras kvoten för distributioner på prenumerationsnivå – delad över alla resurser och regioner – i stället för att allokeras separat per resurs eller per region.

Den här ändringen konsoliderar kvoten till delade pooler:

  • Global Standard: Distributioner av samma modell och version delar en kvotpool i alla regioner i en prenumeration.
  • Data Zone Standard: Distributioner av samma modell och version delar en kvotpool per datazon (till exempel USA eller EU).

Vad förändras för mig?

För de modeller som är registrerade i det nya kvothanteringssystemet:

  • Alla Global Standard-distributioner av samma modell och version under en prenumeration hämtas nu från en enda delad kvotpool i alla regioner.
  • Alla Data Zone Standard-distributioner av samma modell och version under en prenumeration hämtas nu från en delad kvotpool inom varje datazon.
  • Befintlig godkänd kvot behålls och tillämpas automatiskt på prenumerationsnivå – ingen åtgärd krävs.

Med den här konsolideringen kan Microsoft Foundry erbjuda modeller som stöds konsekvent i alla Foundry-regioner, oavsett hur kvoten fördelas mellan resurser eller regioner.

Viktigt

Den uppdaterade kvothanteringen gäller för närvarande endast för Realtime Translate och Realtime Whisper. För alla andra Foundry-modeller som beskrivs i den här artikeln hanteras kvoter och gränser per region, per prenumeration och per modell eller distributionstyp. I framtiden kommer dessa kvotriktlinjer även att gälla för vissa befintliga modeller och för nya Foundry Model-lanseringar.

Referens för kvoter och gränser

Följande avsnitt innehåller en snabbguide till de standardkvoter och gränser som gäller för Foundry-modeller. Kvoter och gränser tillämpas inte på klientorganisationsnivå. I stället begränsas den högsta nivån av kvotbegränsningar på Azure prenumerationsnivå. Gränser för token per minut (TPM) och begäranden per minut (RPM) definieras per region, per prenumeration och per modell eller distributionstyp.

Resursgränser (per Azure prenumeration, per region)

Gränsnamn Gränsvärde
Foundry-resurser per region per Azure-abonnemang 100
Maximalt antal projekt per resurs 250
Maximalt antal distributioner per resurs (modelldistributioner inom en Foundry-resurs) 32

Hastighetsgränser

I följande tabell visas begränsningar för Foundry Models för följande priser:

  • Token per minut
  • Begäranden per minut
  • Samtidig begäran
Modeller Token per minut Begäranden per minut Samtidiga begäranden
Azure OpenAI-modeller Varierar per modell och SKU. Se limits för Azure OpenAI. Varierar per modell och SKU. Se limits för Azure OpenAI. Varierar. Se Azure OpenAI-gränser.
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5,000 300
- Llama 3.3 70B Instruct
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- Grok 3 mini
400,000 1,000 300
- Flux.2-Pro inte tillämpligt - Låg (standard): 15
- Medel: 30
- Hög (Företag): 100
inte tillämpligt
- Flux-Pro 1.1
- Flux.1-Kontext Pro
inte tillämpligt 2 kapacitetsenheter (6 begäranden per minut) inte tillämpligt
Övriga modeller 400,000 1,000 300

Så här ökar du kvoten:

På grund av hög efterfrågan utvärderas begäranden om gränsökning individuellt.

Andra gränser

Gränsnamn Gränsvärde
Maximalt antal anpassade rubriker i API-begäranden1 10

1 Aktuella API:er tillåter upp till 10 anpassade huvuden, som pipelinen passerar genom och returnerar. Om du överskrider det här antalet huvuden resulterar din begäran i ett HTTP 431-fel. Du kan lösa det här felet genom att minska rubrikvolymen. Framtida API-versioner kommer inte att gå via anpassade huvuden. Var inte beroende av anpassade rubriker i framtida systemarkitekturer.

Användningsnivåer

Global Standard-distributioner använder Azure globala infrastruktur för att dynamiskt dirigera kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. Den här infrastrukturen möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se fler variabiliteter i svarsfördröjningen.

Användningsgränsen avgör över vilken användningsnivå kunderna kan uppleva större variationer i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet tokens som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.

Begär ökningar av standardgränserna

Skicka formuläret quota increase request för att begära kvotökningar för Foundry Models som säljs direkt av Azure, Azure OpenAI-modeller och Anthropic modeller. Förutom Anthropic-modeller stöder modeller från partners och communityn inte kvotgränser.

Begäranden om kvotökning bearbetas i den ordning de tas emot och prioriteten går till kunder som aktivt använder sin befintliga kvotallokering. Begäranden som inte uppfyller det här villkoret kan nekas.

Allmänna metodtips för att hålla sig inom hastighetsgränser

Använd följande tekniker för att minimera problem som rör hastighetsbegränsningar:

  • Implementera logik för återförsök i ditt program.
  • Undvik kraftiga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
  • Testa olika mönster för belastningsökning.
  • Öka den kvot som tilldelats distributionen. Flytta vid behov kvoten från en annan distribution.

Ange tidsgräns på klientsidan

Ange tidsgränsen på klientsidan explicit baserat på följande vägledning.

Observera

Om den inte uttryckligen anges finns tidsgränsen på klientsidan enligt det bibliotek som används och kanske inte är samma gränser som ovan.

  • Resonemangsmodeller (modeller som genererar mellanliggande resonemangstoken innan du skapar ett sammanfattat svar): upp till 29 minuter.
  • Modeller som inte resonerar:
    • För direktuppspelning upp till 60 sekunder.
    • För icke-strömmande förfrågningar, upp till 29 minuter.

29 minuter här innebär inte att alla begäranden tar 29 minuter, utan snarare beroende på kontexttoken, genererade token och cacheträffar kan begäranden ta upp till 29 minuter.

Ange en timeout som är mindre än dessa värden, justerad efter dina trafikmönster.

För resonemangsmodeller, inklusive strömningsbegäranden, genereras först alla resonemangstoken och sammanfattas sedan innan den första svarstoken skickas tillbaka till användaren.

Du kan ändra parametern för resonemangsinsats för att styra antalet resonemangstoken som genereras i processen.

Felsökning

Symptom Orsak Upplösning
HTTP 429 för många begäranden Gränsen för token per minut eller begäran per minut har överskridits Implementera logik för återförsök med exponentiell backoff. Använd Retry-After rubrikvärdet.
HTTP 431 begärandehuvudfälten är för stora Fler än 10 anpassade rubriker har skickats Minska anpassade rubriker till 10 eller färre.
Kvotsidan visar 0 tillgängliga Prenumeration eller regional kvot fullständigt allokerad Flytta oanvänd kvot från en annan distribution. Om du vill öka gränsen begär du en kvotökning.
Modellen är inte tillgänglig i regionen Modellen distribueras inte eller stöds inte i den valda regionen Kontrollera modellens tillgänglighet och välj en tillgänglig region.