Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Prioritetsbearbetning ger prestanda med låg latens med flexibiliteten att betala per användning. I den här artikeln aktiverar du prioritetsbearbetning för en modelldistribution, kontrollerar vilken tjänstnivå som bearbetat dina begäranden och övervakar associerade kostnader.
Förutsättningar
- En Azure-prenumeration – Skapa en kostnadsfri.
- Ett Microsoft Foundry-projekt med en modell av distributionstypen
GlobalStandardellerDataZoneStandarddistribuerad. - Modellversioner
2025-12-01eller senare.
Viktiga användningsfall
- Konsekvent, låg svarstid för dynamiska användarupplevelser.
- Enkel betalning per användning utan långsiktiga åtaganden.
- Arbetstids- eller intermittent trafik som drar nytta av skalbar, kostnadseffektiv prestanda. Du kan också kombinera prioriterad bearbetning med Provisionerad dataflödeskapacitet (PTU) för kapacitet i jämn drift och kostnadsoptimering.
Mål för svarstid
| Modell | Målvärde för svarstid2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 token per sekund |
| gpt-5.2, 2025-12-11 | 99% > 50 token per sekund |
| gpt-5.1, 2025-11-13 | 99% > 50 token per sekund |
| gpt-4.1, 2025-04-141 | 99% > 80 token per sekund |
1 Långa kontextbegäranden (d.v.s. begäranden som uppskattas till större än 128 000 prompttoken) nedgraderas till standardbearbetning och du debiteras enligt standardnivån.
2 Beräknad som p50-begärandefördröjning per 5 minuters basis.
Prioritetsbearbetningstillgänglighet efter distributionstyp
Prioritetsbearbetning kan aktiveras i globala standardinstallationer eller standardinstallationer för datazoner (USA). Prisinformation finns i prissidan Azure OpenAI.
Global standardmodelltillgänglighet
| Regionen | gpt-5.5, 2026-04-24 | gpt-5.4-mini, 2026-03-17 | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| brazilsouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| germanywestcentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| italynorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| norwayeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| polencentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Södra Indien | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| swedencentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Schweiznord | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Schweiz Väst | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ |
Aktivera prioritetsbearbetning på distributionsnivå
Du kan aktivera prioritetsbearbetning på distributionsnivå och (valfritt) på begärandenivå.
Observera
Prioritetsbearbetning kan aktiveras i distributioner av Global standard eller Data Zone Standard (USA). Prioritetsbearbetning använder samma kvot som standardbearbetning.
I portalen Microsoft Foundry slår du på Priority-bearbetning knappen på distributionssidan när du skapar distributionen eller genom att redigera distributionsdetaljerna för att uppdatera inställningen för en distribuerad modell.
Observera
Om du föredrar att använda kod för att aktivera prioritetsbearbetning på distributionsnivå kan du göra det via REST-API:et för distribution genom att ange service_tier attributet enligt följande: "properties" : {"service_tier" : "priority"}. Tillåtna värden för attributet service_tier är default och priority.
default innebär standardbearbetning, medan priority möjliggör prioritetsbearbetning.
När en modelldistribution har konfigurerats för att använda prioritetsbearbetning kan du börja skicka begäranden till modellen.
Visa användningsstatistik
Du kan visa användningsmåttet för resursen i avsnittet Azure Monitor i Azure portalen.
Om du vill visa mängden begäranden som bearbetas av standardbearbetning jämfört med prioritetsbearbetning, delas du upp efter tjänstnivån (standard eller prioritet) som fanns i den ursprungliga begäran:
- Logga in på https://portal.azure.com.
- Gå till din Azure OpenAI-resurs och välj alternativet Metrics i det vänstra navigeringsfältet.
- På sidan för mätvärden lägger du till mätvärdet Azure OpenAI-förfrågningar. Du kan också välja andra mått som Azure OpenAI-svarstid, Azure OpenAI-användning och andra.
- Välj Lägg till filter för att välja den standarddistribution för vilken begäranden om prioritetsbearbetning bearbetades.
- Välj Använd delning för att dela upp värdena efter ServiceTierRequest och ServiceTierResponse.
Mer information om hur du övervakar dina distributioner finns i Övervaka Azure OpenAI.
Övervaka kostnader
Du kan se en uppdelning av kostnader för prioritets- och standardbegäranden på Azure portalens kostnadsanalyssida genom att filtrera efter distributionsnamn och faktureringstaggar på följande sätt:
- Gå till kostnadsanalyssidan i Azure-portalen.
- (Valfritt) Filtrera efter resurs.
- Filtrera efter distributionsnamn: Lägg till ett filter för faktureringstagg> och välj distribution som värde och välj sedan distributionsnamnet.
Information om priser för prioritetsbearbetning finns i prisöversikten Azure OpenAI Service.
Aktivera prioritetsbearbetning på begäransnivå
Det är valfritt att aktivera prioritetsbearbetning på begärandenivå. Både API:et för chattavslut och svars-API:et har ett valfritt attribut service_tier som anger vilken bearbetningstyp som ska användas när en begäran skickas. I följande exempel visas hur du anger service_tier till priority i en svarsbegäran.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
service_tier Använd attributet för att åsidosätta inställningen på distributionsnivå.
service_tier kan ta värdena auto, defaultoch priority.
Om du inte anger attributet är det standardvärdet
auto.service_tier = autoinnebär att begäran använder den tjänstnivå som konfigurerats i distributionen.service_tier = defaultinnebär att begäran använder standardpriser och prestanda för den valda modellen.service_tier = priorityinnebär att begäran använder tjänstnivån för prioritetsbearbetning.
I följande tabell sammanfattas vilken tjänstnivå som bearbetar dina begäranden baserat på inställningarna på distributionsnivå och begärandenivå för service_tier.
| Inställning på distributionsnivå | Inställning på begäransnivå | Begäran bearbetad efter tjänstnivå |
|---|---|---|
| Standard | auto, förval | Standard |
| Standard | Prioritet | Prioritetsbearbetning |
| Prioritet | automatiskt, prioritet | Prioritetsbearbetning |
| Prioritet | Standard | Standard |
Begränsningar
Tjänsten stöder för närvarande inte regionala standarddistributioner och EU-datazonstandarddistributioner.
Tjänsten kan omdirigera vissa prioritetsbegäranden till standardbearbetning* under dessa scenarier:
- Om snabba ökningar av dina token för prioritetsbearbetning per minut leder till att begränsningar för rampningshastighet överskrids. För närvarande definieras gränsen för ramphastighet som att öka trafiken med mer än 50 % tokens per minut inom mindre än 15 minuter.
- Under perioder med toppbegäranden till prioritetsbearbetning.
- Långa kontextbegäranden som skickas till vissa modeller som anges i måltabellen för svarstid.
Tips
Om du rutinmässigt stöter på ramphastighetsbegränsningar bör du överväga att köpa PTU i stället för eller som ett komplement till prioritetsbearbetning.
* Tjänsten fakturerar begäranden som bearbetas av standardtjänstnivån till standardpriser. Begäranden som bearbetas av standardtjänstnivån ingår
service_tier = defaulti svaret, medan begäranden som bearbetas av prioritetsbearbetningsnivån inkluderarservice_tier = priorityi svaret.
Felsökning
| Frågan | Orsak | Upplösning |
|---|---|---|
| Begäranden nedgraderade till standardnivå | En av dessa situationer: - Trafiken ökade med mer än 50% tokens per minut på mindre än 15 minuter och nådde ramphastighetsgränsen. – Begäranden som skickas under perioder med toppbegäranden till prioritetsbearbetning. – Långa kontextbegäranden som skickas till vissa modeller som anges i måltabellen För svarstid. |
– Öka trafiken gradvis om du har stött på hastighetsbegränsningar för ramper. – Överväg att köpa PTU för stabil kapacitet. |