Aktivera prioritetsbearbetning för Microsoft Foundry-modeller

Prioritetsbearbetning ger prestanda med låg latens med flexibiliteten att betala per användning. I den här artikeln aktiverar du prioritetsbearbetning för en modelldistribution, kontrollerar vilken tjänstnivå som bearbetat dina begäranden och övervakar associerade kostnader.

Förutsättningar

  • En Azure-prenumeration – Skapa en kostnadsfri.
  • Ett Microsoft Foundry-projekt med en modell av distributionstypen GlobalStandard eller DataZoneStandard distribuerad.
  • Modellversioner 2025-12-01 eller senare.

Viktiga användningsfall

  • Konsekvent, låg svarstid för dynamiska användarupplevelser.
  • Enkel betalning per användning utan långsiktiga åtaganden.
  • Arbetstids- eller intermittent trafik som drar nytta av skalbar, kostnadseffektiv prestanda. Du kan också kombinera prioriterad bearbetning med Provisionerad dataflödeskapacitet (PTU) för kapacitet i jämn drift och kostnadsoptimering.

Mål för svarstid

Modell Målvärde för svarstid2
gpt-5.4, 2026-03-051 99% > 50 token per sekund
gpt-5.2, 2025-12-11 99% > 50 token per sekund
gpt-5.1, 2025-11-13 99% > 50 token per sekund
gpt-4.1, 2025-04-141 99% > 80 token per sekund

1 Långa kontextbegäranden (d.v.s. begäranden som uppskattas till större än 128 000 prompttoken) nedgraderas till standardbearbetning och du debiteras enligt standardnivån.

2 Beräknad som p50-begärandefördröjning per 5 minuters basis.

Prioritetsbearbetningstillgänglighet efter distributionstyp

Prioritetsbearbetning kan aktiveras i globala standardinstallationer eller standardinstallationer för datazoner (USA). Prisinformation finns i prissidan Azure OpenAI.

Global standardmodelltillgänglighet

Regionen gpt-5.5, 2026-04-24 gpt-5.4-mini, 2026-03-17 gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
australiaeast -
brazilsouth -
canadacentral -
canadaeast -
centralus -
eastus -
eastus2 -
francecentral -
germanywestcentral -
italynorth -
japaneast -
koreacentral -
northcentralus -
norwayeast -
polencentral
southafricanorth -
southcentralus
southeastasia -
Södra Indien -
spaincentral -
swedencentral
Schweiznord -
Schweiz Väst -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

Aktivera prioritetsbearbetning på distributionsnivå

Du kan aktivera prioritetsbearbetning på distributionsnivå och (valfritt) på begärandenivå.

Observera

Prioritetsbearbetning kan aktiveras i distributioner av Global standard eller Data Zone Standard (USA). Prioritetsbearbetning använder samma kvot som standardbearbetning.

I portalen Microsoft Foundry slår du på Priority-bearbetning knappen på distributionssidan när du skapar distributionen eller genom att redigera distributionsdetaljerna för att uppdatera inställningen för en distribuerad modell.

Skärmbild som visar hur du aktiverar prioritetsbearbetning under modelldistributionen i Foundry-portalen.

Observera

Om du föredrar att använda kod för att aktivera prioritetsbearbetning på distributionsnivå kan du göra det via REST-API:et för distribution genom att ange service_tier attributet enligt följande: "properties" : {"service_tier" : "priority"}. Tillåtna värden för attributet service_tier är default och priority. default innebär standardbearbetning, medan priority möjliggör prioritetsbearbetning.

När en modelldistribution har konfigurerats för att använda prioritetsbearbetning kan du börja skicka begäranden till modellen.

Visa användningsstatistik

Du kan visa användningsmåttet för resursen i avsnittet Azure Monitor i Azure portalen.

Om du vill visa mängden begäranden som bearbetas av standardbearbetning jämfört med prioritetsbearbetning, delas du upp efter tjänstnivån (standard eller prioritet) som fanns i den ursprungliga begäran:

  1. Logga in på https://portal.azure.com.
  2. Gå till din Azure OpenAI-resurs och välj alternativet Metrics i det vänstra navigeringsfältet.
  3. På sidan för mätvärden lägger du till mätvärdet Azure OpenAI-förfrågningar. Du kan också välja andra mått som Azure OpenAI-svarstid, Azure OpenAI-användning och andra.
  4. Välj Lägg till filter för att välja den standarddistribution för vilken begäranden om prioritetsbearbetning bearbetades.
  5. Välj Använd delning för att dela upp värdena efter ServiceTierRequest och ServiceTierResponse.

Skärmbild av den prioriterade bearbetningsanvändningen på resursens måttsida i Azure portal.

Mer information om hur du övervakar dina distributioner finns i Övervaka Azure OpenAI.

Övervaka kostnader

Du kan se en uppdelning av kostnader för prioritets- och standardbegäranden på Azure portalens kostnadsanalyssida genom att filtrera efter distributionsnamn och faktureringstaggar på följande sätt:

  1. Gå till kostnadsanalyssidan i Azure-portalen.
  2. (Valfritt) Filtrera efter resurs.
  3. Filtrera efter distributionsnamn: Lägg till ett filter för faktureringstagg> och välj distribution som värde och välj sedan distributionsnamnet.

Skärmbild av den prioriterade bearbetningsanvändningen på resursens kostnadsanalyssida i Azure portal.

Information om priser för prioritetsbearbetning finns i prisöversikten Azure OpenAI Service.

Aktivera prioritetsbearbetning på begäransnivå

Det är valfritt att aktivera prioritetsbearbetning på begärandenivå. Både API:et för chattavslut och svars-API:et har ett valfritt attribut service_tier som anger vilken bearbetningstyp som ska användas när en begäran skickas. I följande exempel visas hur du anger service_tier till priority i en svarsbegäran.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Använd attributet för att åsidosätta inställningen på distributionsnivå. service_tier kan ta värdena auto, defaultoch priority.

  • Om du inte anger attributet är det standardvärdet auto.

  • service_tier = auto innebär att begäran använder den tjänstnivå som konfigurerats i distributionen.

  • service_tier = default innebär att begäran använder standardpriser och prestanda för den valda modellen.

  • service_tier = priority innebär att begäran använder tjänstnivån för prioritetsbearbetning.

I följande tabell sammanfattas vilken tjänstnivå som bearbetar dina begäranden baserat på inställningarna på distributionsnivå och begärandenivå för service_tier.

Inställning på distributionsnivå Inställning på begäransnivå Begäran bearbetad efter tjänstnivå
Standard auto, förval Standard
Standard Prioritet Prioritetsbearbetning
Prioritet automatiskt, prioritet Prioritetsbearbetning
Prioritet Standard Standard

Begränsningar

  • Tjänsten stöder för närvarande inte regionala standarddistributioner och EU-datazonstandarddistributioner.

  • Tjänsten kan omdirigera vissa prioritetsbegäranden till standardbearbetning* under dessa scenarier:

    • Om snabba ökningar av dina token för prioritetsbearbetning per minut leder till att begränsningar för rampningshastighet överskrids. För närvarande definieras gränsen för ramphastighet som att öka trafiken med mer än 50 % tokens per minut inom mindre än 15 minuter.
    • Under perioder med toppbegäranden till prioritetsbearbetning.
    • Långa kontextbegäranden som skickas till vissa modeller som anges i måltabellen för svarstid.

    Tips

    Om du rutinmässigt stöter på ramphastighetsbegränsningar bör du överväga att köpa PTU i stället för eller som ett komplement till prioritetsbearbetning.

    * Tjänsten fakturerar begäranden som bearbetas av standardtjänstnivån till standardpriser. Begäranden som bearbetas av standardtjänstnivån ingår service_tier = default i svaret, medan begäranden som bearbetas av prioritetsbearbetningsnivån inkluderar service_tier = priority i svaret.

Felsökning

Frågan Orsak Upplösning
Begäranden nedgraderade till standardnivå En av dessa situationer:
- Trafiken ökade med mer än 50% tokens per minut på mindre än 15 minuter och nådde ramphastighetsgränsen.
– Begäranden som skickas under perioder med toppbegäranden till prioritetsbearbetning.
– Långa kontextbegäranden som skickas till vissa modeller som anges i måltabellen För svarstid.
– Öka trafiken gradvis om du har stött på hastighetsbegränsningar för ramper.
– Överväg att köpa PTU för stabil kapacitet.