Microsoft Foundry-Modelle: Kontingente und Grenzwerte

Dieser Artikel enthält eine Kurzübersicht und detaillierte Beschreibung der Kontingente und Grenzwerte für Foundry Models, die direkt von Azure verkauft werden. Kontingente und Grenzwerte für die Azure OpenAI in Foundry Models finden Sie unter Quotas und Grenzwerte in Azure OpenAI.

Aktualisierungen der Kontingentverwaltung nach dem 06.05.2025

Microsoft Foundry führt ein Update für die Kontingentverwaltung ein, um Konsistenz und Vorhersagbarkeit für die Verwaltung des Kontingents über Bereitstellungen hinweg zu gewährleisten. Beginnend mit "Realtime Translate" und "Realtime Whisper" wird das Kontingent für Bereitstellungen auf Abonnementebene nachverfolgt , das für alle Ressourcen und Regionen freigegeben wird, anstatt separat pro Ressource oder Region zugeordnet zu werden.

Diese Änderung konsolidiert Quoten in gemeinsamen Pools.

Globaler Standard: Bereitstellungen desselben Modells und derselben Version teilen einen Kontingentpool für alle Regionen in einem Abonnement.
Data Zone Standard: Bereitstellungen desselben Modells und der Version teilen einen Kontingentpool pro Datenzone (z. B. USA oder EU).

Was ändert sich für mich?

Für die Modelle, die das neue Kontingentverwaltungssystem integriert haben:

Alle globalen Standardimplementierungen desselben Modells und derselben Version unter einem Abonnement beziehen sich jetzt auf einen einzigen freigegebenen Kontingentpool in allen Regionen.
Alle Data Zone Standard-Bereitstellungen desselben Modells und derselben Version unter einem Abonnement beziehen sich jetzt auf einen gemeinsamen Kontingentpool innerhalb jeder Datenzone.
Vorhandenes genehmigtes Kontingent wird beibehalten und wird automatisch auf Abonnementebene angewendet – keine Aktion erforderlich.

Diese Konsolidierung ermöglicht es Microsoft Foundry, unterstützte Modelle einheitlich in allen Foundry-Regionen anzubieten, unabhängig davon, wie das Kontingent über Ressourcen oder Regionen verteilt wird.

Wichtig

Die aktualisierte Kontingentverwaltung gilt derzeit nur für Realtime Translate und Realtime Whisper. Für alle anderen in diesem Artikel behandelten Foundry-Modelle werden Kontingente und Grenzwerte pro Region, pro Abonnement und pro Modell oder Bereitstellungstyp verwaltet. In Zukunft gelten diese Kontingentrichtlinien auch für einige bestehende Modelle und neue Foundry Model-Starts.

Referenz zu Kontingenten und Grenzwerten

In den folgenden Abschnitten finden Sie eine Kurzanleitung zu den Standardkontingenten und Grenzwerten, die für Foundry Models gelten. Kontingente und Begrenzungen gelten nicht auf Mandantenebene. Stattdessen wird die höchste Ebene der Kontingenteinschränkungen auf der Azure Abonnementebene festgelegt. Token pro Minute (TPM) und Anforderungen pro Minute (RPM) werden pro Region, pro Abonnement und pro Modell oder Bereitstellungstyp definiert.

Ressourcenbeschränkungen (pro Azure Abonnement, pro Region)

Name des Grenzwerts	Grenzwert
Azure Foundry-Ressourcen pro Region und pro Abonnement	100
Max. Projekte pro Ressource	250
Maximale Bereitstellung pro Ressource (Modellbereitstellungen innerhalb einer Foundry-Ressource)	32

Ratenbeschränkungen

In der folgenden Tabelle sind Grenzwerte für Foundry Models für die folgenden Tarife aufgeführt:

Token pro Minute
Anfragen pro Minute
Gleichzeitige Anforderung

Modelle	Token pro Minute	Anfragen pro Minute	Gleichzeitige Anforderungen
Azure OpenAI-Modelle	Variiert je nach Modell und SKU. Siehe limits für Azure OpenAI.	Variiert je nach Modell und SKU. Siehe limits für Azure OpenAI.	Variiert. Siehe Azure OpenAI-Grenzwerte.
- DeepSeek-R1 - DeepSeek-V3-0324	5,000,000	5,000	300
- Llama 3.3 70B Anleitung - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini	400,000	1,000	300
- Flux.2-Pro	nicht anwendbar	- Niedrig (Standard): 15 - Mittel: 30 - Hoch (Unternehmen): 100	nicht anwendbar
- Flux-Pro 1.1 - Flux.1-Kontext Pro	nicht anwendbar	2 Kapazitätseinheiten (6 Anforderungen pro Minute)	nicht anwendbar
Restliche Modelle	400,000	1,000	300

So erhöhen Sie Ihr Kontingent:

Verwenden Sie für Azure OpenAI den Foundry Service: Antrag auf Kontingenterhöhung, um Ihre Anfrage einzureichen.
Weitere Modelle finden Sie unter Anforderungserhöhungen zu den Standardgrenzwerten.

Aufgrund der hohen Nachfrage werden Grenzwerterhöhungsanforderungen einzeln ausgewertet.

Andere Grenzwerte

Name des Grenzwerts	Grenzwert
Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen¹	10

¹ Aktuelle APIs ermöglichen bis zu 10 benutzerdefinierte Header, die die Pipeline durchläuft und zurückgibt. Wenn Sie diese Headeranzahl überschreiten, führt ihre Anforderung zu einem HTTP 431-Fehler. Um diesen Fehler zu beheben, verringern Sie das Headervolume. Zukünftige API-Versionen werden keine benutzerdefinierten Header durchlaufen. Hängen Sie nicht von benutzerdefinierten Headern in zukünftigen Systemarchitekturen ab.

Verwendungsebenen

Globale Standardbereitstellungen verwenden die globale Infrastruktur von Azure, um den Kundendatenverkehr dynamisch an das Rechenzentrum weiterzuleiten und die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden zu erzielen. Diese Infrastruktur ermöglicht eine konsistentere Latenz für Kunden mit geringem bis mittlerem Datenverkehrsniveau. Kunden mit einem hohen dauerhaften Nutzungsgrad sehen möglicherweise mehr Variabilitäten bei der Antwortlatenz.

Der Nutzungsgrenzwert bestimmt den Umfang der Nutzung, über dem Kunden möglicherweise eine größere Variabilität bei der Antwortlatenz sehen können. Die Nutzung eines Kunden wird pro Modell definiert und ist die Gesamtanzahl der Token, die in allen Bereitstellungen in allen Abonnements in allen Regionen für einen bestimmten Mandanten verbraucht werden.

Anträge auf Erhöhung der Standardgrenzwerte

Übermitteln Sie das Anforderungsformular für Kontingenterhöhungen, um Kontingenterhöhungen für Foundry-Modelle, die direkt von Azure verkauft werden, Azure OpenAI-Modelle und Anthropic-Modelle anzufordern. Mit Ausnahme der Anthropic-Modelle unterstützen Modelle von Partnern und der Community keine Kontingenterhöhungen.

Kontingenterhöhungsanforderungen werden in der Reihenfolge verarbeitet, in der sie empfangen werden, und Priorität geht an Kunden, die ihre vorhandene Kontingentzuweisung aktiv verwenden. Anforderungen, die diese Bedingung nicht erfüllen, werden möglicherweise verweigert.

Allgemeine bewährte Methoden zum Beibehalten von Zinslimits

Verwenden Sie die folgenden Techniken, um Probleme im Zusammenhang mit Zinslimits zu minimieren:

Implementieren Sie die Wiederholungslogik in Ihrer Anwendung.
Vermeiden Sie scharfe Änderungen an der Arbeitsauslastung. Erhöhen Sie die Arbeitsauslastung schrittweise.
Testen Sie unterschiedliche Auslastungserhöhungsmuster.
Erhöhen Sie das Kontingent, das Ihrer Bereitstellung zugewiesen ist. Verschieben Sie das Kontingent bei Bedarf aus einer anderen Bereitstellung.

Festlegen eines clientseitigen Timeouts

Legen Sie das clientseitige Timeout explizit basierend auf den folgenden Anweisungen fest.

Hinweis

Wenn nicht explizit festgelegt, ist das clientseitige Timeout entsprechend der Spezifikationen der verwendeten Bibliothek festgelegt und kann andere Grenzwerte aufweisen als oben angegeben.

Reasoning-Modelle (Modelle, die Zwischengrundlegungstoken generieren, bevor eine zusammengefasste Antwort erstellt wird): bis zu 29 Minuten.
Nicht-logische Modelle
- Für streaming, bis zu 60 Sekunden.
- Bei Nicht-Streaming-Anforderungen bis zu 29 Minuten.

29 Minuten bedeutet hier nicht, dass alle Anforderungen 29 Minuten dauern, sondern je nach Kontexttoken, generierten Token und Cachetreffraten können Anforderungen bis zu 29 Minuten dauern.

Legen Sie ein Timeout fest, das kleiner als diese Werte ist und auf Ihre Verkehrsmuster abgestimmt ist.

Bei Begründungsmodellen, einschließlich Streaming-Anfragen, werden zunächst alle Rechnungstokens erzeugt und dann zusammengefasst, bevor das erste Antworttoken an den Benutzer gesendet wird.

Sie können den Parameter "Reasoning Effort " ändern, um die Anzahl der im Prozess generierten Begründungstoken zu steuern.

Problembehandlung

Symptom	Ursache	Auflösung
HTTP 429 zu viele Anforderungen	Der Grenzwert für Token pro Minute oder Anforderung pro Minute wurde überschritten.	Implementieren Sie Wiederholungslogik mit exponentiellem Backoff. Verwenden Sie den `Retry-After` Headerwert.
HTTP 431-Anforderungsheaderfelder zu groß	Mehr als 10 benutzerdefinierte Kopfzeilen gesendet	Reduzieren Sie benutzerdefinierte Kopfzeilen auf 10 oder weniger.
Die Quoten-Seite zeigt 0 verfügbar	Vollständig zugewiesenes Abonnement- oder regionales Kontingent	Verschieben Sie das nicht verwendete Kontingent aus einer anderen Bereitstellung. Um Ihren Grenzwert zu erhöhen, fordern Sie eine Kontingenterhöhung an.
Modell nicht in Region verfügbar	Das Modell wird in der ausgewählten Region nicht bereitgestellt oder unterstützt.	Überprüfen Sie die Verfügbarkeit des Modells , und wählen Sie eine verfügbare Region aus.

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-08