Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Artikel enthält eine Kurzübersicht und detaillierte Beschreibung der Kontingente und Grenzwerte für Foundry Models, die direkt von Azure verkauft werden. Kontingente und Grenzwerte für die Azure OpenAI in Foundry Models finden Sie unter Quotas und Grenzwerte in Azure OpenAI.
Aktualisierungen der Kontingentverwaltung nach dem 06.05.2025
Microsoft Foundry führt ein Update für die Kontingentverwaltung ein, um Konsistenz und Vorhersagbarkeit für die Verwaltung des Kontingents über Bereitstellungen hinweg zu gewährleisten. Beginnend mit "Realtime Translate" und "Realtime Whisper" wird das Kontingent für Bereitstellungen auf Abonnementebene nachverfolgt , das für alle Ressourcen und Regionen freigegeben wird, anstatt separat pro Ressource oder Region zugeordnet zu werden.
Diese Änderung konsolidiert Quoten in gemeinsamen Pools.
- Globaler Standard: Bereitstellungen desselben Modells und derselben Version teilen einen Kontingentpool für alle Regionen in einem Abonnement.
- Data Zone Standard: Bereitstellungen desselben Modells und der Version teilen einen Kontingentpool pro Datenzone (z. B. USA oder EU).
Was ändert sich für mich?
Für die Modelle, die das neue Kontingentverwaltungssystem integriert haben:
- Alle globalen Standardimplementierungen desselben Modells und derselben Version unter einem Abonnement beziehen sich jetzt auf einen einzigen freigegebenen Kontingentpool in allen Regionen.
- Alle Data Zone Standard-Bereitstellungen desselben Modells und derselben Version unter einem Abonnement beziehen sich jetzt auf einen gemeinsamen Kontingentpool innerhalb jeder Datenzone.
- Vorhandenes genehmigtes Kontingent wird beibehalten und wird automatisch auf Abonnementebene angewendet – keine Aktion erforderlich.
Diese Konsolidierung ermöglicht es Microsoft Foundry, unterstützte Modelle einheitlich in allen Foundry-Regionen anzubieten, unabhängig davon, wie das Kontingent über Ressourcen oder Regionen verteilt wird.
Wichtig
Die aktualisierte Kontingentverwaltung gilt derzeit nur für Realtime Translate und Realtime Whisper. Für alle anderen in diesem Artikel behandelten Foundry-Modelle werden Kontingente und Grenzwerte pro Region, pro Abonnement und pro Modell oder Bereitstellungstyp verwaltet. In Zukunft gelten diese Kontingentrichtlinien auch für einige bestehende Modelle und neue Foundry Model-Starts.
Referenz zu Kontingenten und Grenzwerten
In den folgenden Abschnitten finden Sie eine Kurzanleitung zu den Standardkontingenten und Grenzwerten, die für Foundry Models gelten. Kontingente und Begrenzungen gelten nicht auf Mandantenebene. Stattdessen wird die höchste Ebene der Kontingenteinschränkungen auf der Azure Abonnementebene festgelegt. Token pro Minute (TPM) und Anforderungen pro Minute (RPM) werden pro Region, pro Abonnement und pro Modell oder Bereitstellungstyp definiert.
Ressourcenbeschränkungen (pro Azure Abonnement, pro Region)
| Name des Grenzwerts | Grenzwert |
|---|---|
| Azure Foundry-Ressourcen pro Region und pro Abonnement | 100 |
| Max. Projekte pro Ressource | 250 |
| Maximale Bereitstellung pro Ressource (Modellbereitstellungen innerhalb einer Foundry-Ressource) | 32 |
Ratenbeschränkungen
In der folgenden Tabelle sind Grenzwerte für Foundry Models für die folgenden Tarife aufgeführt:
- Token pro Minute
- Anfragen pro Minute
- Gleichzeitige Anforderung
| Modelle | Token pro Minute | Anfragen pro Minute | Gleichzeitige Anforderungen |
|---|---|---|---|
| Azure OpenAI-Modelle | Variiert je nach Modell und SKU. Siehe limits für Azure OpenAI. | Variiert je nach Modell und SKU. Siehe limits für Azure OpenAI. | Variiert. Siehe Azure OpenAI-Grenzwerte. |
| - DeepSeek-R1 - DeepSeek-V3-0324 |
5,000,000 | 5,000 | 300 |
| - Llama 3.3 70B Anleitung - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini |
400,000 | 1,000 | 300 |
| - Flux.2-Pro | nicht anwendbar | - Niedrig (Standard): 15 - Mittel: 30 - Hoch (Unternehmen): 100 |
nicht anwendbar |
| - Flux-Pro 1.1 - Flux.1-Kontext Pro |
nicht anwendbar | 2 Kapazitätseinheiten (6 Anforderungen pro Minute) | nicht anwendbar |
| Restliche Modelle | 400,000 | 1,000 | 300 |
So erhöhen Sie Ihr Kontingent:
- Verwenden Sie für Azure OpenAI den Foundry Service: Antrag auf Kontingenterhöhung, um Ihre Anfrage einzureichen.
- Weitere Modelle finden Sie unter Anforderungserhöhungen zu den Standardgrenzwerten.
Aufgrund der hohen Nachfrage werden Grenzwerterhöhungsanforderungen einzeln ausgewertet.
Andere Grenzwerte
| Name des Grenzwerts | Grenzwert |
|---|---|
| Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen1 | 10 |
1 Aktuelle APIs ermöglichen bis zu 10 benutzerdefinierte Header, die die Pipeline durchläuft und zurückgibt. Wenn Sie diese Headeranzahl überschreiten, führt ihre Anforderung zu einem HTTP 431-Fehler. Um diesen Fehler zu beheben, verringern Sie das Headervolume. Zukünftige API-Versionen werden keine benutzerdefinierten Header durchlaufen. Hängen Sie nicht von benutzerdefinierten Headern in zukünftigen Systemarchitekturen ab.
Verwendungsebenen
Globale Standardbereitstellungen verwenden die globale Infrastruktur von Azure, um den Kundendatenverkehr dynamisch an das Rechenzentrum weiterzuleiten und die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden zu erzielen. Diese Infrastruktur ermöglicht eine konsistentere Latenz für Kunden mit geringem bis mittlerem Datenverkehrsniveau. Kunden mit einem hohen dauerhaften Nutzungsgrad sehen möglicherweise mehr Variabilitäten bei der Antwortlatenz.
Der Nutzungsgrenzwert bestimmt den Umfang der Nutzung, über dem Kunden möglicherweise eine größere Variabilität bei der Antwortlatenz sehen können. Die Nutzung eines Kunden wird pro Modell definiert und ist die Gesamtanzahl der Token, die in allen Bereitstellungen in allen Abonnements in allen Regionen für einen bestimmten Mandanten verbraucht werden.
Anträge auf Erhöhung der Standardgrenzwerte
Übermitteln Sie das Anforderungsformular für Kontingenterhöhungen, um Kontingenterhöhungen für Foundry-Modelle, die direkt von Azure verkauft werden, Azure OpenAI-Modelle und Anthropic-Modelle anzufordern. Mit Ausnahme der Anthropic-Modelle unterstützen Modelle von Partnern und der Community keine Kontingenterhöhungen.
Kontingenterhöhungsanforderungen werden in der Reihenfolge verarbeitet, in der sie empfangen werden, und Priorität geht an Kunden, die ihre vorhandene Kontingentzuweisung aktiv verwenden. Anforderungen, die diese Bedingung nicht erfüllen, werden möglicherweise verweigert.
Allgemeine bewährte Methoden zum Beibehalten von Zinslimits
Verwenden Sie die folgenden Techniken, um Probleme im Zusammenhang mit Zinslimits zu minimieren:
- Implementieren Sie die Wiederholungslogik in Ihrer Anwendung.
- Vermeiden Sie scharfe Änderungen an der Arbeitsauslastung. Erhöhen Sie die Arbeitsauslastung schrittweise.
- Testen Sie unterschiedliche Auslastungserhöhungsmuster.
- Erhöhen Sie das Kontingent, das Ihrer Bereitstellung zugewiesen ist. Verschieben Sie das Kontingent bei Bedarf aus einer anderen Bereitstellung.
Festlegen eines clientseitigen Timeouts
Legen Sie das clientseitige Timeout explizit basierend auf den folgenden Anweisungen fest.
Hinweis
Wenn nicht explizit festgelegt, ist das clientseitige Timeout entsprechend der Spezifikationen der verwendeten Bibliothek festgelegt und kann andere Grenzwerte aufweisen als oben angegeben.
- Reasoning-Modelle (Modelle, die Zwischengrundlegungstoken generieren, bevor eine zusammengefasste Antwort erstellt wird): bis zu 29 Minuten.
- Nicht-logische Modelle
- Für streaming, bis zu 60 Sekunden.
- Bei Nicht-Streaming-Anforderungen bis zu 29 Minuten.
29 Minuten bedeutet hier nicht, dass alle Anforderungen 29 Minuten dauern, sondern je nach Kontexttoken, generierten Token und Cachetreffraten können Anforderungen bis zu 29 Minuten dauern.
Legen Sie ein Timeout fest, das kleiner als diese Werte ist und auf Ihre Verkehrsmuster abgestimmt ist.
Bei Begründungsmodellen, einschließlich Streaming-Anfragen, werden zunächst alle Rechnungstokens erzeugt und dann zusammengefasst, bevor das erste Antworttoken an den Benutzer gesendet wird.
Sie können den Parameter "Reasoning Effort " ändern, um die Anzahl der im Prozess generierten Begründungstoken zu steuern.
Problembehandlung
| Symptom | Ursache | Auflösung |
|---|---|---|
| HTTP 429 zu viele Anforderungen | Der Grenzwert für Token pro Minute oder Anforderung pro Minute wurde überschritten. | Implementieren Sie Wiederholungslogik mit exponentiellem Backoff. Verwenden Sie den Retry-After Headerwert. |
| HTTP 431-Anforderungsheaderfelder zu groß | Mehr als 10 benutzerdefinierte Kopfzeilen gesendet | Reduzieren Sie benutzerdefinierte Kopfzeilen auf 10 oder weniger. |
| Die Quoten-Seite zeigt 0 verfügbar | Vollständig zugewiesenes Abonnement- oder regionales Kontingent | Verschieben Sie das nicht verwendete Kontingent aus einer anderen Bereitstellung. Um Ihren Grenzwert zu erhöhen, fordern Sie eine Kontingenterhöhung an. |
| Modell nicht in Region verfügbar | Das Modell wird in der ausgewählten Region nicht bereitgestellt oder unterstützt. | Überprüfen Sie die Verfügbarkeit des Modells , und wählen Sie eine verfügbare Region aus. |