Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Die Microsoft Foundry Steuerungsebene erzwingt Limits für die Token-pro-Minute-Rate (TPM) und Gesamtkontingente für Token bei der Bereitstellung von Modellen im Bereich des Projekts. Diese Durchsetzung verhindert, dass der Token-Verbrauch aus dem Ruder läuft, und richtet die Nutzung an den organisatorischen Leitplanken aus. Foundry Control Plane lässt sich in KI-Gateways integrieren, um eine erweiterte Richtliniendurchsetzung für Modelle bereitzustellen.
In diesem Artikel wird erläutert, wie Sie die Tokenrate einschränken und Tokenkontingente konfigurieren.
Voraussetzungen
-
Ein Azure Konto mit einem aktiven Abonnement. Wenn Sie kein Konto haben, erstellen Sie ein free Azure Konto, das ein kostenloses Testabonnement enthält.
Eine Foundry-Ressource mit konfiguriertem KI-Gateway. Erfahren Sie mehr darüber, wie Sie ein KI-Gateway für eine Foundry-Ressource aktivieren.
Ein Foundry-Projekt mit einem bereitgestellten Modell, das dem konfigurierten KI-Gateway hinzugefügt wurde. Um ein KI-Gateway für ein Projekt zu aktivieren, benötigen Sie die Rolle API-Verwaltungsdienstmitwirkender (oder Owner) für die Azure API-Management-Ressource.
Grundlegendes zu KI-Gateways
Wenn Sie ein KI-Gateway mit Foundry Control Plane verwenden, um erweiterte Richtlinienerzwingung für Modelle bereitzustellen, befindet sich das KI-Gateway zwischen Clients und Modellbereitstellungen. Es führt alle Anforderungen über die API-Verwaltungsinstanz durch, die ihr zugeordnet ist.
Grenzwerte gelten auf Projektebene. Das heißt, jedes Projekt kann über eigene TPM- und Kontingenteinstellungen verfügen.
Verwenden Sie ein KI-Gateway für:
- Eindämmung mehrerer Teamtoken (verhindern Sie, dass ein Projekt die Kapazität monopolisiert).
- Kostenkontrolle durch Begrenzung der Gesamtnutzung.
- Compliancegrenzen für regulierte Workloads (festlegen vorhersehbare Nutzungsgrenzen).
Konfigurieren von Tokenbeschränkungen
Sie können Tokengrenzwerte für bestimmte Modellbereitstellungen in Ihren Projekten konfigurieren:
-
Melden Sie sich bei Microsoft Foundry an. Stellen Sie sicher, dass die Umschaltfläche "Neue Gießerei " aktiviert ist. Diese Schritte beziehen sich auf Foundry (neu).
Wählen Sie Operate>Admin aus.
Wählen Sie in der LISTE DES AI-Gateways das Gateway aus, das Sie verwenden möchten.
Wählen Sie im daraufhin angezeigten Bereich "Gatewaydetails" die Option "Tokenverwaltung" aus.
Wählen Sie +Limit festlegen , um einen neuen Grenzwert für eine Modellbereitstellung zu erstellen.
Wählen Sie das Projekt und die Bereitstellung aus, das Sie einschränken möchten, und geben Sie einen Wert für "Limit" (Token pro Minute) ein.
Wählen Sie "Erstellen" aus, um Ihre Änderungen zu speichern.
Grundlegendes zu Kontingentfenstern
Tokengrenzwerte weisen zwei ergänzende Erzwingungsdimensionen auf:
TPM-Ratelimit: Beschränkt die Tokennutzung auf ein konfiguriertes Maximum pro Minute. Wenn Anforderungen den TPM-Grenzwert überschreiten, empfängt der Aufrufer einen
429 Too Many RequestsAntwortstatuscode.Gesamttokenkontingent: Beschränkt die Tokennutzung auf einen konfigurierten Maximalen pro Kontingentzeitraum (z. B. stündlich, täglich, wöchentlich, monatlich oder jährlich). Wenn Anforderungen das Kontingent überschreiten, empfängt der Aufrufer einen
403 ForbiddenAntwortstatuscode.
Wenn Sie viele Anforderungen gleichzeitig senden, kann die Tokennutzung die konfigurierten Grenzwerte vorübergehend überschreiten, bis Antworten verarbeitet werden.
Das Anpassen eines Kontingents oder TPM-Werts wirkt sich auf nachfolgende Erzwingungsentscheidungen aus.
Weitere Informationen finden Sie unter AI-Gateway in Azure API Management und Limit large language model API token usage.
Durchsetzung überprüfen
Senden Sie Testanforderungen an einen Modellbereitstellungsendpunkt mithilfe der Gateway-URL und des Schlüssels des Projekts.
Erhöhen Sie die Anforderungshäufigkeit schrittweise, bis der TPM-Grenzwert ausgelöst wird.
Verfolgen Sie kumulative Token, bis das Kontingent aktiviert wird.
Überprüfen Sie folgendes:
-
429 Too Many Requests(Antwort mit Ratenbegrenzung) wird zurückgegeben, wenn Anforderungen den Grenzwert für Transaktionen pro Minute (TPM) überschreiten. -
403 Forbidden(Kontingentfehler) wird zurückgegeben, wenn Anforderungen das Kontingent ausschöpfen.
-
Anpassen von Grenzwerten
Kehren Sie zu den AI-Gatewayeinstellungen des Projekts zurück.
Ändern Sie die TPM- oder die Kontingentwerte.
Speichern Sie die Änderungen. Neue Grenzwerte gelten sofort für nachfolgende Anforderungen.
Fehlerbehebung
| Problem | Mögliche Ursache | Befehl |
|---|---|---|
| API-Verwaltungsinstanz wird nicht angezeigt | Bereitstellungsverzögerung | Aktualisieren Sie nach ein paar Minuten. |
| Grenzwerte werden nicht erzwungen. | Falsch konfiguriert oder Projekt nicht verknüpft | Öffnen Sie die Einstellungen erneut, und vergewissern Sie sich, dass die Erzwingungs-Umschaltfläche aktiviert ist. Vergewissern Sie sich, dass das KI-Gateway für das Projekt aktiviert ist und dass die richtigen Grenzwerte konfiguriert sind. |
| Latenz ist nach aktivierung hoch | API Management-Konflikt: Kaltstart oder Region | Überprüfen Sie die API-Verwaltungsregion im Vergleich zur Ressourcenregion. Rufen Sie das Modell direkt auf, und vergleichen Sie das Ergebnis mit dem Aufruf, der über das AI-Gateway weitergeleitet wird, um zu ermitteln, ob Leistungsprobleme mit dem Gateway verbunden sind. |
Wenn die Administratorkonsole langsam ist, versuchen Sie es nach einem kurzen Intervall erneut.