Erzwingen Sie Tokengrenzwerte für Modelle

Die Microsoft Foundry Steuerungsebene erzwingt Limits für die Token-pro-Minute-Rate (TPM) und Gesamtkontingente für Token bei der Bereitstellung von Modellen im Bereich des Projekts. Diese Durchsetzung verhindert, dass der Token-Verbrauch aus dem Ruder läuft, und richtet die Nutzung an den organisatorischen Leitplanken aus. Foundry Control Plane lässt sich in KI-Gateways integrieren, um eine erweiterte Richtliniendurchsetzung für Modelle bereitzustellen.

In diesem Artikel wird erläutert, wie Sie die Tokenrate einschränken und Tokenkontingente konfigurieren.

Voraussetzungen

Grundlegendes zu KI-Gateways

Wenn Sie ein KI-Gateway mit Foundry Control Plane verwenden, um erweiterte Richtlinienerzwingung für Modelle bereitzustellen, befindet sich das KI-Gateway zwischen Clients und Modellbereitstellungen. Es führt alle Anforderungen über die API-Verwaltungsinstanz durch, die ihr zugeordnet ist.

Grenzwerte gelten auf Projektebene. Das heißt, jedes Projekt kann über eigene TPM- und Kontingenteinstellungen verfügen.

Diagramm des logischen Ablaufs von Clientanforderungen, die über Azure API Management als KI-Gateway geleitet werden, bevor sie die Modellbereitstellungen innerhalb eines Projekts erreichen.

Verwenden Sie ein KI-Gateway für:

  • Eindämmung mehrerer Teamtoken (verhindern Sie, dass ein Projekt die Kapazität monopolisiert).
  • Kostenkontrolle durch Begrenzung der Gesamtnutzung.
  • Compliancegrenzen für regulierte Workloads (festlegen vorhersehbare Nutzungsgrenzen).

Konfigurieren von Tokenbeschränkungen

Sie können Tokengrenzwerte für bestimmte Modellbereitstellungen in Ihren Projekten konfigurieren:

  1. Melden Sie sich bei Microsoft Foundry an. Stellen Sie sicher, dass die Umschaltfläche "Neue Gießerei " aktiviert ist. Diese Schritte beziehen sich auf Foundry (neu).

  2. Wählen Sie Operate>Admin aus.

  3. Wählen Sie in der LISTE DES AI-Gateways das Gateway aus, das Sie verwenden möchten.

  4. Wählen Sie im daraufhin angezeigten Bereich "Gatewaydetails" die Option "Tokenverwaltung" aus.

  5. Wählen Sie +Limit festlegen , um einen neuen Grenzwert für eine Modellbereitstellung zu erstellen.

  6. Wählen Sie das Projekt und die Bereitstellung aus, das Sie einschränken möchten, und geben Sie einen Wert für "Limit" (Token pro Minute) ein.

  7. Wählen Sie "Erstellen" aus, um Ihre Änderungen zu speichern.

Screenshot des Bereichs

Grundlegendes zu Kontingentfenstern

Tokengrenzwerte weisen zwei ergänzende Erzwingungsdimensionen auf:

  • TPM-Ratelimit: Beschränkt die Tokennutzung auf ein konfiguriertes Maximum pro Minute. Wenn Anforderungen den TPM-Grenzwert überschreiten, empfängt der Aufrufer einen 429 Too Many Requests Antwortstatuscode.

  • Gesamttokenkontingent: Beschränkt die Tokennutzung auf einen konfigurierten Maximalen pro Kontingentzeitraum (z. B. stündlich, täglich, wöchentlich, monatlich oder jährlich). Wenn Anforderungen das Kontingent überschreiten, empfängt der Aufrufer einen 403 Forbidden Antwortstatuscode.

Wenn Sie viele Anforderungen gleichzeitig senden, kann die Tokennutzung die konfigurierten Grenzwerte vorübergehend überschreiten, bis Antworten verarbeitet werden.

Das Anpassen eines Kontingents oder TPM-Werts wirkt sich auf nachfolgende Erzwingungsentscheidungen aus.

Weitere Informationen finden Sie unter AI-Gateway in Azure API Management und Limit large language model API token usage.

Durchsetzung überprüfen

  1. Senden Sie Testanforderungen an einen Modellbereitstellungsendpunkt mithilfe der Gateway-URL und des Schlüssels des Projekts.

  2. Erhöhen Sie die Anforderungshäufigkeit schrittweise, bis der TPM-Grenzwert ausgelöst wird.

  3. Verfolgen Sie kumulative Token, bis das Kontingent aktiviert wird.

  4. Überprüfen Sie folgendes:

    • 429 Too Many Requests (Antwort mit Ratenbegrenzung) wird zurückgegeben, wenn Anforderungen den Grenzwert für Transaktionen pro Minute (TPM) überschreiten.
    • 403 Forbidden (Kontingentfehler) wird zurückgegeben, wenn Anforderungen das Kontingent ausschöpfen.

Anpassen von Grenzwerten

  1. Kehren Sie zu den AI-Gatewayeinstellungen des Projekts zurück.

  2. Ändern Sie die TPM- oder die Kontingentwerte.

  3. Speichern Sie die Änderungen. Neue Grenzwerte gelten sofort für nachfolgende Anforderungen.

Fehlerbehebung

Problem Mögliche Ursache Befehl
API-Verwaltungsinstanz wird nicht angezeigt Bereitstellungsverzögerung Aktualisieren Sie nach ein paar Minuten.
Grenzwerte werden nicht erzwungen. Falsch konfiguriert oder Projekt nicht verknüpft Öffnen Sie die Einstellungen erneut, und vergewissern Sie sich, dass die Erzwingungs-Umschaltfläche aktiviert ist. Vergewissern Sie sich, dass das KI-Gateway für das Projekt aktiviert ist und dass die richtigen Grenzwerte konfiguriert sind.
Latenz ist nach aktivierung hoch API Management-Konflikt: Kaltstart oder Region Überprüfen Sie die API-Verwaltungsregion im Vergleich zur Ressourcenregion. Rufen Sie das Modell direkt auf, und vergleichen Sie das Ergebnis mit dem Aufruf, der über das AI-Gateway weitergeleitet wird, um zu ermitteln, ob Leistungsprobleme mit dem Gateway verbunden sind.

Wenn die Administratorkonsole langsam ist, versuchen Sie es nach einem kurzen Intervall erneut.