Récupération agentique dans Recherche Azure AI

Note

Certaines fonctionnalités de récupération agentique sont généralement disponibles dans la version de l’API REST 2026-04-01 via l’accès par programmation. Le portail Azure et le portail Microsoft Foundry continuent de fournir un accès en préversion uniquement à toutes les fonctionnalités de récupération agentique. Pour obtenir des conseils sur la migration, notamment une répartition des éléments généralement disponibles et ceux qui restent en version préliminaire, consultez Migrer le code de récupération agentique vers la dernière version.

Dans Recherche Azure AI, récupération agentique est un flux de traitement multi-requêtes conçu pour des questions complexes posées par les utilisateurs ou les agents dans les applications de chat et de copilote. Il est destiné aux modèles de génération augmentée de récupération (RAG) et aux flux de travail agent-à-agent.

Voici ce qu’il fait :

  • Utilise un modèle de langage volumineux (LLM) pour décomposer une requête complexe en sous-requêtes plus petites et ciblées pour une meilleure couverture sur votre contenu indexé. Les sous-requêtes peuvent inclure l’historique des conversations pour un contexte supplémentaire.

  • Exécute des sous-requêtes en parallèle. Chaque sous-requête est reclassée sémantiquement pour promouvoir les correspondances les plus pertinentes.

  • Combine les meilleurs résultats dans une réponse unifiée qu’un LLM peut utiliser pour générer des réponses avec votre contenu propriétaire.

  • La réponse est modulaire mais complète dans la façon dont elle inclut également un plan de requête et des documents sources. Vous pouvez choisir d’utiliser uniquement les résultats de recherche comme données de base ou appeler le LLM pour formuler une réponse.

Ce pipeline hautes performances vous aide à générer des données de base de haute qualité (ou une réponse) pour votre application de conversation, avec la possibilité de répondre rapidement à des questions complexes.

Par programmation, la récupération agentique est prise en charge par le biais d’un objet de base knowledge dans les dernières versions stables (2026-04-01) et preview (2025-11-01-preview) de l’API REST, ainsi que les packages Kit de développement logiciel (SDK) Azure équivalents. La réponse de récupération d’une base de connaissances est conçue pour la consommation en aval par d’autres agents et applications de conversation.

Pourquoi utiliser la récupération agentique

Il existe deux cas d’usage pour la recherche agentique. Tout d'abord, c'est la base de l'expérience Foundry IQ dans le portail Microsoft Foundry (nouveau). Il fournit la couche de connaissances pour les solutions d’agent dans Microsoft Foundry. Deuxièmement, il s'agit de la base des solutions agentiques personnalisées que vous créez à l'aide des API Recherche Azure AI.

Vous devez utiliser la récupération agentique lorsque vous souhaitez fournir des agents et des applications avec le contenu le plus pertinent pour répondre à des questions plus difficiles, en tirant parti du contexte de conversation et de votre contenu propriétaire.

L’aspect agentique est une étape de raisonnement dans le traitement de la planification des requêtes effectuée par un modèle de langage volumineux pris en charge (LLM) que vous fournissez. Le LLM analyse l’ensemble du fil de conversation pour identifier les informations sous-jacentes nécessaires. Au lieu d’une requête unique, catch-all, le LLM décompose les questions composées en sous-requêtes ciblées en fonction des questions utilisateur, de l’historique des conversations et des paramètres de la requête. Les sous-requêtes ciblent vos documents indexés (texte brut et vecteurs) dans Recherche Azure AI. Cette approche hybride garantit que vous surfacez les correspondances de mots clés et les similitudes sémantiques à la fois, ce qui améliore considérablement le rappel.

Le composant de récupération est la possibilité d’exécuter des sous-requêtes simultanément, de fusionner les résultats, de classer sémantiquement les résultats et de retourner une réponse en trois parties qui inclut des données de base pour le tour de conversation suivant, des données de référence afin que vous puissiez inspecter le contenu source et un plan d’activité qui affiche les étapes d’exécution de requête.

L’expansion des requêtes et l’exécution parallèle, ainsi que la réponse de récupération, sont les fonctionnalités clés de la récupération agentique qui en font le meilleur choix pour les applications d’IA générative (RAG).

Diagramme d’une requête complexe montrant comment la récupération agentique gère le contexte implicite et une faute de frappe intentionnelle.

La récupération par agents ajoute une latence au traitement des requêtes, mais elle compense cela en ajoutant les fonctionnalités suivantes :

  • Lit dans l’historique des conversations comme entrée dans le pipeline de récupération.
  • Décompose une requête complexe contenant plusieurs « requêtes » en parties composantes. Par exemple : « trouvez-moi un hôtel près de la plage, avec transport de l’aéroport, et c’est à distance de marche des restaurants végétariens. »
  • Réécrit une requête d’origine en plusieurs sous-requêtes en utilisant des mappages de synonymes (facultatif) et des paraphrases générées par les LLM.
  • Corrige les fautes d’orthographe.
  • Exécute toutes les sous-requêtes simultanément.
  • Génère un résultat unifié sous forme de chaîne unique. Vous pouvez également extraire des parties de la réponse pour votre solution. Les métadonnées relatives à l’exécution des requêtes et aux données de référence sont incluses dans la réponse.

La récupération agentique appelle l’intégralité du pipeline de traitement des requêtes plusieurs fois pour chaque sous-requête, mais elle le fait en parallèle, préservant l’efficacité et les performances nécessaires pour une expérience utilisateur raisonnable.

Note

L’inclusion d’un LLM dans la planification des requêtes ajoute une latence à un pipeline de requête. Vous pouvez atténuer les effets à l’aide de modèles plus rapides, tels que gpt-4o-mini, et résumer les threads de message. Vous pouvez réduire la latence et les coûts en définissant des propriétés qui limitent le traitement LLM. Vous pouvez également exclure complètement le traitement LLM pour la recherche de texte et de recherche hybride et votre propre logique de planification des requêtes.

Architecture et workflow

La récupération agentique est conçue pour les expériences de recherche conversationnelles qui utilisent un LLM pour décomposer intelligemment les requêtes complexes. Le système coordonne plusieurs services Azure pour fournir des résultats de recherche complets.

Diagramme du flux de travail de récupération agentique à l’aide d’un exemple de requête.

Fonctionnement

Le processus de récupération agentique fonctionne comme suit :

  1. Initiation du flux de travail : votre application appelle une base de connaissances avec une action de récupération qui fournit une requête et un historique des conversations.

  2. Planification des requêtes : une base de connaissances envoie votre historique de requête et de conversation à un LLM, qui analyse le contexte et décompose les questions complexes en sous-requêtes ciblées. Cette étape est automatisée et non personnalisable.

  3. Exécution de la requête : la base de connaissances envoie les sous-requêtes à vos sources de connaissances. Toutes les sous-requêtes s’exécutent simultanément et peuvent être des mots clés, vecteurs et recherche hybride. Chaque sous-requête subit une reclassement sémantique pour trouver les correspondances les plus pertinentes. Les références sont extraites et conservées à des fins de citation.

  4. Synthèse des résultats : le système combine tous les résultats dans une réponse unifiée avec trois parties : contenu fusionné, références sources et détails d’exécution.

Votre index de recherche détermine l’exécution des requêtes et toutes les optimisations qui se produisent pendant l’exécution de la requête. Plus précisément, si votre index inclut des champs de texte et de vecteur pouvant faire l’objet d’une recherche, une requête hybride s’exécute. Si le seul champ pouvant faire l’objet d’une recherche est un champ vectoriel, seule la recherche vectorielle pure est utilisée. La configuration sémantique de l’index, ainsi que les profils de scoring facultatifs, les mappages de synonymes, les analyseurs et les normaliseurs (si vous ajoutez des filtres) sont tous utilisés pendant l’exécution de la requête. Vous devez avoir nommé les valeurs par défaut pour une configuration sémantique et un profil de scoring.

Composants requis

Composant Service Rôle
LLM Azure OpenAI Crée des sous-requêtes à partir du contexte de conversation et utilise ultérieurement des données de base pour la génération de réponses
Base de connaissances Recherche Azure AI Orchestre le pipeline, se connecte à votre LLM et gère les paramètres de requête
Source de connaissances Recherche Azure AI Encapsule l’index de recherche avec les propriétés relatives à l’utilisation de la base de connaissances
Index de recherche Recherche Azure AI Stocke votre contenu pouvant faire l’objet d’une recherche (texte et vecteurs) avec une configuration sémantique
Ranker sémantique Recherche Azure AI Utilisé en interne par le pipeline de récupération agentique pour reclasser les résultats pour la pertinence (reclassement L2)

Exigences d’intégration

Votre application pilote le pipeline en appelant la base de connaissances et en gérant la réponse. Le pipeline retourne des données de base que vous passez à un LLM pour la génération de réponses dans votre interface de conversation. Pour plus d’informations sur l’implémentation, consultez Tutoriel : Créer une solution de récupération agentique de bout en bout.

Note

Seuls les modèles de série gpt-4o, gpt-4.1 et gpt-5 sont pris en charge pour la planification des requêtes. Vous pouvez utiliser n’importe quel modèle pour la génération de réponses finale.

Disponibilité et tarification

La récupération agentique est disponible dans certaines régions. Les sources de connaissances et les bases de connaissances ont également des limites maximales qui varient selon le niveau tarifaire et l’effort de raisonnement de récupération.

Facturation

La récupération via agent entraîne des frais issus de deux services :

  • Recherche Azure AI facture les jetons de récupération consommés pendant l’exécution de la sous-requête et le classement sémantique. Le plan gratuit (par défaut) fournit une allocation de jeton mensuelle. Le plan standard active les tarifs de paiement à l’utilisation une fois que l’allocation gratuite est consommée. Pour plus d’informations, consultez Activer ou désactiver la facturation de récupération agentique.

  • Azure OpenAI facture les jetons d’entrée et de sortie utilisés dans la planification des requêtes basées sur LLM et answer synthesis. La tarification se fait toujours par paiement à l'utilisation et est basée sur le modèle attribué à la base de connaissances. Les frais apparaissent sur votre facture OpenAI Azure. Pour connaître les tarifs, consultez Azure tarification OpenAI.

Le tableau suivant compare la facturation entre le pipeline classique à requête unique et le pipeline à récupération multi-requête agentique. Dans le pipeline classique, le composant facturable est un ranker sémantique.

Vue Pipeline classique Récupération agentique
Unité Basé sur des requêtes Basé sur un jeton
Coût par unité Coût uniforme par requête Coût variable par jeton (dépend de l’effort de raisonnement)
Estimation des coûts Estimer le nombre de requêtes Estimer l’utilisation des jetons
Allocation gratuite Allocation de requête gratuite mensuelle Allocation mensuelle de jetons gratuits

Exemple : Estimer les coûts

Cet exemple illustre le processus d’estimation des coûts pour la planification des requêtes et l’exécution des requêtes, mais pas la synthèse des réponses. Vos coûts pourraient être inférieurs. Pour connaître les tarifs actuels, consultez Recherche Azure AI tarification et Azure tarification OpenAI.

Pour estimer les coûts du plan de requête en tant que paiement à la demande dans Azure OpenAI, supposons que gpt-4o-mini :

  • 15 cents pour 1 million de jetons d’entrée.
  • 60 cents pour 1 million de jetons de sortie.
  • 2 000 jetons d'entrée pour la taille moyenne d'une conversation.
  • 350 jetons pour la taille moyenne du plan de sortie.

Coûts de facturation estimés pour l’exécution des requêtes

Pour estimer le nombre de jetons de récupération agentiques, commencez par une idée de ce à quoi ressemble un document moyen dans votre index. Par exemple, vous pouvez estimer les points suivants :

  • 10 000 blocs, où chaque bloc est un à deux paragraphes d’un fichier PDF.
  • 500 jetons par bloc.
  • Chaque sous-requête reclasse jusqu’à 50 segments.
  • En moyenne, il existe trois sous-requêtes par plan de requête.

Calcul du prix d’exécution

  1. Supposons que nous effectuons 2 000 récupérations agentiques avec trois sous-requêtes par plan. Cela nous donne environ 6 000 requêtes totales.

  2. Rerank 50 blocs par sous-requête, c'est-à-dire 300 000 blocs au total.

  3. Le segment moyen est de 500 jetons, donc le nombre total de jetons pour le réordonnancement est de 150 millions.

  4. Compte tenu d’un prix hypothétique de 0,022 par jeton, 3,30 $ est le coût total de reclassement en dollars américains.

  5. Passage aux coûts du plan de requête : 2 000 jetons d’entrée multipliés par 2 000 récupérations agentiques égales à 4 millions de jetons d’entrée pour un total de 60 cents.

  6. Estimer les coûts de production basés sur une moyenne de 350 jetons. Si nous multiplions 350 par 2 000 retrouvailles agentiques, nous obtenons 700 000 jetons de sortie au total pour un total de 42 cents.

En rassemblant toutes ces informations, vous paieriez environ 3,30 $ pour la récupération agentique dans Recherche Azure AI, 60 cents pour les jetons d'entrée dans Azure OpenAI et 42 cents pour les jetons de sortie dans Azure OpenAI, pour un total de 1,02 $ pour la planification des requêtes. Le coût combiné de l’exécution complète est de 4,32 $.

Conseils pour contrôler les coûts

  • Passez en revue le journal d’activité dans la réponse pour savoir quelles requêtes ont été émises sur les sources et les paramètres utilisés. Vous pouvez réexécuter ces requêtes sur vos index et utiliser un tokeniseur public pour estimer les jetons et comparer à l’utilisation signalée par l’API. Toutefois, la reconstruction précise d’une requête ou d’une réponse n’est pas garantie. Les facteurs incluent le type de source de connaissances, comme les données web publiques ou une source de connaissances à distance SharePoint basée sur une identité utilisateur, ce qui peut affecter la reproduction de requêtes.

  • Réduire le nombre de sources de connaissances (index) ; la consolidation du contenu peut réduire la dispersion et le volume de jetons.

  • Réduisez l’effort de raisonnement pour réduire l’utilisation de LLM pendant la planification des requêtes et l’expansion des requêtes (recherche itérative).

  • Organisez le contenu afin que les informations les plus pertinentes soient disponibles avec moins de sources et de documents (par exemple, des résumés ou des tableaux organisés).

Comment commencer

Pour créer une solution de récupération agentique, vous pouvez utiliser le portail Azure, les API REST ou un package Kit de développement logiciel (SDK) Azure qui fournit les fonctionnalités.

Étape suivante