Azure Content Understanding dans les solutions vidéo Foundry Tools

Important

Versions d’API 2024-12-01-preview en préversion et 2025-05-01-preview mises hors service le 15 juillet 2026. Si vous utilisez toujours une API en préversion, mettez à jour votre code pour cibler la dernière version 2025-11-01 (GA)de l’API.

Les versions 2024-12-01-preview des API et 2025-05-01-preview sont en préversion publique. Ces préversions sont fournies sans contrat de niveau de service et ne sont pas recommandées pour les charges de travail de production. Pour plus d’informations, consultez conditions d'utilisation supplémentaires pour les préversions Microsoft Azure et l'Addenda Microsoft sur la protection des données des produits et services (« DPA »).

Azure Content Understanding vous permet de générer un ensemble standard de métadonnées vidéo et de créer des champs personnalisés pour votre cas d’usage spécifique à l’aide de modèles génératifs. Content Understanding vous aide à gérer, classer, récupérer et générer des flux de travail pour les ressources vidéo. Il améliore votre bibliothèque de ressources multimédias, prend en charge les fonctionnalités telles que la génération de mise en surbrillance, catégorise le contenu et facilite les applications telles que la génération d’extraction augmentée (RAG).

Illustration du flux de traitement vidéo Content Understanding.

L’analyseur vidéo prédéfini (prebuilt-videoAnalysis) génère une sortie prête pour RAG. Dans Markdown, il génère les éléments suivants :

  • Transcription: Transcriptions inline au format WEBVTT standard
  • Images clés : Miniatures d’images clés ordonnées permettant une analyse plus approfondie

Et le schéma JSON contient plus de détails à partir de l’analyse visuelle.

  • Description: Descriptions de segments en langage naturel avec contexte visuel et vocal
  • Segmentation: Segmentation de scène automatique cassant la vidéo en blocs logiques en fonction des catégories que vous définissez

Ce format peut être directement inséré dans un magasin vectoriel pour activer un agent ou un flux de travail RAG. Aucun post-traitement n’est nécessaire.

À partir de là, vous pouvez personnaliser l’analyseur pour un contrôle plus précis de la sortie. Vous pouvez définir des champs et des segments personnalisés. La personnalisation vous permet d’utiliser la puissance complète des modèles générateurs pour extraire des insights approfondis à partir des détails visuels et audio de la vidéo.

Par exemple, la personnalisation vous permet de :

  • Définissez des champs personnalisés : pour identifier les produits et les marques qui sont vus ou mentionnés dans la vidéo.
  • Générez des segments personnalisés : pour segmenter une diffusion d’actualités en chapitres en fonction des sujets ou des articles abordés.
  • Identifier les personnes de premier plan à l’aide de la description du visage : permettre à un client d’étiqueter des célébrités dans des séquences avec le nom et le titre en fonction des connaissances mondiales du modèle génératif, par exemple Satya Nadella.

Pourquoi utiliser Content Understanding pour la vidéo ?

La compréhension du contenu pour la vidéo a de vastes utilisations potentielles. Par exemple, vous pouvez personnaliser les métadonnées pour baliser des scènes spécifiques dans une vidéo de formation, ce qui facilite la localisation et la révision des sections importantes par les employés. Vous pouvez également utiliser la personnalisation des métadonnées pour identifier le placement des produits dans des vidéos promotionnelles, ce qui aide les équipes marketing à analyser l’exposition de la marque. Voici d’autres cas d’usage :

  • Diffuser des médias et des divertissements : Gérez de grandes bibliothèques d’émissions, de films et de clips en générant des métadonnées détaillées pour chaque ressource.
  • Éducation et e-Learning : Indexez et récupérez des moments spécifiques dans des vidéos ou des conférences éducatives.
  • Formation d’entreprise : Organisez des vidéos de formation par sujets clés, scènes ou moments importants.
  • Marketing et publicité : Analysez les vidéos promotionnelles pour extraire des placements de produits, des apparences de marque et des messages clés.

Exemple d’analyseur vidéo prédéfini

Avec l’analyseur vidéo préconfiguré (préconfiguré-videoSearch), vous pouvez charger une vidéo et obtenir un actif de connaissances immédiatement exploitable. Le service empaquette le contenu en Markdown et JSON formaté de manière riche. Ce processus permet à votre index de recherche ou agent de conversation d’ingérer le contenu sans code de collage personnalisé.

  1. Par exemple, appelez l’analyseur conçu pour la génération par récupération augmentée pour les vidéos prebuilt-videoSearch. Pour plus d’informations, consultez le guide de démarrage rapide de l’API REST .

  2. L’analyse d’une vidéo publicitaire de 30 secondes produit la sortie suivante :

      # Video: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Video: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Guide pas à pas

Consultez la procédure pas à pas suivante pour RAG sur vidéo à l’aide de Content Understanding :

RAG sur vidéo en utilisant Azure Content Understanding

Capacités

Note

Les fonctionnalités d’identification et de regroupement des visages sont disponibles uniquement dans la version préliminaire de l’API et ne sont pas incluses dans la version en disponibilité générale.

Deux étapes transforment la vidéo brute en insights structurés. Le diagramme suivant montre comment l’extraction de contenu alimente l’extraction de champs.

Capture d’écran du flux de l’analyseur vidéo.

Le service fonctionne en deux étapes. La première étape, l’extraction de contenu implique la capture de métadonnées fondamentales telles que les transcriptions et les captures. La deuxième étape, l’extraction de champs, utilise un modèle génératif pour produire des champs personnalisés et effectuer une segmentation.

Fonctionnalités d’extraction de contenu

La première passe consiste à extraire un premier ensemble de détails : identifier qui parle et déterminer où se trouvent les coupures. Il crée une colonne vertébrale de métadonnées solide sur laquelle les étapes ultérieures peuvent se justifier.

  • Transcription: Convertit l’audio conversationnel en transcriptions textuelles pouvant faire l’objet d’une recherche et d’une analyse au format WebVTT. Les horodatages au niveau de la phrase sont disponibles si "returnDetails": true est défini. Content Understanding prend en charge l’ensemble complet de Azure Speech dans les langages de reconnaissance vocale des outils Foundry. Les détails de la prise en charge de la langue pour la vidéo sont identiques à ceux de l’audio, voirGestion de la langue audio pour plus d’informations. Les détails de transcription suivants sont importants à prendre en compte :

    • Diarisation : Fait la distinction entre les intervenants d’une conversation dans le résultat, en attribuant des parties de la transcription à des intervenants spécifiques.

    • Transcription multilingue : Génère des transcriptions multilingues. La langue/paramètres régionaux est appliquée par expression dans la transcription. Sortie des phrases lorsque "returnDetails": true est défini. Indépendamment de la détection de la langue, cette fonctionnalité est activée lorsqu'aucune langue ou aucun paramètre régional n'est spécifié, ou si la langue est définie sur auto.

      Note

      Lorsque la transcription multilingue est utilisée, tous les fichiers avec des paramètres régionaux non pris en charge produisent un résultat basé sur les paramètres régionaux les plus proches pris en charge, ce qui est probablement incorrect. Ce résultat est un comportement connu. Évitez les problèmes de qualité de transcription en vous assurant que vous configurez les paramètres régionaux quand vous n’utilisez pas de transcription multilingue prise en charge des paramètres régionaux !

    • Extraction de trames clés : Extrait les images clés des vidéos pour représenter complètement chaque capture, ce qui garantit que chaque capture dispose de suffisamment d’images clés pour permettre à l’extraction de champ de fonctionner efficacement.

    • Détection de plan : Identifie les segments de la vidéo alignés sur les limites de plan, dans le cas où cela est possible, ce qui permet une modification et un emballage précis du contenu avec des interruptions correspondant exactement aux modifications existantes. La sortie est une liste d’horodatages en millisecondes en cameraShotTimesMs. La sortie est retournée uniquement quand "returnDetails": true est défini.

Extraction et segmentation des données

Ensuite, les couches de modèle génératives signifient : balisage des scènes, synthèse des actions et découpage de séquences en segments selon votre requête. Cette action est l’endroit où les invites se transforment en données structurées.

Champs personnalisés

Adaptez la sortie pour qu'elle corresponde à votre lexique professionnel. Utilisez un fieldSchema objet où chaque entrée définit le nom, le type et la description d’un champ. Au moment de l’exécution, le modèle génératif remplit ces champs pour chaque segment.

  • Gestion des ressources multimédias :

    • Catégorie vidéo : Aide les éditeurs et les producteurs à organiser le contenu en le classant comme actualités, sports, entrevues, documentaires ou publicités. Utile pour le balisage des métadonnées et accélérer le filtrage et la récupération de contenu.
    • Couleurs: Transmet l’ambiance et l’atmosphère, essentielles pour la cohérence narrative et l’engagement de la visionneuse. L’identification des thèmes de couleur permet de trouver des clips correspondants pour l’édition vidéo accélérée.
  • Publicités:

    • Marque: Identifie la présence de la marque, critique pour analyser l’impact publicitaire, la visibilité de la marque et l’association avec les produits. Cette fonctionnalité permet aux annonceurs d’évaluer l’importance de la marque et de garantir la conformité aux directives de personnalisation.
    • Catégories publicitaires : Classe les types de publicités par secteur, type de produit ou segment d’audience, qui prend en charge les stratégies de publicité ciblée, la catégorisation et l’analyse des performances.

Exemple:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Champs description du visage

Note

Cette fonctionnalité est à accès limité ; les clients doivent demander la désactivation du floutage de visage pour les modèles OpenAI d'Azure avec une demande de support Azure. En savoir plus Manage une demande de support Azure.

La fonctionnalité d’extraction de champ peut éventuellement être améliorée pour fournir des descriptions détaillées des visages dans la vidéo. Cette fonctionnalité comprend des attributs tels que les cheveux du visage, l’expression faciale et la présence de célébrités, ce qui peut être crucial à diverses fins analytiques et d’indexation. Pour activer les fonctionnalités de description des visages définies disableFaceBlurring : true dans la configuration de l’analyseur.

Exemples:

  • Exemple de champ : facialHairDescription : Décrit le type de cheveux du visage (par exemple, beard, mustache, clean-shaven)
  • Exemple de champ : nameOfProminentPerson : Fournit un nom si possible d’une célébrité dans la vidéo (par exemple, Satya Nadella)
  • Exemple de champ : faceSmilingFrowning : Fournit une description de la question de savoir si une personne sourit ou fronce les sourcils

Mode de segmentation

Note

La définition de la segmentation utilise le modèle génératif, consommant des jetons même si aucun champ n’est défini.

Content Understanding offre deux façons de découper une vidéo, ce qui vous permet d’obtenir la sortie dont vous avez besoin pour des vidéos entières ou des clips courts. Vous pouvez utiliser ces options en définissant la enableSegment propriété sur un analyseur personnalisé.

  • Vidéo entière : enableSegment : false le service traite l’intégralité du fichier vidéo en tant que segment unique et extrait les métadonnées pendant toute sa durée.

    Cas d’usage :

    • Vérifications de conformité qui recherchent des problèmes de sécurité de marque spécifiques n’importe où dans une publicité
    • résumés descriptifs complets
  • Segmentation personnalisée : enableSegment : true vous décrivez la logique en langage naturel et le modèle crée des segments à mettre en correspondance. Définissez contentCategories avec une chaîne décrivant la façon dont vous souhaitez segmenter la vidéo. Custom permet des segments de longueur variable de secondes à minutes en fonction de l’invite. Dans cette version, la vidéo ne prend en charge qu’un seul contentCategories objet.

    Exemple: Divisez un bulletin d'informations en histoires.

    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "news-story": { 
          "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
          "analyzerId": "NewsAnalyzer"
          }         
        }
      }
    }
    

Principaux avantages

Content Understanding offre plusieurs avantages clés par rapport à d’autres solutions d’analyse vidéo :

  • Analyse multi-images basée sur des segments : Identifiez les actions, les événements, les rubriques et les thèmes en analysant plusieurs images à partir de chaque segment vidéo, plutôt que des images individuelles.
  • Personnalisation: Personnalisez les champs et la segmentation que vous générez en modifiant le schéma conformément à votre cas d’usage spécifique.
  • Modèles dégénérateurs : Décrivez en langage naturel le contenu que vous souhaitez extraire, et Content Understanding utilise des modèles génératifs pour extraire ces métadonnées.
  • Prétraitement optimisé : Effectuez plusieurs étapes de prétraitement d’extraction de contenu, telles que la transcription et la détection des scènes, optimisées pour fournir un contexte riche aux modèles générateurs d’IA.

Contraintes techniques et limitations

Limitations spécifiques du traitement vidéo à garder à l’esprit :

  • Échantillonnage d’images (~ 1 FPS) : l’analyseur inspecte environ une image par seconde. Des mouvements rapides ou des événements à trame unique peuvent être manqués.
  • Résolution d’images (512 × 512 px) : les images échantillonnées sont redimensionnées à 512 pixels carrés. Les petits textes ou objets éloignés peuvent être perdus.
  • Parole : seuls les mots prononcés sont transcrits. La musique, les effets sonores et le bruit ambiant sont ignorés.

Exigences pour les données

Pour connaître les formats pris en charge, consultez quotas et limites de service.

Langues et régions prises en charge

Consultez la prise en charge de la langue et de la région.

Confidentialité et sécurité des données

Comme pour tous les outils Foundry, consultez la documentation Data, protection et confidentialité de Microsoft.

Important

Si vous traitez des données biométriques (par exemple, activez la description du visage), vous devez respecter toutes les exigences en matière de notification, de consentement et de suppression en vertu des lois applicables. Consultez Données et confidentialité pour Face.