Multimodala modeller för bildanalys

7 minuter

Anmärkning

Mer information finns på fliken Text och bilder !

I allt högre grad är nya AI-modeller multimodala. Med andra ord stöder de flera typer av indata, inklusive bilder och text. Multimodala modeller är AI-modeller som kan förstå och arbeta med mer än en typ av data samtidigt, till exempel text, bilder, ljud eller video. Till exempel kan den multimodala modellen beskriva en bild på naturligt språk eller svara på en fråga om ett foto.

Multimodala modeller används ofta som en del av:

AI-program, där bildtolkning förbättrar användararbetsflöden
AI-agenter, där visuell indata hjälper agenten att fatta bättre beslut

Exempel är:

En agent som granskar uppladdade dokument och skärmbilder
En supportapp som analyserar foton som skickats av kunder
Ett inlärningsverktyg som förklarar diagram eller grafer i enkelt språk.

Eftersom multimodala modeller accepterar både text och bilder minskar de behovet av separata visionspipelines och gör det enklare att skapa intelligenta upplevelser från slutpunkt till slutpunkt.

Möjligheten för modeller att kombinera visuell förståelse med naturliga språksvar kallas visionsaktiverade GPT-modeller eller GPT med vision. Visionsaktiverade modeller är utformade för flexibla, allmänna visuella resonemang. De kan analysera visuella indata och svara på naturligt språk, vilket gör det enkelt att skapa intelligenta program utan att behöva djup expertis inom visuellt innehåll.

Multimodala modeller i Microsoft Foundry

Microsoft Foundry innehåller många modeller som accepterar bildbaserade indata så att du kan skapa intelligenta, visionsbaserade lösningar. Multimodala modeller i Microsoft Foundry gör det möjligt för program och agenter att förstå, analysera och resonera över bilder och visuellt innehåll.

Till exempel kan visionsaktiverade GPT-modeller i Foundry:

Beskriva innehållet i en bild på naturligt språk
Besvara frågor om objekt, text eller scener i en bild
Extrahera innebörd från diagram, skärmbilder, dokument eller foton
Kombinera bildtolkning med textinstruktioner i en enda fråga

Foundrys modellkatalog innehåller många multimodala modeller, inklusive:

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: Dessa allmänna multimodala GPT-modeller kan bearbeta text och bilder tillsammans. De används ofta för bildbeskrivning och visuella frågor och svar, dokument- och skärmbildsanalys samt tolkning av diagram och scheman.
GPT-5-serien (till exempel GPT-5.1, GPT-5.2): GPT-5-serien som är tillgänglig i Foundry innehåller avancerade multimodala modeller utformade för företags- och agentiska scenarier. Dessa modeller stöder multimodala indata (inklusive text och bilder), strukturerade utdata och verktygsanvändning, resonemang i stora kontexter mellan olika metoder. GPT-5-seriens modeller används vanligtvis i AI-agenter i produktionsklass och komplexa multimodala program.

Foundry är också värd för partnerbaserade multimodala modeller i sin modellkatalog, inklusive modeller från leverantörer som Anthropic och andra som stöder text- och bildtolkning.

Bildanalys på Foundry Playground

Anmärkning

Foundry-portalen har ett klassiskt användargränssnitt (UI) och ett nytt användargränssnitt.

I den nya Microsoft Foundry-portalen kan du använda modelllekplatsen för att chatta med en distribuerad modell. Du kan välja en visionsaktiverad modell, ladda upp bilder och testa frågor interaktivt för att förstå hur modellen tolkar visuell information.

Du kan till exempel bifoga en bildfil och hämta den multimodala modellen (till exempel gpt-4.1 mini) för att analysera och beskriva den.

När de har verifierats kan samma funktioner nås programmatiskt med hjälp av API:er, vilket gör att bilder kan skickas tillsammans med textfrågor i programkoden.

Använda Azure OpenAI API för bildanalys

För att kunna utveckla ett program måste du flytta från Foundry Playground till kod. I en kodredigerare kan du skriva programkoden med hjälp av OPENAI-svars-API:et i Foundry. OpenAI Responses-API:et är utformat för agentiska appar och har stöd för inbyggda multimodala indata (inklusive bilder).

På hög nivå:

En enskild begäran kan innehålla textinmatning och bildinmatning tillsammans
Bilder kan tillhandahållas som URL:er eller som base64-kodade bilddata
Modellen bearbetar båda indata samtidigt för att generera ett svar

Konceptuellt ser promptstrukturen ut så här:

En textinstruktion (till exempel Vilka objekt visas i den här bilden?)
En eller flera bildindata som är kopplade till samma begäran

Med den här metoden kan utvecklare skapa program där användare laddar upp bilder och ställer frågor om dem i realtid.

Använda Azure OpenAI Python SDK

Du kan använda en Microsoft Foundry-resurs med OpenAI-API:et för att utföra bildanalys, inklusive att skicka bilder i prompter och få textsvar, med hjälp av svars-API:et med en visionskompatibel modelldistribution.

Python SDK kan installeras i Visual Studio Code-terminalen med hjälp av:

pip install openai

I kodredigeraren kan vi skapa en Python-fil som innehåller programkod. Viktigt är att du behöver din Foundry-resursnyckel och slutpunkt och namnet på din distribuerade modell.

Anmärkning

När du distribuerar en modell i Foundry har den ett basnamn eller originalnamn och ett ursprungligt distributionsnamn som du ger den. Foundry är värd för den distribuerade modellen (till exempel GPT-klassmodeller med vision) och ger dig en slutpunkt.

I kodexemplet skapar du klienten, pekar den på slutpunkten och skickar modelldistributionsnamnet (namnet du gav modellen) som MODEL_NAME.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

Exempel på klientapp

Du kan skapa ett anpassat program som använder en visionsaktiverad modell för att analysera en bild med OpenAI Python SDK. Anta till exempel att du vill skapa en app som kan identifiera djur som fotograferats i Safari. Du kan ladda upp dina foton och skapa en Python-fil i kodredigeraren.

Skärmbild av bilden som används för bildanalys.

Sedan kan du skriva programkod som använder OpenAI-API:et för att ansluta till modellens slutpunkt i Foundry.

Programkoden måste läsa in bilddata och få en fråga om naturligt språk från en användare. Om du vill skicka indata till modellen måste du skapa ett meddelande i flera delar som innehåller både bild- och textdata. Modellen kan svara med lämpliga utdata baserat på både text och bild i prompten.

Lär dig sedan hur du använder Foundry-modeller och Azure OpenAI SDK för bildgenerering.

Feedback

Var den här sidan till hjälp?