Multimodale modellen voor afbeeldingsanalyse

7 minuten

Opmerking

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

Steeds vaker zijn nieuwe AI-modellen multimodaal. Met andere woorden, ze ondersteunen meerdere soorten invoergegevens, waaronder afbeeldingen en tekst. Multimodale modellen zijn AI-modellen die meer dan één type gegevens tegelijk kunnen begrijpen en gebruiken, zoals tekst, afbeeldingen, audio of video. Het multimodale model kan bijvoorbeeld een afbeelding in natuurlijke taal beschrijven of een vraag over een foto beantwoorden.

Multimodale modellen worden vaak gebruikt als onderdeel van:

AI-toepassingen, waarbij inzicht in afbeeldingen gebruikerswerkstromen verbetert
AI-agents, waarbij visuele invoer de agent helpt betere beslissingen te nemen

Voorbeelden zijn:

Een agent die geüploade documenten en schermopnamen beoordeelt
Een ondersteunings-app die foto's analyseert die door klanten zijn verzonden
Een leerhulpmiddel waarin diagrammen of grafieken in gewone taal worden uitgelegd

Omdat multimodale modellen zowel tekst als afbeeldingen accepteren, verminderen ze de noodzaak van afzonderlijke vision-pijplijnen en maken het eenvoudiger om end-to-end intelligente ervaringen te bouwen.

De mogelijkheid voor modellen om visueel begrip te combineren met antwoorden in natuurlijke taal wordt GPT-modellen met visie genoemd. Visie-gebaseerde modellen zijn ontworpen voor flexibele, algemene visuele redenering. Ze kunnen visuele invoer analyseren en reageren in natuurlijke taal, waardoor het eenvoudig is om intelligente toepassingen te bouwen zonder diepgaande kennis van computervisie nodig te hebben.

Multimodale modellen in Microsoft Foundry

Microsoft Foundry bevat veel modellen die invoer op basis van afbeeldingen accepteren, zodat u intelligente, vision-gebaseerde oplossingen kunt maken. Met multimodale modellen in Microsoft Foundry kunnen toepassingen en agents afbeeldingen en visuele inhoud begrijpen, analyseren en redeneren.

GpT-modellen met vision-functionaliteit in Foundry kunnen bijvoorbeeld:

De inhoud van een afbeelding in natuurlijke taal beschrijven
Vragen beantwoorden over objecten, tekst of scènes in een afbeelding
Betekenis extraheren uit grafieken, schermafbeeldingen, documenten of foto's
Afbeeldingskennis combineren met tekstinstructies in één prompt

De modelcatalogus van Foundry bevat veel multimodale modellen, waaronder:

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: Deze multimodale GPT-modellen voor algemeen gebruik kunnen tekst en afbeeldingen samen verwerken. Ze worden vaak gebruikt voor afbeeldingsbeschrijving en het beantwoorden van visuele vragen, document- en schermopnameanalyse, en grafiek- en diagraminterpretatie.
GPT-5-serie (bijvoorbeeld GPT-5.1, GPT-5.2): de GPT-5-serie die beschikbaar is in Foundry bevat geavanceerde multimodale modellen die zijn ontworpen voor bedrijfs- en agentische scenario's. Deze modellen ondersteunen multimodale invoer (inclusief tekst en afbeeldingen), gestructureerde uitvoer en hulpprogrammagebruik, redenering in grote context tussen modaliteiten. De GPT-5-seriemodellen worden doorgaans gebruikt in AI-agents op productieniveau en complexe multimodale toepassingen.

Foundry host ook door partners geleverde multimodale modellen in de modelcatalogus, waaronder modellen van providers zoals Antropisch en anderen die tekst- en beeldbegrip ondersteunen.

Afbeeldingsanalyse in de Foundry-speeltuin

Opmerking

Foundry Portal heeft een klassieke gebruikersinterface (UI) en een nieuwe gebruikersinterface.

In de nieuwe Microsoft Foundry-portal kunt u de modelspeeltuin gebruiken om te chatten met een geïmplementeerd model. U kunt een vision-enabled model selecteren, afbeeldingen uploaden en testprompts interactief testen om te begrijpen hoe het model visuele informatie interpreteert.

U kunt bijvoorbeeld een afbeeldingsbestand toevoegen en het multimodale model (zoals gpt-4.1 mini) ophalen om het te analyseren en te beschrijven.

Zodra deze zijn gevalideerd, kunnen dezelfde mogelijkheden programmatisch worden geopend met behulp van API's, zodat afbeeldingen naast tekstprompts in de toepassingscode kunnen worden verzonden.

De Azure OpenAI-API gebruiken voor afbeeldingsanalyse

Als u een toepassing wilt ontwikkelen, moet u overstappen van de Foundry-speeltuin naar code. In een code-editor kunt u uw toepassingscode schrijven met behulp van de OpenAI-antwoorden-API in Foundry. De OpenAI-antwoorden-API is ontworpen voor agentische apps en ondersteunt systeemeigen multimodale invoer (inclusief afbeeldingen).

Op hoog niveau:

Eén aanvraag kan tekstinvoer en afbeeldingsinvoer samen bevatten
Afbeeldingen kunnen worden opgegeven als URL's of als met base64 gecodeerde afbeeldingsgegevens
Het model verwerkt beide invoer tegelijk om een antwoord te genereren

Conceptueel ziet de promptstructuur er als volgt uit:

Een tekstinstructie (bijvoorbeeld welke objecten zijn zichtbaar in deze afbeelding?)
Een of meer afbeeldingsinvoer die is gekoppeld aan dezelfde aanvraag

Met deze aanpak kunnen ontwikkelaars toepassingen bouwen waarbij gebruikers afbeeldingen uploaden en in realtime vragen over hen stellen.

De Azure OpenAI Python SDK gebruiken

U kunt een Microsoft Foundry-resource gebruiken met de OpenAI-API om afbeeldingsanalyses uit te voeren, inclusief het verzenden van afbeeldingen in prompts en het ophalen van tekstantwoorden, met behulp van de Antwoorden-API met een modelimplementatie die geschikt is voor vision.

De Python SDK kan worden geïnstalleerd in de Visual Studio Code-terminal met behulp van:

pip install openai

In de code-editor kunnen we één Python-bestand maken dat toepassingscode bevat. Belangrijk is dat u de Foundry-resourcesleutel en het eindpunt en de naam van uw geïmplementeerde model nodig hebt.

Opmerking

Wanneer u een model implementeert in Foundry, heeft het een basis - of oorspronkelijke naam en een oorspronkelijke implementatienaam die u het geeft. Foundry host het geïmplementeerde model (bijvoorbeeld GPT-klasse modellen met visuele mogelijkheden) en biedt u een eindpunt.

In het codevoorbeeld maakt u de client, wijst u deze naar uw eindpunt en geeft u de naam van de modelimplementatie (de naam die u het model hebt gegeven) door als de MODEL_NAME.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

Voorbeeld van client-app

U kunt een aangepaste toepassing bouwen die gebruikmaakt van een vision-model om een afbeelding te analyseren met de OpenAI Python SDK. Stel dat u een app wilt bouwen waarmee dieren kunnen worden geïdentificeerd die in Safari zijn gefotografeerd. U kunt uw foto's uploaden en een Python-bestand maken in uw code-editor.

Schermopname van de afbeelding die wordt gebruikt voor afbeeldingsanalyse.

Vervolgens kunt u toepassingscode schrijven die gebruikmaakt van de OpenAI-API om verbinding te maken met het eindpunt van uw model in Foundry.

De toepassingscode moet de afbeeldingsgegevens laden en een prompt voor natuurlijke taal van een gebruiker ophalen. Als u de invoer naar het model wilt verzenden, moet u een meerdelig bericht maken dat zowel de afbeelding als de tekstgegevens bevat. Het model kan reageren met een geschikte uitvoer op basis van zowel de tekst als de afbeelding in de prompt.

Leer vervolgens hoe u Foundry-modellen en de Azure OpenAI SDK kunt gebruiken voor het genereren van beelden.

Feedback

Is deze pagina nuttig?