Indexes - Create Or Update
Erstellt einen neuen Suchindex oder aktualisiert einen Index, wenn er bereits vorhanden ist.
PUT {endpoint}/indexes('{indexName}')?api-version=2026-04-01
PUT {endpoint}/indexes('{indexName}')?api-version=2026-04-01&allowIndexDowntime={allowIndexDowntime}
URI-Parameter
| Name | In | Erforderlich | Typ | Beschreibung |
|---|---|---|---|---|
|
endpoint
|
path | True |
string (uri) |
Die Endpunkt-URL des Suchdiensts. |
|
index
|
path | True |
string |
Der Name des Indexes. |
|
api-version
|
query | True |
string minLength: 1 |
Die API-Version, die für diesen Vorgang verwendet werden soll. |
|
allow
|
query |
boolean |
Ermöglicht es neuen Analyzern, Tokenizern, Tokenfiltern oder Zeichenfiltern, einen Index hinzuzufügen, indem der Index mindestens einige Sekunden offline genommen wird. Dies führt vorübergehend dazu, dass Indizierungs- und Abfrageanforderungen fehlschlagen. Die Leistungs- und Schreibverfügbarkeit des Indexes kann mehrere Minuten nach der Aktualisierung des Indexes oder länger für sehr große Indizes beeinträchtigt werden. |
Anforderungsheader
| Name | Erforderlich | Typ | Beschreibung |
|---|---|---|---|
| Accept |
Die Überschrift "Annehmen". |
||
| If-Match |
string |
Definiert die If-Match Bedingung. Der Vorgang wird nur ausgeführt, wenn das ETag auf dem Server mit diesem Wert übereinstimmt. |
|
| If-None-Match |
string |
Definiert die Bedingung Wenn-None-Match. Der Vorgang wird nur ausgeführt, wenn das ETag auf dem Server nicht mit diesem Wert übereinstimmt. |
|
| Prefer | True |
Weist den Dienst bei HTTP PUT-Anforderungen an, die erstellte/aktualisierte Ressource bei Erfolg zurückzugeben. |
|
| x-ms-client-request-id |
string (uuid) |
Ein undurchsichtiger, global eindeutiger, clientgenerierter Zeichenfolgenbezeichner für die Anforderung. |
Anforderungstext
| Name | Erforderlich | Typ | Beschreibung |
|---|---|---|---|
| fields | True |
Die Felder des Indexes. |
|
| name | True |
string |
Der Name des Indexes. |
| @odata.etag |
string |
Das ETag des Indexes. |
|
| analyzers | LexicalAnalyzer[]: |
Die Analysegeräte für den Index. |
|
| charFilters | CharFilter[]: |
Das Zeichen filtert für den Index. |
|
| corsOptions |
Optionen zum Steuern der cross-Origin Resource Sharing (CORS) für den Index. |
||
| defaultScoringProfile |
string |
Der Name des Bewertungsprofils, das verwendet werden soll, wenn keine in der Abfrage angegeben ist. Wenn diese Eigenschaft nicht festgelegt ist und kein Bewertungsprofil in der Abfrage angegeben wird, wird die Standardbewertung (tf-idf) verwendet. |
|
| description |
string |
Die Beschreibung des Indexes. |
|
| encryptionKey |
Eine Beschreibung eines Verschlüsselungsschlüssels, den Sie in Azure Key Vault erstellen. Dieser Schlüssel dient dazu, eine zusätzliche Ebene der Ruheverschlüsselung für Ihre Daten bereitzustellen, wenn Sie die volle Sicherheit wünschen, dass niemand, nicht einmal Microsoft, Ihre Daten entschlüsseln kann. Sobald Sie Ihre Daten verschlüsselt haben, bleibt sie immer verschlüsselt. Der Suchdienst ignoriert Versuche, diese Eigenschaft auf null festzulegen. Sie können diese Eigenschaft nach Bedarf ändern, wenn Sie den Verschlüsselungsschlüssel drehen möchten. Ihre Daten sind davon unberührt. Verschlüsselung mit vom Kunden verwalteten Schlüsseln steht nicht für kostenlose Suchdienste zur Verfügung und ist nur für kostenpflichtige Dienste verfügbar, die am oder nach dem 1. Januar 2019 erstellt wurden. |
||
| normalizers | LexicalNormalizer[]: |
Die Normalisierer für den Index. |
|
| scoringProfiles |
Die Bewertungsprofile für den Index. |
||
| semantic |
Definiert Parameter für einen Suchindex, der die semantischen Funktionen beeinflusst. |
||
| similarity | SimilarityAlgorithm: |
Der Typ des Ähnlichkeitsalgorithmus, der beim Bewerten und Bewerten der Dokumente verwendet werden soll, die einer Suchabfrage entsprechen. Der Ähnlichkeitsalgorithmus kann nur zur Indexerstellungszeit definiert werden und kann für vorhandene Indizes nicht geändert werden. Wenn NULL, wird der ClassicSimilarity-Algorithmus verwendet. |
|
| suggesters |
Die Vorschlager für den Index. |
||
| tokenFilters |
TokenFilter[]:
|
Das Token filtert für den Index. |
|
| tokenizers | LexicalTokenizer[]: |
Die Tokenizer für den Index. |
|
| vectorSearch |
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche. |
Antworten
| Name | Typ | Beschreibung |
|---|---|---|
| 200 OK |
Die Anforderung ist erfolgreich. |
|
| 201 Created |
Die Anforderung ist erfolgreich und eine neue Ressource wurde als Ergebnis erstellt. |
|
| Other Status Codes |
Unerwartete Fehlerantwort. |
Sicherheit
api-key
Typ:
apiKey
In:
header
OAuth2Auth
Typ:
oauth2
Ablauf:
implicit
Autorisierungs-URL:
https://login.microsoftonline.com/common/oauth2/v2.0/authorize
Bereiche
| Name | Beschreibung |
|---|---|
| https://search.azure.com/.default |
Beispiele
SearchServiceCreateOrUpdateIndex
Beispielanforderung
PUT https://exampleservice.search.windows.net/indexes('temp-example-index')?api-version=2026-04-01&allowIndexDowntime=
{
"name": "temp-example-index",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector4",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 32,
"vectorSearchProfile": "config4"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "price",
"type": "Edm.Double",
"retrievable": true,
"filterable": true,
"sortable": true,
"facetable": true
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"my_tokenFilter"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "my_normalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
},
{
"name": "config4",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQWithoutOriginals"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
},
{
"amlParameters": {
"uri": "https://my-custom-endpoint.org/",
"resourceId": "aml resource id",
"timeout": "PT1M",
"region": "aml region",
"modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
},
"name": "aml",
"kind": "aml"
},
{
"amlParameters": {
"uri": "https://my-custom-endpoint.org/",
"resourceId": "aml resource id",
"timeout": "PT1M",
"region": "aml region",
"modelName": "Cohere-embed-v4"
},
"name": "aml-cohere",
"kind": "aml"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
},
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
},
"truncationDimension": 2
},
{
"name": "myBQWithoutOriginals",
"kind": "binaryQuantization",
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "discardOriginals"
},
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
Beispiel für eine Antwort
{
"name": "temp-example-index",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector4",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 32,
"vectorSearchProfile": "config4",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "price",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "my_normalizer",
"tokenFilters": [
"my_tokenFilter"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
},
{
"name": "config4",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQWithoutOriginals"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
},
{
"name": "aml",
"kind": "aml",
"amlParameters": {
"resourceId": "aml resource id",
"region": "aml region",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
}
},
{
"name": "aml-cohere",
"kind": "aml",
"amlParameters": {
"resourceId": "aml resource id",
"region": "aml region",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"modelName": "Cohere-embed-v4"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQWithoutOriginals",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "discardOriginals"
}
}
]
}
}
{
"name": "temp-example-index",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector4",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 32,
"vectorSearchProfile": "config4",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "price",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "my_normalizer",
"tokenFilters": [
"my_tokenFilter"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
},
{
"name": "config4",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQWithoutOriginals"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
},
{
"name": "aml",
"kind": "aml",
"amlParameters": {
"resourceId": "aml resource id",
"region": "aml region",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
}
},
{
"name": "aml-cohere",
"kind": "aml",
"amlParameters": {
"resourceId": "aml resource id",
"region": "aml region",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"modelName": "Cohere-embed-v4"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQWithoutOriginals",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "discardOriginals"
}
}
]
}
}
Definitionen
| Name | Beschreibung |
|---|---|
| Accept |
Die Überschrift "Annehmen". |
|
AIFoundry |
Der Name des Embedding-Modells aus dem Azure AI Foundry Catalog, das genannt wird. |
| AMLParameters |
Gibt die Eigenschaften für die Verbindung mit einem AML-Vektorizer an. |
| AMLVectorizer |
Spezifiziert einen Azure Machine Learning-Endpunkt, der über den Azure AI Foundry Model Catalog bereitgestellt wird, um die Vektor-Einbettung einer Abfragezeichenkette zu erzeugen. |
|
Ascii |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Azure |
Der Name des Azure Open AI-Modells, der aufgerufen wird. |
|
Azure |
Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird. |
|
Azure |
Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an. |
|
Binary |
Enthält konfigurationsspezifische Konfigurationsoptionen für die Komprimierungsmethode der binären Quantisierung, die während der Indizierung und Abfrage verwendet wird. |
|
BM25Similarity |
Bewertungsfunktion basierend auf dem Okapi BM25 Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-like-Algorithmus, der die Längennormalisierung (gesteuert durch den Parameter "b") sowie die Begriffsfrequenzsättigung (gesteuert durch den Parameter "k1") enthält. |
|
Char |
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden. |
|
Cjk |
Bildet Bigrams von CJK-Ausdrücken, die aus dem Standardtokenizer generiert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Cjk |
Skripts, die von CjkBigramTokenFilter ignoriert werden können. |
|
Classic |
Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variation von TF-IDF führt die Normalisierung statischer Dokumente sowie die Koordinierung von Faktoren ein, die Dokumente benachteiligen, die nur teilweise mit den durchsuchten Abfragen übereinstimmen. |
|
Classic |
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Common |
Konstruiert Bigramme für häufig vorkommende Begriffe während der Indexierung. Einzelne Begriffe werden ebenfalls indexiert und mit Bigrammen überlagert. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Cors |
Definiert Optionen zum Steuern der cross-Origin Resource Sharing (CORS) für einen Index. |
|
Custom |
Ermöglicht es Ihnen, den Prozess der Konvertierung von Text in in indizierbare/durchsuchbare Token zu übernehmen. Es ist eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token verantwortlich, und die Filter zum Ändern von Token, die vom Tokenizer ausgegeben werden. |
|
Custom |
Ermöglicht es Ihnen, die Normalisierung für filterbare, sortierbare und facetable-Felder zu konfigurieren, die standardmäßig mit striktem Abgleich funktionieren. Dies ist eine benutzerdefinierte Konfiguration, die aus mindestens einem Filter besteht, wodurch das gespeicherte Token geändert wird. |
|
Dictionary |
Zerlegt zusammengesetzte Wörter, die in vielen germanischen Sprachen vorkommen. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Distance |
Definiert eine Funktion, die Bewertungen basierend auf der Entfernung von einem geografischen Standort erhöht. |
|
Distance |
Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit. |
|
Edge |
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Edge |
Gibt an, von welcher Seite der Eingabe ein N-Gramm generiert werden soll. |
|
Edge |
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Edge |
Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Elision |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Error |
Der Ressourcenverwaltungsfehler zusätzliche Informationen. |
|
Error |
Das Fehlerdetails. |
|
Error |
Übliche Fehlerantwort für alle Azure Resource Manager APIs, um Fehlerdetails bei fehlgeschlagenen Operationen zurückzugeben. (Dies folgt auch dem OData-Fehlerantwortformat.) |
|
Exhaustive |
Enthält Konfigurationsoptionen, die spezifisch für den vollständigen KNN-Algorithmus sind, der während der Abfrage verwendet wird, wodurch die Brute-Force-Suche im gesamten Vektorindex ausgeführt wird. |
|
Exhaustive |
Enthält die für den vollständigen KNN-Algorithmus spezifischen Parameter. |
|
Freshness |
Definiert eine Funktion, die Bewertungen basierend auf dem Wert eines Datum-Uhrzeit-Felds erhöht. |
|
Freshness |
Stellt Parameterwerte für eine Aktualitätsbewertungsfunktion bereit. |
|
Hnsw |
Enthält Konfigurationsoptionen, die für den HNSW-Algorithmus für die approximativen nächsten Nachbarn spezifisch sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen abstimmbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit. |
|
Hnsw |
Enthält die Parameter, die für den HNSW-Algorithmus spezifisch sind. |
|
Keep |
Ein Tokenfilter, der Token nur mit Text in einer angegebenen Liste von Wörtern speichert. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Keyword |
Begriffe werden als Schlüsselwörter gekennzeichnet. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Keyword |
Gibt die gesamte Eingabe als ein einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Keyword |
Gibt die gesamte Eingabe als ein einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Length |
Entfernt die Wörter, die zu lang oder zu kurz sind. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Lexical |
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden. |
|
Lexical |
Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden. |
|
Lexical |
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden. |
|
Limit |
Beschränkt die Anzahl der Token während der Indizierung. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Lucene |
Standard Apache Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter. |
|
Lucene |
Umbricht Text nach den Unicode-Textsegmentierungsregeln. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Lucene |
Umbricht Text nach den Unicode-Textsegmentierungsregeln. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Magnitude |
Definiert eine Funktion, die Bewertungen basierend auf der Größe eines numerischen Felds erhöht. |
|
Magnitude |
Stellt Parameterwerte für eine Bewertungsfunktion der Größe bereit. |
|
Mapping |
Ein Zeichenfilter, der Zuordnungen anwendet, die mit der Zuordnungsoption definiert sind. Der Abgleich ist umfangreich (der längste Musterabgleich an einem bestimmten Punkt wird verwendet). Eine Ersetzung kann eine leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert. |
|
Microsoft |
Teilt Text nach sprachspezifischen Regeln auf und reduziert Wörter auf deren Grundformen. |
|
Microsoft |
Teilt Text nach sprachspezifischen Regeln auf. |
|
Microsoft |
Listet die vom Microsoft Language Stemming Tokenizer unterstützten Sprachen auf. |
|
Microsoft |
Listet die vom Microsoft-Sprachen-Tokenizer unterstützten Sprachen auf. |
|
NGram |
Generiert n Gramm der angegebenen Größe(n). Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
NGram |
Generiert n Gramm der angegebenen Größe(n). Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
NGram |
Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Path |
Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Pattern |
Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe. Dieser Analyzer wird mit Apache Lucene implementiert. |
|
Pattern |
Verwendet Java regexes, um mehrere Token auszugeben – eine für jede Aufnahmegruppe in einem oder mehreren Mustern. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Pattern |
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Er verwendet einen regulären Ausdruck, um zu erhaltende Zeichenfolgen zu identifizieren, und ein Ersatzmuster, um zu ersetzende Zeichen zu identifizieren. Wenn Sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" erhalten haben, lautet das Ergebnis "aa#bb aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert. |
|
Pattern |
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Er verwendet einen regulären Ausdruck, um zu erhaltende Zeichenfolgen zu identifizieren, und ein Ersatzmuster, um zu ersetzende Zeichen zu identifizieren. Wenn Sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" erhalten haben, lautet das Ergebnis "aa#bb aa#bb aa#bb". Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Pattern |
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Phonetic |
Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll. |
|
Phonetic |
Erstellt Token für phonetische Übereinstimmungen. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
| Prefer |
Weist den Dienst bei HTTP PUT-Anforderungen an, die erstellte/aktualisierte Ressource bei Erfolg zurückzugeben. |
|
Ranking |
Stellt die Punktzahl dar, die für die Sortierreihenfolge von Dokumenten verwendet werden soll. |
|
Rescoring |
Enthält die Optionen für die Korrektur. |
|
Scalar |
Enthält Konfigurationsoptionen, die spezifisch für die skalare Quantisierungskomprimierungsmethode sind, die während der Indizierung und Abfrage verwendet wird. |
|
Scalar |
Enthält die parameter, die für die Skalar quantization spezifisch sind. |
|
Scoring |
Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren. |
|
Scoring |
Definiert die Funktion, die zum Interpolieren von Score Boosting in einem Dokumentbereich verwendet wird. |
|
Scoring |
Definiert Parameter für einen Suchindex, der die Bewertung in Suchabfragen beeinflusst. |
|
Search |
Stellt ein Feld in einer Indexdefinition dar, das den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt. |
|
Search |
Definiert den Datentyp eines Feldes in einem Suchindex. |
|
Search |
Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt. |
|
Search |
Löscht die Identitätseigenschaft einer Datenquelle. |
|
Search |
Gibt die Identität für eine zu verwendende Datenquelle an. |
|
Search |
Ein vom Kunden verwalteter Verschlüsselungsschlüssel im Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen. |
|
Search |
Definiert, wie die Vorschlags-API auf eine Gruppe von Feldern im Index angewendet werden soll. |
|
Semantic |
Definiert eine bestimmte Konfiguration, die im Kontext der semantischen Funktionen verwendet werden soll. |
|
Semantic |
Ein Feld, das als Teil der semantischen Konfiguration verwendet wird. |
|
Semantic |
Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. |
|
Semantic |
Definiert Parameter für einen Suchindex, der die semantischen Funktionen beeinflusst. |
|
Shingle |
Erstellt Kombinationen von Token als ein einzelnes Token. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Snowball |
Ein Filter, der Wörter mit einem snowball-generierten Stammer abstammt. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Snowball |
Die Sprache, die für einen Snowball-Token-Filter verwendet werden soll. |
|
Stemmer |
Bietet die Möglichkeit, andere Wortstammfilter mit benutzerwörterbuchbasierter Wortstammerkennung außer Kraft zu setzen. Alle wörterbuchstammigen Begriffe werden als Schlüsselwörter markiert, sodass sie nicht mit Stemmern in der Kette gestammt werden. Muss vor dem Filter für die Wortstammerkennung platziert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/StemmerOverrideFilter.html. |
|
Stemmer |
Sprachspezifischer Wortstammfilter. Dieser Tokenfilter wird mit Apache Lucene implementiert. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters. |
|
Stemmer |
Die Sprache, die für einen Stemmmertokenfilter verwendet werden soll. |
|
Stop |
Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Dieser Analyzer wird mit Apache Lucene implementiert. |
|
Stopwords |
Gibt eine vordefinierte Liste von sprachspezifischen Stoppwörtern an. |
|
Stopwords |
Entfernt Stoppwörter aus einem Tokenstream. Dieser Tokenfilter wird mit Apache Lucene implementiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html. |
|
Synonym |
Gleicht ein- oder mehrere Wort-Synonyme in einem Tokendatenstrom ab. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Tag |
Definiert eine Funktion, die Die Bewertungen von Dokumenten mit Zeichenfolgenwerten erhöht, die einer bestimmten Liste von Tags entsprechen. |
|
Tag |
Stellt Parameterwerte für eine Tagbewertungsfunktion bereit. |
|
Text |
Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen erhöhen sollen. |
|
Token |
Stellt Zeichenklassen dar, auf die ein Tokenfilter angewendet werden kann. |
|
Token |
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden. |
|
Truncate |
Schneidet die Begriffe auf eine bestimmte Länge ab. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Uax |
Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mit Apache Lucene implementiert. |
|
Unique |
Filtert Token mit dem gleichen Text wie das vorherige Token heraus. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
|
Vector |
Das Codierungsformat für die Interpretation von Vektorfeldinhalten. |
|
Vector |
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche. |
|
Vector |
Der Algorithmus, der für die Indizierung und Abfrage verwendet wird. |
|
Vector |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. Es wird empfohlen, dieselbe Ähnlichkeitsmetrik zu wählen, mit der das Einbettungsmodell trainiert wurde. |
|
Vector |
Die Komprimierungsmethode, die für die Indizierung und Abfrage verwendet wird. |
|
Vector |
Der quantisierte Datentyp von komprimierten Vektorwerten. |
|
Vector |
Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen. |
|
Vector |
Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll. |
|
Web |
Gibt einen benutzerdefinierten Vektorizer zum Generieren des Vektoreinbettungs einer Abfragezeichenfolge an. Die Integration eines externen Vektorizers erfolgt mithilfe der benutzerdefinierten Web-API-Schnittstelle eines Skillsets. |
|
Web |
Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorizer an. |
|
Word |
Unterteilt Wörter in Teilwörter und führt optionale Transformationen in Teilwortgruppen durch. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Accept
Die Überschrift "Annehmen".
| Wert | Beschreibung |
|---|---|
| application/json;odata.metadata=minimal |
AIFoundryModelCatalogName
Der Name des Embedding-Modells aus dem Azure AI Foundry Catalog, das genannt wird.
| Wert | Beschreibung |
|---|---|
| OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32 |
OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32 |
| OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336 |
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336 |
| Facebook-DinoV2-Image-Embeddings-ViT-Base |
Facebook-DinoV2-Image-Embeddings-ViT-Base |
| Facebook-DinoV2-Image-Embeddings-ViT-Giant |
Facebook-DinoV2-Bild-Einbettungen-ViT-Giant |
| Cohere-embed-v3-english |
Cohere-embed-v3-english |
| Cohere-embed-v3-multilingual |
Cohere-embed-v3-multilingual |
| Cohere-embed-v4 |
Cohere Embed v4-Modell zum Generieren von Einbettungen aus Text und Bildern. |
AMLParameters
Gibt die Eigenschaften für die Verbindung mit einem AML-Vektorizer an.
| Name | Typ | Beschreibung |
|---|---|---|
| key |
string |
(Erforderlich für die Schlüsselauthentifizierung) Der Schlüssel für den AML-Dienst. |
| modelName |
Der Name des Embedding-Modells aus dem Azure AI Foundry Catalog, das am bereitgestellten Endpunkt bereitgestellt wird. |
|
| region |
string |
(Optional für die Tokenauthentifizierung). Die Region, in der der AML-Dienst bereitgestellt wird. |
| resourceId |
string |
(Erforderlich für die Tokenauthentifizierung). Die Azure Resource Manager Resource ID des AML-Dienstes. Es sollte im Format subscriptions/{guid}/resourceGroups/{resource-group-name}/Microsoft sein. MachineLearningServices/workspaces/{workspace-name}/services/{service_name}. |
| timeout |
string (duration) |
(Optional) Wenn angegeben, wird damit das Zeitlimit für den HTTP-Client angegeben, der den API-Aufruf durchführt. |
| uri |
string (uri) |
(Erforderlich für keine Authentifizierung oder Schlüsselauthentifizierung) Der Bewertungs-URI des AML-Diensts, an den die JSON-Nutzlast gesendet wird. Nur das HTTPS-URI-Schema ist zulässig. |
AMLVectorizer
Spezifiziert einen Azure Machine Learning-Endpunkt, der über den Azure AI Foundry Model Catalog bereitgestellt wird, um die Vektor-Einbettung einer Abfragezeichenkette zu erzeugen.
| Name | Typ | Beschreibung |
|---|---|---|
| amlParameters |
Gibt die Eigenschaften des AML-Vektorizers an. |
|
| kind |
string:
aml |
Typ des VectorSearchVectorizers. |
| name |
string |
Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll. |
AsciiFoldingTokenFilter
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| preserveOriginal |
boolean |
False |
Ein Wert, der angibt, ob das ursprüngliche Token beibehalten wird. Die Standardeinstellung ist "false". |
AzureOpenAIModelName
Der Name des Azure Open AI-Modells, der aufgerufen wird.
| Wert | Beschreibung |
|---|---|
| text-embedding-ada-002 |
TextEmbeddingAda002 Modell. |
| text-embedding-3-large |
TextEmbedding3Großes Modell. |
| text-embedding-3-small |
TextEmbedding3Kleines Modell. |
| gpt-5-mini |
Gpt5Mini-Modell. |
| gpt-5-nano |
Gpt5Nano-Modell. |
| gpt-5.4-mini |
Gpt54Mini Modell. |
| gpt-5.4-nano |
Gpt54Nano-Modell. |
AzureOpenAIVectorizer
Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird.
| Name | Typ | Beschreibung |
|---|---|---|
| azureOpenAIParameters |
Enthält die Parameter, die für die Vektorisierung der Azure OpenAI-Einbettung spezifisch sind. |
|
| kind |
string:
azure |
Typ des VectorSearchVectorizers. |
| name |
string |
Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll. |
AzureOpenAIVectorizerParameters
Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an.
| Name | Typ | Beschreibung |
|---|---|---|
| apiKey |
string |
API-Schlüssel der angegebenen Azure OpenAI-Ressource. |
| authIdentity | SearchIndexerDataIdentity: |
Die vom Benutzer zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. |
| deploymentId |
string |
ID der Azure OpenAI-Modellbereitstellung für die angegebene Ressource. |
| modelName |
Der Name des Einbettungsmodells, das im bereitgestellten deploymentId-Pfad bereitgestellt wird. |
|
| resourceUri |
string (uri) |
Der Ressourcen-URI der Azure OpenAI-Ressource. |
BinaryQuantizationCompression
Enthält konfigurationsspezifische Konfigurationsoptionen für die Komprimierungsmethode der binären Quantisierung, die während der Indizierung und Abfrage verwendet wird.
| Name | Typ | Beschreibung |
|---|---|---|
| kind |
string:
binary |
Art von VectorSearchKompression. |
| name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
| rescoringOptions |
Enthält die Optionen für die Korrektur. |
|
| truncationDimension |
integer (int32) |
Die Anzahl der Dimensionen, mit der die Vektoren abgeschnitten werden sollen. Durch das Abschneiden der Vektoren wird die Größe der Vektoren und die Datenmenge reduziert, die während der Suche übertragen werden muss. Dies kann Speicherkosten sparen und die Suchleistung auf Kosten des Rückrufs verbessern. Es sollte nur für Einbettungen verwendet werden, die mit Matryoshka Representation Learning (MRL) trainiert wurden, z. B. OpenAI-Text-Embedding-3-large (klein). Der Standardwert ist NULL, was bedeutet, dass keine Abkürzung erfolgt. |
BM25SimilarityAlgorithm
Bewertungsfunktion basierend auf dem Okapi BM25 Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-like-Algorithmus, der die Längennormalisierung (gesteuert durch den Parameter "b") sowie die Begriffsfrequenzsättigung (gesteuert durch den Parameter "k1") enthält.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| b |
number (double) |
Diese Eigenschaft steuert, wie sich die Länge eines Dokuments auf die Relevanzbewertung auswirkt. Standardmäßig wird ein Wert von 0,75 verwendet. Ein Wert von 0,0 bedeutet, dass keine Längennormalisierung angewendet wird, während ein Wert von 1,0 bedeutet, dass die Bewertung durch die Länge des Dokuments vollständig normalisiert wird. |
| k1 |
number (double) |
Diese Eigenschaft steuert die Skalierungsfunktion zwischen der Begriffshäufigkeit der einzelnen übereinstimmenden Ausdrücke und der endgültigen Relevanzbewertung eines Dokumentabfragepaars. Standardmäßig wird ein Wert von 1,2 verwendet. Ein Wert von 0,0 bedeutet, dass die Bewertung nicht mit einer Erhöhung der Begriffshäufigkeit skaliert wird. |
CharFilterName
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.
| Wert | Beschreibung |
|---|---|
| html_strip |
Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html. |
CjkBigramTokenFilter
Bildet Bigrams von CJK-Ausdrücken, die aus dem Standardtokenizer generiert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| ignoreScripts |
Die zu ignorierenden Skripts. |
||
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| outputUnigrams |
boolean |
False |
Ein Wert, der angibt, ob sowohl Unigramme als auch Bigrams (wenn wahr) oder nur Bigrams (wenn falsch) ausgegeben werden sollen. Die Standardeinstellung ist "false". |
CjkBigramTokenFilterScripts
Skripts, die von CjkBigramTokenFilter ignoriert werden können.
| Wert | Beschreibung |
|---|---|
| han |
Ignorieren Sie die Han-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden. |
| hiragana |
Ignorieren Sie die Hiragana-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden. |
| katakana |
Ignorieren Sie die Katakana-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden. |
| hangul |
Ignorieren Sie die Hangul-Schrift, wenn Sie Bigramme von CJK-Begriffen bilden. |
ClassicSimilarityAlgorithm
Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variation von TF-IDF führt die Normalisierung statischer Dokumente sowie die Koordinierung von Faktoren ein, die Dokumente benachteiligen, die nur teilweise mit den durchsuchten Abfragen übereinstimmen.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
ClassicTokenizer
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
CommonGramTokenFilter
Konstruiert Bigramme für häufig vorkommende Begriffe während der Indexierung. Einzelne Begriffe werden ebenfalls indexiert und mit Bigrammen überlagert. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| commonWords |
string[] |
Die Gruppe allgemeiner Wörter. |
|
| ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob bei übereinstimmungen mit allgemeinen Wörtern die Groß-/Kleinschreibung nicht beachtet wird. Die Standardeinstellung ist "false". |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| queryMode |
boolean |
False |
Ein Wert, der angibt, ob sich der Tokenfilter im Abfragemodus befindet. Im Abfragemodus generiert der Tokenfilter Bigrams und entfernt dann allgemeine Wörter und einzelne Ausdrücke, gefolgt von einem gemeinsamen Wort. Die Standardeinstellung ist "false". |
CorsOptions
Definiert Optionen zum Steuern der cross-Origin Resource Sharing (CORS) für einen Index.
| Name | Typ | Beschreibung |
|---|---|---|
| allowedOrigins |
string[] |
Die Liste der Ursprünge, von denen aus JavaScript-Code Zugriff auf Ihren Index erhält. Kann eine Liste von Hosts in der Form {protocol}://{fully-qualified-domain-name}[:{port#}] oder ein einzelnes '*' enthalten, um alle Ursprünge zuzulassen (nicht empfohlen). |
| maxAgeInSeconds |
integer (int64) |
Die Dauer, für die Browser CORS-Preflight-Antworten zwischenspeichern sollen. Der Standardwert ist 5 Minuten. |
CustomAnalyzer
Ermöglicht es Ihnen, den Prozess der Konvertierung von Text in in indizierbare/durchsuchbare Token zu übernehmen. Es ist eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token verantwortlich, und die Filter zum Ändern von Token, die vom Tokenizer ausgegeben werden.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| charFilters |
Eine Liste von Zeichenfiltern, die zum Vorbereiten von Eingabetext verwendet werden, bevor er vom Tokenizer verarbeitet wird. Beispielsweise können sie bestimmte Zeichen oder Symbole ersetzen. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet werden. |
|
| name |
string |
Der Name des Analyzers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
| tokenFilters |
Eine Liste von Tokenfiltern, die zum Herausfiltern oder Ändern der von einem Tokenizer generierten Token verwendet werden. Sie können beispielsweise einen Filter für Kleinbuchstaben angeben, mit dem alle Zeichen in Kleinbuchstaben konvertiert werden. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet werden. |
|
| tokenizer |
Der Name des Tokenizers, der zum Unterteilen von Fließtext in eine Sequenz von Token verwendet werden soll, z. B. zum Aufteilen eines Satzes in Wörter. |
CustomNormalizer
Ermöglicht es Ihnen, die Normalisierung für filterbare, sortierbare und facetable-Felder zu konfigurieren, die standardmäßig mit striktem Abgleich funktionieren. Dies ist eine benutzerdefinierte Konfiguration, die aus mindestens einem Filter besteht, wodurch das gespeicherte Token geändert wird.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| charFilters |
Eine Liste von Zeichenfiltern, die zum Vorbereiten von Eingabetext verwendet werden, bevor er verarbeitet wird. Beispielsweise können sie bestimmte Zeichen oder Symbole ersetzen. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet werden. |
|
| name |
string |
Der Name des Zeichenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
| tokenFilters |
Eine Liste der Tokenfilter, die zum Filtern oder Ändern des Eingabetokens verwendet werden. Sie können beispielsweise einen Filter für Kleinbuchstaben angeben, mit dem alle Zeichen in Kleinbuchstaben konvertiert werden. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet werden. |
DictionaryDecompounderTokenFilter
Zerlegt zusammengesetzte Wörter, die in vielen germanischen Sprachen vorkommen. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
Die maximale Größe des Unterworts. Nur Unterwörter, die kürzer als dies sind, werden ausgegeben. Der Standardwert ist 15. Maximal 300. |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
Die minimale Unterwortgröße. Nur Unterwörter, die länger als dies sind, werden ausgegeben. Der Standardwert ist 2. Maximal 300. |
| minWordSize |
integer (int32) maximum: 300 |
5 |
Die Minimale Wortgröße. Nur Wörter, die länger als diese verarbeitet werden. Der Standardwert ist 5. Maximal 300. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| onlyLongestMatch |
boolean |
False |
Ein Wert, der angibt, ob nur das längste übereinstimmende Unterwort zur Ausgabe hinzugefügt werden soll. Die Standardeinstellung ist "false". |
| wordList |
string[] |
Die Liste der Wörter, mit der abgeglichen werden soll. |
DistanceScoringFunction
Definiert eine Funktion, die Bewertungen basierend auf der Entfernung von einem geografischen Standort erhöht.
| Name | Typ | Beschreibung |
|---|---|---|
| boost |
number (double) |
Ein Multiplikator für die unformatierte Bewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
| distance |
Parameterwerte für die Entfernungsbewertungsfunktion. |
|
| fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
| interpolation |
Ein Wert, der angibt, wie die Verstärkung in Dokumentergebnisse interpoliert wird; Ist standardmäßig auf "Linear" festgelegt. |
|
| type |
string:
distance |
Art der Bewertungsfunktion. |
DistanceScoringParameters
Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit.
| Name | Typ | Beschreibung |
|---|---|---|
| boostingDistance |
number (double) |
Die Entfernung in Kilometern von der Referenzposition, an der der Boosting-Bereich endet. |
| referencePointParameter |
string |
Der Name des Parameters, der in Suchabfragen übergeben wird, um den Referenzspeicherort anzugeben. |
EdgeNGramTokenFilter
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxGram |
integer (int32) |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. |
| minGram |
integer (int32) |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| side | front |
Gibt an, von welcher Seite des Eingangs das N-Gramm generiert werden soll. Der Standardwert ist "vorne". |
EdgeNGramTokenFilterSide
Gibt an, von welcher Seite der Eingabe ein N-Gramm generiert werden soll.
| Wert | Beschreibung |
|---|---|
| front |
Gibt an, dass das N-Gramm von der Vorderseite der Eingabe generiert werden soll. |
| back |
Gibt an, dass das N-Gramm von der Rückseite der Eingabe generiert werden soll. |
EdgeNGramTokenFilterV2
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. Maximal 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Maximal 300. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| side | front |
Gibt an, von welcher Seite des Eingangs das N-Gramm generiert werden soll. Der Standardwert ist "vorne". |
EdgeNGramTokenizer
Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. Maximal 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Maximal 300. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| tokenChars |
Zeichenklassen, die in den Token beibehalten werden sollen. |
ElisionTokenFilter
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| articles |
string[] |
Die Gruppe der zu entfernenden Artikel. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
ErrorAdditionalInfo
Der Ressourcenverwaltungsfehler zusätzliche Informationen.
| Name | Typ | Beschreibung |
|---|---|---|
| info |
Die zusätzlichen Informationen. |
|
| type |
string |
Der zusätzliche Informationstyp. |
ErrorDetail
Das Fehlerdetails.
| Name | Typ | Beschreibung |
|---|---|---|
| additionalInfo |
Die zusätzlichen Informationen des Fehlers. |
|
| code |
string |
Der Fehlercode. |
| details |
Die Fehlerdetails. |
|
| message |
string |
Die Fehlermeldung. |
| target |
string |
Das Fehlerziel. |
ErrorResponse
Übliche Fehlerantwort für alle Azure Resource Manager APIs, um Fehlerdetails bei fehlgeschlagenen Operationen zurückzugeben. (Dies folgt auch dem OData-Fehlerantwortformat.)
| Name | Typ | Beschreibung |
|---|---|---|
| error |
Das Fehlerobjekt. |
ExhaustiveKnnAlgorithmConfiguration
Enthält Konfigurationsoptionen, die spezifisch für den vollständigen KNN-Algorithmus sind, der während der Abfrage verwendet wird, wodurch die Brute-Force-Suche im gesamten Vektorindex ausgeführt wird.
| Name | Typ | Beschreibung |
|---|---|---|
| exhaustiveKnnParameters |
Enthält die für den vollständigen KNN-Algorithmus spezifischen Parameter. |
|
| kind |
string:
exhaustive |
Typ von VectorSearchAlgorithmConfiguration. |
| name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
ExhaustiveKnnParameters
Enthält die für den vollständigen KNN-Algorithmus spezifischen Parameter.
| Name | Typ | Beschreibung |
|---|---|---|
| metric |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. |
FreshnessScoringFunction
Definiert eine Funktion, die Bewertungen basierend auf dem Wert eines Datum-Uhrzeit-Felds erhöht.
| Name | Typ | Beschreibung |
|---|---|---|
| boost |
number (double) |
Ein Multiplikator für die unformatierte Bewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
| fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
| freshness |
Parameterwerte für die Aktualitätsbewertungsfunktion. |
|
| interpolation |
Ein Wert, der angibt, wie die Verstärkung in Dokumentergebnisse interpoliert wird; Ist standardmäßig auf "Linear" festgelegt. |
|
| type |
string:
freshness |
Art der Bewertungsfunktion. |
FreshnessScoringParameters
Stellt Parameterwerte für eine Aktualitätsbewertungsfunktion bereit.
| Name | Typ | Beschreibung |
|---|---|---|
| boostingDuration |
string (duration) |
Der Ablaufzeitraum, nach dem das Boosten für ein bestimmtes Dokument gestoppt wird. |
HnswAlgorithmConfiguration
Enthält Konfigurationsoptionen, die für den HNSW-Algorithmus für die approximativen nächsten Nachbarn spezifisch sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen abstimmbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit.
| Name | Typ | Beschreibung |
|---|---|---|
| hnswParameters |
Enthält die Parameter, die für den HNSW-Algorithmus spezifisch sind. |
|
| kind |
string:
hnsw |
Typ von VectorSearchAlgorithmConfiguration. |
| name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
HnswParameters
Enthält die Parameter, die für den HNSW-Algorithmus spezifisch sind.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
Die Größe der dynamischen Liste mit den nächsten Nachbarn, die während der Indexzeit verwendet wird. Durch Erhöhen dieses Parameters kann die Indexqualität auf Kosten einer längeren Indizierungszeit verbessert werden. Ab einem bestimmten Punkt führt die Erhöhung dieses Parameters zu sinkenden Erträgen. |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
Die Größe der dynamischen Liste mit den nächsten Nachbarn, die während der Suchzeit verwendet wird. Das Erhöhen dieses Parameters kann die Suchergebnisse auf Kosten einer langsameren Suche verbessern. Ab einem bestimmten Punkt führt die Erhöhung dieses Parameters zu sinkenden Erträgen. |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
Die Anzahl der bidirektionalen Verknüpfungen, die während der Konstruktion für jedes neue Element erstellt werden. Das Erhöhen dieses Parameterwerts kann den Abruf verbessern und die Abrufzeiten für Datasets mit hoher intrinsischer Dimensionalität auf Kosten eines höheren Speicherverbrauchs und einer längeren Indizierungszeit verkürzen. |
| metric |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. |
KeepTokenFilter
Ein Tokenfilter, der Token nur mit Text in einer angegebenen Liste von Wörtern speichert. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| keepWords |
string[] |
Die Liste der zu behaltenden Wörter. |
|
| keepWordsCase |
boolean |
False |
Ein Wert, der angibt, ob alle Wörter zuerst klein geschrieben werden sollen. Die Standardeinstellung ist "false". |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
KeywordMarkerTokenFilter
Begriffe werden als Schlüsselwörter gekennzeichnet. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Groß-/Kleinschreibung ignoriert werden soll. Wenn wahr, werden alle Wörter zuerst in Kleinbuchstaben konvertiert. Die Standardeinstellung ist "false". |
| keywords |
string[] |
Eine Liste von Wörtern, die als Schlüsselwörter markiert werden sollen. |
|
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
KeywordTokenizer
Gibt die gesamte Eingabe als ein einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| bufferSize |
integer (int32) |
256 |
Die Größe des Lesepuffers in Bytes. Der Standardwert ist 256. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
KeywordTokenizerV2
Gibt die gesamte Eingabe als ein einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
Die maximale Tokenlänge. Der Standardwert ist 256. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
LengthTokenFilter
Entfernt die Wörter, die zu lang oder zu kurz sind. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| max |
integer (int32) maximum: 300 |
300 |
Die maximale Länge in Zeichen. Der Standardwert und maximal 300. |
| min |
integer (int32) maximum: 300 |
0 |
Die Mindestlänge in Zeichen. Standard ist "0". Maximal 300. Muss kleiner als der Wert von "max" sein. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
LexicalAnalyzerName
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.
| Wert | Beschreibung |
|---|---|
| ar.microsoft |
Microsoft-Analysator für Arabisch. |
| ar.lucene |
Lucene-Analysator für Arabisch. |
| hy.lucene |
Lucene-Analysator für Armenisch. |
| bn.microsoft |
Microsoft-Analyzer für Bangla. |
| eu.lucene |
Lucene-Analysator für Baskisch. |
| bg.microsoft |
Microsoft Analyzer für Bulgarisch. |
| bg.lucene |
Lucene-Analysator für Bulgarisch. |
| ca.microsoft |
Microsoft-Analysator für Katalanisch. |
| ca.lucene |
Lucene-Analysator für Katalanisch. |
| zh-Hans.microsoft |
Microsoft Analyzer für Chinesisch (vereinfacht). |
| zh-Hans.lucene |
Lucene-Analysator für Chinesisch (vereinfacht). |
| zh-Hant.microsoft |
Microsoft-Analysator für Chinesisch (Traditional). |
| zh-Hant.lucene |
Lucene-Analysator für Chinesisch (traditionell). |
| hr.microsoft |
Microsoft Analyzer für Kroatisch. |
| cs.microsoft |
Microsoft-Analysator für Tschechisch. |
| cs.lucene |
Lucene-Analysator für Tschechisch. |
| da.microsoft |
Microsoft-Analyzer für Dänisch. |
| da.lucene |
Lucene-Analysator für Dänisch. |
| nl.microsoft |
Microsoft-Analysator für Niederländisch. |
| nl.lucene |
Lucene-Analysator für Niederländisch. |
| en.microsoft |
Microsoft-Analyzer für Englisch. |
| en.lucene |
Lucene-Analysator für Englisch. |
| et.microsoft |
Microsoft Analyzer für Estnisch. |
| fi.microsoft |
Microsoft-Analysator für Finnisch. |
| fi.lucene |
Lucene-Analysator für Finnisch. |
| fr.microsoft |
Microsoft Analyzer für Französisch. |
| fr.lucene |
Lucene-Analysator für Französisch. |
| gl.lucene |
Lucene-Analysator für Galizisch. |
| de.microsoft |
Microsoft-Analysator für Deutsch. |
| de.lucene |
Lucene-Analysator für Deutsch. |
| el.microsoft |
Microsoft-Analysator für Griechisch. |
| el.lucene |
Lucene-Analysator für Griechisch. |
| gu.microsoft |
Microsoft-Analysator für Gujarati. |
| he.microsoft |
Microsoft-Analysator für Hebräisch. |
| hi.microsoft |
Microsoft-Analysator für Hindi. |
| hi.lucene |
Lucene-Analysator für Hindi. |
| hu.microsoft |
Microsoft-Analysator für Ungarisch. |
| hu.lucene |
Lucene-Analysator für Ungarisch. |
| is.microsoft |
Microsoft-Analyzer für Isländisch. |
| id.microsoft |
Microsoft Analyzer für Indonesisch (Bahasa). |
| id.lucene |
Lucene-Analysator für Indonesisch. |
| ga.lucene |
Lucene-Analysator für Irisch. |
| it.microsoft |
Microsoft-Analysator für Italienisch. |
| it.lucene |
Lucene-Analysator für Italienisch. |
| ja.microsoft |
Microsoft Analyzer für Japanisch. |
| ja.lucene |
Lucene-Analysator für Japanisch. |
| kn.microsoft |
Microsoft Analyzer für Kannada. |
| ko.microsoft |
Microsoft-Analyzer für Koreanisch. |
| ko.lucene |
Lucene-Analysator für Koreanisch. |
| lv.microsoft |
Microsoft-Analysator für Lettisch. |
| lv.lucene |
Lucene-Analysator für Lettisch. |
| lt.microsoft |
Microsoft Analyzer für Litauisch. |
| ml.microsoft |
Microsoft-Analyzer für Malayalam. |
| ms.microsoft |
Microsoft Analyzer für Malaiisch (Latein). |
| mr.microsoft |
Microsoft-Analysator für Marathi. |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål). |
| no.lucene |
Lucene-Analysator für Norwegian. |
| fa.lucene |
Lucene-Analysator für Persisch. |
| pl.microsoft |
Microsoft-Analysator für Polnisch. |
| pl.lucene |
Lucene-Analysator für Polnisch. |
| pt-BR.microsoft |
Microsoft analyzer für Portugiesisch (Brasilien). |
| pt-BR.lucene |
Lucene-Analysator für Portugiesisch (Brasilien). |
| pt-PT.microsoft |
Microsoft analyzer for Portuguese (Portugal). |
| pt-PT.lucene |
Lucene-Analysator für Portugiesisch (Portugal). |
| pa.microsoft |
Microsoft-Analyzer für Punjabi. |
| ro.microsoft |
Microsoft-Analyzer für Rumänisch. |
| ro.lucene |
Lucene-Analysator für Rumänisch. |
| ru.microsoft |
Microsoft-Analyzer für Russisch. |
| ru.lucene |
Lucene-Analysator für Russisch. |
| sr-cyrillic.microsoft |
Microsoft Analyzer für Serbisch (Kyrillisch). |
| sr-latin.microsoft |
Microsoft analyzer für Serbisch (Latein). |
| sk.microsoft |
Microsoft-Analysator für Slowakisch. |
| sl.microsoft |
Microsoft Analyzer für Slowenisch. |
| es.microsoft |
Microsoft-Analyzer für Spanisch. |
| es.lucene |
Lucene-Analysator für Spanisch. |
| sv.microsoft |
Microsoft-Analysator für Schwedisch. |
| sv.lucene |
Lucene-Analysator für Schwedisch. |
| ta.microsoft |
Microsoft-Analyzer für Tamil. |
| te.microsoft |
Microsoft-Analyzer für Telugu. |
| th.microsoft |
Microsoft-Analysator für Thailändisch. |
| th.lucene |
Lucene-Analysator für Thai. |
| tr.microsoft |
Microsoft-Analysator für Türkisch. |
| tr.lucene |
Lucene-Analysator für Türkisch. |
| uk.microsoft |
Microsoft-Analysator für Ukrainisch. |
| ur.microsoft |
Microsoft-Analyzer für Urdu. |
| vi.microsoft |
Microsoft-Analysator für Vietnamesisch. |
| standard.lucene |
Standardmäßiger Lucene-Analysator. |
| standardasciifolding.lucene |
Standardmäßiger ASCII-Faltungs-Lucene-Analysator. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers. |
| keyword |
Behandelt den gesamten Inhalt eines Felds als ein einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html. |
| pattern |
Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html. |
| simple |
Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html. |
| stop |
Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html. |
| whitespace |
Ein Analysetool, das den Whitespace-Tokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html. |
LexicalNormalizerName
Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.
| Wert | Beschreibung |
|---|---|
| asciifolding |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
| elision |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
| lowercase |
Normalisiert den Token-Text in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html. |
| standard |
Standard-Normalisierer, der aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
| uppercase |
Normalisiert den Token-Text in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
LexicalTokenizerName
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.
LimitTokenFilter
Beschränkt die Anzahl der Token während der Indizierung. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| consumeAllTokens |
boolean |
False |
Ein Wert, der angibt, ob alle Token aus der Eingabe verwendet werden müssen, auch wenn maxTokenCount erreicht ist. Die Standardeinstellung ist "false". |
| maxTokenCount |
integer (int32) |
1 |
Die maximale Anzahl von Token, die erzeugt werden sollen. Der Standardwert ist 1. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
LuceneStandardAnalyzer
Standard Apache Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Analyzers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| stopwords |
string[] |
Eine Liste der Stichworte. |
LuceneStandardTokenizer
Umbricht Text nach den Unicode-Textsegmentierungsregeln. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxTokenLength |
integer (int32) |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
LuceneStandardTokenizerV2
Umbricht Text nach den Unicode-Textsegmentierungsregeln. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
MagnitudeScoringFunction
Definiert eine Funktion, die Bewertungen basierend auf der Größe eines numerischen Felds erhöht.
| Name | Typ | Beschreibung |
|---|---|---|
| boost |
number (double) |
Ein Multiplikator für die unformatierte Bewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
| fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
| interpolation |
Ein Wert, der angibt, wie die Verstärkung in Dokumentergebnisse interpoliert wird; Ist standardmäßig auf "Linear" festgelegt. |
|
| magnitude |
Parameterwerte für die Bewertungsfunktion der Größe. |
|
| type |
string:
magnitude |
Art der Bewertungsfunktion. |
MagnitudeScoringParameters
Stellt Parameterwerte für eine Bewertungsfunktion der Größe bereit.
| Name | Typ | Beschreibung |
|---|---|---|
| boostingRangeEnd |
number (double) |
Der Feldwert, bei dem das Boosten endet. |
| boostingRangeStart |
number (double) |
Der Feldwert, bei dem das Boosten gestartet wird. |
| constantBoostBeyondRange |
boolean |
Ein Wert, der angibt, ob eine konstante Verstärkung für Feldwerte angewendet werden soll, die über den Endwert des Bereichs hinausgehen. Der Standardwert ist false. |
MappingCharFilter
Ein Zeichenfilter, der Zuordnungen anwendet, die mit der Zuordnungsoption definiert sind. Der Abgleich ist umfangreich (der längste Musterabgleich an einem bestimmten Punkt wird verwendet). Eine Ersetzung kann eine leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| mappings |
string[] |
Eine Liste der Zuordnungen des folgenden Formats: "a=>b" (alle Vorkommen des Zeichens "a" werden durch das Zeichen "b") ersetzt. |
| name |
string |
Der Name des Zeichenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
MicrosoftLanguageStemmingTokenizer
Teilt Text nach sprachspezifischen Regeln auf und reduziert Wörter auf deren Grundformen.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| isSearchTokenizer |
boolean |
False |
Ein Wert, der angibt, wie der Tokenizer verwendet wird. Bei Verwendung als Suchtokenizer auf "true" festgelegt, wird "false" festgelegt, wenn er als Indizierungstokenizer verwendet wird. Die Standardeinstellung ist "false". |
| language |
Die zu verwendende Sprache. Der Standardwert ist Englisch. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Token, die die maximale Länge überschreiten, werden geteilt. Ein Token darf maximal 300 Zeichen lang sein. Token, die länger als 300 Zeichen sind, werden zuerst in Token der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf dem maximalen Tokenlängensatz geteilt. Der Standardwert ist 255. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
MicrosoftLanguageTokenizer
Teilt Text nach sprachspezifischen Regeln auf.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| isSearchTokenizer |
boolean |
False |
Ein Wert, der angibt, wie der Tokenizer verwendet wird. Bei Verwendung als Suchtokenizer auf "true" festgelegt, wird "false" festgelegt, wenn er als Indizierungstokenizer verwendet wird. Die Standardeinstellung ist "false". |
| language |
Die zu verwendende Sprache. Der Standardwert ist Englisch. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Token, die die maximale Länge überschreiten, werden geteilt. Ein Token darf maximal 300 Zeichen lang sein. Token, die länger als 300 Zeichen sind, werden zuerst in Token der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf dem maximalen Tokenlängensatz geteilt. Der Standardwert ist 255. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
MicrosoftStemmingTokenizerLanguage
Listet die vom Microsoft Language Stemming Tokenizer unterstützten Sprachen auf.
| Wert | Beschreibung |
|---|---|
| arabic |
Wählt den Microsoft-Stemming-Tokenizer für Arabisch aus. |
| bangla |
Wählt den Microsoft Stemming-Tokenizer für Bangla aus. |
| bulgarian |
Wählt den Microsoft-Stemming-Tokenizer für bulgarisch aus. |
| catalan |
Wählt den Microsoft-Stemming-Tokenizer für Katalanisch aus. |
| croatian |
Wählt den Microsoft Stemming Tokenizer für Kroatisch aus. |
| czech |
Wählt den Microsoft-Stemming-Tokenizer für Tschechisch aus. |
| danish |
Wählt den Microsoft-Stemming-Tokenizer für Danish aus. |
| dutch |
Wählt den Microsoft Stemming-Tokenizer für Niederländisch. |
| english |
Wählt den Microsoft Stemming Tokenizer für Englisch aus. |
| estonian |
Wählt den Microsoft Stemming-Tokenizer für Estnisch. |
| finnish |
Wählt den Microsoft-Stemming-Tokenizer für Finnisch aus. |
| french |
Wählt den Microsoft-Stemming-Tokenizer für Französisch aus. |
| german |
Wählt den Microsoft-Stemming-Tokenizer für Deutsch aus. |
| greek |
Wählt den Microsoft-Stemming-Tokenizer für Griechisch aus. |
| gujarati |
Wählt den Microsoft Stemming Tokenizer für Gujarati. |
| hebrew |
Wählt den Microsoft Stemming-Tokenizer für Hebräisch aus. |
| hindi |
Wählt den Microsoft-Stemming-Tokenizer für Hindi aus. |
| hungarian |
Wählt den Microsoft Stemming-Tokenizer für Ungarisch aus. |
| icelandic |
Wählt den Microsoft-Stemming-Tokenizer für Isländisch aus. |
| indonesian |
Wählt den Microsoft-Stemming-Tokenizer für Indonesien. |
| italian |
Wählt den Microsoft Stemming Tokenizer für Italienisch aus. |
| kannada |
Wählt den Microsoft Stemming Tokenizer für Kannada aus. |
| latvian |
Wählt den Microsoft Stemming-Tokenizer für Lettisch aus. |
| lithuanian |
Wählt den Microsoft Stemming Tokenizer für Litauisch aus. |
| malay |
Wählt den Microsoft-Stemming-Tokenizer für Malaiisch aus. |
| malayalam |
Wählt den Microsoft-Stemming-Tokenizer für Malayalam aus. |
| marathi |
Wählt den Microsoft Stemming Tokenizer für Marathi aus. |
| norwegianBokmaal |
Wählt den Microsoft Stemming Tokenizer für Norwegisch (Bokmül). |
| polish |
Wählt den Microsoft Stemming-Tokenizer für Polnisch aus. |
| portuguese |
Wählt den Microsoft Stemming-Tokenizer für Portugiesisch aus. |
| portugueseBrazilian |
Wählt den Microsoft stemming tokenizer für Portugiesisch (Brasilien). |
| punjabi |
Wählt den Microsoft Stemming Tokenizer für Punjabi aus. |
| romanian |
Wählt den Microsoft Stemming-Tokenizer für Rumänisch aus. |
| russian |
Wählt den Microsoft Stemming Tokenizer für Russisch aus. |
| serbianCyrillic |
Wählt den Microsoft Stemming Tokenizer für Serbisch (kyrillisch). |
| serbianLatin |
Wählt den Microsoft Stemming Tokenizer für Serbisch (Lateinisch) aus. |
| slovak |
Wählt den Microsoft Stemming-Tokenizer für Slowakisch aus. |
| slovenian |
Wählt den Microsoft Stemming Tokenizer für Slowenisch aus. |
| spanish |
Wählt den Microsoft Stemming-Tokenizer für Spanisch. |
| swedish |
Wählt den Microsoft Stemming Tokenizer für Schwedisch aus. |
| tamil |
Wählt den Microsoft-Stemming-Tokenizer für Tamil. |
| telugu |
Wählt den Microsoft Stemming Tokenizer für Telugu aus. |
| turkish |
Wählt den Microsoft Stemming-Tokenizer für Türkisch aus. |
| ukrainian |
Wählt den Microsoft Stemming Tokenizer für Ukrainisch. |
| urdu |
Wählt den Microsoft Stemming-Tokenizer für Urdu. |
MicrosoftTokenizerLanguage
Listet die vom Microsoft-Sprachen-Tokenizer unterstützten Sprachen auf.
| Wert | Beschreibung |
|---|---|
| bangla |
Wählt den Microsoft-Tokenizer für Bangla aus. |
| bulgarian |
Wählt den Microsoft-Tokenizer für Bulgarien aus. |
| catalan |
Wählt den Microsoft-Tokenizer für Katalanisch aus. |
| chineseSimplified |
Wählt den Microsoft-Tokenizer für Chinesisch (vereinfacht). |
| chineseTraditional |
Wählt den Microsoft-Tokenizer für Chinesisch (Traditionell) aus. |
| croatian |
Wählt den Microsoft-Tokenizer für Kroatisch aus. |
| czech |
Wählt den Microsoft-Tokenizer für Tschechisch aus. |
| danish |
Wählt den Microsoft-Tokenizer für Danish aus. |
| dutch |
Wählt den Microsoft-Tokenizer für Niederländisch. |
| english |
Wählt den Microsoft-Tokenizer für Englisch aus. |
| french |
Wählt den Microsoft-Tokenizer für Französisch aus. |
| german |
Wählt den Microsoft-Tokenizer für Deutsch. |
| greek |
Wählt den Microsoft-Tokenizer für Griechisch aus. |
| gujarati |
Wählt den Microsoft-Tokenizer für Gujarati aus. |
| hindi |
Wählt den Microsoft-Tokenizer für Hindi aus. |
| icelandic |
Wählt den Microsoft-Tokenizer für Isländisch aus. |
| indonesian |
Wählt den Microsoft-Tokenizer für Indonesier aus. |
| italian |
Wählt den Microsoft-Tokenizer für Italienisch aus. |
| japanese |
Wählt den Microsoft-Tokenizer für Japanisch aus. |
| kannada |
Wählt den Microsoft-Tokenizer für Kannada aus. |
| korean |
Wählt den Microsoft-Tokenizer für Koreanisch aus. |
| malay |
Wählt den Microsoft-Tokenizer für Malaiisch aus. |
| malayalam |
Wählt den Microsoft-Tokenizer für Malayalam aus. |
| marathi |
Wählt den Microsoft-Tokenizer für Marathi aus. |
| norwegianBokmaal |
Wählt den Microsoft-Tokenizer für Norwegisch (Bokmül). |
| polish |
Wählt den Microsoft-Tokenizer für Polnisch aus. |
| portuguese |
Wählt den Microsoft-Tokenizer für Portugiesisch. |
| portugueseBrazilian |
Wählt den Microsoft-Tokenizer für Portugiesisch (Brasilien) aus. |
| punjabi |
Wählt den Microsoft-Tokenizer für Punjabi aus. |
| romanian |
Wählt den Microsoft-Tokenizer für Rumänisch aus. |
| russian |
Wählt den Microsoft-Tokenizer für Russisch aus. |
| serbianCyrillic |
Wählt den Microsoft-Tokenizer für Serbisch (kyrillisch) aus. |
| serbianLatin |
Wählt den Microsoft-Tokenizer für Serbisch (Latein) aus. |
| slovenian |
Wählt den Microsoft-Tokenizer für Slowenisch aus. |
| spanish |
Wählt den Microsoft-Tokenizer für Spanisch aus. |
| swedish |
Wählt den Microsoft-Tokenizer für Schwedisch. |
| tamil |
Wählt den Microsoft-Tokenizer für Tamil aus. |
| telugu |
Wählt den Microsoft-Tokenizer für Telugu aus. |
| thai |
Wählt den Microsoft-Tokenizer für Thai. |
| ukrainian |
Wählt den Microsoft-Tokenizer für Ukrainisch. |
| urdu |
Wählt den Microsoft-Tokenizer für Urdu. |
| vietnamese |
Wählt den Microsoft-Tokenizer für Vietnamesisch aus. |
NGramTokenFilter
Generiert n Gramm der angegebenen Größe(n). Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxGram |
integer (int32) |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. |
| minGram |
integer (int32) |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
NGramTokenFilterV2
Generiert n Gramm der angegebenen Größe(n). Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. Maximal 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Maximal 300. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
NGramTokenizer
Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. Maximal 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Maximal 300. Muss kleiner als der Wert von maxGram sein. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| tokenChars |
Zeichenklassen, die in den Token beibehalten werden sollen. |
PathHierarchyTokenizerV2
Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| delimiter |
string maxLength: 1 |
/ |
Das zu verwendende Trennzeichen. Der Standardwert ist "/". |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
Die maximale Tokenlänge. Der Standardwert und maximal 300. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| replacement |
string maxLength: 1 |
/ |
Ein Wert, der bei Festlegung das Trennzeichen ersetzt. Der Standardwert ist "/". |
| reverse |
boolean |
False |
Ein Wert, der angibt, ob Token in umgekehrter Reihenfolge generiert werden sollen. Die Standardeinstellung ist "false". |
| skip |
integer (int32) |
0 |
Die Anzahl der anfänglichen Token, die übersprungen werden sollen. Standard ist "0". |
PatternAnalyzer
Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe. Dieser Analyzer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| flags |
string |
Reguläre Ausdrucks-Flags, spezifiziert als '|' getrennte Zeichenkette von RegexFlags-Werten. |
|
| lowercase |
boolean |
True |
Ein Wert, der angibt, ob Begriffe in Kleinbuchstaben geschrieben werden sollen. Der Standardwert ist "true". |
| name |
string |
Der Name des Analyzers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| pattern |
string |
\W+ |
Ein Muster für reguläre Ausdrücke, das mit Tokentrennzeichen übereinstimmt. Der Standardwert ist ein Ausdruck, der mit einem oder mehreren Nicht-Wortzeichen übereinstimmt. |
| stopwords |
string[] |
Eine Liste der Stichworte. |
PatternCaptureTokenFilter
Verwendet Java regexes, um mehrere Token auszugeben – eine für jede Aufnahmegruppe in einem oder mehreren Mustern. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| patterns |
string[] |
Eine Liste der Muster, die mit den einzelnen Token übereinstimmen sollen. |
|
| preserveOriginal |
boolean |
True |
Ein Wert, der angibt, ob das ursprüngliche Token zurückgegeben werden soll, auch wenn eines der Muster übereinstimmt. Der Standardwert ist "true". |
PatternReplaceCharFilter
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Er verwendet einen regulären Ausdruck, um zu erhaltende Zeichenfolgen zu identifizieren, und ein Ersatzmuster, um zu ersetzende Zeichen zu identifizieren. Wenn Sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" erhalten haben, lautet das Ergebnis "aa#bb aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| name |
string |
Der Name des Zeichenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
| pattern |
string |
Ein Muster für reguläre Ausdrücke. |
| replacement |
string |
Der Ersetzungstext. |
PatternReplaceTokenFilter
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Er verwendet einen regulären Ausdruck, um zu erhaltende Zeichenfolgen zu identifizieren, und ein Ersatzmuster, um zu ersetzende Zeichen zu identifizieren. Wenn Sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" erhalten haben, lautet das Ergebnis "aa#bb aa#bb aa#bb". Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
| pattern |
string |
Ein Muster für reguläre Ausdrücke. |
| replacement |
string |
Der Ersetzungstext. |
PatternTokenizer
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| flags |
string |
Reguläre Ausdrucks-Flags, spezifiziert als '|' getrennte Zeichenkette von RegexFlags-Werten. |
|
| group |
integer (int32) |
-1 |
Die nullbasierte Ordinalzahl der übereinstimmenden Gruppe im Muster für reguläre Ausdrücke, die in Token extrahiert werden sollen. Verwenden Sie -1, wenn Sie das gesamte Muster verwenden möchten, um die Eingabe in Token aufzuteilen, unabhängig von übereinstimmenden Gruppen. Der Standardwert ist -1. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| pattern |
string |
\W+ |
Ein Muster für reguläre Ausdrücke, das mit Tokentrennzeichen übereinstimmt. Der Standardwert ist ein Ausdruck, der mit einem oder mehreren Nicht-Wortzeichen übereinstimmt. |
PhoneticEncoder
Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| metaphone |
Codiert ein Token in einen Metaphone-Wert. |
| doubleMetaphone |
Codiert ein Token in einen doppelten Metaphonwert. |
| soundex |
Codiert ein Token in einen Soundex-Wert. |
| refinedSoundex |
Codiert ein Token in einen verfeinerten Soundex-Wert. |
| caverphone1 |
Codiert ein Token in einen Caverphone 1.0-Wert. |
| caverphone2 |
Codiert ein Token in einen Caverphone 2.0-Wert. |
| cologne |
Codiert ein Token in einen Kölner Phonetischen Wert. |
| nysiis |
Codiert ein Token in einen NYSIIS-Wert. |
| koelnerPhonetik |
Codiert ein Token mit dem Kölner Phonetik-Algorithmus. |
| haasePhonetik |
Codiert ein Token mit der Haase-Verfeinerung des Kölner Phonetik-Algorithmus. |
| beiderMorse |
Codiert ein Token in einen Beider-Morse Wert. |
PhoneticTokenFilter
Erstellt Token für phonetische Übereinstimmungen. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| encoder | metaphone |
Der zu verwendende phonetische Encoder. Der Standardwert ist "metaphone". |
|
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| replace |
boolean |
True |
Ein Wert, der angibt, ob codierte Token ursprüngliche Token ersetzen sollen. Wenn false, werden codierte Token als Synonyme hinzugefügt. Der Standardwert ist "true". |
Prefer
Weist den Dienst bei HTTP PUT-Anforderungen an, die erstellte/aktualisierte Ressource bei Erfolg zurückzugeben.
| Wert | Beschreibung |
|---|---|
| return=representation |
RankingOrder
Stellt die Punktzahl dar, die für die Sortierreihenfolge von Dokumenten verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| BoostedRerankerScore |
Legt die Sortierreihenfolge als BoostedRerankerScore fest |
| RerankerScore |
Legt die Sortierreihenfolge als ReRankerScore fest |
RescoringOptions
Enthält die Optionen für die Korrektur.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| defaultOversampling |
number (double) |
Standardüberstempelungsfaktor. Beim Oversampling wird eine größere Anzahl potenzieller Dokumente abgerufen, um den Auflösungsverlust aufgrund der Quantisierung auszugleichen. Dadurch wird die Anzahl der Ergebnisse erhöht, die auf Vektoren mit voller Genauigkeit neu bewertet werden. Der Mindestwert ist 1, d. h. kein Übersampling (1x). Dieser Parameter kann nur gesetzt werden, wenn 'enableRescoring' true ist. Höhere Werte verbessern den Rückruf auf Kosten der Latenz. |
|
| enableRescoring |
boolean |
True |
Wenn diese Option auf true festgelegt ist, werden die Ähnlichkeitsbewertungen nach der ersten Suche nach den komprimierten Vektoren mit den Vektoren mit voller Genauigkeit neu berechnet. Dadurch wird der Rückruf auf Kosten der Latenz verbessert. |
| rescoreStorageMethod |
enum:
|
preserveOriginals |
Steuert die Speichermethode für Originalvektoren. Diese Einstellung ist unveränderlich. |
ScalarQuantizationCompression
Enthält Konfigurationsoptionen, die spezifisch für die skalare Quantisierungskomprimierungsmethode sind, die während der Indizierung und Abfrage verwendet wird.
| Name | Typ | Beschreibung |
|---|---|---|
| kind |
string:
scalar |
Art von VectorSearchKompression. |
| name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
| rescoringOptions |
Enthält die Optionen für die Korrektur. |
|
| scalarQuantizationParameters |
Enthält die parameter, die für die Skalar quantization spezifisch sind. |
|
| truncationDimension |
integer (int32) |
Die Anzahl der Dimensionen, mit der die Vektoren abgeschnitten werden sollen. Durch das Abschneiden der Vektoren wird die Größe der Vektoren und die Datenmenge reduziert, die während der Suche übertragen werden muss. Dies kann Speicherkosten sparen und die Suchleistung auf Kosten des Rückrufs verbessern. Es sollte nur für Einbettungen verwendet werden, die mit Matryoshka Representation Learning (MRL) trainiert wurden, z. B. OpenAI-Text-Embedding-3-large (klein). Der Standardwert ist NULL, was bedeutet, dass keine Abkürzung erfolgt. |
ScalarQuantizationParameters
Enthält die parameter, die für die Skalar quantization spezifisch sind.
| Name | Typ | Beschreibung |
|---|---|---|
| quantizedDataType |
Der quantisierte Datentyp von komprimierten Vektorwerten. |
ScoringFunctionAggregation
Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren.
| Wert | Beschreibung |
|---|---|
| sum |
Steigern Sie die Punktzahl um die Summe aller Ergebnisse der Bewertungsfunktion. |
| average |
Erhöhen Sie die Punktzahl um den Durchschnitt aller Ergebnisse der Bewertungsfunktion. |
| minimum |
Erhöhen Sie die Punktzahl um das Minimum aller Ergebnisse der Bewertungsfunktion. |
| maximum |
Steigern Sie die Punktzahl um das Maximum aller Ergebnisse der Bewertungsfunktion. |
| firstMatching |
Steigern Sie die Punktzahl mit der ersten anwendbaren Bewertungsfunktion im Bewertungsprofil. |
| product |
Erhöhen Sie die Werte um das Produkt aller Ergebnisse der Wertungsfunktion. |
ScoringFunctionInterpolation
Definiert die Funktion, die zum Interpolieren von Score Boosting in einem Dokumentbereich verwendet wird.
| Wert | Beschreibung |
|---|---|
| linear |
Erhöht die Punktzahl um einen linear abnehmenden Betrag. Dies ist die Standardinterpolation für Bewertungsfunktionen. |
| constant |
Erhöht die Punktzahl um einen konstanten Faktor. |
| quadratic |
Erhöht die Punktzahl um einen Betrag, der quadratisch abnimmt. Die Boosts nehmen bei höheren Punktzahlen langsam ab und bei sinkenden Punktzahlen schneller. Diese Interpolationsoption ist in Tag-Scoring-Funktionen nicht zulässig. |
| logarithmic |
Erhöht die Punktzahl um einen Betrag, der logarithmisch abnimmt. Boosts nehmen bei höheren Punktzahlen schnell ab und langsamer, wenn die Punktzahl sinkt. Diese Interpolationsoption ist in Tag-Scoring-Funktionen nicht zulässig. |
ScoringProfile
Definiert Parameter für einen Suchindex, der die Bewertung in Suchabfragen beeinflusst.
| Name | Typ | Beschreibung |
|---|---|---|
| functionAggregation |
Ein Wert, der angibt, wie die Ergebnisse der einzelnen Bewertungsfunktionen kombiniert werden sollen. Der Standardwert ist "Summe". Wird ignoriert, wenn keine Bewertungsfunktionen vorhanden sind. |
|
| functions | ScoringFunction[]: |
Die Sammlung von Funktionen, die die Bewertung von Dokumenten beeinflussen. |
| name |
string |
Der Name des Bewertungsprofils. |
| text |
Parameter, die die Bewertung basierend auf Textübereinstimmungen in bestimmten Indexfeldern verbessern. |
SearchField
Stellt ein Feld in einer Indexdefinition dar, das den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt.
| Name | Typ | Beschreibung |
|---|---|---|
| analyzer |
Der Name des Analyzers, der für das Feld verwendet werden soll. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden und kann nicht zusammen mit searchAnalyzer oder indexAnalyzer festgelegt werden. Nachdem der Analyzer ausgewählt wurde, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder null sein. |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
Die Dimensionalität des Vektorfelds. |
| facetable |
boolean |
Ein Wert, der angibt, ob das Feld in Facetabfragen referenziert werden soll. Wird in der Regel in einer Präsentation von Suchergebnissen verwendet, die trefferanzahl nach Kategorie enthalten (z. B. nach Digitalkameras suchen und Treffer nach Marke, Nach Megapixeln, nach Preis usw.) anzeigen. Diese Eigenschaft muss für komplexe Felder null sein. Felder vom Typ Edm.GeographyPoint oder Collection(Edm.GeographyPoint) können nicht facetable sein. Der Standardwert ist true für alle anderen einfachen Felder. |
| fields |
Eine Liste von Unterfeldern, wenn es sich um ein Feld vom Typ Edm.ComplexType oder Collection(Edm.ComplexType) handelt. Muss für einfache Felder null oder leer sein. |
|
| filterable |
boolean |
Ein Wert, der angibt, ob das Feld in $filter Abfragen referenziert werden soll. Filterbar unterscheidet sich von der Durchsuchung, in der Zeichenfolgen behandelt werden. Felder vom Typ Edm.String oder Collection(Edm.String), die gefiltert werden können, unterliegen keine Worttrennung, sodass Vergleiche nur für genaue Übereinstimmungen gelten. Wenn Sie z. B. ein solches Feld f auf "sonnigen Tag" festlegen, findet $filter=f eq 'sunny' keine Übereinstimmungen, aber $filter=f eq 'sonniger Tag' wird. Diese Eigenschaft muss für komplexe Felder null sein. Der Standardwert ist true für einfache Felder und null für komplexe Felder. |
| indexAnalyzer |
Der Name des Analyzers, der zur Indizierungszeit für das Feld verwendet wird. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Sie muss zusammen mit searchAnalyzer festgelegt werden und kann nicht zusammen mit der Analyseoption festgelegt werden. Diese Eigenschaft kann nicht auf den Namen einer Sprachanalyse festgelegt werden. verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie einen Sprachanalysator benötigen. Nachdem der Analyzer ausgewählt wurde, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder null sein. |
|
| key |
boolean |
Ein Wert, der angibt, ob das Feld Dokumente im Index eindeutig identifiziert. Genau ein Feld auf oberster Ebene in jedem Index muss als Schlüsselfeld ausgewählt werden und muss vom Typ "Edm.String" sein. Schlüsselfelder können verwendet werden, um Dokumente direkt nachzuschlagen und bestimmte Dokumente zu aktualisieren oder zu löschen. Der Standardwert ist false für einfache Felder und null für komplexe Felder. |
| name |
string |
Der Name des Felds, das innerhalb der Feldauflistung des Index- oder übergeordneten Felds eindeutig sein muss. |
| normalizer |
Der Name des Normalisierers, der für das Feld verwendet werden soll. Diese Option kann nur für Felder verwendet werden, für die filterbar, sortierbar oder facettierbar aktiviert ist. Sobald der Normalisierer ausgewählt ist, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder null sein. |
|
| retrievable |
boolean |
Ein Wert, der angibt, ob das Feld in einem Suchergebnis zurückgegeben werden kann. Sie können diese Option deaktivieren, wenn Sie ein Feld (z. B. Rand) als Filter-, Sortier- oder Bewertungsmechanismus verwenden möchten, das Feld aber nicht für den Endbenutzer sichtbar sein soll. Diese Eigenschaft muss für Schlüsselfelder true und für komplexe Felder null sein. Diese Eigenschaft kann in vorhandenen Feldern geändert werden. Das Aktivieren dieser Eigenschaft führt nicht zu einer Erhöhung der Indexspeicheranforderungen. Der Standardwert ist true für einfache Felder, false für Vektorfelder und null für komplexe Felder. |
| searchAnalyzer |
Der Name des Analyzers, der zur Suchzeit für das Feld verwendet wird. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Sie muss zusammen mit indexAnalyzer festgelegt werden und kann nicht zusammen mit der Option analyzer festgelegt werden. Diese Eigenschaft kann nicht auf den Namen einer Sprachanalyse festgelegt werden. verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie einen Sprachanalysator benötigen. Dieser Analyzer kann in einem vorhandenen Feld aktualisiert werden. Muss für komplexe Felder null sein. |
|
| searchable |
boolean |
Ein Wert, der angibt, ob das Feld durchsuchbar ist. Dies bedeutet, dass sie sich während der Indizierung einer Analyse unterziehen wird, z. B. Wortbruch. Wenn Sie ein durchsuchbares Feld auf einen Wert wie "sonniger Tag" festlegen, wird es intern in die einzelnen Token "sonnig" und "Tag" aufgeteilt. Dadurch werden Volltextsuchen nach diesen Begriffen ermöglicht. Felder vom Typ Edm.String oder Collection(Edm.String) können standardmäßig durchsucht werden. Diese Eigenschaft muss für einfache Felder anderer Datentypen, die keine Zeichenfolgen sind, false und für komplexe Felder null sein. Hinweis: Durchsuchbare Felder verbrauchen zusätzlichen Platz in Ihrem Index, um zusätzliche tokenisierte Versionen des Feldwerts für Volltextsuchen aufzunehmen. Wenn Sie Platz in Ihrem Index sparen möchten und kein Feld in Suchvorgänge einbezogen werden muss, legen Sie die Suchfunktion auf "false" fest. |
| sortable |
boolean |
Ein Wert, der angibt, ob das Feld in $orderby Ausdrücken referenziert werden soll. Standardmäßig sortiert die Suchmaschine Ergebnisse nach Bewertung, aber in vielen Erfahrungen möchten Benutzer nach Feldern in den Dokumenten sortieren. Ein einfaches Feld kann nur dann sortiert werden, wenn es ein wertig ist (es hat einen einzelnen Wert im Bereich des übergeordneten Dokuments). Einfache Sammlungsfelder können nicht sortiert werden, da sie mehrwertig sind. Einfache Unterfelder komplexer Auflistungen sind ebenfalls mehrwertig und können daher nicht sortiert werden. Dies gilt unabhängig davon, ob es sich um ein unmittelbares übergeordnetes Feld oder ein Übergeordnetes Feld handelt, das die komplexe Auflistung ist. Komplexe Felder können nicht sortierbar sein, und die sortable-Eigenschaft muss für solche Felder null sein. Der Standardwert für sortierbare Felder ist true, für einfache Felder mit einem einzigen Wert, false für einfache Felder mit mehreren Werten und null für komplexe Felder. |
| stored |
boolean |
Ein unveränderlicher Wert, der angibt, ob das Feld separat auf dem Datenträger gespeichert wird, um in einem Suchergebnis zurückgegeben zu werden. Sie können diese Option deaktivieren, wenn Sie nicht beabsichtigen, den Feldinhalt in einer Suchantwort zurückzugeben, um den Speicheraufwand zu sparen. Dies kann nur während der Indexerstellung und nur für Vektorfelder festgelegt werden. Diese Eigenschaft kann für vorhandene Felder nicht geändert oder für neue Felder als false festgelegt werden. Wenn diese Eigenschaft auf false gesetzt ist, muss auch die Eigenschaft 'retrievable' auf false gesetzt werden. Diese Eigenschaft muss für Schlüsselfelder wahr oder nicht festgelegt sein, für neue Felder und für Nicht-Vektorfelder und muss null für komplexe Felder sein. Durch das Deaktivieren dieser Eigenschaft werden die Indexspeicheranforderungen reduziert. Der Standardwert ist für Vektorfelder wahr. |
| synonymMaps |
string[] |
Eine Liste der Namen des Synonyms, die diesem Feld zugeordnet werden sollen. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Derzeit wird nur eine Synonymzuordnung pro Feld unterstützt. Durch das Zuweisen einer Synonymzuordnung zu einem Feld wird sichergestellt, dass Abfragebegriffe, die zum Abfragezeitpunkt mithilfe der Regeln in der Synonymzuordnung erweitert werden, erweitert werden. Dieses Attribut kann für vorhandene Felder geändert werden. Muss null oder eine leere Auflistung für komplexe Felder sein. |
| type |
Der Datentyp des Felds. |
|
| vectorEncoding |
Das Codierungsformat zum Interpretieren des Feldinhalts. |
|
| vectorSearchProfile |
string |
Der Name des Vektorsuchprofils, das den Algorithmus und den Vektorizer angibt, der beim Durchsuchen des Vektorfelds verwendet werden soll. |
SearchFieldDataType
Definiert den Datentyp eines Feldes in einem Suchindex.
| Wert | Beschreibung |
|---|---|
| Edm.String |
Gibt an, dass ein Feld eine Zeichenfolge enthält. |
| Edm.Int32 |
Gibt an, dass ein Feld eine 32-Bit-ganzzahl mit Vorzeichen enthält. |
| Edm.Int64 |
Gibt an, dass ein Feld eine 64-Bit-ganzzahl mit Vorzeichen enthält. |
| Edm.Double |
Gibt an, dass ein Feld eine IEEE-Gleitkommazahl mit doppelter Genauigkeit enthält. |
| Edm.Boolean |
Gibt an, dass ein Feld einen booleschen Wert (true oder false) enthält. |
| Edm.DateTimeOffset |
Gibt an, dass ein Feld einen Datums-/Uhrzeitwert enthält, einschließlich Zeitzoneninformationen. |
| Edm.GeographyPoint |
Gibt an, dass ein Feld einen geografischen Standort in Bezug auf Längengrad und Breitengrad enthält. |
| Edm.ComplexType |
Gibt an, dass ein Feld mindestens ein komplexes Objekt enthält, das wiederum Unterfelder anderer Typen enthält. |
| Edm.Single |
Gibt an, dass ein Feld eine Gleitkommazahl mit einfacher Genauigkeit enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.Single) verwendet wird. |
| Edm.Half |
Gibt an, dass ein Feld eine Gleitkommazahl mit halber Genauigkeit enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.Half) verwendet wird. |
| Edm.Int16 |
Gibt an, dass ein Feld eine 16-Bit-ganzzahl mit Vorzeichen enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.Int16) verwendet wird. |
| Edm.SByte |
Gibt an, dass ein Feld eine 8-Bit-ganzzahl mit Vorzeichen enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.SByte) verwendet wird. |
| Edm.Byte |
Gibt an, dass ein Feld eine 8-Bit-ganzzahl ohne Vorzeichen enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.Byte) verwendet wird. |
SearchIndex
Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.etag |
string |
Das ETag des Indexes. |
| analyzers | LexicalAnalyzer[]: |
Die Analysegeräte für den Index. |
| charFilters | CharFilter[]: |
Das Zeichen filtert für den Index. |
| corsOptions |
Optionen zum Steuern der cross-Origin Resource Sharing (CORS) für den Index. |
|
| defaultScoringProfile |
string |
Der Name des Bewertungsprofils, das verwendet werden soll, wenn keine in der Abfrage angegeben ist. Wenn diese Eigenschaft nicht festgelegt ist und kein Bewertungsprofil in der Abfrage angegeben wird, wird die Standardbewertung (tf-idf) verwendet. |
| description |
string |
Die Beschreibung des Indexes. |
| encryptionKey |
Eine Beschreibung eines Verschlüsselungsschlüssels, den Sie in Azure Key Vault erstellen. Dieser Schlüssel dient dazu, eine zusätzliche Ebene der Ruheverschlüsselung für Ihre Daten bereitzustellen, wenn Sie die volle Sicherheit wünschen, dass niemand, nicht einmal Microsoft, Ihre Daten entschlüsseln kann. Sobald Sie Ihre Daten verschlüsselt haben, bleibt sie immer verschlüsselt. Der Suchdienst ignoriert Versuche, diese Eigenschaft auf null festzulegen. Sie können diese Eigenschaft nach Bedarf ändern, wenn Sie den Verschlüsselungsschlüssel drehen möchten. Ihre Daten sind davon unberührt. Verschlüsselung mit vom Kunden verwalteten Schlüsseln steht nicht für kostenlose Suchdienste zur Verfügung und ist nur für kostenpflichtige Dienste verfügbar, die am oder nach dem 1. Januar 2019 erstellt wurden. |
|
| fields |
Die Felder des Indexes. |
|
| name |
string |
Der Name des Indexes. |
| normalizers | LexicalNormalizer[]: |
Die Normalisierer für den Index. |
| scoringProfiles |
Die Bewertungsprofile für den Index. |
|
| semantic |
Definiert Parameter für einen Suchindex, der die semantischen Funktionen beeinflusst. |
|
| similarity | SimilarityAlgorithm: |
Der Typ des Ähnlichkeitsalgorithmus, der beim Bewerten und Bewerten der Dokumente verwendet werden soll, die einer Suchabfrage entsprechen. Der Ähnlichkeitsalgorithmus kann nur zur Indexerstellungszeit definiert werden und kann für vorhandene Indizes nicht geändert werden. Wenn NULL, wird der ClassicSimilarity-Algorithmus verwendet. |
| suggesters |
Die Vorschlager für den Index. |
|
| tokenFilters |
TokenFilter[]:
|
Das Token filtert für den Index. |
| tokenizers | LexicalTokenizer[]: |
Die Tokenizer für den Index. |
| vectorSearch |
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche. |
SearchIndexerDataNoneIdentity
Löscht die Identitätseigenschaft einer Datenquelle.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ der Identität angibt. |
SearchIndexerDataUserAssignedIdentity
Gibt die Identität für eine zu verwendende Datenquelle an.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ der Identität angibt. |
| userAssignedIdentity |
string |
Die vollqualifizierte Azure-Ressourcen-ID einer vom Benutzer zugewiesenen verwalteten Identität in der Regel im Format "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", die dem Suchdienst zugewiesen werden sollen. |
SearchResourceEncryptionKey
Ein vom Kunden verwalteter Verschlüsselungsschlüssel im Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen.
| Name | Typ | Beschreibung |
|---|---|---|
| accessCredentials.applicationId |
string |
Eine AAD-Anwendungs-ID, die die erforderlichen Zugriffsberechtigungen für den Azure Key Vault erteilt hat, die beim Verschlüsseln Ihrer ruhenden Daten verwendet werden sollen. Die Anwendungs-ID sollte nicht mit der Objekt-ID für Ihre AAD-Anwendung verwechselt werden. |
| accessCredentials.applicationSecret |
string |
Der Authentifizierungsschlüssel der angegebenen AAD-Anwendung. |
| identity | SearchIndexerDataIdentity: |
Eine explizite verwaltete Identität, die für diesen Verschlüsselungsschlüssel verwendet werden soll. Wenn diese Eigenschaft nicht angegeben ist und die Eigenschaft für Zugriffsanmeldeinformationen null ist, wird die vom System zugewiesene verwaltete Identität verwendet. Wenn die explizite Identität nicht angegeben ist, bleibt die Aktualisierung der Ressource unverändert. Wenn "none" angegeben wird, wird der Wert dieser Eigenschaft gelöscht. |
| keyVaultKeyName |
string |
Der Name Ihres Azure Key Vault-Schlüssels, der zum Verschlüsseln Ihrer ruhenden Daten verwendet werden soll. |
| keyVaultKeyVersion |
string |
Die Version Ihres Azure Key Vault-Schlüssels, der zum Verschlüsseln Ihrer ruhenden Daten verwendet werden soll. |
| keyVaultUri |
string |
Der URI Ihres Azure Key Vault, auch als DNS-Name bezeichnet, der den Schlüssel enthält, der zum Verschlüsseln Ihrer ruhenden Daten verwendet werden soll. Ein Beispiel-URI kann |
SearchSuggester
Definiert, wie die Vorschlags-API auf eine Gruppe von Feldern im Index angewendet werden soll.
| Name | Typ | Beschreibung |
|---|---|---|
| name |
string |
Der Name des Vorschlagsers. |
| searchMode |
enum:
analyzing |
Ein Wert, der die Funktionen des Vorschlags angibt. |
| sourceFields |
string[] |
Die Liste der Feldnamen, auf die die Vorschlagsfunktion angewendet wird. Jedes Feld muss durchsuchbar sein. |
SemanticConfiguration
Definiert eine bestimmte Konfiguration, die im Kontext der semantischen Funktionen verwendet werden soll.
| Name | Typ | Beschreibung |
|---|---|---|
| name |
string |
Der Name der semantischen Konfiguration. |
| prioritizedFields |
Beschreibt die Titel-, Inhalts- und Schlüsselwortfelder, die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Mindestens eine der drei Untereigenschaften (titleField, priordKeywordsFields und priordContentFields) muss festgelegt werden. |
|
| rankingOrder |
Gibt den Bewertungstyp an, der für die Sortierreihenfolge der Suchergebnisse verwendet werden soll. |
SemanticField
Ein Feld, das als Teil der semantischen Konfiguration verwendet wird.
| Name | Typ | Beschreibung |
|---|---|---|
| fieldName |
string |
Dateiname |
SemanticPrioritizedFields
Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen.
| Name | Typ | Beschreibung |
|---|---|---|
| prioritizedContentFields |
Definiert die Inhaltsfelder, die für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder Text in natürlicher Sprache enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität können abgeschnitten werden, wenn der Inhalt lang ist. |
|
| prioritizedKeywordsFields |
Definiert die Schlüsselwortfelder, die für die semantische Rangfolge, Bildunterschriften, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder eine Liste von Schlüsselwörtern enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität können abgeschnitten werden, wenn der Inhalt lang ist. |
|
| titleField |
Definiert das Titelfeld, das für die semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden soll. Wenn Sie kein Titelfeld in Ihrem Index haben, lassen Sie dieses Feld leer. |
SemanticSearch
Definiert Parameter für einen Suchindex, der die semantischen Funktionen beeinflusst.
| Name | Typ | Beschreibung |
|---|---|---|
| configurations |
Die semantischen Konfigurationen für den Index. |
|
| defaultConfiguration |
string |
Ermöglicht es Ihnen, den Namen einer standardmäßigen semantischen Konfiguration in Ihrem Index festzulegen, sodass es optional ist, ihn jedes Mal als Abfrageparameter zu übergeben. |
ShingleTokenFilter
Erstellt Kombinationen von Token als ein einzelnes Token. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| filterToken |
string |
_ |
Die Zeichenfolge, die für jede Position eingefügt werden soll, an der kein Token vorhanden ist. Der Standardwert ist ein Unterstrich ("_"). |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
Die maximale Shinglegröße. Der Standardwert und der Mindestwert sind 2. |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
Die minimale Shinglegröße. Der Standardwert und der Mindestwert sind 2. Muss kleiner als der Wert von maxShingleSize sein. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| outputUnigrams |
boolean |
True |
Ein Wert, der angibt, ob der Ausgabedatenstrom die Eingabetoken (Unigramme) sowie Shingles enthält. Der Standardwert ist "true". |
| outputUnigramsIfNoShingles |
boolean |
False |
Ein Wert, der angibt, ob Unigramme für diese Zeiten ausgegeben werden sollen, wenn keine Shingles verfügbar sind. Diese Eigenschaft hat Vorrang, wenn outputUnigrams auf "false" festgelegt ist. Die Standardeinstellung ist "false". |
| tokenSeparator |
string |
Die Zeichenfolge, die beim Verknüpfen angrenzender Token verwendet werden soll, um ein Shingle zu bilden. Der Standardwert ist ein einzelnes Leerzeichen (" "). |
SnowballTokenFilter
Ein Filter, der Wörter mit einem snowball-generierten Stammer abstammt. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| language |
Die zu verwendende Sprache. |
|
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
SnowballTokenFilterLanguage
Die Sprache, die für einen Snowball-Token-Filter verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| armenian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Armenisch aus. |
| basque |
Wählt den Lucene Snowball-Stemming-Tokenizer für Baskisch aus. |
| catalan |
Wählt den Lucene Snowball-Stemming-Tokenizer für Katalanisch aus. |
| danish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Dänisch aus. |
| dutch |
Wählt den Lucene Snowball-Stemming-Tokenizer für Niederländisch aus. |
| english |
Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus. |
| finnish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Finnisch aus. |
| french |
Wählt den Lucene Snowball-Stemming-Tokenizer für Französisch aus. |
| german |
Wählt den Lucene Snowball-Stemming-Tokenizer für Deutsch aus. |
| german2 |
Wählt den Lucene Snowball-Stemming-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet. |
| hungarian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Ungarisch aus. |
| italian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Italienisch aus. |
| kp |
Wählt den Lucene Snowball-Stemming-Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Stemming-Algorithmus verwendet. |
| lovins |
Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus, der den Lovins-Stemming-Algorithmus verwendet. |
| norwegian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Norwegisch aus. |
| porter |
Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus, der den Porter-Stemming-Algorithmus verwendet. |
| portuguese |
Wählt den Lucene Snowball-Stemming-Tokenizer für Portugiesisch aus. |
| romanian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Rumänisch aus. |
| russian |
Wählt den Lucene Snowball-Stemming-Tokenizer für Russisch aus. |
| spanish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Spanisch aus. |
| swedish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Schwedisch aus. |
| turkish |
Wählt den Lucene Snowball-Stemming-Tokenizer für Türkisch aus. |
StemmerOverrideTokenFilter
Bietet die Möglichkeit, andere Wortstammfilter mit benutzerwörterbuchbasierter Wortstammerkennung außer Kraft zu setzen. Alle wörterbuchstammigen Begriffe werden als Schlüsselwörter markiert, sodass sie nicht mit Stemmern in der Kette gestammt werden. Muss vor dem Filter für die Wortstammerkennung platziert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/StemmerOverrideFilter.html.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
| rules |
string[] |
Eine Liste der Wortstammregeln im folgenden Format: "word => stem", z. B. "ran => run". |
StemmerTokenFilter
Sprachspezifischer Wortstammfilter. Dieser Tokenfilter wird mit Apache Lucene implementiert. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| language |
Die zu verwendende Sprache. |
|
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
StemmerTokenFilterLanguage
Die Sprache, die für einen Stemmmertokenfilter verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| arabic |
Wählt den Lucene-Stemming-Tokenizer für Arabisch aus. |
| armenian |
Wählt den Lucene-Stemming-Tokenizer für Armenisch aus. |
| basque |
Wählt den Lucene-Stemming-Tokenizer für Baskisch aus. |
| brazilian |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch (Brasilien) aus. |
| bulgarian |
Wählt den Lucene-Stemming-Tokenizer für Bulgarisch aus. |
| catalan |
Wählt den Lucene-Stemming-Tokenizer für Katalanisch aus. |
| czech |
Wählt den Lucene-Stemming-Tokenizer für Tschechisch aus. |
| danish |
Wählt den Lucene-Stemming-Tokenizer für Dänisch aus. |
| dutch |
Wählt den Lucene-Stemming-Tokenizer für Niederländisch aus. |
| dutchKp |
Wählt den Lucene-Stemming-Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Stemming-Algorithmus verwendet. |
| english |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus. |
| lightEnglish |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der leichte Wortstammerkennung ausführt. |
| minimalEnglish |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der nur minimale Wortstammerkennung ausführt. |
| possessiveEnglish |
Wählt den Lucene-Stammtokenizer für Englisch aus, der nachfolgende Possessivwörter aus Wörtern entfernt. |
| porter2 |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der den Porter2-Stemming-Algorithmus verwendet. |
| lovins |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der den Lovins-Stemming-Algorithmus verwendet. |
| finnish |
Wählt den Lucene-Stemming-Tokenizer für Finnisch aus. |
| lightFinnish |
Wählt den Lucene-Stemming-Tokenizer für Finnisch aus, der Light-Stemming ausführt. |
| french |
Wählt den Lucene-Stemming-Tokenizer für Französisch aus. |
| lightFrench |
Wählt den Lucene-Stemming-Tokenizer für Französisch aus, der Light-Stemming ausführt. |
| minimalFrench |
Wählt den Lucene-Stemming-Tokenizer für Französisch aus, der nur minimale Wortstammerkennung ausführt. |
| galician |
Wählt den Lucene-Stemming-Tokenizer für Galizisch aus. |
| minimalGalician |
Wählt den Lucene-Stemming-Tokenizer für Galicisch aus, der nur minimales Stemming ausführt. |
| german |
Wählt den Lucene-Stemming-Tokenizer für Deutsch aus. |
| german2 |
Wählt den Lucene-Stemming-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet. |
| lightGerman |
Wählt den Lucene-Stemming-Tokenizer für Deutsch aus, der Light-Stemming ausführt. |
| minimalGerman |
Wählt den Lucene-Stemming-Tokenizer für Deutsch aus, der nur minimales Stemming ausführt. |
| greek |
Wählt den Lucene-Stemming-Tokenizer für Griechisch aus. |
| hindi |
Wählt den Lucene-Stemming-Tokenizer für Hindi aus. |
| hungarian |
Wählt den Lucene-Stemming-Tokenizer für Ungarisch aus. |
| lightHungarian |
Wählt den Lucene-Stemming-Tokenizer für Ungarisch aus, der Light-Stemming ausführt. |
| indonesian |
Wählt den Lucene-Stemming-Tokenizer für Indonesisch aus. |
| irish |
Wählt den Lucene-Stemming-Tokenizer für Irisch aus. |
| italian |
Wählt den Lucene-Stemming-Tokenizer für Italienisch aus. |
| lightItalian |
Wählt den Lucene-Stemming-Tokenizer für Italienisch aus, der leichte Wortstammerkennung ausführt. |
| sorani |
Wählt den Lucene-Stemming-Tokenizer für Sorani aus. |
| latvian |
Wählt den Lucene-Stemming-Tokenizer für Lettisch aus. |
| norwegian |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmül). |
| lightNorwegian |
Wählt den Lucene Stemming Tokenizer für Norwegian (Bokmül), der leichte Stimmen macht. |
| minimalNorwegian |
Wählt den Lucene-Stemming-Tokenizer für Norwegian (Bokmül), der minimale Stemming ermöglicht. |
| lightNynorsk |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Nynorsk) aus, der leichte Wortstammerkennung ausführt. |
| minimalNynorsk |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Nynorsk) aus, der nur minimale Wortstammerkennung ausführt. |
| portuguese |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus. |
| lightPortuguese |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der leichte Wortstammerkennung ausführt. |
| minimalPortuguese |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der nur minimale Wortstammerkennung ausführt. |
| portugueseRslp |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der den RSLP-Stemming-Algorithmus verwendet. |
| romanian |
Wählt den Lucene-Stemming-Tokenizer für Rumänisch aus. |
| russian |
Wählt den Lucene-Stemming-Tokenizer für Russisch aus. |
| lightRussian |
Wählt den Lucene-Stemming-Tokenizer für Russisch aus, der Light-Stemming ausführt. |
| spanish |
Wählt den Lucene-Stemming-Tokenizer für Spanisch aus. |
| lightSpanish |
Wählt den Lucene-Stemming-Tokenizer für Spanisch aus, der leichte Wortstammerkennung ausführt. |
| swedish |
Wählt den Lucene-Stemming-Tokenizer für Schwedisch aus. |
| lightSwedish |
Wählt den Lucene-Stemming-Tokenizer für Schwedisch aus, der leichte Wortstammerkennung ausführt. |
| turkish |
Wählt den Lucene-Stemming-Tokenizer für Türkisch aus. |
StopAnalyzer
Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Dieser Analyzer wird mit Apache Lucene implementiert.
| Name | Typ | Beschreibung |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
| name |
string |
Der Name des Analyzers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
| stopwords |
string[] |
Eine Liste der Stichworte. |
StopwordsList
Gibt eine vordefinierte Liste von sprachspezifischen Stoppwörtern an.
| Wert | Beschreibung |
|---|---|
| arabic |
Wählt die Stoppwortliste für Arabisch aus. |
| armenian |
Wählt die Stoppwortliste für Armenisch aus. |
| basque |
Wählt die Stoppwortliste für Baskisch aus. |
| brazilian |
Wählt die Stoppwortliste für Portugiesisch (Brasilien) aus. |
| bulgarian |
Wählt die Stoppwortliste für Bulgarisch aus. |
| catalan |
Wählt die Stoppwortliste für Katalanisch aus. |
| czech |
Wählt die Stoppwortliste für Tschechisch aus. |
| danish |
Wählt die Stoppwortliste für Dänisch aus. |
| dutch |
Wählt die Stoppwortliste für Niederländisch aus. |
| english |
Wählt die Stoppwortliste für Englisch aus. |
| finnish |
Wählt die Stoppwortliste für Finnisch aus. |
| french |
Wählt die Stoppwortliste für Französisch aus. |
| galician |
Wählt die Stoppwortliste für Galizisch aus. |
| german |
Wählt die Stoppwortliste für Deutsch aus. |
| greek |
Wählt die Stoppwortliste für Griechisch aus. |
| hindi |
Wählt die Stoppwortliste für Hindi aus. |
| hungarian |
Wählt die Stoppwortliste für Ungarisch aus. |
| indonesian |
Wählt die Stoppwortliste für Indonesisch aus. |
| irish |
Wählt die Stoppwortliste für Irisch aus. |
| italian |
Wählt die Stoppwortliste für Italienisch aus. |
| latvian |
Wählt die Stoppwortliste für Lettisch aus. |
| norwegian |
Wählt die Stoppwortliste für Norwegisch aus. |
| persian |
Wählt die Stoppwortliste für Persisch aus. |
| portuguese |
Wählt die Stoppwortliste für Portugiesisch aus. |
| romanian |
Wählt die Stoppwortliste für Rumänisch aus. |
| russian |
Wählt die Stoppwortliste für Russisch aus. |
| sorani |
Wählt die Stoppwortliste für Sorani aus. |
| spanish |
Wählt die Stoppwortliste für Spanisch aus. |
| swedish |
Wählt die Stoppwortliste für Schwedisch aus. |
| thai |
Wählt die Stoppwortliste für Thai aus. |
| turkish |
Wählt die Stoppwortliste für Türkisch aus. |
StopwordsTokenFilter
Entfernt Stoppwörter aus einem Tokenstream. Dieser Tokenfilter wird mit Apache Lucene implementiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Groß-/Kleinschreibung ignoriert werden soll. Wenn wahr, werden alle Wörter zuerst in Kleinbuchstaben konvertiert. Die Standardeinstellung ist "false". |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| removeTrailing |
boolean |
True |
Ein Wert, der angibt, ob der letzte Suchbegriff ignoriert werden soll, wenn es sich um ein Stoppwort handelt. Der Standardwert ist "true". |
| stopwords |
string[] |
Die Liste der Wortwörter. Diese Eigenschaft und die Stopwords-Listeneigenschaft können nicht beide festgelegt werden. |
|
| stopwordsList | english |
Eine vordefinierte Liste der zu verwendenden Wörter. Diese Eigenschaft und die Stopwords-Eigenschaft können nicht beide festgelegt werden. Der Standardwert ist Englisch. |
SynonymTokenFilter
Gleicht ein- oder mehrere Wort-Synonyme in einem Tokendatenstrom ab. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| expand |
boolean |
True |
Ein Wert, der angibt, ob alle Wörter in der Liste der Synonyme (wenn => Notation nicht verwendet wird) einander zugeordnet werden. Wenn true, werden alle Wörter in der Liste der Synonyme (wenn => Notation nicht verwendet wird) einander zugeordnet. Die folgende Liste: unglaublich, unglaublich, fabelhaft, erstaunlich ist gleichbedeutend mit: unglaublich, unglaublich, fabelhaft, erstaunlich => unglaublich, unglaublich, fabelhaft, erstaunlich. Wenn falsch, die folgende Liste: unglaublich, unglaublich, fabelhaft, erstaunlich wird gleichbedeutend mit: unglaublich, unglaublich, fabelhaft, erstaunlich => unglaublich. Der Standardwert ist "true". |
| ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Eingabe für die Groß-/Kleinschreibung für den Abgleich erfolgt. Die Standardeinstellung ist "false". |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| synonyms |
string[] |
Eine Liste von Synonymen in einem von zwei Formaten: 1. unglaublich, unglaublich, fabelhaft => erstaunlich - alle Begriffe auf der linken Seite von => Symbol werden durch alle Begriffe auf der rechten Seite ersetzt; 2. unglaublich, unglaublich, fabelhaft, erstaunlich - kommagetrennte Liste der entsprechenden Wörter. Legen Sie die expand-Option fest, um zu ändern, wie diese Liste interpretiert wird. |
TagScoringFunction
Definiert eine Funktion, die Die Bewertungen von Dokumenten mit Zeichenfolgenwerten erhöht, die einer bestimmten Liste von Tags entsprechen.
| Name | Typ | Beschreibung |
|---|---|---|
| boost |
number (double) |
Ein Multiplikator für die unformatierte Bewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
| fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
| interpolation |
Ein Wert, der angibt, wie die Verstärkung in Dokumentergebnisse interpoliert wird; Ist standardmäßig auf "Linear" festgelegt. |
|
| tag |
Parameterwerte für die Tagbewertungsfunktion. |
|
| type |
string:
tag |
Art der Bewertungsfunktion. |
TagScoringParameters
Stellt Parameterwerte für eine Tagbewertungsfunktion bereit.
| Name | Typ | Beschreibung |
|---|---|---|
| tagsParameter |
string |
Der Name des Parameters, der in Suchabfragen übergeben wird, um die Liste der Tags anzugeben, die mit dem Zielfeld verglichen werden sollen. |
TextWeights
Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen erhöhen sollen.
| Name | Typ | Beschreibung |
|---|---|---|
| weights |
object |
Das Wörterbuch der Gewichtungen pro Feld, um die Bewertung von Dokumenten zu verbessern. Die Schlüssel sind Feldnamen und die Werte sind die Gewichtungen für jedes Feld. |
TokenCharacterKind
Stellt Zeichenklassen dar, auf die ein Tokenfilter angewendet werden kann.
| Wert | Beschreibung |
|---|---|
| letter |
Bewahrt Buchstaben in Token auf. |
| digit |
Speichert Ziffern in Token. |
| whitespace |
Behält Leerzeichen in Token bei. |
| punctuation |
Behält die Interpunktion in Token bei. |
| symbol |
Behält Symbole in Token bei. |
TokenFilterName
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.
TruncateTokenFilter
Schneidet die Begriffe auf eine bestimmte Länge ab. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| length |
integer (int32) maximum: 300 |
300 |
Die Länge, in der Ausdrücke abgeschnitten werden. Der Standardwert und maximal 300. |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
UaxUrlEmailTokenizer
Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
| name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
UniqueTokenFilter
Filtert Token mit dem gleichen Text wie das vorherige Token heraus. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| onlyOnSamePosition |
boolean |
False |
Ein Wert, der angibt, ob Duplikate nur an derselben Position entfernt werden sollen. Die Standardeinstellung ist "false". |
VectorEncodingFormat
Das Codierungsformat für die Interpretation von Vektorfeldinhalten.
| Wert | Beschreibung |
|---|---|
| packedBit |
Codierungsformat, das Bits darstellt, die in einen breiteren Datentyp verpackt sind. |
VectorSearch
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche.
| Name | Typ | Beschreibung |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
Enthält Konfigurationsoptionen, die für den Algorithmus spezifisch sind, der während der Indizierung oder Abfrage verwendet wird. |
| compressions | VectorSearchCompression[]: |
Enthält konfigurationsspezifische Optionen für die Komprimierungsmethode, die während der Indizierung oder Abfrage verwendet wird. |
| profiles |
Definiert Kombinationen von Konfigurationen, die mit der Vektorsuche verwendet werden sollen. |
|
| vectorizers | VectorSearchVectorizer[]: |
Enthält Konfigurationsoptionen zum Vektorisieren von Textvektorabfragen. |
VectorSearchAlgorithmKind
Der Algorithmus, der für die Indizierung und Abfrage verwendet wird.
| Wert | Beschreibung |
|---|---|
| hnsw |
HNSW (Hierarchische Navigable Small World), eine Art ungefährer Nachbaralgorithmus. |
| exhaustiveKnn |
Erschöpfende KNN-Algorithmus, der Brute-Force-Suche durchführt. |
VectorSearchAlgorithmMetric
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. Es wird empfohlen, dieselbe Ähnlichkeitsmetrik zu wählen, mit der das Einbettungsmodell trainiert wurde.
| Wert | Beschreibung |
|---|---|
| cosine |
Misst den Winkel zwischen Vektoren, um ihre Ähnlichkeit zu quantifizieren, wobei die Größe ignoriert wird. Je kleiner der Winkel, desto näher die Ähnlichkeit. |
| euclidean |
Berechnet den geraden Abstand zwischen Vektoren in einem mehrdimensionalen Raum. Je kleiner der Abstand, desto näher die Ähnlichkeit. |
| dotProduct |
Berechnet die Summe der elementeweisen Produkte, um die Ausrichtung und Größengleichheit zu messen. Je größer und positiver, desto näher die Ähnlichkeit. |
| hamming |
Gilt nur für bitgepackte Binärdatentypen. Bestimmt unterschiedliche Zugehörigkeit, indem unterschiedliche Positionen in binären Vektoren gezählt werden. Je weniger Unterschiede, desto näher die Ähnlichkeit. |
VectorSearchCompressionKind
Die Komprimierungsmethode, die für die Indizierung und Abfrage verwendet wird.
| Wert | Beschreibung |
|---|---|
| scalarQuantization |
Skalare Quantisierung, eine Art von Komprimierungsmethode. In der skalaren Quantisierung werden die ursprünglichen Vektorwerte in einen schmaleren Typ komprimiert, indem jede Komponente eines Vektors mithilfe eines reduzierten Satzes quantisierter Werte diskretiert und dargestellt wird, wodurch die Gesamtdatengröße reduziert wird. |
| binaryQuantization |
Binary Quantization, eine Art von Komprimierungsmethode. In der binären Quantisierung werden die ursprünglichen Vektorwerte durch Diskretizing und Darstellung der einzelnen Komponenten eines Vektors mithilfe von Binärwerten auf den schmaleren Binärtyp komprimiert, wodurch die Gesamtdatengröße reduziert wird. |
VectorSearchCompressionTarget
Der quantisierte Datentyp von komprimierten Vektorwerten.
| Wert | Beschreibung |
|---|---|
| int8 |
8-Bit-Ganzzahl mit Vorzeichen. |
VectorSearchProfile
Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen.
| Name | Typ | Beschreibung |
|---|---|---|
| algorithm |
string |
Der Name der Konfiguration des Vektorsuchalgorithmus, die den Algorithmus und optionale Parameter angibt. |
| compression |
string |
Der Name der Konfiguration der Komprimierungsmethode, die die Komprimierungsmethode und optionale Parameter angibt. |
| name |
string |
Der Name, der mit diesem bestimmten Vektorsuchprofil verknüpft werden soll. |
| vectorizer |
string |
Der Name der Vektorisierung, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
VectorSearchVectorizerKind
Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll.
| Wert | Beschreibung |
|---|---|
| azureOpenAI |
Generieren Sie Einbettungen mithilfe einer Azure OpenAI-Ressource zur Abfragezeit. |
| customWebApi |
Generieren Sie Einbettungen mithilfe eines benutzerdefinierten Webendpunkts zur Abfragezeit. |
| aiServicesVision |
Generieren Sie Einbettungen für ein Bild oder eine Texteingabe zur Abfragezeit mithilfe der Azure AI Services Vision Vectorize-API. |
| aml |
Generieren Sie Einbettungen mithilfe eines Azure Machine Learning-Endpunkts, der zur Abfragezeit über den Azure AI Foundry -Modellkatalog bereitgestellt wird. |
WebApiVectorizer
Gibt einen benutzerdefinierten Vektorizer zum Generieren des Vektoreinbettungs einer Abfragezeichenfolge an. Die Integration eines externen Vektorizers erfolgt mithilfe der benutzerdefinierten Web-API-Schnittstelle eines Skillsets.
| Name | Typ | Beschreibung |
|---|---|---|
| customWebApiParameters |
Gibt die Eigenschaften des benutzerdefinierten Vektorisierers an. |
|
| kind |
string:
custom |
Typ des VectorSearchVectorizers. |
| name |
string |
Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll. |
WebApiVectorizerParameters
Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorizer an.
| Name | Typ | Beschreibung |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
Die vom Benutzer zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. Wenn eine authResourceId bereitgestellt und nicht angegeben wird, wird die vom System zugewiesene verwaltete Identität verwendet. Bei Aktualisierungen des Indexers bleibt der Wert unverändert, wenn die Identität nicht angegeben ist. Wenn der Wert auf "none" festgelegt ist, wird der Wert dieser Eigenschaft gelöscht. |
| authResourceId |
string |
Gilt für benutzerdefinierte Endpunkte, die mit externem Code in einer Azure-Funktion oder einer anderen Anwendung verbunden sind, die die Transformationen bereitstellt. Dieser Wert sollte die Anwendungs-ID sein, die für die Funktion oder App erstellt wurde, als sie bei Azure Active Directory registriert wurde. Wenn angegeben, stellt die Vektorisierung eine Verbindung mit der Funktion oder App her, indem sie eine verwaltete ID (entweder system- oder benutzerseitig zugewiesen) des Suchdiensts und das Zugriffstoken der Funktion oder App verwendet, wobei dieser Wert als Ressourcen-ID zum Erstellen des Bereichs des Zugriffstokens verwendet wird. |
| httpHeaders |
object |
Die Header, die zum Ausführen der HTTP-Anforderung erforderlich sind. |
| httpMethod |
string |
Die Methode für die HTTP-Anforderung. |
| timeout |
string (duration) |
Das gewünschte Timeout für die Anforderung. Der Standardwert ist „30 Sekunden“. |
| uri |
string (uri) |
Der URI der Web-API, die den Vektorisierer bereitstellt. |
WordDelimiterTokenFilter
Unterteilt Wörter in Teilwörter und führt optionale Transformationen in Teilwortgruppen durch. Dieser Tokenfilter wird mit Apache Lucene implementiert.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Der Diskriminator für abgeleitete Typen. |
|
| catenateAll |
boolean |
False |
Ein Wert, der angibt, ob alle Teilwortteile kategorisiert werden. Wenn dies beispielsweise auf "true" festgelegt ist, wird "Azure-Search-1" zu "AzureSearch1". Die Standardeinstellung ist "false". |
| catenateNumbers |
boolean |
False |
Ein Wert, der angibt, ob die maximale Anzahl von Teilen kategorisiert wird. Wenn dies beispielsweise auf "true" festgelegt ist, wird "1-2" zu "12". Die Standardeinstellung ist "false". |
| catenateWords |
boolean |
False |
Ein Wert, der angibt, ob die maximale Anzahl von Wortteilen kategorisiert wird. Wenn dies beispielsweise auf "true" festgelegt ist, wird "Azure-Search" zu "AzureSearch". Die Standardeinstellung ist "false". |
| generateNumberParts |
boolean |
True |
Ein Wert, der angibt, ob Zahlenunterwörter generiert werden sollen. Der Standardwert ist "true". |
| generateWordParts |
boolean |
True |
Ein Wert, der angibt, ob Teilewörter generiert werden sollen. Wenn festgelegt, werden Teile von Wörtern generiert; Beispielsweise wird "AzureSearch" zu "Azure" "Suche". Der Standardwert ist "true". |
| name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
| preserveOriginal |
boolean |
False |
Ein Wert, der angibt, ob ursprüngliche Wörter beibehalten und der Unterwortliste hinzugefügt werden. Die Standardeinstellung ist "false". |
| protectedWords |
string[] |
Eine Liste der Token, die vor Trennzeichen geschützt werden sollen. |
|
| splitOnCaseChange |
boolean |
True |
Ein Wert, der angibt, ob Wörter in caseChange geteilt werden sollen. Wenn dies beispielsweise auf "true" festgelegt ist, wird "AzureSearch" zu "Azure" "Search". Der Standardwert ist "true". |
| splitOnNumerics |
boolean |
True |
Ein Wert, der angibt, ob Zahlen aufgeteilt werden sollen. Wenn dies beispielsweise auf "true" festgelegt ist, wird "Azure1Search" zu "Azure" "1" "Search". Der Standardwert ist "true". |
| stemEnglishPossessive |
boolean |
True |
Ein Wert, der angibt, ob nachfolgende "'s" für jedes Unterwort entfernt werden sollen. Der Standardwert ist "true". |