Indexes - Analyze

Zeigt, wie ein Analysetool Text in Token aufteilt.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2026-04-01

URI-Parameter

Name In Erforderlich Typ Beschreibung
endpoint
path True

string (uri)

Die Endpunkt-URL des Suchdiensts.

indexName
path True

string

Der Name des Indexes.

api-version
query True

string

minLength: 1

Die API-Version, die für diesen Vorgang verwendet werden soll.

Anforderungsheader

Name Erforderlich Typ Beschreibung
Accept

Accept

Die Überschrift "Annehmen".

x-ms-client-request-id

string (uuid)

Ein undurchsichtiger, global eindeutiger, clientgenerierter Zeichenfolgenbezeichner für die Anforderung.

Anforderungstext

Name Erforderlich Typ Beschreibung
text True

string

Der Text, der in Token unterteilt werden soll.

analyzer

LexicalAnalyzerName

Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

normalizer

LexicalNormalizerName

Der Name des Normalisierers, der zum Normalisieren des angegebenen Textes verwendet werden soll.

tokenFilters

TokenFilterName[]

Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

Antworten

Name Typ Beschreibung
200 OK

AnalyzeResult

Die Anforderung ist erfolgreich.

Other Status Codes

ErrorResponse

Unerwartete Fehlerantwort.

Sicherheit

api-key

Typ: apiKey
In: header

OAuth2Auth

Typ: oauth2
Ablauf: implicit
Autorisierungs-URL: https://login.microsoftonline.com/common/oauth2/v2.0/authorize

Bereiche

Name Beschreibung
https://search.azure.com/.default

Beispiele

SearchServiceIndexAnalyze

Beispielanforderung

POST https://exampleservice.search.windows.net/indexes('example-index')/search.analyze?api-version=2026-04-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Beispiel für eine Antwort

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definitionen

Name Beschreibung
Accept

Die Überschrift "Annehmen".

AnalyzedTokenInfo

Informationen zu einem token, das von einem Analyzer zurückgegeben wird.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden.

AnalyzeResult

Das Ergebnis des Tests eines Analyzers auf Text.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

ErrorDetail

Das Fehlerdetails.

ErrorResponse

Übliche Fehlerantwort für alle Azure Resource Manager APIs, um Fehlerdetails bei fehlgeschlagenen Operationen zurückzugeben. (Dies folgt auch dem OData-Fehlerantwortformat.)

LexicalAnalyzerName

Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.

LexicalNormalizerName

Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

Accept

Die Überschrift "Annehmen".

Wert Beschreibung
application/json;odata.metadata=minimal

AnalyzedTokenInfo

Informationen zu einem token, das von einem Analyzer zurückgegeben wird.

Name Typ Beschreibung
endOffset

integer (int32)

Der Index des letzten Zeichens des Tokens im Eingabetext.

position

integer (int32)

Die Position des Tokens im Eingabetext relativ zu anderen Token. Das erste Token im Eingabetext hat Position 0, die nächste hat Position 1 usw. Abhängig von der verwendeten Analyse haben einige Token möglicherweise dieselbe Position, z. B. wenn sie Synonyme voneinander sind.

startOffset

integer (int32)

Der Index des ersten Zeichens des Tokens im Eingabetext.

token

string

Das vom Analyzer zurückgegebene Token.

AnalyzeRequest

Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden.

Name Typ Beschreibung
analyzer

LexicalAnalyzerName

Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

charFilters

CharFilterName[]

Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

normalizer

LexicalNormalizerName

Der Name des Normalisierers, der zum Normalisieren des angegebenen Textes verwendet werden soll.

text

string

Der Text, der in Token unterteilt werden soll.

tokenFilters

TokenFilterName[]

Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden.

tokenizer

LexicalTokenizerName

Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus.

AnalyzeResult

Das Ergebnis des Tests eines Analyzers auf Text.

Name Typ Beschreibung
tokens

AnalyzedTokenInfo[]

Die Liste der Token, die von dem in der Anforderung angegebenen Analysetool zurückgegeben werden.

CharFilterName

Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
html_strip

Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

ErrorAdditionalInfo

Der Ressourcenverwaltungsfehler zusätzliche Informationen.

Name Typ Beschreibung
info

Die zusätzlichen Informationen.

type

string

Der zusätzliche Informationstyp.

ErrorDetail

Das Fehlerdetails.

Name Typ Beschreibung
additionalInfo

ErrorAdditionalInfo[]

Die zusätzlichen Informationen des Fehlers.

code

string

Der Fehlercode.

details

ErrorDetail[]

Die Fehlerdetails.

message

string

Die Fehlermeldung.

target

string

Das Fehlerziel.

ErrorResponse

Übliche Fehlerantwort für alle Azure Resource Manager APIs, um Fehlerdetails bei fehlgeschlagenen Operationen zurückzugeben. (Dies folgt auch dem OData-Fehlerantwortformat.)

Name Typ Beschreibung
error

ErrorDetail

Das Fehlerobjekt.

LexicalAnalyzerName

Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
ar.microsoft

Microsoft-Analysator für Arabisch.

ar.lucene

Lucene-Analysator für Arabisch.

hy.lucene

Lucene-Analysator für Armenisch.

bn.microsoft

Microsoft-Analyzer für Bangla.

eu.lucene

Lucene-Analysator für Baskisch.

bg.microsoft

Microsoft Analyzer für Bulgarisch.

bg.lucene

Lucene-Analysator für Bulgarisch.

ca.microsoft

Microsoft-Analysator für Katalanisch.

ca.lucene

Lucene-Analysator für Katalanisch.

zh-Hans.microsoft

Microsoft Analyzer für Chinesisch (vereinfacht).

zh-Hans.lucene

Lucene-Analysator für Chinesisch (vereinfacht).

zh-Hant.microsoft

Microsoft-Analysator für Chinesisch (Traditional).

zh-Hant.lucene

Lucene-Analysator für Chinesisch (traditionell).

hr.microsoft

Microsoft Analyzer für Kroatisch.

cs.microsoft

Microsoft-Analysator für Tschechisch.

cs.lucene

Lucene-Analysator für Tschechisch.

da.microsoft

Microsoft-Analyzer für Dänisch.

da.lucene

Lucene-Analysator für Dänisch.

nl.microsoft

Microsoft-Analysator für Niederländisch.

nl.lucene

Lucene-Analysator für Niederländisch.

en.microsoft

Microsoft-Analyzer für Englisch.

en.lucene

Lucene-Analysator für Englisch.

et.microsoft

Microsoft Analyzer für Estnisch.

fi.microsoft

Microsoft-Analysator für Finnisch.

fi.lucene

Lucene-Analysator für Finnisch.

fr.microsoft

Microsoft Analyzer für Französisch.

fr.lucene

Lucene-Analysator für Französisch.

gl.lucene

Lucene-Analysator für Galizisch.

de.microsoft

Microsoft-Analysator für Deutsch.

de.lucene

Lucene-Analysator für Deutsch.

el.microsoft

Microsoft-Analysator für Griechisch.

el.lucene

Lucene-Analysator für Griechisch.

gu.microsoft

Microsoft-Analysator für Gujarati.

he.microsoft

Microsoft-Analysator für Hebräisch.

hi.microsoft

Microsoft-Analysator für Hindi.

hi.lucene

Lucene-Analysator für Hindi.

hu.microsoft

Microsoft-Analysator für Ungarisch.

hu.lucene

Lucene-Analysator für Ungarisch.

is.microsoft

Microsoft-Analyzer für Isländisch.

id.microsoft

Microsoft Analyzer für Indonesisch (Bahasa).

id.lucene

Lucene-Analysator für Indonesisch.

ga.lucene

Lucene-Analysator für Irisch.

it.microsoft

Microsoft-Analysator für Italienisch.

it.lucene

Lucene-Analysator für Italienisch.

ja.microsoft

Microsoft Analyzer für Japanisch.

ja.lucene

Lucene-Analysator für Japanisch.

kn.microsoft

Microsoft Analyzer für Kannada.

ko.microsoft

Microsoft-Analyzer für Koreanisch.

ko.lucene

Lucene-Analysator für Koreanisch.

lv.microsoft

Microsoft-Analysator für Lettisch.

lv.lucene

Lucene-Analysator für Lettisch.

lt.microsoft

Microsoft Analyzer für Litauisch.

ml.microsoft

Microsoft-Analyzer für Malayalam.

ms.microsoft

Microsoft Analyzer für Malaiisch (Latein).

mr.microsoft

Microsoft-Analysator für Marathi.

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

Lucene-Analysator für Norwegian.

fa.lucene

Lucene-Analysator für Persisch.

pl.microsoft

Microsoft-Analysator für Polnisch.

pl.lucene

Lucene-Analysator für Polnisch.

pt-BR.microsoft

Microsoft analyzer für Portugiesisch (Brasilien).

pt-BR.lucene

Lucene-Analysator für Portugiesisch (Brasilien).

pt-PT.microsoft

Microsoft analyzer for Portuguese (Portugal).

pt-PT.lucene

Lucene-Analysator für Portugiesisch (Portugal).

pa.microsoft

Microsoft-Analyzer für Punjabi.

ro.microsoft

Microsoft-Analyzer für Rumänisch.

ro.lucene

Lucene-Analysator für Rumänisch.

ru.microsoft

Microsoft-Analyzer für Russisch.

ru.lucene

Lucene-Analysator für Russisch.

sr-cyrillic.microsoft

Microsoft Analyzer für Serbisch (Kyrillisch).

sr-latin.microsoft

Microsoft analyzer für Serbisch (Latein).

sk.microsoft

Microsoft-Analysator für Slowakisch.

sl.microsoft

Microsoft Analyzer für Slowenisch.

es.microsoft

Microsoft-Analyzer für Spanisch.

es.lucene

Lucene-Analysator für Spanisch.

sv.microsoft

Microsoft-Analysator für Schwedisch.

sv.lucene

Lucene-Analysator für Schwedisch.

ta.microsoft

Microsoft-Analyzer für Tamil.

te.microsoft

Microsoft-Analyzer für Telugu.

th.microsoft

Microsoft-Analysator für Thailändisch.

th.lucene

Lucene-Analysator für Thai.

tr.microsoft

Microsoft-Analysator für Türkisch.

tr.lucene

Lucene-Analysator für Türkisch.

uk.microsoft

Microsoft-Analysator für Ukrainisch.

ur.microsoft

Microsoft-Analyzer für Urdu.

vi.microsoft

Microsoft-Analysator für Vietnamesisch.

standard.lucene

Standardmäßiger Lucene-Analysator.

standardasciifolding.lucene

Standardmäßiger ASCII-Faltungs-Lucene-Analysator. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.

keyword

Behandelt den gesamten Inhalt eines Felds als ein einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.

pattern

Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.

simple

Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.

stop

Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.

whitespace

Ein Analysetool, das den Whitespace-Tokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.

LexicalNormalizerName

Definiert die Namen aller Textnormalisierer, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
asciifolding

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

elision

Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

lowercase

Normalisiert den Token-Text in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

standard

Standard-Normalisierer, der aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

uppercase

Normalisiert den Token-Text in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

LexicalTokenizerName

Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
classic

Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

edgeNGram

Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

keyword_v2

Gibt die gesamte Eingabe als ein einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

letter

Teilt Text in nicht-Buchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

lowercase

Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

microsoft_language_tokenizer

Teilt Text nach sprachspezifischen Regeln auf.

microsoft_language_stemming_tokenizer

Teilt Text nach sprachspezifischen Regeln auf und reduziert Wörter auf deren Grundformen.

nGram

Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

path_hierarchy_v2

Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

pattern

Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

standard_v2

Standard Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

uax_url_email

Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

whitespace

Teilt Text an Leerzeichen auf. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

TokenFilterName

Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.

Wert Beschreibung
arabic_normalization

Ein Tokenfilter, der den Normalisierer für arabische Sprachen anwendet, um die Orthographie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.

apostrophe

Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.

asciifolding

Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

cjk_bigram

Bildet Bigrams von CJK-Ausdrücken, die aus dem Standardtokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.

cjk_width

Normalisiert CJK-Breitenabweichungen. Faltet vollbreite ASCII-Varianten in das äquivalente Basislatein, und halbbreite Katakana-Varianten in das äquivalente Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.

classic

Entfernt englische Possessive und Punkte von Akronyme. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.

common_grams

Konstruiert Bigramme für häufig vorkommende Begriffe während der Indexierung. Einzelne Begriffe werden ebenfalls indexiert und mit Bigrammen überlagert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.

edgeNGram_v2

Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.

elision

Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

german_normalization

Normalisiert deutsche Charaktere nach den Heuristiken des deutschen Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.

hindi_normalization

Normalisiert Text in Hindi, um einige Unterschiede in der Schreibweise zu beseitigen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.

indic_normalization

Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.

keyword_repeat

Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort und einmal als Nicht-Schlüsselwort. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.

kstem

Ein hochleistungsbasierter Kstemfilter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.

length

Entfernt die Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.

limit

Beschränkt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.

lowercase

Normalisiert Tokentext zu Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

nGram_v2

Generiert n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.

persian_normalization

Wendet die Normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.

phonetic

Erstellt Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.

porter_stem

Verwendet den Porterstammalgorithmus, um den Tokendatenstrom zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer.

reverse

Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

scandinavian_normalization

Normalisiert die Verwendung der austauschbaren skandinavischen Zeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.

scandinavian_folding

Faltet skandinavische Zeichen Ã¥ã... äæÃ"Æ->a und ööà ̧à ̃-o.> Es diskriminiert auch gegen die Verwendung von doppelten Vokalen aa, ae, ao, oe und oo, wobei nur der erste weggelassen wird. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.

shingle

Erstellt Kombinationen von Token als ein einzelnes Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.

snowball

Ein Filter, der Wörter mit einem snowball-generierten Stammer abstammt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.

sorani_normalization

Normalisiert die Unicode-Darstellung von Sorani-Text. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.

stemmer

Sprachspezifischer Wortstammfilter. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.

stopwords

Entfernt Stoppwörter aus einem Tokenstream. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.

trim

Entfernt führende und nachfolgende Leerzeichen aus Tokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.

truncate

Schneidet die Begriffe auf eine bestimmte Länge ab. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.

unique

Filtert Token mit dem gleichen Text wie das vorherige Token heraus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.

uppercase

Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

word_delimiter

Unterteilt Wörter in Teilwörter und führt optionale Transformationen in Teilwortgruppen durch.