Einführung > Analyse

Analyse

Top Previous Next

Die Analyse des Quelltextes erfolgt in zwei Schritten

Bei der lexikalischen Analyse wird der Quelltext in Worte und Satzzeichen etc. zerlegt. Allgemeiner gesagt: die lexikalische Analyse ist die Erkennung der sogenannte Token. Die Token, auch Terminalsymbole genannt, bestehen aus einem oder mehreren aufeinander folgenden Zeichen. Diese Aufeinanderfolge kann jeweils als ein spezielles Zeichenmuster aufgefasst werden und als solche lassen sie sich durch sogenannte reguläre Ausdrücke beschreiben.

Je nach Art des Textes können Token Verschiedenes sein. Bei mathematischen Texten kämen z.B. Namen, Zahlen und Operatoren in Betracht, bei umgangssprachlichen Texten bestimmte Worte, Wortgruppen, Sätze oder Wortteile, in Datendateien die einzelnen Felder eines Datensatzes.

Zugleich mit der lexikalischen Analyse werden bedeutungslose Zeichen beseitigt. Das können je nach Grammatik Leerzeichen und Tabulatoren, Leerzeilen, Kommentare etc. sein.

Bei der syntaktischen Analyse wird ermittelt in welcher Abfolge Token im Text auftreten. Diese Abfolge ist definiert durch Reihen oder Alternativen von Token, die im Text wiederholt aufeinander folgen. Z.B. kann ein Text einfach als eine Reihe von Textzeilen aufgefasst werden oder als das wiederholte Auftreten von Wortgruppen, die durch Satzzeichen voneinander getrennt sind. Der Text kann aber auch einer Grammatik gehorchen, die durch komplexere Regeln beschrieben wird.

Eine Syntaxregel wird eine Produktion genannt oder auch ein Nonterminalsymbol.

Diese Seite gehört zur TextTransformer Dokumentation

Home Inhalt English