Token und Lexeme

Top  Previous  Next

Glossar > Token und Lexeme

 

Token sind die elementaren Textbestandteile, in die die lexikalische Analyse einen Text zerlegt. Typische Token sind Worte, Zahlen, Interpunktionszeichen etc.. Token einer Programmiersprache sind z.B. Schlüsselworte wie "double" oder "while". Im Falle der Schlüsselworte sind gibt es eine 1:1-Beziehung zwischen den Token und den Lexemen, d.h. den Textabschnitten, die das Token repräsentieren. Im Falle z.B. einer Zahl gibt es zu dem Token viele Lexeme; z.B.  "12", "14.8" oder "1001". Derartig allgemeine Token werden daher durch Textmuster beschrieben. Im TextTransformer erfolgt die Musterbeschreibung durch reguläre Ausdrücke.

Ein Problem bilden sich überlappende Token wie z.B. "<" und "<=". Der TextTransformer wählt in einem solchen Konfliktfall automatisch das längere Lexem, also "<=".

 

Welche Textbestandteile Token sind, hängt letztlich von der Interpretation des Textes ab.



Diese Seite gehört zur TextTransformer Dokumentation

Home  Inhalt  English