Token

Top  Previous  Next

Beispiele > Textstatistik > Token

 

In den Projektoptionen sind alle auszulssenden Zeichen deaktiviert, so dass die Menge der Token sämtliche Teile eines Textes abdecken müssen inclusive der Leerzeichen und Zeilenumbrüche.

 

Ein Text besteht demnach aus

 

WORD                Worten

NUMBER                Zahlen

ABBREVIATION        Abkürzungen

CONTINUATION        Folgen von Punkten, wie "..."

LINEFEED                Zeilenumbrüchen

SENTENCE_END        Satzenden (Punkt, Ausrufe- oder Fragezeichen)

SPECIAL_CHAR        übrige Zeichen

 

In den Aktionen der Token werden jeweils die Zähler aktualisiert. Z.B. für WORD:

 

m_iWords++;

m_iChars += xState.length();

 

Hier wird der Wortzähler um Eins erhöht und der Zeichenzähler um die Anzahl der Zeichen des Wortes.

 

 

Etwas komplizierter ist die Aktion des Tokens ABBREVIATION: (\w+)\.

 

if(xState.length() > 2 &&

  !m_mAbbr.findKey(xState.str(1)))

m_iSentences++;

 

m_iWords++;

m_iChars += xState.length();

 

Besteht der erkannte Text aus nur einem Buchstaben gefolgt von einem Punkt oder wird der Text vor dem Punkt in der Abkürzungsliste gefunden, gilt der erkannte Text als Abkürzung. Andernfalls markiert der Punkt ein Satzende und der Satzzähler wird heraufgsetzt.

 



Diese Seite gehört zur TextTransformer Dokumentation

Home  Inhalt  English