Beispiele > Textstatistik

Token

Top Previous Next

In den Projektoptionen sind alle auszulssenden Zeichen deaktiviert, so dass die Menge der Token sämtliche Teile eines Textes abdecken müssen inclusive der Leerzeichen und Zeilenumbrüche.

Ein Text besteht demnach aus

WORD Worten

NUMBER Zahlen

ABBREVIATION Abkürzungen

CONTINUATION Folgen von Punkten, wie "..."

LINEFEED Zeilenumbrüchen

SENTENCE_END Satzenden (Punkt, Ausrufe- oder Fragezeichen)

SPECIAL_CHAR übrige Zeichen

In den Aktionen der Token werden jeweils die Zähler aktualisiert. Z.B. für WORD:

m_iWords++;

m_iChars += xState.length();

Hier wird der Wortzähler um Eins erhöht und der Zeichenzähler um die Anzahl der Zeichen des Wortes.

Etwas komplizierter ist die Aktion des Tokens ABBREVIATION: (\w+)\.

if(xState.length() > 2 &&

!m_mAbbr.findKey(xState.str(1)))

m_iSentences++;

m_iWords++;

m_iChars += xState.length();

Besteht der erkannte Text aus nur einem Buchstaben gefolgt von einem Punkt oder wird der Text vor dem Punkt in der Abkürzungsliste gefunden, gilt der erkannte Text als Abkürzung. Andernfalls markiert der Punkt ein Satzende und der Satzzähler wird heraufgsetzt.

Diese Seite gehört zur TextTransformer Dokumentation

Home Inhalt English