Token |
Top Previous Next |
Beispiele > Textstatistik > Token
In den Projektoptionen sind alle auszulssenden Zeichen deaktiviert, so dass die Menge der Token sämtliche Teile eines Textes abdecken müssen inclusive der Leerzeichen und Zeilenumbrüche.
Ein Text besteht demnach aus
WORD Worten NUMBER Zahlen ABBREVIATION Abkürzungen CONTINUATION Folgen von Punkten, wie "..." LINEFEED Zeilenumbrüchen SENTENCE_END Satzenden (Punkt, Ausrufe- oder Fragezeichen) SPECIAL_CHAR übrige Zeichen
In den Aktionen der Token werden jeweils die Zähler aktualisiert. Z.B. für WORD:
m_iWords++; m_iChars += xState.length();
Hier wird der Wortzähler um Eins erhöht und der Zeichenzähler um die Anzahl der Zeichen des Wortes.
Etwas komplizierter ist die Aktion des Tokens ABBREVIATION: (\w+)\.
if(xState.length() > 2 && !m_mAbbr.findKey(xState.str(1))) m_iSentences++;
m_iWords++; m_iChars += xState.length();
Besteht der erkannte Text aus nur einem Buchstaben gefolgt von einem Punkt oder wird der Text vor dem Punkt in der Abkürzungsliste gefunden, gilt der erkannte Text als Abkürzung. Andernfalls markiert der Punkt ein Satzende und der Satzzähler wird heraufgsetzt.
|
Diese Seite gehört zur TextTransformer Dokumentation |
Home Inhalt English |