Unicode

Top  Previous  Next

Glossar > Unicode

 

Unicode ist ein Zeichencodierungsstandard, der vom Unicode Consortium entwickelt wurde. Unicode kann mit nur einem Zeichensatz fast alle geschriebenen Sprachen der Welt wiedergeben.

 

Die einzelnen Zeichen können aber nicht mehr alle durch ein einzelnes Byte dargestellt werden, wie es beim ASCII- bzw. ANSI-Code der Fall ist. Es gibt verschiedene Methoden, wie die Zeichen mittels mehrerer Bytes repräsentiert werden können.

 

Zur Darstellung jedes einzelnen Zeichens werden zwei (oder vier) Bytes verwendet. Diese Methode wird im Windows-Betriebssystem angewandt.
Verschiedene Zeichen werden je nach ihrer allgemeinen Bedeutung mit einer unterschiedlicher Anzahl an Bytes codiert. Ein sehr verbreiteter Standard, der diese Methode anwendet ist UTF-8. Im UTF-8 codierten Unicode belegen die ersten 128 Zeichen des ASCII-Codes jeweils nur ein Byte. ASCII-Code und Unicode sind hier identisch. Die im ANSI-Code nachfolgenden 128 Zeichen werden in UTF-8 durch jeweils zwei Bytes repräsentiert und alle weiteren Zeichen benötigen für ihre Darstellung noch mehr Bytes.

 

 

Beispiel:

 

Wird eine UTF-8 codierte Datei im ANSI-Modus geöffnet, so erscheint das Wort "für" als:

 

für

 

Der Umlaut 'ü' belegt in UTF-8 zwei Bytes, die im ANSI-Modus als zwei Zeichen dargestellt werden. Öffnet man hingegen die Datei im UTF-8-Modus, wird das Wort korrekt angezeigt.

 



Diese Seite gehört zur TextTransformer Dokumentation

Home  Inhalt  English