Sonderzeichen
Begriff
Mit Sonderzeichen assoziiert man alle Zeichen, die nicht im ASCII-Zeichensatz vorkommen. Während also beispielsweise Ziffern und lateinische Buchstaben Teil von ASCII sind, gelten deutsche Umlaute, das Copyright-Zeichen (©), kyrillische Buchstaben oder mathematische Symbole als Sonderzeichen. Die ersten 32 Zeichen des Zeichensatzes werden hingegen als Steuerzeichen betrachtet, von denen die Mehrzahl heutzutage kaum noch die ursprüngliche Bedeutung hat.Historische Fehlentscheidungen sind für die ehemalige Beschränkung von Zeichen auf 8 Bit verantwortlich. Aufgrund vieler damit verbundener Probleme (so musste zur Einführung des Euro-Zeichens ein anderes Zeichen aus der 8-Bit-Erweiterung von ASCII herausgenommen werden (ISO 8859-15)).
Kodierungen
Auf modernen Systemen lassen sich auch Sonderzeichen eingeben und darstellen sowie auf andere Systeme übertragen. Dabei haben sich (aus der Not heraus) verschiedene Methoden entwickelt.Unicode
Unicode gilt als die modernste und generischste Form der Umsetzung. Jedes Zeichen auf dieser Welt, ob es nun ein klingonisches Symbol oder ein chinesisches Schriftzeichen ist, bekommt einen Platz in den Unicode-Tabellen und wird auf einem Rechner als 1 oder mehr Bytes umfassende Speicherstelle abgebildet.HTML
In HTML-Dokumenten werden Sonderzeichen durch so genannte Entities dargestellt.
Sie beginnen mit einem Und-Zeichen (&) und enden mit einem Semikolon (;), die Zeichenfolge dazwischen bestimmt das Zeichen (amp für das Und-Zeichen selbst, nbsp für ein Leerzeichen, gt für das Größer-als-Zeichen).
Zu beachten ist, dass für die korrekte Anzeige von HTML-Dokumenten im Browser die im Dokument angegebene (optional, falls nur ASCII-Zeichen und Entities verwendet werden), die vom Webserver angegebene und die im Browser eingestellte Kodierung übereinstimmen müssen.
Nutzt man dafür Unicode, so entfällt die Notwendigkeit der Entities.LaTeX
Populär zur Erstellung wissenschaftlicher Dokumente ist LaTeX, in denen die Sonderzeichen durch spezielle ASCII-Zeichenketten repräsentiert werden. Bei Umlauten schreibt man beispielsweise einfach vor den Basisvokal das doppelte Hochkomma (").
Auch für TeX und LaTeX gibt es mittlerweile UTF-8-Pakete.Punycode
Um Umlaute und andere Sonderzeichen in Domainnamen darstellen zu können, hat man das Verfahren Punycode entwickelt, welches zusammen mit Nameprep den Standard für internationalisierte Domain-Namen (IDN) ergibt. Dabei werden Nicht-ASCII-Zeichen durch Bindestriche ersetzt und deren Repräsentation an das Ende des Wortes angehangen.Weblinks