Unicode<meta http-equiv="Content-type" content="text/html; charset=utf-8"> <link rel="shortcut icon" href="../../favicon.ico"><link rel="stylesheet" href="../../wikistatic.css"></head> <body><div id=topbar><table width='98%' border=0><tr><td><a href="../../h/ha/hauptseite.html" title="Hauptseite">Hauptseite</a> | <b><a href="http://de.wikipedia.org/wiki/Unicode" title="Unicode">Aktueller Wikipedia-Artikel</a></b></td> <td align=right nowrap><form name=search class=inline method=get action="../../../search/search.html"><input name=search size=19><input type=submit value=Search></form></td></tr></table></div> <div id=article><h1>Unicode</h1><strong>Unicode</strong> ist ein internationaler <A HREF="../../s/st/standard.html" title="Standard">Standard</A>, dessen Ziel es ist, einen <A HREF="../../c/co/code.html" title="Code">Code</A> für jedes grafische <A HREF="../../z/ze/zeichen.html" title="Zeichen">Zeichen</A> oder Element aller bekannten Schriftkulturen und Zeichensysteme festzulegen. Er will das Problem der verschiedenen <A HREF="../../k/ko/kompatibilita_t.html" title="Kompatibilität">inkompatiblen</A> Kodierungen in den unterschiedlichen <A HREF="../../s/st/staat.html" title="Staat">Ländern</A> beseitigen. Die bestehenden Standards erforderten einen hohen Konvertierungsaufwand beim Datenaustausch, wenn eine Konvertierung überhaupt möglich war. Dadurch, dass die meisten Zeichenkodierungen nur wenige Sprachen unterstützen, war es in der Praxis oft unmöglich, verschiedene Sprachen im selben Text zu verwenden.<p> <p><table border="0" id="toc"><tr><td align="center"> <b>Table of contents</b> <script type='text/javascript'>showTocToggle("show","hide")</script></td></tr><tr id='tocinside'><td align="left"> <div style="margin-left:2em;"> </div> </div> <A CLASS="internal" HREF="#Unicode Consortium">1 Unicode Consortium</A><BR> <A CLASS="internal" HREF="#Codes">2 Codes</A><BR> <A CLASS="internal" HREF="#Schriftarten">3 Schriftarten</A><BR> <A CLASS="internal" HREF="#Versionen">4 Versionen</A><BR> <A CLASS="internal" HREF="#Anwendung der Tabellen">5 Anwendung der Tabellen</A><BR> <A CLASS="internal" HREF="#Unicode Transformation Formats">6 Unicode Transformation Formats</A><BR> <div style="margin-left:2em;"> <A CLASS="internal" HREF="#UTF-32 - UCS-4">6.1 UTF-32 - UCS-4</A><BR> <A CLASS="internal" HREF="#UTF-16 - UCS-2">6.2 UTF-16 - UCS-2</A><BR> <A CLASS="internal" HREF="#UTF-8">6.3 UTF-8</A><BR> <A CLASS="internal" HREF="#UTF-7">6.4 UTF-7</A><BR> </div> <A CLASS="internal" HREF="#Siehe auch">7 Siehe auch</A><BR> <A CLASS="internal" HREF="#Weblinks">8 Weblinks</A><BR> </td></tr></table><P> <A NAME="Unicode Consortium"><H2>Unicode Consortium</H2><p> Das <A HREF="../../u/un/unicode_consortium.html" title="Unicode Consortium">Unicode Consortium</A> (eine Vereinigung mit Domizil in <A HREF="../../k/ka/kalifornien.html" title="Kalifornien">Kalifornien</A>) publizierte <A HREF="../../1/19/1991.html" title="1991">1991</A> eine erste Fassung des Standards und hat seither regelmäßig neue Fassungen herausgegeben, die jeweils der geleisteten Standardisierungsarbeit entsprechen.<p> Das Konsortium arbeitet mit der ISO-Organisation zusammen, die den Standard <A HREF="../../u/un/unicode.html" title="Unicode">ISO 10646</A> herausgibt. Unicode und ISO 10646 sind gleichwertig, was die entsprechenden Codes für die Zeichen betrifft, aber der Unicode-Standard enthält bedeutend mehr Angaben für die Implementierung von Textverarbeitungslösungen (Darstellung, Sortierreihenfolgen, Schriften, die von rechts nach links laufen etc). Unicode ist streng genommen eine Untermenge von ISO 10646: während ISO 10646 Zeichencodes mit bis zu 31 Bit zuläßt, sind bei Unicode maximal 21 Bit erlaubt. Zur Zeit ist das jedoch nur von theoretischem Interesse, da noch keine Zeichen definiert wurden, die über den 21 Bit Bereich hinausgehen. Dies soll sich laut eines Prinzipien-Dokuments der Arbeitsgruppe, die den ISO-Standard weiterentwickelt, auch in Zukunft nicht ändern.<p> <A NAME="Codes"><H2>Codes</H2><p> Unicode-Zeichen werden oft in der Form U+XXXX angegeben, wobei das U für Unicode steht, und XXXX die hexadezimale Zahl ist, mit der das Zeichen kodiert ist.<p> ; Basic Latin : die ersten 128 Zeichen, U+0000 - U+007F, entsprechen dem <A HREF="../../a/as/ascii.html" title="ASCII">ASCII</A>-Zeichensatz ; Ergänzende Zeichen für Sprachen, die das lateinische <A HREF="../../a/al/alphabet.html" title="Alphabet">Alphabet</A> benützen: U+0080 - U+024F ; <A HREF="../../i/ip/ipa.html" title="IPA">IPA</A> Ergänzungen : U+0250 - U+02FF ; Kombinierende <A HREF="../../d/di/diakritisches_zeichen.html" title="Diakritisches Zeichen">diakritische Zeichen</A> : U+0300 - U+036F ; <A HREF="../../g/gr/griechisches_alphabet.html" title="Griechisches Alphabet">Griechisch</A> und <A HREF="../../k/ko/koptische_sprache.html" title="Koptische Sprache">Koptisch</A> : U+0370 - U+03FF ; <A HREF="../../k/ky/kyrillisches_alphabet.html" title="Kyrillisches Alphabet">Kyrillisch</A> : U+0400 - U+052F ; <A HREF="../../a/ar/armenische_sprache.html" title="Armenische Sprache">Armenisch</A> : U+0530 - U+058F ; <A HREF="../../h/he/hebra_ische_sprache.html" title="Hebräische Sprache">Hebräisch</A> : U+0590 - U+05FF ; <A HREF="../../a/ar/arabische_schrift.html" title="Arabische Schrift">Arabisch</A> : U+0600 - U+06FF ; <A HREF="../../s/sy/syrische_sprache.html" title="Syrische Sprache">Syrisch</A> : U+0700 - U+074F ....<p> <A NAME="Schriftarten"><H2>Schriftarten</H2><p> Für die meisten Unicode-Zeichen gibt es frei erhältliche Schriftarten. Es werden auch kommerziell erhältliche Schriftarten angeboten.<p> Zu beachten ist, dass für eine Schriftart, die dem Unicode-Standard folgt, nur gilt, dass die Zeichen, die vorkommen, an dem vom Unicode vorgeschriebenen Platz zu finden sind. Es heißt nicht, dass ein entsprechendes Zeichen tatsächlich vorhanden sein muss. Es gibt einige Schriftarten, die nur ca. 600 Zeichen implementieren, was aber für viele Zwecke bereits genügt und einen bedeutenden Fortschritt gegenüber den 255 Zeichen der 8-Bit-Schriftarten darstellt.<p> <A NAME="Versionen"><H2>Versionen</H2><p> <ul><li> <A HREF="../../1/19/1989.html" title="1989">1989</A> DP 10646 (Vorschlag für den Entwurf von ISO 10646, unabhängig von Unicode) </li><li> <A HREF="../../1/19/1990.html" title="1990">1990</A> DIS-1 10646 (Erster Entwurf für ISO 10646, unabhängig von Unicode) </li><li> <A HREF="../../1/19/1991.html" title="1991">1991</A> Unicode 1.0 </li><li> <A HREF="../../1/19/1992.html" title="1992">1992</A> Unicode 1.0.1 (Modifikationen um eine Zusammenführung mit ISO 10646 zu ermöglichen) </li><li> <A HREF="../../1/19/1993.html" title="1993">1993</A> Unicode 1.1 (Unicode und ISO-Norm erstmals vereinigt: Codes identisch zu ISO 10646-1:1993) </li><li> <A HREF="../../1/19/1996.html" title="1996">1996</A> Unicode 2.0 (Abgleich mit ISO 10646 Erweiterungen) </li><li> <A HREF="../../1/19/1998.html" title="1998">1998</A> Unicode 2.1 (u.a. Einführung des Eurozeichens) </li><li> <A HREF="../../2/20/2000.html" title="2000">2000</A> Unicode 3.0 (Abgleich mit ISO 10646-1:2000) </li><li> <A HREF="../../2/20/2001.html" title="2001">2001</A> Unicode 3.1 (Abgleich mit ISO 10646-2:2001) </li><li> <A HREF="../../2/20/2002.html" title="2002">2002</A> Unicode 3.2 </li><li> <A HREF="../../2/20/2003.html" title="2003">2003</A> Unicode 4.0 (Abgleich mit ISO 10646:2003) </li><li> <A HREF="../../2/20/2004.html" title="2004">2004</A> Unicode 4.0.1<p> </li></ul><A NAME="Anwendung der Tabellen"><H2>Anwendung der Tabellen</H2> Will man ein Unicode-Zeichen (z.B. ⊕) in <A HREF="../../h/hy/hypertext_markup_language.html" title="Hypertext Markup Language">HTML</A> oder <A HREF="../../e/ex/extensible_markup_language.html" title="Extensible Markup Language">XML</A> verwenden, sucht man es zunächst aus der entsprechenden Tabelle (hier: Mathematische Symbole). Dort ist seine Zeichennummer <A HREF="../../h/he/hexadezimalsystem.html" title="Hexadezimalsystem">hexadezimal</A> angegeben. Mit dieser Zeichennummer erstellt man dann eine Zeichenentität durch Voranstellen von "&#x" und Anfügen ";", eben "⊕", das ergibt dann das gewünschte Zeichen: "⊕". Die Zeichennummer kann in der Zeichenentität auch dezimal, dann ohne führendes "x", angegeben werden, z.B. "⊕" für das gleiche Zeichen.<p> Im <A HREF="../../v/vi/vim.html" title="Vim">Vi Improved</A> kann man Unicode-Zeichen (Voraussetzung: Unicode-basierte Locale oder als Unicode, z.B. UTF-8, erkannte Datei) eingeben, indem man Strg+V,U und dann die hexadezimale Zeichennummer drückt, also z.B. Strg+V,U,2,0,A,C für das Euro-Zeichen.<p> Ob das entsprechende Unicode-Zeichen auch tatsächlich am Bildschirm erscheint, hängt davon ab, ob die verwendete <A HREF="../../s/sc/schriftart.html" title="Schriftart">Schriftart</A> eine Glyphe für das gewünschte <A HREF="../../s/sy/symbol.html" title="Symbol">Symbol</A> (also eine Grafik für die gewünschte Zeichennummer) enthält.<p> <A NAME="Unicode Transformation Formats"><H2>Unicode Transformation Formats</H2> Für die Repräsentation der Unicode Zeichen, zum Zweck der elektronischen Datenverarbeitung, gibt es verschiedene so genannte Transformation Formats. In jedem der Formate lassen sich alle in Unicode enthaltenen Zeichen darstellen und Zeichenketten lassen sich beliebig zwischen den Formaten umwandeln. Einige Formate: <A NAME="UTF-32 - UCS-4"><H3><A HREF="../../u/ut/utf_32.html" title="UTF-32">UTF-32</A> - UCS-4</H3> Jedes Zeichen wird durch einen 32 Bit langen Code repräsentiert. Das hat z. B. den Vorteil, dass man schon an der Länge einer Zeichenkette erkennen kann, wieviele Zeichen enthalten sind. Ein Nachteil ist, dass mehr Speicherplatz verbraucht wird als bei UTF-16.<p> <A NAME="UTF-16 - UCS-2"><H3><A HREF="../../u/ut/utf_16.html" title="UTF-16">UTF-16</A> - UCS-2</H3> Dies ist das älteste Format. Die Zeichen sind entweder 16 oder 32 Bit lang. Die Zeichen der lebenden Sprachen lassen sich so in 2 Byte darstellen. <A NAME="UTF-8"><H3><A HREF="../../u/ut/utf_8.html" title="UTF-8">UTF-8</A></H3> <strong>UTF-8</strong> ist auf <A HREF="../../u/un/unix.html" title="Unix">Unix</A>-Systemen die populärste Kodierung für Unicode. Der große Vorteil gegenüber fast allen anderen Formaten ist, dass alle <A HREF="../../a/as/ascii.html" title="ASCII">ASCII</A>-Zeichen unverändert gültige Zeichen in UTF-8 sind. So funktionieren viele Programme, die den ASCII-Zeichensatz verwenden, unverändert auch mit UTF-8.<p> <A NAME="UTF-7"><H3><A HREF="../../u/ut/utf_7.html" title="UTF-7">UTF-7</A></H3> <strong>UTF-7</strong> stellt Unicode Zeichen aus einer Reihe von ASCII-Zeichen mit jeweils nur 7 Bit dar.<p> <em>Siehe auch:</em> <A HREF="../../a/al/alphabet.html" title="Alphabet">Alphabet</A><p> <A NAME="Siehe auch"><H2>Siehe auch</H2> <ul><li><A HREF="../../i/is/iso_8859.html" title="ISO 8859">ISO 8859</A><p> </li></ul><p> <A NAME="Weblinks"><H2>Weblinks</H2> <ul><li> <A HREF="http://www.unicode.org" class="external">Unicode Consortium</A> (englisch) </li><li> <A HREF="http://www.unicode.org/charts/" class="external">Codetabellen</A> (PDF) </li><li> <A HREF="http://www.thefox.ch/prog/ascii-characters.php?a=1&b=301" class="external">Zeichensätze</A> </li><li> <A HREF="http://de.selfhtml.org/inter/unicode.htm" class="external">Das Unicode-System - Beschreibung beim HTML-Kompendium SELFHTML</A> </li><li> <A HREF="http://www.alanwood.net/unicode/index.html" class="external">Alan Woods Unicode-Materialsammlung</A> </li><li> <A HREF="http://www.eki.ee/letter/" class="external">The Letter Database</A><p> </li></ul>Standards: <ul><li> <A HREF="http://www.ietf.org/rfc/rfc2152.txt" class="external">RFC 2152</A> (UTF-7, A Mail-Safe Transformation Format of Unicode) </li><li> <A HREF="http://www.ietf.org/rfc/rfc3629.txt" class="external">RFC 3629</A> (UTF-8, a transformation format of ISO 10646)<p> </li></ul>Konverter: <ul><li> <em>Unicode Characters to HTML Entities Converter</em> -- <A HREF="http://pioneer.stereo.lu/converter.html" class="external">http://pioneer.stereo.lu/converter.html</A> -- konvertiert Unicode-Zeichen in dezimale und hexadizmale HTML-Entities (von Shaun Moss, adaptiert von "ASCII to HEX to Unicode Converter" von Mike Golding)<p> </li></ul><p> <p> <p> <p> <p> <p> <p></div><br><div id=footer><table border=0><tr><td> <small>Dies ist ein Artikel aus der freien Enzyklopädie <a href="http://de.wikipedia.org">Wikipedia</a>. Stand: August 2004. Der Artikel steht unter der <a href="http://www.gnu.org/licenses/fdl.txt">GNU Free Documentation License</a>.</small></td></tr></table></div>