Clusteranalyse<meta http-equiv="Content-type" content="text/html; charset=utf-8"> <link rel="shortcut icon" href="../../favicon.ico"><link rel="stylesheet" href="../../wikistatic.css"></head> <body><div id=topbar><table width='98%' border=0><tr><td><a href="../../h/ha/hauptseite.html" title="Hauptseite">Hauptseite</a> | <b><a href="http://de.wikipedia.org/wiki/Clusteranalyse" title="Clusteranalyse">Aktueller Wikipedia-Artikel</a></b></td> <td align=right nowrap><form name=search class=inline method=get action="../../../search/search.html"><input name=search size=19><input type=submit value=Search></form></td></tr></table></div> <div id=article><h1>Clusteranalyse</h1>Unter <strong>Clusteranalyse</strong> versteht man verschiedene automatische Verfahren der <A HREF="../../d/da/datenanalyse.html" title="Datenanalyse">Datenanalyse</A> zur Ermittlung von Gruppen (Cluster) zusammengehöriger Objekte aus einer Grundmenge von numerisch beschriebenen Objekten. Die Objekte können beispielsweise <A HREF="../../d/da/datensatz.html" title="Datensatz">Datensätze</A> von Messwerten oder Bildpunkte sein, in denen geordnete Ansammlungen oder Hierarchien gefunden werden sollen. <p> Verfahren der Clusteranalyse lassen sich zur automatischen <A HREF="../../k/kl/klassifikation.html" title="Klassifikation">Klassifikation</A>, zur Erkennung von Mustern in der <A HREF="../../b/bi/bildverarbeitung.html" title="Bildverarbeitung">Bildverarbeitung</A> und zum <A HREF="../../d/da/data_mining.html" title="Data-Mining">Data-Mining</A> einsetzen.<p> <p><table border="0" id="toc"><tr><td align="center"> <b>Table of contents</b> <script type='text/javascript'>showTocToggle("show","hide")</script></td></tr><tr id='tocinside'><td align="left"> <div style="margin-left:2em;"> </div> </div> <A CLASS="internal" HREF="#Prinzip">1 Prinzip</A><BR> <A CLASS="internal" HREF="#Geschichte">2 Geschichte</A><BR> <A CLASS="internal" HREF="#Algorithmen">3 Algorithmen</A><BR> <div style="margin-left:2em;"> <A CLASS="internal" HREF="#k-means-Algorithmus">3.1 k-means-Algorithmus</A><BR> <A CLASS="internal" HREF="#Hierarchisches Clustern">3.2 Hierarchisches Clustern</A><BR> <div style="margin-left:2em;"> <A CLASS="internal" HREF="#Abstandsfunktionen von Clustern">3.2.1 Abstandsfunktionen von Clustern</A><BR> </div> <A CLASS="internal" HREF="#isodata">3.3 isodata</A><BR> <A CLASS="internal" HREF="#EM-Algorithmus">3.4 EM-Algorithmus</A><BR> <A CLASS="internal" HREF="#Fuzzy Clustering">3.5 Fuzzy Clustering</A><BR> <A CLASS="internal" HREF="#kth-Nearest Neighbor">3.6 kth-Nearest Neighbor</A><BR> <A CLASS="internal" HREF="#Graphentheoretische Cluster">3.7 Graphentheoretische Cluster</A><BR> <A CLASS="internal" HREF="#Self-Organizing Maps">3.8 Self-Organizing Maps</A><BR> </div> <A CLASS="internal" HREF="#Siehe auch">4 Siehe auch</A><BR> <A CLASS="internal" HREF="#Weblinks">5 Weblinks</A><BR> </td></tr></table><P> <A NAME="Prinzip"><H2>Prinzip</H2><p> Die zu untersuchenden Objekte werden bei der Clusteranalyse oft in Form von <A HREF="../../v/ve/vektor__mathematik_.html" title="Vektor (Mathematik)">Vektorenen</A> als Punkte in einem <A HREF="../../v/ve/vektorraum.html" title="Vektorraum">Vektorraum</A> zusammengefasst. Die Anzahl der Komponenten der Datenvektoren bildet die Dimension des Vektorraumes. Ein Cluster ist eine Anhäufung von Punkten mit geringerem Abstand zu Punkten des gleichen Clusters als zu Nachbarn anderer Cluster bzw. eine Gruppen von Punkten, die untereinander oder in Bezug auf einen berechneten <A HREF="../../s/sc/schwerpunkt.html" title="Schwerpunkt">Schwerpunkt</A> eine minimale Abstandssumme haben. Dazu ist die Wahl eines Distanzmaßes erforderlich. In anderen Fällen sind die Abstände (bzw. umgekehrt die <A HREF="../../d/di/distanzfunktion.html" title="Distanzfunktion">Ähnlichkeiten</A>) der Objekte untereinander direkt bekannt und müssen nicht aus der Darstellung im Vektorraum ermittelt werden.<p> <A NAME="Geschichte"><H2>Geschichte</H2><p> Historisch gesehen stammt das Verfahren aus der <A HREF="../../t/ta/taxonomie.html" title="Taxonomie">Taxonomie</A> in der <A HREF="../../b/bi/biologie.html" title="Biologie">Biologie</A>, wo über eine Clusterung von verwandten Arten eine Ordnung der Lebewesen ermittelt wird - allerdings wurden dort ursprünglich keine automatischen Berechnungsverfahre eingesetzt. Inzwischen können zur Bestimmung der Verwandtschaft von Organismus unter anderem ihre Gensequenzen verglichen werden.<p> <em>Siehe auch</em>: <A HREF="../../k/kl/kladistik.html" title="Kladistik">Kladistik</A><p> <A NAME="Algorithmen"><H2>Algorithmen</H2><p> Daten-clustering <A HREF="../../a/al/algorithmus.html" title="Algorithmus">Algorithmen</A> können hierarchisch oder partitionierend sein, wobei man erstere noch in agglomerierende (<em>bottom-up</em>) oder unterteilende (<em>top-down</em>) Algorithmen unterteilt. Weiterhin unterscheidet man zwischen überwachten (<em>supervised</em>) und nicht-überwachten (<em>unsupervised</em>) Algorithmen.<p> Je nach Algorithmus muss eine <A HREF="../../d/di/distanzfunktion.html" title="Distanzfunktion">Distanzfunktion</A> zur Bestimmung des Abstands zweier Elemente (, zum Beispiel die <A HREF="../../e/eu/euklidischer_abstand.html" title="Euklidischer Abstand">euklidische Distanz</A>) und/oder eine Methode zur Berechnung des Mittelpunktes oder Centroiden eines Clusters (, zum Beispiel der <A HREF="../../m/mi/mittelwert.html" title="Mittelwert">Mittelwert</A>) bekannt sein. Anstatt einer Distanzfunktion arbeiten einige Algorithmen auch mit einer Ähnlichkeitsfunktion.<p> <A NAME="k-means-Algorithmus"><H3>k-means-Algorithmus</H3><p> Beim k-means Algorithmus ist eine gewünschte Anzahl von Clustern und eine Funktion zur Bestimmung des Mittelpunktes eines Clusters bekannt. Der Algorithmus läuft folgendermaßen ab:<p> <ol><li> (Initialisierung) (Zufällige) Auswahl von k Clusterzentren </li><li> (Zuordnung) Jedes Objekt wird dem ihm am nächsten liegenden Clusterzentrum zugeordnet </li><li> (Neuberechnung) Es werden für jedes Cluster die Clusterzentren neu berechnet </li><li> (Wiederholung) Falls sich nun die Zuordnung der Objekte ändert, weiter mit Schritt 2, ansonsten Abbruch<p> </li></ol><A NAME="Hierarchisches Clustern"><H3>Hierarchisches Clustern</H3><p> Die bei der <strong>hierarchischen Clusterung</strong> entstehende <A HREF="../../h/hi/hierarchie.html" title="Hierarchie">Baumstruktur</A> wird in der Regel mit einem Dendrogram visualisiert. Grundsätzlich lassen sich anhäufende Verfahren (<em>agglomerative clustering</em>) und teilende Verfahren (<em>divisive clustering</em>) unterscheiden. Bei den anhäufenden Verfahren, die in der Praxis häufiger eingesetzt werden, werden schrittweise einzelne Objekte zu Clustern und diese zu größeren Gruppen zusammengefasst, während bei den teilenden Verfahren größere Gruppen schrittweise immer feiner unterteilt werden. <p> Beim anhäufenden Clustern wird zunächst jedes Objekt als ein eigener Cluster mit einem Element aufgefasst. Nun werden in jedem Schritt die jeweils einander nächsten Cluster zu einem Cluster zusammengefasst. Das Verfahren kann beendet werden, wenn alle Cluster eine bestimmte Distanz zueinander überschreiten oder wenn eine genügend kleine Zahl von Clustern ermittelt worden ist. Aus verschiedenen Methoden zur Bestimmung des Abstands zweier Cluster ergeben sich verschiedene Verfahren. Dabei muss eine <A HREF="../../d/di/distanzfunktion.html" title="Distanzfunktion">Distanzfunktion</A> für den Abstand zwei einzelner Elemente gegeben sein. <p> <A NAME="Abstandsfunktionen von Clustern"><H4>Abstandsfunktionen von Clustern</H4><p> Für den Abstand zweier Cluster und lassen sich unter Anderem folgende Abstände verwenden:<p> <ul><li> Der minimale Abstand zweier Elemente aus den beiden Clustern (<em>single linkage clustering</em>)<br/> </li><li> Der maximale Abstand zweier Elemente aus den beiden Clustern (<em>complete linkage clustering</em>)<br/> </li><li> Der durchschnittliche Abstand aller Elementpaare aus den beiden Clustern (<em>average linkage clustering</em>)<br/> </li><li> Die durchschnittliche Abstand aller Elementpaare aus der Vereinigung von A und B(<em>average group linkage</em>)<br/> </li><li> Der Abstand der Mittelwerte der beiden Cluster (<em>centroid method</em>)<br/> </li><li> Die Zunahme der Varianz beim Vereinigen von A und B (<em>Ward's method</em>)<br/><p> </li></ul> <em>Weitere Methoden</em>: Density Linkage, Uniform-Kernel, Wong's Hybrid, EML, Flexible-Beta, McQuitty's Similarity Analysis, Median,<p> <A NAME="isodata"><H3>isodata</H3><p> <A NAME="EM-Algorithmus"><H3>EM-Algorithmus</H3><p> <A NAME="Fuzzy Clustering"><H3>Fuzzy Clustering</H3><p> <A NAME="kth-Nearest Neighbor"><H3>kth-Nearest Neighbor</H3><p> <A NAME="Graphentheoretische Cluster"><H3>Graphentheoretische Cluster</H3><p> Zwei Exterme bei der Clusterung in Netzwerken bilden die Einteilung in Zusammenhangskomponenten (Single Link) und in <A HREF="../../c/cl/cliquen_und_stabile_mengen.html" title="Cliquen und stabile Mengen">Cliquen</A>.<p> <A NAME="Self-Organizing Maps"><H3>Self-Organizing Maps</H3> Eine andere Möglichkeit unüberwachten Lernens bieten <A HREF="../../s/se/self_organizing_maps.html" title="Self-Organizing Maps">Self-Organizing Maps</A>.<p> <A NAME="Siehe auch"><H2>Siehe auch</H2> <A HREF="../../k/ka/ka_nstliche_intelligenz.html" title="Künstliche Intelligenz">Künstliche Intelligenz</A>, <A HREF="../../s/st/statistik.html" title="Statistik">Statistik</A>, <A HREF="../../i/in/information_retrieval_1.html" title="Information-Retrieval">Information-Retrieval</A>, <A HREF="../../c/cl/clusterkoeffizient.html" title="Clusterkoeffizient">Clusterkoeffizient</A><p> <A NAME="Weblinks"><H2>Weblinks</H2> <ul><li> <A HREF="http://www.fuzzy-clustering.de/<p></li></ul>" class="external">http://www.fuzzy-clustering.de/<p></li></ul></A></div><br><div id=footer><table border=0><tr><td> <small>Dies ist ein Artikel aus der freien Enzyklopädie <a href="http://de.wikipedia.org">Wikipedia</a>. Stand: August 2004. Der Artikel steht unter der <a href="http://www.gnu.org/licenses/fdl.txt">GNU Free Documentation License</a>.</small></td></tr></table></div>