Hauptkomponentenanalyse<meta http-equiv="Content-type" content="text/html; charset=utf-8"> <link rel="shortcut icon" href="../../favicon.ico"><link rel="stylesheet" href="../../wikistatic.css"></head> <body><div id=topbar><table width='98%' border=0><tr><td><a href="../../h/ha/hauptseite.html" title="Hauptseite">Hauptseite</a> | <b><a href="http://de.wikipedia.org/wiki/Hauptkomponentenanalyse" title="Hauptkomponentenanalyse">Aktueller Wikipedia-Artikel</a></b></td> <td align=right nowrap><form name=search class=inline method=get action="../../../search/search.html"><input name=search size=19><input type=submit value=Search></form></td></tr></table></div> <div id=article><h1>Hauptkomponentenanalyse</h1>Die <strong>Hauptkomponentenanalyse</strong> (englisch: <strong>Principal Component Analysis</strong> (PCA)) ist eine Methode der <A HREF="../../m/mu/multivariate_verfahren.html" title="Multivariate Verfahren">multivariaten Verfahren</A> in der Statistik. Sie ist verwandt mit der <A HREF="../../f/fa/faktorenanalyse.html" title="Faktorenanalyse">Faktorenanalyse</A>. <p> <p><table border="0" id="toc"><tr><td align="center"> <b>Table of contents</b> <script type='text/javascript'>showTocToggle("show","hide")</script></td></tr><tr id='tocinside'><td align="left"> <div style="margin-left:2em;"> </div> </div> <A CLASS="internal" HREF="#Konzeption der Hauptkomponentenanalyse">1 Konzeption der Hauptkomponentenanalyse</A><BR> <div style="margin-left:2em;"> <A CLASS="internal" HREF="#Beispiel">1.1 Beispiel</A><BR> <A CLASS="internal" HREF="#Weitere Anwendungsbeispiele der Hauptkomponentenanalyse">1.2 Weitere Anwendungsbeispiele der Hauptkomponentenanalyse</A><BR> </div> <A CLASS="internal" HREF="#Verfahren">2 Verfahren</A><BR> <div style="margin-left:2em;"> <A CLASS="internal" HREF="#Statistisches Modell">2.3 Statistisches Modell</A><BR> <A CLASS="internal" HREF="#Schätzung der Modellparameter">2.4 Schätzung der Modellparameter</A><BR> <A CLASS="internal" HREF="#Beispiel mit drei Variablen">2.5 Beispiel mit drei Variablen</A><BR> <A CLASS="internal" HREF="#Beispiel mit acht Variablen">2.6 Beispiel mit acht Variablen</A><BR> </div> <A CLASS="internal" HREF="#Literatur">3 Literatur</A><BR> </td></tr></table><P> <A NAME="Konzeption der Hauptkomponentenanalyse"><H2>Konzeption der Hauptkomponentenanalyse</H2> <pre> </pre>In diesem Verfahren versucht man, aus Daten mit vielen Eigenschaften einige wenige latente Faktoren zu extrahieren, die für diese Eigenschaften bestimmend sind. Da die Hauptkomponentenanalyse nicht ganz einfach ist, folgt zunächst ein<p> <A NAME="Beispiel"><H3>Beispiel</H3><p> Betrachtet werden Artillerieschiffe des 2. Weltkriegs. Sie sind eingeteilt in die Klassen Schlachtschiffe, <A HREF="../../s/sc/schwerer_kreuzer.html" title="Schwerer Kreuzer">schwere Kreuzer</A>, <A HREF="../../l/le/leichter_kreuzer.html" title="Leichter Kreuzer">leichte Kreuzer</A> und <A HREF="../../z/ze/zersta_rer.html" title="Zerstörer">Zerstörer</A>. Es liegen Daten für ca. 200 Schiffe vor. Es wurden die Merkmale Länge, Breite, <A HREF="../../s/sc/schiffsmaa_.html" title="Schiffsmaß">Wasserverdrängung</A>, <A HREF="../../t/ti/tiefgang.html" title="Tiefgang">Tiefgang</A>, <A HREF="../../p/pf/pferdesta_rke.html" title="Pferdestärke">PS</A>-Stärke, <A HREF="../../k/kn/knoten__geschwindigkeit_.html" title="Knoten (Geschwindigkeit)">Knoten</A>, <A HREF="../../a/ak/aktionsradius.html" title="Aktionsradius">Aktionsradius</A> und Mannschaftsstärke erfasst. Eigentlich messen die Merkmale Länge, Breite, Wasserverdrängung und Tiefgang alle einen ähnlichen Sachverhalt. Man könnte hier also von einem Faktor „Größe“ sprechen. Die Frage ist, ob noch andere Faktoren die Daten bestimmen. Es gibt tatsächlich noch einen zweiten deutlichen Faktor, der vor allem durch PS-Zahl und Knoten bestimmt wird. Vielleicht könnte man ihn „Geschwindigkeit“ nennen.<p> <A NAME="Weitere Anwendungsbeispiele der Hauptkomponentenanalyse"><H3>Weitere Anwendungsbeispiele der Hauptkomponentenanalyse</H3><p> Wendet man die Hauptkomponentenanalyse auf das Kaufverhalten von Konsumenten an, gibt es möglicherweise latente Faktoren wie sozialer Status, Alter oder Familienstand, die bestimmte Käufe motivieren. Hier könnte man durch gezielte Werbung die Kauflust entsprechend kanalisieren.<p> Hat man ein statistisches Modell mit sehr vielen Merkmalen, könnte mit Hilfe der Hauptkomponentenanalyse gegebenenfalls die Zahl der Variablen im Modell reduziert werden, was meistens die Modellqualität steigert.<p> <A NAME="Verfahren"><H2>Verfahren</H2><p> Es soll zunächst vorausgeschickt werden, dass die <A HREF="../../v/va/varianz.html" title="Varianz">Varianz</A> von Daten ein Maß für ihren Informationsgehalt ist. <p> Die Daten liegen als n-dimensionale Punktwolke in einem n-dimensionalen kartesischen <A HREF="../../k/ko/koordinatensystem.html" title="Koordinatensystem">Koordinatensystem</A> vor. Es wird nun ein neues Koordinatensystem in die Punktwolke gelegt, das Koordinatensystem wird rotiert. Die erste Achse soll so durch die Punktwolke gelegt werden, dass die Varianz der Daten in dieser Richtung maximal wird. Die zweite Achse steht auf der ersten Achse senkrecht. In ihrer Richtung ist die Varianz am zweitgrößten usw. Für die n-dimensionalen Daten gibt es also grundsätzlich n viele Achsen, die aufeinander senkrecht stehen, sie sind <A HREF="../../o/or/orthogonal.html" title="Orthogonal">orthogonal</A>. Die Gesamtvarianz der Daten ist die Summe dieser "Achsenvarianzen". Wird nun durch die ersten p (p<n) Achsen der größte Prozentsatz der Gesamtvarianz abgedeckt, erscheinen die Faktoren, die durch die neuen Achsen repräsentiert werden, ausreichend für den Informationsgehalt der Daten. <p> Häufig können die Faktoren inhaltlich nicht interpretiert werden.<p> <A NAME="Statistisches Modell"><H3>Statistisches Modell</H3><p> Man betrachtet p viele Zufallsvariablen X<sub>j</sub>, die bezüglich ihrer Erwartungswerte zentriert sind, d.h. ihre Erwartungswerte wurden von der Zufallsvariablen subtrahiert. Diese Zufallsvariablen werden in einem (px1)-Zufallsvektor <u>x</u> zusammengefasst. <u>x</u> hat als Erwartungswertvektor einen Nullvektor und die (pxp)-<A HREF="../../m/mu/multivariate_verteilung.html" title="Multivariate Verteilung">Kovarianzmatrix</A> <u>Σ</u>, wobei <u>Σ</u> <A HREF="../../s/sy/symmetrie.html" title="Symmetrie">symmetrisch</A> und positiv definit ist. Die Eigenwerte λ<sub>j</sub> (j=1,...,p) der <A HREF="../../m/ma/matrix__mathematik_.html" title="Matrix (Mathematik)">Matrix</A> <u>Σ</u> sind absteigend der Größe nach geordnet. Sie werden als Diagonalelemente in der <A HREF="../../d/di/diagonalmatrix.html" title="Diagonalmatrix">Diagonalmatrix</A> <u>Λ</u> aufgeführt. Die zu ihnen gehörenden Eigenvektoren bilden die orthogonale Matrix <u>Γ</u>. Es gilt dann<p> <p> Der Zufallsvektor <u>x</u> wird <A HREF="../../a/af/affine_abbildung.html" title="Affine Abbildung">linear transformiert</A> zu<p> .<p> Zur Verdeutlichung betrachten wir einen dreidimensionalen Zufallsvektor<p> <dl><dd>.<p> </dd></dl>Die Matrix der Eigenwerte ist <p> <dl><dd> <p> </dd></dl>wobei λ<sub>A</sub> > λ<sub>B</sub> > λ<sub>C</sub> ist.<p> Die (3x1)-Eigenvektoren <u>γ<sub>j</sub></u> lassen sich in der Matrix <u>Γ</u> zusammenfassen:<p> <dl><dd>.<p> </dd></dl>Die Multiplikation<p> <dl><dd><p> </dd></dl>ergibt die Gleichungen<p> <dl><dd> </dd><dd> </dd><dd>.<p> </dd></dl>Die Varianz von Y<sub>A</sub>ist <p> <dl><dd><p> </dd></dl>also hat die Hauptkomponente Y<sub>A</sub> den größten Anteil an der Gesamtvarianz der Daten, Y<sub>B</sub> den zweitgrößten Anteil usw. Die Elemente γ<sub>jk</sub> (j=1,2,3; k = A,B,C) könnte man als Beitrag der Variablen X<sub>j</sub> am Faktor k bezeichnen. Die Matrix <u>Γ</u> bezeichnet man in diesem Zusammenhang als Ladungsmatrix, sie gibt an, "wie hoch eine Variable X auf einen Faktor Y lädt".<p> <A NAME="Schätzung der Modellparameter"><H3>Schätzung der Modellparameter</H3><p> Liegen konkret erhobene Daten mit p Merkmalen vor, wird aus den Merkmalswerten die <A HREF="../../m/mu/multivariate_verteilung.html" title="Multivariate Verteilung">Stichproben-Korrelationsmatrix</A> errechnet. Aus dieser Matrix bestimmt man dann die Eigenwerte und Eigenvektoren für die Hauptkomponentenanalyse. <pre> </pre><A NAME="Beispiel mit drei Variablen"><H3>Beispiel mit drei Variablen</H3><p> Dieses obige Beispiel wird jetzt in Zahlen verdeutlicht:<p> Wir betrachten die Variablen Länge, Breite, Knoten. Die Streudiagramme geben einen Eindruck über die gemeinsame Verteilung der Variablen wieder.<p> <pre> <p> </pre>Mit diesen drei Variablen wurde mit dem statistischen Programmpaket SPSS eine Hauptkomponentenanalyse durchgeführt. Die Ladungsmatrix Γ ist <p> <center> <table border=3 ><tr> <td ><strong>Faktor</strong> </td><td ><strong>A</strong> </td><td ><strong>B</strong> </td><td ><strong>C</strong> </td></tr><tr > <td ><strong>Länge</strong> </td><td >0,862 </td><td >0,481 </td><td > -0,159 </td></tr><tr > <td ><strong>Breite</strong> </td><td >0,977 </td><td >0,083 </td><td >0,198 </td></tr><tr > <td ><strong>Knoten</strong> </td><td > -0,679 </td><td >0,730 </td><td >0,082 </td></tr></table> </center><p> Der Faktor y<sub>A</sub> setzt sich also zusammen aus<p> <dl><dd>,<p> </dd></dl>vor allem der Beitrag von Länge und Breite zum ersten Faktor ist groß. Beim zweiten Faktor ist vor allem der Beitrag von Knoten groß. Der dritte Faktor ist unklar und wohl auch unerheblich.<p> Die Gesamtvarianz der Daten verteilt sich wie folgt auf die Hauptkomponenten:<p> <center> <table border=3 ><tr> <td ><strong>Faktor</strong> </td><td ><strong>Eigenwert λ<sub>j</sub></strong> </td><td ><strong>Prozent der Gesamtvarianz</strong> </td><td ><strong>Prozentualer Anteil der <br>Kumulierten Varianz <br>an Gesamtvarianz</strong> </td></tr><tr > <td ><strong>A</strong> </td><td >2,16 </td><td >71,97 </td><td >71,97 </td></tr><tr > <td ><strong>B</strong> </td><td >0,77 </td><td >25,67 </td><td >97,64 </td></tr><tr > <td ><strong>C</strong> </td><td >0,07 </td><td >2,36 </td><td >100,00 </td></tr></table> </center><p> Es werden also durch die ersten zwei Hauptkomponenten bereits 97,64% der gesamten Varianz der Daten abgedeckt. Der dritte Faktor trägt nichts Nennenswertes zum Informationsgehalt bei.<p> <A NAME="Beispiel mit acht Variablen"><H3>Beispiel mit acht Variablen</H3><p> Es wurden nun acht Merkmale der Artillerieschiffe einer Hauptkomponentenanalyse unterzogen. Die Tabelle der Ladungsmatrix zeigt, dass vor allem die Variablen Länge, Breite, Tiefgang, Wasserverdrängung und Mannschaftsstärke hoch auf die erste Hauptkomponente laden. Diese Komponente könnte man als "Größe" bezeichnen. Die zweite Komponente wird zum größten Teil durch PS und Knoten erklärt. Die könnte "Geschwindigkeit" genannt werden. Eine dritte Komponente lädt noch hoch auf Aktionsradius.<p> Die beiden ersten Faktoren decken bereits ca. 84% der Information der Schiffsdaten ab, der dritte Faktor erfasst noch einmal ca. 10%. Der zusätzliche Beitrag der restlichen Komponenten ist unerheblich.<p> <p> <A NAME="Literatur"><H2>Literatur</H2> <ul><li>Mardia, KV, Kent, JT, und Bibby, JM: <em>Multivariate Analysis</em>, New York 1979 </li><li>Fahrmeir, Ludwig, Hamerle, Alfred, Tutz, Gerhard (Hrsg): <em>Multivariate statistische Verfahren</em>, New York 1996 </li><li>Hartung, Joachim, Elpelt, Bärbel: <em>Multivariate Statistik</em>, München, Wien 1999<p></li></ul></div><br><div id=footer><table border=0><tr><td> <small>Dies ist ein Artikel aus der freien Enzyklopädie <a href="http://de.wikipedia.org">Wikipedia</a>. Stand: August 2004. Der Artikel steht unter der <a href="http://www.gnu.org/licenses/fdl.txt">GNU Free Documentation License</a>.</small></td></tr></table></div>