WEB LEXIKON: Ein Blick zurück
Hauptseite | Aktueller Wikipedia-Artikel

Hauptkomponentenanalyse



Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA)) ist eine Methode der multivariaten Verfahren in der Statistik. Sie ist verwandt mit der Faktorenanalyse.

Table of contents
1 Konzeption der Hauptkomponentenanalyse
2 Verfahren
3 Literatur

Konzeption der Hauptkomponentenanalyse

 
In diesem Verfahren versucht man, aus Daten mit vielen Eigenschaften einige wenige latente Faktoren zu extrahieren, die für diese Eigenschaften bestimmend sind. Da die Hauptkomponentenanalyse nicht ganz einfach ist, folgt zunächst ein

Beispiel

Betrachtet werden Artillerieschiffe des 2. Weltkriegs. Sie sind eingeteilt in die Klassen Schlachtschiffe, schwere Kreuzer, leichte Kreuzer und Zerstörer. Es liegen Daten für ca. 200 Schiffe vor. Es wurden die Merkmale Länge, Breite, Wasserverdrängung, Tiefgang, PS-Stärke, Knoten, Aktionsradius und Mannschaftsstärke erfasst. Eigentlich messen die Merkmale Länge, Breite, Wasserverdrängung und Tiefgang alle einen ähnlichen Sachverhalt. Man könnte hier also von einem Faktor „Größe“ sprechen. Die Frage ist, ob noch andere Faktoren die Daten bestimmen. Es gibt tatsächlich noch einen zweiten deutlichen Faktor, der vor allem durch PS-Zahl und Knoten bestimmt wird. Vielleicht könnte man ihn „Geschwindigkeit“ nennen.

Weitere Anwendungsbeispiele der Hauptkomponentenanalyse

Wendet man die Hauptkomponentenanalyse auf das Kaufverhalten von Konsumenten an, gibt es möglicherweise latente Faktoren wie sozialer Status, Alter oder Familienstand, die bestimmte Käufe motivieren. Hier könnte man durch gezielte Werbung die Kauflust entsprechend kanalisieren.

Hat man ein statistisches Modell mit sehr vielen Merkmalen, könnte mit Hilfe der Hauptkomponentenanalyse gegebenenfalls die Zahl der Variablen im Modell reduziert werden, was meistens die Modellqualität steigert.

Verfahren

Es soll zunächst vorausgeschickt werden, dass die Varianz von Daten ein Maß für ihren Informationsgehalt ist.

Die Daten liegen als n-dimensionale Punktwolke in einem n-dimensionalen kartesischen Koordinatensystem vor. Es wird nun ein neues Koordinatensystem in die Punktwolke gelegt, das Koordinatensystem wird rotiert. Die erste Achse soll so durch die Punktwolke gelegt werden, dass die Varianz der Daten in dieser Richtung maximal wird. Die zweite Achse steht auf der ersten Achse senkrecht. In ihrer Richtung ist die Varianz am zweitgrößten usw. Für die n-dimensionalen Daten gibt es also grundsätzlich n viele Achsen, die aufeinander senkrecht stehen, sie sind orthogonal. Die Gesamtvarianz der Daten ist die Summe dieser "Achsenvarianzen". Wird nun durch die ersten p (p Häufig können die Faktoren inhaltlich nicht interpretiert werden.

Statistisches Modell

Man betrachtet p viele Zufallsvariablen Xj, die bezüglich ihrer Erwartungswerte zentriert sind, d.h. ihre Erwartungswerte wurden von der Zufallsvariablen subtrahiert. Diese Zufallsvariablen werden in einem (px1)-Zufallsvektor x zusammengefasst. x hat als Erwartungswertvektor einen Nullvektor und die (pxp)-Kovarianzmatrix Σ, wobei Σ symmetrisch und positiv definit ist. Die Eigenwerte λj (j=1,...,p) der Matrix Σ sind absteigend der Größe nach geordnet. Sie werden als Diagonalelemente in der Diagonalmatrix Λ aufgeführt. Die zu ihnen gehörenden Eigenvektoren bilden die orthogonale Matrix Γ. Es gilt dann

Der Zufallsvektor x wird linear transformiert zu

.

Zur Verdeutlichung betrachten wir einen dreidimensionalen Zufallsvektor

.

Die Matrix der Eigenwerte ist

wobei λA > λB > λC ist.

Die (3x1)-Eigenvektoren γj lassen sich in der Matrix Γ zusammenfassen:

.

Die Multiplikation

ergibt die Gleichungen

.

Die Varianz von YAist

also hat die Hauptkomponente YA den größten Anteil an der Gesamtvarianz der Daten, YB den zweitgrößten Anteil usw. Die Elemente γjk (j=1,2,3; k = A,B,C) könnte man als Beitrag der Variablen Xj am Faktor k bezeichnen. Die Matrix Γ bezeichnet man in diesem Zusammenhang als Ladungsmatrix, sie gibt an, "wie hoch eine Variable X auf einen Faktor Y lädt".

Schätzung der Modellparameter

Liegen konkret erhobene Daten mit p Merkmalen vor, wird aus den Merkmalswerten die Stichproben-Korrelationsmatrix errechnet. Aus dieser Matrix bestimmt man dann die Eigenwerte und Eigenvektoren für die Hauptkomponentenanalyse.

Beispiel mit drei Variablen

Dieses obige Beispiel wird jetzt in Zahlen verdeutlicht:

Wir betrachten die Variablen Länge, Breite, Knoten. Die Streudiagramme geben einen Eindruck über die gemeinsame Verteilung der Variablen wieder.

 

Mit diesen drei Variablen wurde mit dem statistischen Programmpaket SPSS eine Hauptkomponentenanalyse durchgeführt. Die Ladungsmatrix Γ ist

Faktor A B C
Länge 0,862 0,481 -0,159
Breite 0,977 0,083 0,198
Knoten -0,679 0,730 0,082

Der Faktor yA setzt sich also zusammen aus

,

vor allem der Beitrag von Länge und Breite zum ersten Faktor ist groß. Beim zweiten Faktor ist vor allem der Beitrag von Knoten groß. Der dritte Faktor ist unklar und wohl auch unerheblich.

Die Gesamtvarianz der Daten verteilt sich wie folgt auf die Hauptkomponenten:

Faktor Eigenwert λj Prozent der Gesamtvarianz Prozentualer Anteil der
Kumulierten Varianz
an Gesamtvarianz
A 2,16 71,97 71,97
B 0,77 25,67 97,64
C 0,07 2,36 100,00

Es werden also durch die ersten zwei Hauptkomponenten bereits 97,64% der gesamten Varianz der Daten abgedeckt. Der dritte Faktor trägt nichts Nennenswertes zum Informationsgehalt bei.

Beispiel mit acht Variablen

Es wurden nun acht Merkmale der Artillerieschiffe einer Hauptkomponentenanalyse unterzogen. Die Tabelle der Ladungsmatrix zeigt, dass vor allem die Variablen Länge, Breite, Tiefgang, Wasserverdrängung und Mannschaftsstärke hoch auf die erste Hauptkomponente laden. Diese Komponente könnte man als "Größe" bezeichnen. Die zweite Komponente wird zum größten Teil durch PS und Knoten erklärt. Die könnte "Geschwindigkeit" genannt werden. Eine dritte Komponente lädt noch hoch auf Aktionsradius.

Die beiden ersten Faktoren decken bereits ca. 84% der Information der Schiffsdaten ab, der dritte Faktor erfasst noch einmal ca. 10%. Der zusätzliche Beitrag der restlichen Komponenten ist unerheblich.

Literatur




     
Das Web Lexikon "Ein Blick zurück" bietet die Moeglichkeit auf einfache Art und Weise in den "alten" Wikipedia-Beiträgen zu blättern. Das Lexikon spiegelt den Stand der freien Wikipedia-Enzyklopädie vom August 2004 wider. Sie finden hier in rund 120.000 Artikel aus dieser Zeit Informationen, Erklärungen, Definitionen, Empfehlungen, Beschreibungen, Auskünfte und Bilder. Ebenso kommen Begriffserklärung, Zusammenfassung, Theorie, Information, Beschreibung, Erklärung, Definition und Geschichte nicht zu kurz. Ein Lexikon das Auskunft, Bericht, Hinweis, Bedeutung, Bild, Aufklärung, Darstellung und Schilderung zu unterschiedlichsten Themen kompakt auf einer Seite bietet.
Impressum ^ nach oben ^