Teil C - Stochastische Signale > Beschreibende Statistik multivariater Daten > Definition des Korrelationskoeffizienten r einer Stichprobe > Korrelationskoeffizient r einer zweidimensionalen Stichprobe > 

Definition des Korrelationskoeffizienten r einer Stichprobe

In den Kapiteln 5 und 6 werden zwei- und mehrdimensionale Datensätze und Zufallsvariablen vorgestellt und beschrieben. Dabei wird die Kovarianz als Maß für den Zusammenhang zweier Zufallsgrößen diskutiert. Aufgrund einer fehlenden Normierung eignet sie sich jedoch wegen der fehlenden Normierung nur bedingt zur Interpretation der Abhängigkeit. Eine geeignete Normierung liefert der Korrelationskoeffizient.

Ist der Korrelationskoeffizient r der Grundgesamtheit unbekannt, kann er auf Basis einer Stichprobe geschätzt werden. Die Bewertung dieser Schätzung erfolgt über einen Konfidenzbereich oder mithilfe eines Hypothesentests. Beide Verfahren werden in diesem Kapitel vorgestellt.

Der Korrelationskoeffizient ist allgemein betrachtet ein Maß dafür, wie ähnlich sich die zu untersuchenden Datensätze oder Zufallsvariablen sind. Er beschreibt genau genommen den Grad der linearen Abhängigkeit. Die Daten oder Zufallsvariablen können dabei grundsätzlich kontinuierlich oder diskret sein.

Zunächst wird der Korrelationskoeffizient zweidimensionaler Stichproben definiert. Diese Definition wird anschließend auf m-dimensionale Zufallsvektoren erweitert.

Korrelationskoeffizient r einer zweidimensionalen Stichprobe

In Kapitel 5 Beschreibende Statistik multivariater Daten wird die Kovarianz als Maß für die Abhängigkeit zweier Zufallsgrößen eingeführt. Um die Skalierungsabhängigkeit zu eliminieren, muss die Kovarianz normiert werden. Eine geeignete Normierung bildet der Korrelationskoeffizient r.

(5.28)

Da die beiden Ausdrücke für die Standardabweichungen sx und sy im Nenner immer positiv sind, ist das Vorzeichen des Korrelationskoeffizienten dasselbe wie das der Kovarianz. Da die Reihenfolge der Faktoren in Zähler und Nenner beliebig ist, ist der Korrelationskoeffizient r unabhängig von der Reihenfolge der Stichprobengrößen.

(5.29)

Der Korrelationskoeffizient r stellt einen Schätzer für den Korrelationskoeffizienten ρ der Grundgesamtheit dar, der in Abschnitt 6.3 näher erläutert wird.