In Kapitel 3 werden die grafische Darstellung von Datensätzen und die zusammenfassende Beschreibung der Daten durch Lage- und Streuungskennwerte eingeführt. Diese Daten können als Stichprobe einer Grundgesamtheit verstanden werden. In diesem Kapitel werden Schlüsse aus einer Stichprobe für die zugehörige Grundgesamtheit gezogen. Insbesondere werden auf Basis einer Stichprobe Parameter der Grundgesamtheit geschätzt und der Bereich für zukünftige Werte prognostiziert.
Im Rahmen der Design For Six Sigma Methoden werden Mittelwert μ und Standardabweichung σ einer Verteilung auf Basis des Mittelwert und der Standardabweichung s der Stichprobe geschätzt. Der Stichprobenmittelwert ist der Schätzwert für den Mittelwert der Grundgesamtheit.
(5.1) |
In gleicher Weise wird die Stichprobenvarianz als Schätzwert für die Varianz der Grundgesamtheit verwendet.
(5.2) |
Tabelle 5.1 stellt den Zusammenhang zwischen Grundgesamtheit und Stichprobe tabellarisch zusammen.
Tabelle 5.1: Schätzung der Parameter einer Grundgesamtheit über eine Stichprobe
Charakteristik | Stichprobe | Grundgesamtheit |
Mittelwert |
![]() |
![]() |
Stichproben-Mittelwert ![]() |
||
Varianz |
![]() |
![]() |
Stichproben-Varianz s2 schätzt die Varianz der Grundgesamtheit σ2 |
Mit den geschätzten Parametern ergibt sich eine Verteilung der Grundgesamtheit. Bild 5.1 verbindet die als Stabdiagramm dargestellte Stichprobe und die geschätzte Wahrscheinlichkeitsdichte der Grundgesamtheit.
Bild 5.1: Stichprobe und auf Basis der Stichprobe geschätzte Wahrscheinlichkeitsdichte der Grundgesamtheit
Um die Problematik der beurteilenden Statistik zu verdeutlichen, wird eine Stichprobe aus einem Datensatz analysiert, der eine normalverteilte Grundgesamtheit mit einem Mittelwert von μ = 0 und einer Standardabweichung von σ = 0.5 aufweist. Bild 5.2 zeigt die relativen Häufigkeiten zweier Stichproben mit einem Umfang von jeweils 10 Werten.
Bild 5.2: Häufigkeitsverteilungen zweier unterschiedlicher Stichproben derselben Grundgesamtheit mit einem Stichprobenumfang von N = 10
Obwohl die beiden Stichproben mit dem Umfang von 10 Teilen aus derselben Grundgesamtheit stammen, weichen ihre Mittelwerte stark voneinander ab. Das Beispiel zeigt, dass der Mittelwert der Grundgesamtheit auf Basis einer Stichprobe nur geschätzt werden kann. Er hängt von der Auswahl der Stichprobenwerte ab. Der über eine Stichprobe geschätzte Mittelwert ist damit selber eine Zufallsgröße.
Um den Einfluss des Stichprobenumfangs zu hinterfragen, wird auf derselben Datenbasis der Stichprobenumfang in Schritten von N = 10, 100 und 1000 Werte erweitert. Das Ergebnis ist in Bild 5.3 dargestellt.
Bild 5.3: Häufigkeitsverteilungen von Stichproben derselben Grundgesamtheit mit einem Stichprobenumfang von N = 10, 100, 1000
Mit steigendem Stichprobenumfang nähert sich der Mittelwert der Stichprobe dem wahren Mittelwert μ = 0 an. Die Schätzung des Mittelwertes wird also mit wachsendem Stichprobenumfang genauer. Aus Genauigkeitsgründen erscheint es deshalb erstrebenswert, möglichst viele Stichprobenwerte zu analysieren. Allerdings sprechen finanzielle, zeitliche oder prinzipielle Gründe für einen geringen Stichprobenumfang. Damit stellt sich die Frage, wie groß der Stichprobenumfang für eine bestimmte Aufgabe sein muss. Diese Frage wird mit der Bestimmung von Konfidenzintervallen beantwortet.
Die Darstellung der Stichprobe mit wachsendem Stichprobenumfang in Bild 5.3 verdeutlicht aber noch eine zweite Fragestellung. Bei einem geringen Stichprobenumfang ist die zugrunde liegende Verteilung nicht erkennbar. Sie ist erst bei größeren Stichprobenumfängen zu erkennen. Eine weitere Aufgabenstellung widmet sich deshalb der Frage, wie sicher es sich bei der vorliegenden Stichprobe um eine bestimmte Verteilung handelt. Diese Frage wird in Kapitel 12 mithilfe des sogenannten Wahrscheinlichkeitsnetzes beantwortet. Die Darstellungen in diesem Kapitel beschränken sich auf normalverteilte Zufallsvariable.
In diesem Kapitel wird die Theorie der Stichprobenentnahme aus einer unendlichen Grundgesamtheit vorgestellt. Dabei wird davon ausgegangen, dass die Wahrscheinlichkeit eines Stichprobenwertes nicht von den anderen Stichprobenwerten beeinflusst wird. Das ist insbesondere für eine unendlich große Grundgesamtheit der Fall, woraus sich die Bezeichnung der Theorie ergibt. Praktisch gesehen wird diese Annahme aber auch dann erfüllt, wenn die Grundgesamtheit sehr viel größer ist als die Anzahl der Stichproben, sodass die Annahme in nahezu allen praktischen Fällen berechtigt ist.
Weiterhin werden bei den Herleitungen Rechenregeln für mehrere unabhängige Zufallsvariablen benötigt, die in Kapitel 8 ausführlich dargestellt sind. Um Fragestellungen für univariate Verteilungen abschließen zu können, wird die Berechnung von Konfidenzbereichen vorgezogen.