Die Streuungsungleichung

Die Stochastik ist eine mathematische Theorie. Wird sie als Modell für Sachverhalte außerhalb der Mathematik benutzt, so muss sie sich in Zufallsexperimenten bewähren. Die Beziehung zwischen dem mathematischen Modell und den Anwendungen ist hier ähnlich wie bei den mathematischen Modellen zur Physik.
Sucht man nun nach Experimenten zur Überprüfung des mathematischen Modells ´Stochastik`, so kann man sich auf allgemeine Lebenserfahrung stützen, die etwa so formuliert werden kann:
Manche Experimente sehen wir als Zufallsexperimente an. Das Werfen von Würfeln oder das Ziehen mit Rücklegen aus einer Urne gehören dazu. Bei den hier angegebenen Zufallsexperimenten stellt man fest, dass sich die relative Häufigkeit für das Würfeln einer bestimmten Augenzahl oder das Ziehen einer bestimmten Kugel mit wachsender Versuchszahl bei festen Werten stabilisiert. Z.B. stabilisiert sich die relative Häufigkeit für "Sechsen" bei 1/6. In der Sprache des mathematischen Modells ´Stochastik` formuliert man das so:

Ist die Zufallsvariable X bernoulliverteilt, so stabilisieren sich die Realisierungen x/n der Zufallsvariablen X/n für große n bei der Grundwahrscheinlichkeit p. Überprüfen kann man das aber nicht, da diese Grundwahrscheinlichkeit p i.a. (oder immer ?) nicht mit mathematischer Sicherheit bekannt ist.
Man kann eigentlich nur sagen, dass sich die relative Häufigkeit erfahrungsgemäß stabilisiert und dass dieser Stabilisierungswert bei Bernoulliversuchen die Grundwahrscheinlichkeit p sein könnte.


1. Ansatz

zur Präzisierung der Aussage, dass sich die relative Häufigkeit mit wachsendem Stichprobenumfang n bei p stabilisiert. Die Formulierung erinnert an die bekannte Grenzwertdefinition für Folgen. Also überprüft man, ob die relative Häufigkeit als Grenzwert p hat. Es muss geprüft werden, ob gilt

Für jedes vorgegebene ε > 0 gibt es ein n 0 , so dass für alle n > n0 gilt I x/n - p I < ε .
Mit Quantoren wird das kompakter:



Von einem bestimmten Stichprobenumfang n 0 an müssten dann alle relativen Häufigkeiten x/n von p einen kleineren Abstand als ε haben. Das widerspricht aber der Annahme, dass es sich um zufällige Ereignisse handelt. An einem Beispiel, das leicht für den allgemeinen Fall umformuliert werden kann, soll das gezeigt werden.

Untersucht wird die relative Häufigkeit für das Werfen einer "Sechs" mit dem Würfel. Sei ε = 0,01 Bei n 0 = 12000 soll x0/n0 überhaupt nicht von p=1/6 abweichen. Also ist x0 = 2000 (2000/12000=1/6). Nun wird gezeigt, dass trotz dieser minimalen Abweichung der relativen Häufigkeit x0/n0 von p dennoch erreicht werden kann, dass bei einer größeren Stichprobe der vorgegebene Fehler ε =0,01 überschritten wird. Dazu wird angenommen, dass bei den nächsten 12000 Versuchen stets "Sechsen" gewürfelt werden, (die Wahrscheinlichkeit dafür ist (1/6) 12000 , also sicher größer als Null). Dann gilt aber



Durch Annahme solcher speziellen Ergebnisfolgen kann man stets zeigen, dass mit einer Wahrscheinlichkeit >0 der vorgegebene Abstand von ε überschritten werden kann. Damit gilt nicht sicher, dass alle relativen Häufigkeiten in der vorgegebenen Umgebung von p liegen, also hat x/n nicht den Grenzwert p.



2. Ansatz
zur Präzisierung von ´Stabilisierung von x/n bei p`.

Als Voraussetzungen werden die folgenden Ergebnisse der Stochastik benötigt:
Hat X eine Bernoulliverteilung mit n und p, so ist μ = np und σ2 =np(1-p).

Beim Ansatz für den Grenzwert wurde der Abstand der relativen Häufigkeit von p betrachtet. Nun soll die Wahrscheinlichkeit untersucht werden, dass dieser Abstand < ε ist:



Die Wahrscheinlichkeit für das Abweichen der relativen Häufigkeit ist umgeformt worden zur einer Wahrscheinlichkeit für die Realisierung x einer Bernoulliverteilung. Für diese Wahrscheinlichkeit gilt

,

denn es müssen alle Wahrscheinlichkeiten P(xi) addiert werden, die die Ungleichung (xi - μ)2> n2ε 2 erfüllen. Diese Summe von Wahrscheinlichkeiten wird nun etwas trickreich umgeformt



Da für alle xi unter dem Summenzeichen gilt (xi - μ )2 > n2 ε2 , kann der letzte Summenterm abgeschätzt werden

.

Die letzte Summe ist nur eine Teilsumme für die Streuung σ2 , also ist diese Summe < σ2 . Damit gilt

.

Mit dem ersten und dem letzten Term der Ungleichungskette ergibt sich schließlich



Dieses ist die Streuungsungleichung. Sie liefert eine befriedigende Erklärung für die Art der ´Stabilisierung` der relativen Häufigkeit. Um das deutlich herauszuarbeiten, wird eine weitere Abschätzung vorgenommen.

Es gilt , denn als Funktionsterm betrachtet, erkennt man sofort, dass die zu p(1-p) gehörende Parabel ihren Scheitelpunkt in (0,5/0,25) hat. Wird die Streuung durch n/4 ersetzt, so hat die Streuungsungleichung eine aussagekräftige und transparente Form gefunden



Mit dem Gegenereignis ergibt sich die Formulierung



Umgangssprachlich bedeutet das:
Wenn n genügend groß wird, ist die Wahrscheinlichkeit fast 1, dass die relative Häufigkeit x/n vom (unbekannten oder bekannten) p um weniger als ε abweicht. Also ist der Schätzwert x/n für goße n mit großer Wahrscheinlichkeit eine gute Näherung für p.

Mathematisch lässt sich das knapp und korrekt in der folgenden Form angeben

.

Also ist der Grenzwert der Wahrscheinlichkeit 1 , dass ist, wenn n gegen unendlich geht

Diese Aussage gilt für alle ε >0 und für beliebige p. Man kann ein unbekanntes p also stets mit x/n schätzen und die Eigenschaften dieser Schätzung werden durch die Streuungsungleichung angegeben.