Aus dem Kurs: Statistik-Grundlagen 3: Zufallsvariablen und Wahrscheinlichkeitsverteilungen

Varianz berechnen

Im Folgenden gehe ich auf die Varianz ein. Die Varianz ist eine Kennzahl für die Streuung von Datenpunkten um die mittlere Lage einer Verteilung. Die mittlere Lage einer Verteilung kann z.B. charakterisiert werden durch den Erwartungswert oder den Median und je mehr die Daten um diese mittlere Lage streuen, desto höher ist die Varianz. Somit charakterisiert die Varianz eine Wahrscheinlichkeitsverteilung und sie ist ein Streuungsparameter. Andere Streuungsparameter sind z.B. die Standardabweichung oder der Variationskoeffizient, wenn man rund um den Erwartungswert dieses Streuungsmaß bildet, oder wenn man den Median als mittlere Lage betrachtet, dann z.B. der Quantilsabstand oder der Interquartilsabstand oder auch der Median der absoluten Abweichungen. Wie wird die Varianz berechnet? Die Varianz berechnet sich als gewichtete Summe der Abweichungsquadrate vom Erwartungswert. Was bedeutet das? Man zieht von x den Erwartungswert ab, quadriert es, deswegen die Abweichungsquadrate, und die gewichtete Summe bedeutet, man bildet darüber wieder den Erwartungswert. Bei diskreten Werten ist es die Summe von xi von jedem Wert minus My, das ist der Erwartungswert über alle Werte, quadriert und dann mal pi, mal die Wahrscheinlichkeit von dem Eintreten von xi. Betrachten wir als Beispiel den einfachen Würfelwurf. Dort haben wir ermittelt, dass der Erwartungswert My = 3,5 ist. Die Varianz berechnen sich also über die Summe von xi minus My zum Quadrat mal die Eintrittswahrscheinlichkeit von jedem einzelnen Wurf. Bedeutet: Wir setzen für x1 = 1 ein, ziehen davon 3,5 für den Erwartungswert ab, quadrieren und nehmen das mal die Wahrscheinlichkeit, dass der Würfel 1 zeigt, plus 2 minus 3,5 zum Quadrat mal die Wahrscheinlichkeit, dass der Würfel 2 zeigt usw. Da die Wahrscheinlichkeit bei einem fairen Würfel jeweils 1/6 ist, können wir die Wahrscheinlichkeit ausklammern und erhalten dann die einzelnen Zahlen zum Quadrat und es kommt eine Varianz von 2,91 raus. Die Varianz hat unterschiedliche Schreibweisen. Häufige Schreibweisen sind Var(x) oder V(x) oder Sigma Quadrat von x oder man setzt das x in den Index und hat dann Sigma Quadrat Index x. Die Standardabweichung, auch ein Streuungsmaß, ist die Wurzel der Varianz. Man hat bei der Varianz ja die einzelnen Differenzen quadriert, also xi minus My zum Quadrat. Die Folge ist, dass man dann für die Varianz eine quadratische Einheit hat. Also, wenn X die Körpergröße misst, ist die Varianz in Meter Quadrat. Um dieselbe Einheit zu haben, kann man z.B. die Standardabweichung bilden, weil dann hat man wieder Meter und man kann es auch leicht z.B. mit dem Erwartungswert vergleichen. Abschließend gilt es noch zu sagen, dass die Varianz auch in unserem Sprachgebrauch Eingang gefunden hat, z.B. "dies oder jenes weist eine hohe Varianz auf", und manchmal ist damit sogar die hier beschriebene mathematische Definition gemeint.

Inhalt