Fachbeitrag «Statistik»

Theorie zu Statistik mit Praxisbeispielen in Excel

1. Begriffe der Statistik

1.1 Messwerte, Ergebnis, Zufallsvariable

  • Messwerte (Measured Values): gemessene, beobachtete oder abgelesene Werte. Es handelt sich
    um die Quantität, welche erhoben wird. (Grösse in m)
  • Ergebnis (Result): Ergebnis einer Analyse nach der Durchführung der Messung und aller nachfolgender
    Auswertungsschritte. (Durchschnittsgrösse)
  • Zufallsvariable (Variate): numerischer Wert eines Messwertes oder eines Ergebnisses. Merkmal,
    dessen konkrete Ausprägungen sich von Untersuchungsobjekt zu Untersuchungsobjekt unterscheiden.
    (XY: 1.82 m)

Im Einzelnen können diese annehmen:

  • Ganz bestimmte diskrete Werte (Würfelspiel, Anzeige einer Digitaluhr)
  • innerhalb eines definierten begrenzten Bereiches kontinuierlich jeden beliebigen Zwischenwert
    (Zeiger einer analogen Uhr)
  • schwankend um einen bestimmten Wert herum jeden beliebigen Wert, wobei die Wahrscheinlichkeit
    mit Zunahme der Entfernung immer geringer wird, theoretisch aber nicht den Wert 0 annimmt
    (Ablesen eines analogen Messinstrumentes)

1.2 Grundgesamtheit, Stichprobe, Messwert

  • Jede Zufallsvariable gehört zu einer unendlich großen Menge möglicher Zufallsvariablen. Diese wird als Grundgesamtheit (Population) bezeichnet.
  • Eine begrenzte Menge aus dieser wird Stichprobe (Series) genannt.
  • Das Auftreten einer Zufallsvariablen lässt sich durch eine bestimmte Wahrscheinlichkeitsfunktion beschreiben, welche die Verteilung der Zufallsvariablen um einen Erwartungswert der Grundgesamtheit beschreibt (Berechneter Wert, möglichst nahe am wahren Wert).
  • Dabei nimmt man Begriffe wie Mittelwert zur Charakterisierung von diskreten Verteilungen, während ein Erwartungswert sowohl diskrete als auch kontinuierliche Verteilungen beschreibt.

Als Beispiel für die Erklärung der folgenden Begriffe soll ein Würfelexperiment betrachtet werden, bei welchem nach fünfzehn Würfen diese Augenzahlen auftreten:

1.3 Wahrer Wert μ

Der wahre Wert (einer Menge) ist theoretisch und kann normalerweise nie exakt bekannt sein. Es ist der Wert, den man in einer perfekten Messung erhalten würde. Wahre Werte sind naturgemäss unbestimmt.

Im Würfelbeispiel entspricht der wahre Wert 3,5. Dies bedeutet, dass man bei einem idealen Würfel im Mittel 3,5 erhalten sollte, wenn man unendlich oft würfelt. Erhält man jedoch bei unendlich vielen Würfen nicht 3,5 als Mittelwert, dann ist die Differenz der sogenannte Bias b (=systematischer Fehler).

1.4 Extremwerte

Das Maximum entspricht dem grössten vorkommenden Wert der Stichprobe

  • = MAX(Bereich) (In unserem Würfelbeispiel wäre das die 6)
    (für 2., 3., .... grösste Zahl: =KGRÖSSTE(Bereich,k))

Das Minimum entspricht dem kleinsten vorkommenden Wert der Stichprobe

  • = MIN(Bereich) (In unserem Würfelbeispiel wäre das die 1)

Weitere Extremwerte sind als Ausreisser erkannte Proben. Diese sind am besten in einem Säulendiagramm erkennbar.

1.5 Datenzahl

Die Anzahl an Zufallsvariablen wird als Datenzahl n bezeichnet. (In unserem Würfelbeispiel 15, da man 15 Mal gewürfelt hat oder 15 Würfel mit einer angezeigten Würfelzahl vorliegen hat)

  • = ANZAHL(Bereich) zählt Zahlen in Zellen
  • = ANZAHL2(Bereich) zählt Anzahl nicht leere Zellen

1.6 Häufigkeit

Die Häufigkeit f gibt an, wie oft ein Wert in der Stichprobe (und in einer «Klasse») vorkommt. Die Häufigkeit kann am besten in einem Säulendiagramm dargestellt werden. So ein Häufigkeits-Säulendiagramm wird auch Histogramm genannt.

  • EXCEL Variante 1: Manuell
    Neue Tabelle mit folgendem Eintrag zu jeder Häufigkeitssäule:
    = ZÄHLENWENN(Bereich,"Klassenwert")
    (siehe auch =HÄUFIGKEIT())
    EXCEL Variante 2: Automatisch
    ⇒ Daten ⇒ Datenanalyse ⇒ Histogramm: erzeugt neue Tabelle mit Häufigkeitswerten und Klassen (eigene Tabelle)
    (Falls Datenanalyse im Excel-Menu fehlt: Datei ⇒ Optionen ⇒ Add-Ins ⇒ Analyse Funktion anklicken ⇒ Gehe zu ⇒ Analyse Funktionen ( + VBA) anklicken ⇒ OK)

Bei grösserer Spannweite können auch Wertebereiche (= Klassen) anstelle von einzelnen Werten gewählt werden,
z.B. 1-2, 3-4, 5-6.

2. Lagekennzahlen

Häufig genügt zur Charakterisierung der statistischen Masse die Darstellung der Häufigkeitsverteilung nicht. Man zieht oft zusätzliche Lagemasse heran, die eine Vorstellung über die mittleren Werte einer Verteilung geben sollen. Diese Mittelwerte werden nach zwei verschiedenen Kriterien charakterisiert:

  • Lagetypische Mittelwerte, die von dem in der Mitte der Verteilung liegenden Wert bestimmt werden wie Modus (häufigster Wert) und Median (zentraler Wert)
  • Rechentypische Mittelwerte, wo jeder einzelne Wert der Verteilung berücksichtigt wird wie z.B. beim Arithmetischen Mittelwert.

2.1 Modus (Modalwert)

Als Modus wird der mit der grössten Häufigkeit auftretende Wert bezeichnet. Er wird auch als dichtester Wert bezeichnet. Im Würfelbeispiel erscheint er als grösste Säule: Die Würfelanzahl 1.

  • = MODALWERT(Bereich)

2.2 Median

In einer sortierten Liste der Stichproben ist der Median (auch Zentralwert) der mittlere Wert der sortierten Liste. Bei einer geraden Anzahl der Stichproben ist der Modus der Mittelwert der mittleren zwei Werte. In unserem Würfelbeispiel: 3

  • = MEDIAN(Bereich)

2.3 Mittelwert

Der Mittelwert wird auch weitläufig als Durchschnitt oder arithmetisches Mittel bezeichnet. Er wird berechnet, indem man alle Daten aufsummiert und durch die Datenanzahl teilt. Bei n Daten xi ergibt sich die Formel:

  • = MITTELWERT(Bereich)

Der Mittelwert bei unserem Würfelexperiment ergibt 3.27

3. Normalverteilung

3.1 Die Normal- oder Gauss-Verteilung

Normal- oder Gauss-Verteilung, auch Glockenkurve: Die Abweichungen der Messwerte vieler natur-, wirtschafts- und ingenieurswissenschaftlicher Vorgänge vom Mittelwert lassen sich durch die Normalverteilung (bei biologischen Prozessen oft logarithmische Normalverteilung) entweder exakt oder wenigstens in sehr guter Näherung beschreiben. In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen. In der Messtechnik wird häufig eine Normalverteilung angesetzt, die die Streuung der Messfehler beschreibt. Hierbei ist von Bedeutung, wie viele Messpunkte innerhalb einer gewissen Streubreite liegen.
Die Normalverteilung ist durch die Wahrscheinlichkeitsdichte gegeben, wobei μ dem wahren Erwartungswert entspricht und σ die Standardabweichung darstellt, die die Breite der Normalverteilung beschreibt. (Standardabweichung siehe nächstes Kapitel)

4. Streuungskennzahlen

Zur statistischen Charakterisierung einer untersuchten Zahlenreihe kann die Angabe einer Streuungskennzahl ebenso wichtig sein. Diese soll angeben, um wie viel die einzelnen Werte einer untersuchten Reihe voneinander oder von einem errechneten Mittelwert abweichen. Die Streuungskennzahlen werden u.a. benötigt, weil sie als Ergänzung zum Mittelwert die zentrale Tendenz einer Reihe erkennen lassen. Zu den statistischen Kennzahlen, die über eine solche Streuung Auskunft geben, zählen:

  • Spannweite
  • Varianz
  • Standardabweichung (berechnet aus Grundgesamtheit oder Stichproben)

4.1 Spannweite

Die Spannweite (Range) R=xmax-xmin wird als Differenz zwischen grösstem und kleinstem Wert einer Stichprobe definiert. (In unserem Würfelbeispiel ergäbe dies 6-1 = 5)

  • = MAX (Bereich) - MIN (Bereich)

4.2 Varianz

Die bisher besprochenen Charakterisierungsmöglichkeiten einer Streuung reichen zwar für viele Problemstellungen aus. Für andere Problemstellungen ist jedoch ein Mass erforderlich, das alle Werte berücksichtigt. Die Werte der Grundgesamtheit 1 2 4 5 und 2.7 3.0 3.1 3.2 haben beide den Mittelwert 3, unterscheiden sich aber trotzdem recht wesentlich voneinander, denn die Werte der ersten Grundgesamtheit liegen viel weiter auseinander als die Werte der zweiten. Um diesen Unterschied zu erfassen, braucht man noch eine weitere Masszahl. Geeignet ist hierzu eine Zahl, die die Abweichung der Werte x1, … xn vom Mittelwert /x misst.
Die gebräuchlichsten Streuungsmasse sind die Varianz S2 und die Standardabweichung s. Sie haben sich am stärksten durchgesetzt, weil sie eng mit dem arithmetischen Mittel verbunden sind, und weil sie als Schätzwerte gut verwendet werden können.

Weiter wird noch unterschieden, ob sich die Werte aus der Grundgesamtheit oder aus einer Stichprobe berechnen. Von einer Grundgesamtheit sprechen wir, wenn die Zahlenreihe alle vorkommenden Werte umfasst. In der Statistik hat man häufig aber nur Stichproben, da man aus ökonomischen und/oder zeitlichen Gründen z.B. bei einer Meinungsumfrage nur einen Teil der Bevölkerung befragen kann. Mit mathematischen Methoden extrapoliert man dann diese Werte einer Stichprobe auf die ganze Bevölkerung. Die Funktionen zum Berechnen der Varianz und der Standardabweichung unterscheiden sich darum wie folgt:

  • Grundgesamtheit: «Varianzen», Excel-Befehl: «STABWN» (Alle Werte liegen vor)
  • Stichprobe: «Varianz», Excel-Befehl: «STABW» (Mit der Stichprobe soll eine Aussagen bezüglich der Grundgesamtheit gemacht werden)

Die Varianz einer Grundgesamtheit S2 wird durch folgende Formel definiert:

Die Varianz S2 ist stets grösser oder gleich 0. Nimmt sie den Wert Null an, so heisst das, dass überhaupt keine Streuung vorliegt, d.h. alle Einzelwerte einander gleich sind und somit mit ihrem arithmetischen Mittelwert übereinstimmen.

4.3 Standardabweichung

Die Varianz S2 ist in der theoretischen Statistik von grosser Bedeutung. In der betrieblichen Statistik hingegen treten oft Schwierigkeiten bei der Interpretation der quadrierten Ergebnisse auf. Um diese Interpretationsprobleme zu umgehen, wird oft die Standardabweichung (auch mittlere quadratische Abweichung genannt) angegeben. Die Standardabweichung ist die Quadratwurzel aus der Varianz:

  • = STABWN(Bereich) (Grundgesamtheit, d.h. alle Werte liegen vor)
  • = STABW(Bereich) (Stichproben, d.h. nicht alle Werte, sondern nur Stichproben liegen vor)

Im Würfelbeispiel beträgt die Standardabweichung (aus der Stichprobe) bezogen auf den Mittelwert 1.94
Der «Wahre Wert» liegt also mit sehr hoher Wahrscheinlichkeit im Bereich zwischen 2.29 und 4.24 (Was mit 3.5 auch zutrifft)