Begleitmaterial zum Unterricht M100 «Statistik»

Methoden zum Umgang mit quantitativen Informationen

Es ist eine neue Krankheit entdeckt worden, die ausschliesslich Schülerinnen und Schüler befällt und die sehr unangenehm ist: vkS (voll krasse Schulsucht)! Die Symptome tauchen extrem plötzlich auf (kein Interesse an privaten Mails, Chats oder Games; übertriebene Mitarbeit im Unterricht usw.). Im fortgeschrittenen Stadium löschen Sie sogar die Games auf den Festplatten von Kolleginnen und Kollegen, sperren den Youtube-Zugang für die gesamte Schule, schleichen sich nachts in das Gebäude und lernen heimlich. Sie haben soeben von dieser neuen Krankheit gehört und haben sofort bei Ihrem Arzt einen Test durchführen lassen. Die Ansteckungsgefahr ist zwar gering, aber die Heilungschancen bei einer Früherkennung sind deutlich besser als nach dem Ausbruch der Krankheit. Ein paar Tage nach der Untersuchung ruft Ihr Arzt Sie an und offenbart Ihnen, dass Ihr Test positiv ist. Es sind also Hinweise auf eine vkS gefunden worden. Angstschweiss bildet sich auf Ihrer Stirne. Ihr Arzt gibt Ihnen zusätzlich folgende Informationen:

  1. Zur Zuverlässigkeit des Tests sagt er Ihnen, dass durch ihn die vkS bei 99 von 100 Menschen, die von ihr infiziert sind, erkannt wird - nur einer wird übersehen. In 99 Prozent der Untersuchungen Erkrankter liefert der Test also ein positives und richtiges Ergebnis, in 1 Prozent der Fälle ein negatives und falsches. Andererseits werden von 100 Nichtinfizierten 98 auch als gesund erkannt. Nur zwei geraten fälschlich in den Verdacht, krank zu sein (und zu denen möchten Sie gehören). Der Test liefert also in 98 Prozent der Untersuchungen Gesunder ein negatives und richtiges Ergebnis, in 2 Prozent ein positives und falsches.
  2. Über die vkS erfahren Sie, dass sie nur etwa bei jedem tausendsten Schüler oder Schülerin auftritt. Somit erwischt es an unserer Schule statistisch ca. 4 - 5 Personen. Wegen der Härte der Symptome wurden in Europa innerhalb weniger Tage über 200.000 Schülerinnen und Schüler getestet.
  3. Da ihr Testergebnis positiv war, ist zur weiteren Abklärung ein kleiner pädagogischer Eingriff unter Vollnarkose erforderlich (ist wie Unterricht am Montagmorgen), verbunden mit einem dreitägigen Schulaufenthalt ohne Pausen.

Der Test identifiziert mit 99-prozentiger Sicherheit die Erkrankten und mit 98-prozentiger Sicherheit die Gesunden. Er ist also sehr zuverlässig. Und er ist bei Ihnen positiv ausgefallen. Besteht Grund, sich ernsthafte Sorgen zu machen? Sie setzen sich in den Sessel, erholen sich vom ersten Schock und überlegen sich das Ganze in Ruhe.
Da ihr Testergebnis positiv ist, sind sie mit folgender Wahrscheinlichkeit vkS-infiziert: (Bitte kreuzen Sie an)

□ 99%
□ 98%
□ etwa 95%
□ etwa 50%
□ etwa 5%
□ 2%
□ 1%

Einleitung

Es ist unser Ziel, Ergebnisse von statistischen Erhebungen und grosse Datenmengen so zusammenzufassen, dass sie einfach zu interpretieren sind und das Wesentliche in möglichst knapper Form aussagen. Neben der graphischen Darstellung gibt es eine Reihe von statistischen Masszahlen mit denen wir dieses Ziel erreichen können. Das arithmetische Mittel (bzw. Durchschnitt) ist sicher allen bekannt. Auch wenn er eine rechnerisch klar definierte Grösse ist, ist seine Aussagekraft nicht immer eindeutig. Einige dieser Masszahlen werden im Folgenden Thema sein. Übrigens zur vkS (voll krasse Schulsucht) noch folgendes:
Die Tatsache, dass die meisten Menschen die Wahrscheinlichkeit der Erkrankung zu hoch einschätzen, liegt im Umstand, dass man die Genauigkeit der Tests anschaut, ohne die Häufigkeit der Krankheit zu berücksichtigen. Der statistische Fachbegriff dafür lautet Prävalenz. Im Fall der vkS ist unter Punkt 2 beschrieben, dass die Krankheit nur bei jedem tausendsten Schüler auftritt – somit ist die Prävalenz 1 Erkrankter auf 1000 Personen. Korrekt spricht man von der Prävalenzratio: das ist die Anzahl erkrankter durch die Anzahl untersuchter Personen. In unserem Beispiel sind von 200.000 Personen also 200 wirklich erkrankt. 99% dieser Erkrankten werden durch den Test auch erkannt: in diesem Fall also 198 Personen. 2% geraten ja fälschlicherweise in Verdacht erkrankt zu sein – sind es aber nicht: 2% von 199.800 gesunden Personen – das heisst 3994 Personen erhalten zusätzlich eine Schockmeldung. Von den 4198 Meldungen (100%) sind aber nur 200 wirklich erkrankt (4.76 %) –also cool bleiben. Daraus ziehen sie bitte für den Rest ihres Lebens den Schluss, dass sie immer erst genau nachrechnen bevor sie sich erschrecken lassen.

1. Begriffe der Statistik

1.1 Messwerte, Ergebnis, Zufallsvariable

  • Messwerte (Measured Values): gemessene, beobachtete oder abgelesene Werte. Es handelt sich
    um die Quantität, welche erhoben wird. (Grösse in m)
  • Ergebnis (Result): Ergebnis einer Analyse nach der Durchführung der Messung und aller nachfolgender
    Auswertungsschritte. (Durchschnittsgrösse)
  • Zufallsvariable (Variate): numerischer Wert eines Messwertes oder eines Ergebnisses. Merkmal,
    dessen konkrete Ausprägungen sich von Untersuchungsobjekt zu Untersuchungsobjekt unterscheiden.
    (XY: 1.82 m)

Im Einzelnen können diese annehmen:

  • Ganz bestimmte diskrete Werte (Würfelspiel, Anzeige einer Digitaluhr)
  • innerhalb eines definierten begrenzten Bereiches kontinuierlich jeden beliebigen Zwischenwert
    (Zeiger einer analogen Uhr)
  • schwankend um einen bestimmten Wert herum jeden beliebigen Wert, wobei die Wahrscheinlichkeit
    mit Zunahme der Entfernung immer geringer wird, theoretisch aber nicht den Wert 0 annimmt
    (Ablesen eines analogen Messinstrumentes)

1.2 Grundgesamtheit, Stichprobe, Messwert

  • Jede Zufallsvariable gehört zu einer unendlich großen Menge möglicher Zufallsvariablen. Diese wird als Grundgesamtheit (Population) bezeichnet.
  • Eine begrenzte Menge aus dieser wird Stichprobe (Series) genannt.
  • Das Auftreten einer Zufallsvariablen lässt sich durch eine bestimmte Wahrscheinlichkeitsfunktion beschreiben, welche die Verteilung der Zufallsvariablen um einen Erwartungswert der Grundgesamtheit beschreibt (Berechneter Wert, möglichst nahe am wahren Wert).
  • Dabei nimmt man Begriffe wie Mittelwert zur Charakterisierung von diskreten Verteilungen, während ein Erwartungswert sowohl diskrete als auch kontinuierliche Verteilungen beschreibt.

Als Beispiel für die Erklärung der folgenden Begriffe soll ein Würfelexperiment betrachtet werden, bei welchem nach fünfzehn Würfen diese Augenzahlen auftreten:

1.3 Wahrer Wert μ

Der wahre Wert (einer Menge) ist theoretisch und kann normalerweise nie exakt bekannt sein. Es ist der Wert, den man in einer perfekten Messung erhalten würde. Wahre Werte sind naturgemäss unbestimmt.

Im Würfelbeispiel entspricht der wahre Wert 3,5. Dies bedeutet, dass man bei einem idealen Würfel im Mittel 3,5 erhalten sollte, wenn man unendlich oft würfelt. Erhält man jedoch bei unendlich vielen Würfen nicht 3,5 als Mittelwert, dann ist die Differenz der sogenannte Bias b (=systematischer Fehler).

1.4 Extremwerte

Das Maximum entspricht dem grössten vorkommenden Wert der Stichprobe

  • = MAX(Bereich) (In unserem Würfelbeispiel wäre das die 6)
    (für 2., 3., .... grösste Zahl: =KGRÖSSTE(Bereich,k))

Das Minimum entspricht dem kleinsten vorkommenden Wert der Stichprobe

  • = MIN(Bereich) (In unserem Würfelbeispiel wäre das die 1)

Weitere Extremwerte sind als Ausreisser erkannte Proben. Diese sind am besten in einem Säulendiagramm erkennbar.

1.5 Datenzahl

Die Anzahl an Zufallsvariablen wird als Datenzahl n bezeichnet. (In unserem Würfelbeispiel 15, da man 15 Mal gewürfelt hat oder 15 Würfel mit einer angezeigten Würfelzahl vorliegen hat)

  • = ANZAHL(Bereich) zählt Zahlen in Zellen
  • = ANZAHL2(Bereich) zählt Anzahl nicht leere Zellen

1.6 Häufigkeit

Die Häufigkeit f gibt an, wie oft ein Wert in der Stichprobe (und in einer «Klasse») vorkommt. Die Häufigkeit kann am besten in einem Säulendiagramm dargestellt werden. So ein Häufigkeits-Säulendiagramm wird auch Histogramm genannt.

  • EXCEL Variante 1: Manuell
    Neue Tabelle mit folgendem Eintrag zu jeder Häufigkeitssäule:
    = ZÄHLENWENN(Bereich,"Klassenwert")
    (siehe auch =HÄUFIGKEIT())
    EXCEL Variante 2: Automatisch
    ⇒ Daten ⇒ Datenanalyse ⇒ Histogramm: erzeugt neue Tabelle mit Häufigkeitswerten und Klassen (eigene Tabelle)
    (Falls Datenanalyse im Excel-Menu fehlt: Datei ⇒ Optionen ⇒ Add-Ins ⇒ Analyse Funktion anklicken ⇒ Gehe zu ⇒ Analyse Funktionen ( + VBA) anklicken ⇒ OK)

Bei grösserer Spannweite können auch Wertebereiche (= Klassen) anstelle von einzelnen Werten gewählt werden,
z.B. 1-2, 3-4, 5-6.

2. Lagekennzahlen

Häufig genügt zur Charakterisierung der statistischen Masse die Darstellung der Häufigkeitsverteilung nicht. Man zieht oft zusätzliche Lagemasse heran, die eine Vorstellung über die mittleren Werte einer Verteilung geben sollen. Diese Mittelwerte werden nach zwei verschiedenen Kriterien charakterisiert:

  • Lagetypische Mittelwerte, die von dem in der Mitte der Verteilung liegenden Wert bestimmt werden wie Modus (häufigster Wert) und Median (zentraler Wert)
  • Rechentypische Mittelwerte, wo jeder einzelne Wert der Verteilung berücksichtigt wird wie z.B. beim Arithmetischen Mittelwert.

2.1 Modus (Modalwert)

Als Modus wird der mit der grössten Häufigkeit auftretende Wert bezeichnet. Er wird auch als dichtester Wert bezeichnet. Im Würfelbeispiel erscheint er als grösste Säule: Die Würfelanzahl 1.

  • = MODALWERT(Bereich)

2.2 Median

In einer sortierten Liste der Stichproben ist der Median (auch Zentralwert) der mittlere Wert der sortierten Liste. Bei einer geraden Anzahl der Stichproben ist der Modus der Mittelwert der mittleren zwei Werte. In unserem Würfelbeispiel: 3

  • = MEDIAN(Bereich)

2.3 Mittelwert

Der Mittelwert wird auch weitläufig als Durchschnitt oder arithmetisches Mittel bezeichnet. Er wird berechnet, indem man alle Daten aufsummiert und durch die Datenanzahl teilt. Bei n Daten xi ergibt sich die Formel:

  • = MITTELWERT(Bereich)

Der Mittelwert bei unserem Würfelexperiment ergibt 3.27

2.3.1 Übung zu Median und Mittelwert

Auf welchen Wert würde sich bei unserem Würfelexperiment der Median und der Mittelwert ändern, wenn anstelle einer 6 eine weitere 1 gewürfelt wurde? Welche Erkenntnisse und Schlüsse ziehen sie daraus?

3. Normalverteilung

3.1 Übung Verteilungskurve

Ihnen stehen für diese Aufgabe zwei Würfel (Rot und Grün) zur Verfügung. Sie möchten nun herausfinden, wieviele Würfelkombinationen jeweils dieselbe Augensumme ergeben. Vervollständigen sie die Tabelle links. Anschliessend visualisieren sie die ermittelten Werte bzw. Verteilung, indem sie das Säulendiagramm rechts ergänzen. Was stellen sie fest?

(Wir stellen fest, dass die Wahrscheinlichkeit, einen Wert 12 (6-6) zu würfeln, gleich klein ist, wie den Wert 2 zu würfeln: (1-1) - Die Wahrscheinlichkeit, dass man den Wert 7 würfelt, ist allerdings sechsmal grösser: (6-1, 1-6, 5-2, 2-5, 4-3, 3-4))

3.2 Die Normal- oder Gauss-Verteilung

Normal- oder Gauss-Verteilung, auch Glockenkurve: Die Abweichungen der Messwerte vieler natur-, wirtschafts- und ingenieurswissenschaftlicher Vorgänge vom Mittelwert lassen sich durch die Normalverteilung (bei biologischen Prozessen oft logarithmische Normalverteilung) entweder exakt oder wenigstens in sehr guter Näherung beschreiben. In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen. In der Messtechnik wird häufig eine Normalverteilung angesetzt, die die Streuung der Messfehler beschreibt. Hierbei ist von Bedeutung, wie viele Messpunkte innerhalb einer gewissen Streubreite liegen.
Die Normalverteilung ist durch die Wahrscheinlichkeitsdichte gegeben, wobei μ dem wahren Erwartungswert entspricht und σ die Standardabweichung darstellt, die die Breite der Normalverteilung beschreibt. (Standardabweichung siehe nächstes Kapitel)

4. Streuungskennzahlen

Zur statistischen Charakterisierung einer untersuchten Zahlenreihe kann die Angabe einer Streuungskennzahl ebenso wichtig sein. Diese soll angeben, um wie viel die einzelnen Werte einer untersuchten Reihe voneinander oder von einem errechneten Mittelwert abweichen. Die Streuungskennzahlen werden u.a. benötigt, weil sie als Ergänzung zum Mittelwert die zentrale Tendenz einer Reihe erkennen lassen. Zu den statistischen Kennzahlen, die über eine solche Streuung Auskunft geben, zählen:

  • Spannweite
  • Varianz
  • Standardabweichung (berechnet aus Grundgesamtheit oder Stichproben)

4.1 Spannweite

Die Spannweite (Range) R=xmax-xmin wird als Differenz zwischen grösstem und kleinstem Wert einer Stichprobe definiert. (In unserem Würfelbeispiel ergäbe dies 6-1 = 5)

  • = MAX (Bereich) - MIN (Bereich)

4.2 Varianz

Die bisher besprochenen Charakterisierungsmöglichkeiten einer Streuung reichen zwar für viele Problemstellungen aus. Für andere Problemstellungen ist jedoch ein Mass erforderlich, das alle Werte berücksichtigt. Die Werte der Grundgesamtheit 1 2 4 5 und 2.7 3.0 3.1 3.2 haben beide den Mittelwert 3, unterscheiden sich aber trotzdem recht wesentlich voneinander, denn die Werte der ersten Grundgesamtheit liegen viel weiter auseinander als die Werte der zweiten. Um diesen Unterschied zu erfassen, braucht man noch eine weitere Masszahl. Geeignet ist hierzu eine Zahl, die die Abweichung der Werte x1, … xn vom Mittelwert /x misst.
Die gebräuchlichsten Streuungsmasse sind die Varianz S2 und die Standardabweichung s. Sie haben sich am stärksten durchgesetzt, weil sie eng mit dem arithmetischen Mittel verbunden sind, und weil sie als Schätzwerte gut verwendet werden können.

Weiter wird noch unterschieden, ob sich die Werte aus der Grundgesamtheit oder aus einer Stichprobe berechnen. Von einer Grundgesamtheit sprechen wir, wenn die Zahlenreihe alle vorkommenden Werte umfasst. In der Statistik hat man häufig aber nur Stichproben, da man aus ökonomischen und/oder zeitlichen Gründen z.B. bei einer Meinungsumfrage nur einen Teil der Bevölkerung befragen kann. Mit mathematischen Methoden extrapoliert man dann diese Werte einer Stichprobe auf die ganze Bevölkerung. Die Funktionen zum Berechnen der Varianz und der Standardabweichung unterscheiden sich darum wie folgt:

  • Grundgesamtheit: «Varianzen», Excel-Befehl: «STABWN» (Alle Werte liegen vor)
  • Stichprobe: «Varianz», Excel-Befehl: «STABW» (Mit der Stichprobe soll eine Aussagen bezüglich der Grundgesamtheit gemacht werden)

Die Varianz einer Grundgesamtheit S2 wird durch folgende Formel definiert:

Die Varianz S2 ist stets grösser oder gleich 0. Nimmt sie den Wert Null an, so heisst das, dass überhaupt keine Streuung vorliegt, d.h. alle Einzelwerte einander gleich sind und somit mit ihrem arithmetischen Mittelwert übereinstimmen.

4.3 Standardabweichung

Die Varianz S2 ist in der theoretischen Statistik von grosser Bedeutung. In der betrieblichen Statistik hingegen treten oft Schwierigkeiten bei der Interpretation der quadrierten Ergebnisse auf. Um diese Interpretationsprobleme zu umgehen, wird oft die Standardabweichung (auch mittlere quadratische Abweichung genannt) angegeben. Die Standardabweichung ist die Quadratwurzel aus der Varianz:

  • = STABWN(Bereich) (Grundgesamtheit, d.h. alle Werte liegen vor)
  • = STABW(Bereich) (Stichproben, d.h. nicht alle Werte, sondern nur Stichproben liegen vor)

Im Würfelbeispiel beträgt die Standardabweichung (aus der Stichprobe) bezogen auf den Mittelwert 1.94
Der «Wahre Wert» liegt also mit sehr hoher Wahrscheinlichkeit im Bereich zwischen 2.29 und 4.24 (Was mit 3.5 auch zutrifft)