Begleitmaterial zum Unterricht M100 «Statistik»

Methoden zum Umgang mit quantitativen Informationen

Es ist eine neue Krankheit entdeckt worden, die ausschliesslich Schülerinnen und Schüler befällt und die sehr unangenehm ist: vkS (voll krasse Schulsucht)! Die Symptome tauchen extrem plötzlich auf (kein Interesse an privaten Mails, Chats oder Games; übertriebene Mitarbeit im Unterricht usw.). Im fortgeschrittenen Stadium löschen Sie sogar die Games auf den Festplatten von Kolleginnen und Kollegen, sperren den Youtube-Zugang für die gesamte Schule, schleichen sich nachts in das Gebäude und lernen heimlich. Sie haben soeben von dieser neuen Krankheit gehört und haben sofort bei Ihrem Arzt einen Test durchführen lassen. Die Ansteckungsgefahr ist zwar gering, aber die Heilungschancen bei einer Früherkennung sind deutlich besser als nach dem Ausbruch der Krankheit. Ein paar Tage nach der Untersuchung ruft Ihr Arzt Sie an und offenbart Ihnen, dass Ihr Test positiv ist. Es sind also Hinweise auf eine vkS gefunden worden. Angstschweiss bildet sich auf Ihrer Stirne. Ihr Arzt gibt Ihnen zusätzlich folgende Informationen:

  1. Zur Zuverlässigkeit des Tests sagt er Ihnen, dass durch ihn die vkS bei 99 von 100 Menschen, die von ihr infiziert sind, erkannt wird - nur einer wird übersehen. In 99 Prozent der Untersuchungen Erkrankter liefert der Test also ein positives und richtiges Ergebnis, in 1 Prozent der Fälle ein negatives und falsches. Andererseits werden von 100 Nichtinfizierten 98 auch als gesund erkannt. Nur zwei geraten fälschlich in den Verdacht, krank zu sein (und zu denen möchten Sie gehören). Der Test liefert also in 98 Prozent der Untersuchungen Gesunder ein negatives und richtiges Ergebnis, in 2 Prozent ein positives und falsches.
  2. Über die vkS erfahren Sie, dass sie nur etwa bei jedem tausendsten Schüler oder Schülerin auftritt. Somit erwischt es an unserer Schule statistisch ca. 4 - 5 Personen. Wegen der Härte der Symptome wurden in Europa innerhalb weniger Tage über 200.000 Schülerinnen und Schüler getestet.
  3. Da ihr Testergebnis positiv war, ist zur weiteren Abklärung ein kleiner pädagogischer Eingriff unter Vollnarkose erforderlich (ist wie Unterricht am Montagmorgen), verbunden mit einem dreitägigen Schulaufenthalt ohne Pausen.

Der Test identifiziert mit 99-prozentiger Sicherheit die Erkrankten und mit 98-prozentiger Sicherheit die Gesunden. Er ist also sehr zuverlässig. Und er ist bei Ihnen positiv ausgefallen. Besteht Grund, sich ernsthafte Sorgen zu machen? Sie setzen sich in den Sessel, erholen sich vom ersten Schock und überlegen sich das Ganze in Ruhe.
Da ihr Testergebnis positiv ist, sind sie mit folgender Wahrscheinlichkeit vkS-infiziert: (Bitte kreuzen Sie an)

□ 99%
□ 98%
□ etwa 95%
□ etwa 50%
□ etwa 5%
□ 2%
□ 1%

(Hinweis: Auflösung siehe Einleitung im nächsten Abschnitt)

Einleitung

Es ist unser Ziel, Ergebnisse von statistischen Erhebungen und grosse Datenmengen so zusammenzufassen, dass sie einfach zu interpretieren sind und das Wesentliche in möglichst knapper Form aussagen. Neben der graphischen Darstellung gibt es eine Reihe von statistischen Masszahlen mit denen wir dieses Ziel erreichen können. Das arithmetische Mittel (bzw. Durchschnitt) ist sicher allen bekannt. Auch wenn er eine rechnerisch klar definierte Grösse ist, ist seine Aussagekraft nicht immer eindeutig. Einige dieser Masszahlen werden im Folgenden Thema sein. Übrigens zur vkS (voll krasse Schulsucht) noch folgendes:
Die Tatsache, dass die meisten Menschen die Wahrscheinlichkeit der Erkrankung zu hoch einschätzen, liegt im Umstand, dass man die Genauigkeit der Tests anschaut, ohne die Häufigkeit der Krankheit zu berücksichtigen. Der statistische Fachbegriff dafür lautet Prävalenz. Im Fall der vkS ist unter Punkt 2 beschrieben, dass die Krankheit nur bei jedem tausendsten Schüler auftritt – somit ist die Prävalenz 1 Erkrankter auf 1000 Personen. Korrekt spricht man von der Prävalenzratio: das ist die Anzahl erkrankter durch die Anzahl untersuchter Personen. In unserem Beispiel sind von 200.000 Personen also 200 wirklich erkrankt. 99% dieser Erkrankten werden durch den Test auch erkannt: in diesem Fall also 198 Personen. 2% geraten ja fälschlicherweise in Verdacht erkrankt zu sein – sind es aber nicht: 2% von 199.800 gesunden Personen – das heisst 3994 Personen erhalten zusätzlich eine Schockmeldung. Von den 4198 Meldungen (100%) sind aber nur 200 wirklich erkrankt (4.76 %) –also cool bleiben. Daraus ziehen sie bitte für den Rest ihres Lebens den Schluss, dass sie immer erst genau nachrechnen bevor sie sich erschrecken lassen.

1. Aufgabe: Statistik-Theorie erarbeiten

Befassen Sie Sich mit den folgenden Themen (Den Fachbeitrag finden Sie auf dieser Webseite):

  • Begriffe der Statistik:
    Messwerte, Ergebnis, Zufallsvariable
    Grundgesamtheit, Stichprobe, Messwert
    Wahrer Wert μ, Extremwerte, Datenzahl
    Häufigkeit
  • Lagekennzahlen:
    Modalwert Modus, Median, Mittelwert
  • Normalverteilung:
    Normal- oder Gauss-Verteilung
  • Streuungskennzahlen:
    Spannweite, Varianz, Standardabweichung

2. Aufgabe: Datenmaterial bereitstellen und sichten

Für die nächsten Aufgaben benötigen Sie geeignetes Datenmaterial. Sie können dieses hier herunterladen: Notenspiegel.xlsx

Bestimmen Sie für die Aufzeichnung "Notenspiegel" mit Excel die folgende Kennzahlen:

  • Die Extremwerte Minimum und Maximum
  • Die Häufigkeitsverteilung als Balkendiagramm
  • Die Häufigkeitsverteilung als Balkendiagramm aufgeteilt in Klassen (Halbnotenschritte wie 1 bis 0.49 | 0.5 bis 0.95 | 1 bis 1.49 etc.) 

2. Aufgaben zu Lagekennzahlen

2.1 Würfelaufgabe Median und Mittelwert

Auf welchen Wert würde sich bei unserem Würfelexperiment der Median und der Mittelwert ändern, wenn anstelle einer 6 eine weitere 1 gewürfelt wurde? Welche Erkenntnisse und Schlüsse ziehen sie daraus?

2.2 Tabelle Notenspiegel: Median und Mittelwert

Bestimmen Sie für die Aufzeichnung "Notenspiegel" in Excel folgende Kennzahlen:

  • Medianwert
  • Mittelwert

3. Aufgaben zu Normalverteilung

3.1 Übung Verteilungskurve für Würfelkombinationen erstellen

Ihnen stehen für diese Aufgabe zwei Würfel (Rot und Grün) zur Verfügung. Sie möchten nun herausfinden, wieviele Würfelkombinationen jeweils dieselbe Augensumme ergeben. Vervollständigen sie die Tabelle links. Anschliessend visualisieren sie die ermittelten Werte bzw. Verteilung, indem sie das Säulendiagramm rechts ergänzen. Was stellen sie fest?

(Wir stellen fest, dass die Wahrscheinlichkeit, einen Wert 12 (6-6) zu würfeln, gleich klein ist, wie den Wert 2 zu würfeln: (1-1) - Die Wahrscheinlichkeit, dass man den Wert 7 würfelt, ist allerdings sechsmal grösser: (6-1, 1-6, 5-2, 2-5, 4-3, 3-4))

3.2 Verteilung der Noten im Notenspiegel

Wie verteilen sich die Prüfungsresultate in unserem Notenspiegel?

4. Aufgaben zu Streuungskennzahlen

4.1 Streuungskennzahlen beim Notenspiegel

Bestimmen Sie für die Aufzeichnung "Notenspiegel" in Excel folgende Kennzahlen:

  • Spannweite
  • Varianz
  • Standardabweichung
  • Standardabweichung, wenn im vorliegenden Notenspiegel nur eine Stichprobe mit 30 Noten von insgesamt 100 Noten erfasst wäre?

5. Gemischte Aufgaben

5.1 Weinbergschneckenrennen

In der französischen Bourgogne findet alljährlich das mit grosser Aufmerksamkeit verfolgte Weinbergschneckenrennen statt. Das in mehreren Tagesetappen ausgetragene Rennen, das aufgrund der eingesetzten Dopingmittel (in Form von Salat) auch "Tour de Trance" genannt wird, führt vor der letzten Etappe von Marinade nach Casserole die Schnecke Emilio Escargot an, die aus diesem Grunde auch das so genannte "gelbe Schneckenhaus" tragen darf. Am Start zur 13. und letzten Etappe ist Ricki Raserati der aussichtsreichste Verfolger von Emilio Escargot.

Etappe 1 2 3 4 5 6 7 8 9 10 11 12
Etappenlänge in m 3.2 1.9 3.4 3.3 2.7 2.9 1.8 2.6 2.3 2.2 1.8 2.1
Raserati Geschwindigkeit m/Std 0.8 0.6 0.68 0.72 0.9 0.88 0.87 0.69 0.75 0.77 0.63 0.91
Escargot Geschwindigkeit m/Std 0.77 0.8 0.79 0.81 0.69 0.85 0.96 0.87 0.82 0.74 0.71 0.7
  1. Berechnen Sie für die Etappenlänge in Meter folgende Kennzahlen: Arithmetisches Mittel, Modus und Median.
  2. Erstellen Sie ein Säulendiagramm, das die Geschwindigkeit der beiden Schnecken je Etappe in einer Grafik nebeneinander stellt.
  3. Erweitern Sie die Tabelle um die Zeit in Stunden (Dezimal) je Schnecke und je Etappe (Mit Formeln).
  4. Erstellen Sie ein Liniendiagramm, das die Zeit in Stunden (Dezimal) der beiden Schnecken über alle Etappen vergleicht.
  5. Ermitteln Sie mit Formeln die Zeitdifferenz zwischen den beiden Schnecken je Etappe und insgesamt.
  6. Ermitteln Sie aus den bis jetzt erstellten Daten die Anzahl Etappensiege (mit Formeln).

5.2 Buchstabensalat

Es ist Ihnen sicher bekannt, dass die Buchstaben des Alphabets innerhalb eines deutschen Textes nicht gleich häufig vorkommen. Diesen Zusammenhang wollen wir analysieren. Es steht Ihnen die Datei Buchstabensalat.xls zur Verfügung.

  1. Suche Text
    Suchen sie im Internet einen geeigneten Text, den sie analysieren wollen. Der Text sollte nicht zu kurz sein, damit die Verteilung typisch ist. In Buchstabensalat.xls können sie mit Ctrl+B das Makro starten, das es ihnen erlaubt den Text in die Tabelle zu übertragen. Beachten sie, dass nur die Buchstaben a bis z eingetragen werden. Grosse Buchstaben werden automatisch umgewandelt.
  2. Bestimmung des Modus
    Aus dieser vollständigen Tabelle lässt sich bereits der Modus bestimmen. In Excel wird dieser Wert als Modalwert bezeichnet. Bestimmen sie den Buchstaben, welcher in ihrem Text die grösste Häufigkeit aufweist.
  3. Verteilung der absoluten Häufigkeit
    Stellen sie für ihren Text die absolute Häufigkeit des Auftretens der Buchstaben zusammen. Es gibt die Funktion "ZähleWenn" aber setzen Sie auch die Häufigkeitsfunktion ein. Das ist eine so genannte Matrixfunktion. Verwenden Sie die Hilfefunktion von der Tabellenkalkulation um die Details zu erfahren.
  4. Relative Häufigkeit
    Ergänzen sie ihre Tabelle durch die relative Häufigkeit in %.
  5. Median, Arithmetisches Mittel, Spannweite, Varianz, Standardabweichung
    Bestimmen sie für die relative Häufigkeit den Median, das arithmetische Mittel, die Spannweite, die Varianz und die Standardabweichung. Versuchen sie jede Grösse mit eigenen Worten zu interpretieren.
  6. Grafische Aufarbeitung
    Stellen sie das Ergebnis ihrer Statistik grafisch dar. Wir wollen anschliessend die Ergebnisse der Texte vergleichen und versuchen, eine allgemein gültige Aussage zu machen. Gleichzeitig sollen die Ergebnisse der relativen Häufigkeit in die Tabelle Auswertung.xls eingetragen werden.