Modulnummer

100

Letzte Aktualisierung
15. Okt. 2019
Vorgaben
ICT-Modulidentifikation
ICT-LBV Modul 100-1
Modulbezeichnung

Daten charakterisieren, aufbereiten und auswerten

Fachliteratur
Statistik
Abfragen
Datenbanken
Voraussetzungen
Deutsche Sprache
Mathematisches Grundverständnis

Inhalt

1. Daten erfassen und auswerten
1.1 Eigener Steckbrief erstellen
1.2 Wissen über ihre Mitschüler/innen erwerben
1.3 Personeninformationen elektronisch erfassen und auswerten
1.4. Datenerhebung - So machen es die Profis
1.5. Tabellenterminologie und dreistufige Adressierung
1.6. Datentypen
1.7. Datentypen anwenden
1.8. Strukturierte Datenerfassung
1.9 Datenstrukturen untersuchen
1.10 Datenstrukturen vergleichen

2. Daten grafisch darstellen
2.1 Einführung
2.2 Diagrammtypen
2.3 Diagrammbezeichnungen
2.4 Manipulation von und mit Diagrammen
2.5 Mit Diagrammen arbeiten: Zeitreihe Produktivität
2.6 Mit Excel visualisieren: Tauchgänge grafisch darstellen
2.7 Welches ist die geeignete Diagrammform?
2.8 Eigene Manipulationen mit einem Diagrammen erstellen

3. Statistik
3.1 Einleitung
3.2 Extremwerte und Häufigkeitsverteilung ermitteln
3.3 Lagekennzahlen Median und Mittelwert verstehen
3.4 Lagekennzahlen Median und Mittelwert mit Excel ermitteln
3.5 Normalverteilungskurve für Würfelkombinationen erstellen
3.6 Normalverteilungskurve mit Excel erstellen
3.7 Streuungskennzahlen ermitteln
3.8 Kennzahlen für das "Weinbergschneckenrennen" ermitteln
3.9 Kennzahlen für den "Buchstabensalat" ermitteln

Prüfung Nr. 1

4. Abfragen
4.1 Abfragen in Firma_1.odb
4.2 Abfragen in Firma_2.odb
4.3 Abfragen in Firma_3.odb
4.4 Abfragen in Firma_4.odb
4.5 Abfragen in Firma_5.odb

Prüfung Nr. 2

5. Musterlösungen (Passwortgeschützt)


1. Daten erfassen und auswerten

Schwerpunkt dieses Abschnitts ist es, Strukturmerkmale von Daten zu erkennen. Wir unterscheiden zwischen unstrukturierten, halb und voll strukturierten Daten, wobei starke Strukturen für die Bewirtschaftung und Auswertung der Daten geeigneter sind. Ausserdem lernen wir die folgenden Begriffe besser kennen:

  • Daten sind Nachrichten, die maschinell verarbeitet und gespeichert werden können
  • Nachricht (Unterscheidung nach syntaktischem, semantischem und pragmatischem Aspekt)
  • Information (Sind in einer Nachricht enthalten und haben einen Neuigkeitswert)
  • Wissen (Verknüpfte Information - Assoziationen)
  • Redundanz (Redundante Informationen besitzen keinen Neuigkeitswert und sind in der Datenverarbeitung unerwünscht)

Daten für sich alleine stellen noch keine Informationen dar. Die Ziffernkombination «Fünf, Null» lässt den Wert 50 erkennen. Dieser Wert ist aber noch keine Information, Sie können damit noch nichts anfangen. Erst der Zusammenhang macht aus Daten Informationen

1.1 Eigener Steckbrief erstellen

→ Arbeit in 2-er Gruppen   → Dauer ca. 20 Minuten  → Jeder Lernende erstellt sein eigener Steckbrief im Format A4

Sie sollen ihren/ihre Klassenkameraden/in besser kennenlernen. Befragen sie in/sie deshalb zu allen Themen, die sie interessieren wie z.B. wo er/sie wohnt, wieviel Geschwister er/sie hat, was seine/ihre Lieblingsfarbe/Lieblingssport/Lieblingsessen ist und so weiter und so fort. Aus den zusammengetragenen Informationen erstellen sie dann einen Steckbrief im Format A4 (eine Seite). Diesen Steckbrief veröffentlichen sie auf einem Pin-Board bzw. der Wandtafel im Schulzimmer. Anschliessend haben ihre Kommilitonen Gelegenheit, anhand der geposteten Informationen einiges über sie zu erfahren.

1.2 Wissen über ihre Mitschüler/innen erwerben

→ Arbeit in 2-er Gruppen   → Dauer ca. 40 Minuten  → Sie erstellen eine Zusammenfassung der Steckbriefe ihrer Kommilitonen/innen

Lesen sie die Steckbriefen ihrer Mitschüler/innen und vergleichen sie diese. Wie unterscheiden sich die Steckbriefe? Sind die Angaben auf den Steckbriefen vergleichbar? Welche Strukturform weist diese Datensammlung «Steckbriefe aller Lernenden» auf?

1.3 Personeninformationen elektronisch erfassen und auswerten

→ Arbeit in 2-er Gruppen   → Dauer ca. 40 Minuten  → Jeder Lerngruppe erstellt ein Excel-Sheet

In dieser Übung geht es darum, sich innerhalb der Gruppe auf bestimmte Personendaten zu einigen, die danach bei allen Schülern erhoben werden und die anschliessend auch sinnvoll ausgewertet und dargestellt werden können. Dazu ein Beispiel: Würde man bei allen Personen deren Vornamen, Familiennamen und Körpergewicht erfragen, könnte man anschliessend in einer Auswertung eine Aussage über das durchschnittliche Körpergewicht in der Klasse machen und die Resultate sogar noch graphisch darstellen. Allerdings ist diese Gewichtsauswertung etwas unfair. Das Körpergewicht müsste noch interpretiert bzw. in Relation zur Körperlänge gesetzt werden, weil doch grosse Personen meist auch ein grösseres Gewicht haben. Entscheiden sie sich nun also für drei Personeneigenschaften, die sie in dieser Klasse etwas genauer untersuchen möchten. Sprechen sie sich innerhalb der Klasse ab, damit nicht alle Gruppen dieselben Eigenschaften evaluieren. Tragen sie die Eigenschaften in ein Excel-Sheet ein und befragen sie anschliessend alle ihre Mitschüler/innen danach. Tragen sie die gewonnenen Daten wiederum in das Excel-Sheet ein und versuchen sie, eine Auswertung, gerne auch grafisch, zu machen.

1.4. Datenerhebung - So machen es die Profis

Wenn sie wissen wollen, wie die Spezialisten Personendaten erheben, sei ihnen das folgende Dokument zur Durchsicht empfohlen: Personenfragebogen zur Eidgenössische Volkszählung 2000

1.5. Tabellenterminologie und dreistufige Adressierung

Diese Begriffe sollte man sich merken:

So werden Daten gefunden (Dreistufige Adressierung):

1.6. Datentypen

Der Datentyp sagt aus, wie die im Computer binär vorliegenden bzw. verarbeitbaren Daten zu interpretieren sind. Die allgemeinen Datentypen:

  • Integer: Ganzzahl, ursprünglich 16 Bit = 216 Kombinationen und somit -32'768 .. + 32'767, Operationen: + - * / < > = % (%=Modulo)
  • Boolean: Wahr oder Falsch bzw. 1 oder 0, Operationen: NOT AND OR = (und Kombinationen davon)
  • Character: Alphanumerisches Zeichen, Satzzeichen (ASCII), Operationen: < > = StrToInt
  • Floating-point numbers: Fliesskommazahl oder Dezimalzahl in der Form ±0.xxx E±yyy, Operationen: + - * / < > =
  • Alphanumeric string: Zeichenkette oder Array of char

Weitere spezielle und zusammengesetzte Datentypen:

  • Enumeration: Aufzählungstypen wo der Wertebereicg selber definiert werden kann (z.B. Rot, Grün, Gelb, Blau, Schwarz, Weiss)
  • Record: Struktur, die ihrerseits verschiedene Datentypen enthält

Einige der zusätzlichen Zahlenformate in Excel:

  • Currency: Währung (z.B. CHF 23.40)
  • Date: Datum (z.B. Mittwoch, 14 März 2012)
  • Time: Zeit (z.B. 13:30 h)
  • Prozent: (z.B. 80.3%)

1.7. Datentypen anwenden

Erstellen sie eine Kundenkartei als Exceltabelle. Sie sollten von ihrer Kundschaft folgendes erfassen:

  • Vorname und Familienname
  • Genaue Adresse
  • Telefonnummer
  • Geburtsdatum
  • Geschlecht
  • Nationalität
  • Haarfarbe
  • Schuhgrösse
  • Aktuelle Kreditlimite

Achten sie darauf, die erhobenen Daten so anzulegen, dass sie bei einer anschliessenden Auswertung nicht eingeschränkt sind. Begründen sie die Wahl der jeweiligen Datentypen. Testen sie ihre Tabelle aus, indem sie ein paar Datensätze erfassen. Geben sie das fertige Dokument auf den Abgabeordner ab. Zeit: 20' Einzelarbeit

1.8. Strukturierte Datenerfassung

Je besser eine Datenablage organisiert bzw. strukturiert ist, desto komfortabler gestalten sich die Zugriffe darauf. Die Erstellung einer starken Datenstruktur erfordert allerdings auch einen höheren Arbeitsaufwand. Die Datenverwaltung umfasst folgende Aktionen:

  • Daten erfassen
  • Daten mutieren
  • Daten löschen
  • Daten auswerten
  • Daten formatieren

1.9 Datenstrukturen untersuchen

Telefonbuch in Papierformat:

  • Nach welchen Kriterien ist ein Telefonbuch organisiert?
  • Welche weiteren Organisationskriterien könnten in einem Telefonbuch auch von Interesse sein und warum?

1.10 Datenstrukturen vergleichen

Es soll nun untersucht werden, welche Vor- und Nachteile eine schwache, mittlere und starke Datenstruktur bietet. Dazu stehen folgende drei Dateien mit ähnlichen Daten zur Verfügung: Textverarbeitung Bestellung.docx, Tabellenkalkulation Bestellung.xlsx, Access-Datenbank Bestellung.mdb.

Führen sie folgende Aufträge nacheinander mit der Textverarbeitung, dann der Tabellenkalkulation und letzlich der Access-Datenbank durch. Beurteilen sie für jede Datei, wie der Auftrag ausgeführt werden konnte:

  • 0=nicht möglich
  • 1=umständlich und aufwändig
  • 2=erfordert tiefere Kenntnisse
  • 3=geht gut und einfach

Fassen sie ihre Resultate in einer Tabelle zusammen:

  1. Ändern Sie die Adresse von Felix Affentranger in allen Bestellungen. Neuer Wohnort: Sonnenbergstr. 50, 8032 Zürich
  2. Ändern Sie den Preis von Artikelnummer 2 (Haushaltpapier) auf 6.20 sFr.
  3. Ergänzen Sie die Bestellung Nr. 9 mit dem Lieferdatum. Setzen Sie das aktuelle Datum ein.
  4. Ergänzen Sie die Bestellung Nr. 10 mit folgender Bemerkung: «Auslieferung erfolgt nach Kundentelefon!»
  5. Erfassen Sie die Bemerkung «wichtiger Kunde» zu Kunde Nr. 64.
  6. Erfassen Sie eine neue Bestellung für Herrn Andreas Lienhard (Datensatznummer 180 bei Access). Er bestellt 2 Packungen Glühbirnen à 60W und 2 Packungen à 40W.
  7. Löschen Sie alle Bestellungen von Herrn Hugo Keiser.
  8. Das Waschpulver «Magic 60» soll aus dem Sortiment und aus allen bisherigen Bestellungen gelöscht werden.
  9. Wie oft wurde eine Packung Glühlampen 60W bestellt?
  10. Wie viele Bestellungen konnten noch nicht ausgeliefert werden (kein Lieferdatum vorhanden)?
  11. Formatieren Sie alle Preise mit Schriftgrösse 12 und fett.
  12. Ändern Sie die Schriftart aller Bestellungen auf «Arial».

2. Daten grafisch darstellen

2.1 Einführung

Warum Daten visualisieren?

Durch die Visualisierung wird beim Betrachter eines Diagramms ein zusätzlicher Kanal angesprochen. Man nutzt also die Erkenntnis, dass sich Denkoperationen auch in Bildern vollziehen können. Da die bildliche Wahrnehmung beim Menschen stark ausgeprägt ist, erhält man durch die Visualisierung von Daten folgende Vorteile:

  • Es bringt die Möglichkeit, das Wesentliche in einer kompakten Form zu zeigen
  • Sie erhöhen die Verständlichkeit - Man sieht das Wesentliche auf einen Blick
  • Durch das Aufzeigen von Grössenverhältnissen wirken die Zusammenhänge oft eindrücklicher
  • Dank unserem guten visuellen Gedächtnis erinnern wir uns später besser daran
  • In einem Bericht bewirken sorgfältig eingesetzte Diagramme oft einen besseren Gesamteindruck
  • Diagramme werden oft zur Manipulation der Betrachter herbeigezogen

2.2 Diagrammtypen

Daten können auf verschiedene Arten dargestellt werden:

  • Liniendiagramme: Sind wohl die bekanntesten Vertreter von Diagrammen. Sie sind besonders stark verbreitet in Mathematik und Physik aber auch bei Börsenkursen. Man versucht anhand der Kurvenverläufe Messungen und komplizierte Berechnungen besser zu verstehen oder wagt damit Prognosen. Typischerweise steigen die Werte in beide Achsenrichtungen kontinuierlich an. Jedem Punkt in der Diagrammebene kann man somit zwei Werte zuordnen. Man kann der Kurve entlangfahren und zu jeder beliebigen Position das aktuelle Wertepaar ablesen.
  • Balken– und Säulendiagramme: Beises ist im Prinzip dasselbe. Es werden einzig die beiden Achsen vertauscht. Balkendiagramme sind dann geeignet, wenn die Legenden der Rubrikenachse lang sind und (oder) man viele Rubriken hat. Jeder Gruppe wird ein Wert zugewiesen.
  • Kreisdiagramme: Diese (in dreidimensionaler Darstellung nennt man sie Tortendiagramme) sind dann geeignet, wenn man die verschiedenen Anteile von etwas Ganzem anzeigen möchte. Typisch z.B. zur Darstellung von Umfrageergebnissen.

2.3 Diagrammbezeichnungen

Bezeichnungen und Begriffe in Diagrammen:

2.4 Manipulation von und mit Diagrammen

Hinter bewusster Manipulation von Diagrammen steht die Absicht, gewissen Aspekten der Datenlage ein besonderes Gewicht zu geben. Mögliche Schlüsse sollen sich auffällig präsentieren oder man möchte gewisse Facts möglichst vertuschen. Der Betrachter erkennt oft nur beim aufmerksamen Studieren die wahren Absichten hinter solchen Verfälschungen. Hier einige beliebte Tricks:

  • Weglassen von einzelnen Diagrammelementen (z.B. fehlt die Achsenbeschriftung)
  • Ungleichmässige Abstände auf der Grössenachse
  • Verwenden von logarithmischen Skalen
  • Fokus (dargestellten Bereich) variieren - Damit kann man aus feinen Unterschieden grosse Sprünge machen und umgekehrt
  • Bei Säulendiagrammen kann man für einen doppelt so grossen Wert, nebst der doppelten Höhe der Säule auch deren Breite noch vergrössern (Ist die Breite z.B. 1.5 mal so gross, so wächst die Fläche bereits auf das 4.5 fache)
  • Visuell gewisse Teilaspekte besonders hervorheben - Oft lässt sich mit der Farbwahl der einzelnen Elemente bereits etwas erreichen
  • Verfälschen des ersten Eindrucks über die Grössenverhältnisse durch 3D-Ansichten

2.5 Mit Diagrammen arbeiten: Zeitreihe Produktivität

Situation: Sie arbeiten seit zwei Jahren in einer Firma. Nehmen wir an, dass ihre Produktivität klar messbar und in Zahlen auszudrücken ist. Diese Zahlen werden quartalsweise erfasst und befinden sich in der folgenden Tabelle:

Aufgabe: Erfassen sie die Daten in einer Tabellenkalkulation und stellen sie diese grafisch dar. Verwenden sie verschiedene Darstellungsformen und experimentieren sie mit den Möglichkeiten des Systems ein wenig herum. Speichern Sie die Variante, die ihnen am meisten zusagt ab.

2.6 Mit Excel visualisieren: Tauchgänge grafisch darstellen

Ein Taucher führt einen Tauchgang durch. Dabei muss er einen strengen Zeitplan beachten. Zu diesem Zweck will der den Tauchgang zunächst in Excel berechnen und anschliessend grafisch darstellen. Der Tauchgang soll nach dem folgenden Plan verlaufen:

  • Der Taucher taucht langsam ab auf 30 m Tiefe - Hierfür will er sich 10 Min. Zeit lassen
  • Nach 5 Min. Aufenthalt auf 30 m Tiefe taucht er weiter ab auf 50 m Tiefe hierfür rechnet er mit 5 Min.
  • Auf diesen 50 m Tiefe bleibt er 10 Min.
  • Anschliessend taucht er in 10-Meter-Schritten auf, wobei er für jeden Schritt 2 Min. rechnet und auf jeder Höhenstufe 10 Min. verweilen will

Speichern Sie Ihre Excel-Variante ab.

2.7 Welches ist die geeignete Diagrammform?

Erstellen sie mit dem folgenden Datenmaterial je eine Tabelle in Excel und visualisieren sie in einer geeigneten Diagrammform. Vergessen sie nicht, die Grafik korrekt und vollständig zu beschriften. Resultat auf Abgabeordner abgeben.

  1. Susi und Max trainieren 100m Lauf. Sie haben die folgenden Trainigsresultate erreicht:
    12.1.2017: Max=14.4sec, Susi=15.2sec. / 17.1.2017: Max=14.1sec, Susi=14.9sec. / 23.1.2017: Max=12.9sec, Susi=13.2sec. / 26.1.2017: Max=14.1sec, Susi=13.9sec. / 28.1.2017: Max=12.9sec, Susi=13.5sec. / 31.1.2017: Max=13.1sec, Susi=13.7sec.
  2. Eine Umfrage im Freundeskreis hat ergeben, dass 46% Himbeermarmelade, 23% Erdbeermarmelade, 19% Aprikosenmarmelade und 10% Orangenmarmelade als ihre Favoritenkonfitüre bezeichnen. 2% waren unentschlossen.
  3. Bei der letzten Mathematikprüfung wurden folgende Resultate erzielt: Susi=sehr-gut, Karl=gut, Hans=genügend, Fritz=ungenügend, Heinz=genügend, Vera=gut, Sepp=genügend, Anna=sehr-gut, Berta=genügend, Klaus=ungenügend, Ida=gut, Kurt=gut, Leo=genügend, Lara=gut, Xaver=schwach.

2.8 Eigene Manipulationen mit einem Diagrammen erstellen

Die Grafikkarte PixelStrike-GTX007 hat am Erstausgabetag 20.3.2017 CHF899.- gekostet. Am 24.3.2017 sank der Preis auf CHF861.-, dann am 6.4.2017 sogar auf CHF854.-. Im Laufe der Zeit entwickelte sich der Preis wie folgt:
9.4.2017=CHF820.- / 15.4.2017=CHF822.- / 27.4.2017=CHF791.- / 5.5.2017=CHF801.- / 12.5.2017=CHF815.- / 16.5.2017=CHF811.- / 23.5.2017=CHF798.- / 6.6.2017=CHF788.- / 15.6.2017=CHF784.- / 30.6.2017=CHF777.- / 5.7.2017=CHF796.- / 23.7.2017=CHF869.- / 18.8.2017=CHF873.- / 21.8.2017=CHF799.- / 24.8.2017=CHF837.- / 30.8.2017=CHF833.- / 4.9.2017=CHF838.- / 7.9.2017=CHF850.- / 12.9.2017=CHF839.-
Erfassen sie diese Werte in einer Excel-Tabelle. Erstellen sie nun Diagramme, die die folgenden Aussagen bestärken:

  1. Die Grafikkarte ist ein Schnäppchen
  2. Die Grafikkarte ist überteuert
  3. Der Preis hat sich kaum verändert
  4. Der Preis spielt Achterbahn
  5. Der Preis wurde stetig gesenkt
  6. Der Preis hat sich kontinuierlich erhöht
  7. Die Grafikkarte für unter CHF 800.-
  8. Weitere Aussageverfälschungen, die ihnen noch in den Sinn kommen

3. Statistik

Einführendes Beispiel:

Neulich soll eine Krankheit mit sehr unangenehmen Aus- und Nebenwirkungen entdeckt worden sein, die ausschliesslich Lernende befällt: «vkS».
(«vkS» ist die Abkürzung für «voll krasse Schulsucht») Die Symptome tauchen bei den betroffenen Schülerinnen und Schüler sehr schnell und unerwartet auf und zeigen sich durch Desinteresse an privaten Mails, Chats und Games und eine übertriebene Aktivität und Mitarbeit im Schulunterricht. Im fortgeschrittenen Stadium werden sogar Games von eigenen und fremden Rechnern entfernt, Social-Media-Kanäle für die ganze Schule gesperrt und nachts Schulgebäude aufgesucht, um heimlich zu lernen.

Und nun stellen sie sich vor, sie haben hier zum ersten Mal von dieser neuen Krankheit gelesen bzw. gehört und auch sofort ihren Arzt kontaktiert, um einen Test durchführen zu lassen. Wie sie wissen, ist die Ansteckungsgefahr bei «vkS» zwar eher gering, aber einmal infiziert, ist die Heilungschance bei einer Früherkennung deutlich besser als nach Ausbruch der Krankheit.
Ein paar Tage nach der Untersuchung ruft ihr Arzt sie an und offenbart ihnen, dass der Test bei ihnen "Positiv" ausgefallen ist. Es sind also Hinweise auf eine «vkS» gefunden worden. Angstschweiss bildet sich auf ihrer Stirn. Ihr Arzt gibt ihnen zusätzlich folgende Informationen:

  1. Zur Zuverlässigkeit des Tests sagt er ihnen, dass durch ihn die «vkS» bei 99 von 100 Menschen, die von ihr infiziert sind, erkannt wird - nur einer wird übersehen. In 99 Prozent der Untersuchungen Erkrankter liefert der Test also ein positives und richtiges Ergebnis, in 1 Prozent der Fälle ein negatives und falsches. Andererseits werden von 100 Nichtinfizierten 98 auch als gesund erkannt. Nur zwei geraten fälschlich in den Verdacht, krank zu sein (und zu denen möchten Sie gehören). Der Test liefert also in 98 Prozent der Untersuchungen Gesunder ein negatives und richtiges Ergebnis, in 2 Prozent ein positives und falsches.
  2. Über die «vkS» erfahren sie, dass sie nur etwa bei jedem tausendsten Schüler oder Schülerin auftritt. Somit erwischt es an unserer Schule statistisch ca. 4 - 5 Personen. Wegen der Härte der Symptome wurden in Europa innerhalb weniger Tage über 200.000 Schülerinnen und Schüler getestet.
  3. Da ihr Testergebnis positiv war, ist zur weiteren Abklärung ein kleiner pädagogischer Eingriff unter Vollnarkose erforderlich (ist wie Unterricht am Montagmorgen), verbunden mit einem dreitägigen Schulaufenthalt ohne Pausen.

Der Test identifiziert mit 99-prozentiger Sicherheit die Erkrankten und mit 98-prozentiger Sicherheit die Gesunden. Er ist also sehr zuverlässig. Und er ist bei ihnen positiv ausgefallen. Besteht Grund, sich ernsthafte Sorgen zu machen? Sie setzen sich in den Sessel, erholen sich vom ersten Schock und überlegen sich das Ganze in Ruhe.
Da ihr Testergebnis positiv ist, sind sie mit folgender Wahrscheinlichkeit «vkS»-infiziert: (Bitte kreuzen Sie an)

□ 99%
□ 98%
□ etwa 95%
□ etwa 50%
□ etwa 5%
□ 2%
□ 1%

(Hinweis: Auflösung weiter unten!)

3.1 Einleitung

Es ist unser Ziel, Ergebnisse von statistischen Erhebungen und grosse Datenmengen so zusammenzufassen, dass sie einfach zu interpretieren sind und das Wesentliche in möglichst knapper Form aussagen. Neben der graphischen Darstellung gibt es eine Reihe von statistischen Masszahlen mit denen wir dieses Ziel erreichen können. Das arithmetische Mittel (bzw. Durchschnitt) ist sicher allen bekannt. Auch wenn er eine rechnerisch klar definierte Grösse ist, ist seine Aussagekraft nicht immer eindeutig. Einige dieser Masszahlen werden im Folgenden Thema sein.

Übrigens zur «voll krasse Schulsucht» noch folgendes:
Die Tatsache, dass die meisten Menschen die Wahrscheinlichkeit der Erkrankung zu hoch einschätzen, liegt im Umstand, dass man die Genauigkeit der Tests anschaut, ohne die Häufigkeit der Krankheit zu berücksichtigen. Der statistische Fachbegriff dafür lautet Prävalenz. Im Fall der «vkS» ist unter Punkt 2 beschrieben, dass die Krankheit nur bei jedem tausendsten Schüler auftritt – somit ist die Prävalenz 1 Erkrankter auf 1000 Personen. Korrekt spricht man von der Prävalenzratio: das ist die Anzahl erkrankter durch die Anzahl untersuchter Personen. In unserem Beispiel sind von 200.000 Personen also 200 wirklich erkrankt. 99% dieser Erkrankten werden durch den Test auch erkannt: in diesem Fall also 198 Personen. 2% geraten ja fälschlicherweise in Verdacht erkrankt zu sein – sind es aber nicht: 2% von 199.800 gesunden Personen – das heisst 3994 Personen erhalten zusätzlich eine Schockmeldung. Von den 4198 Meldungen (100%) sind aber nur 200 wirklich erkrankt (4.76 %) –also cool bleiben. Daraus ziehen sie bitte für den Rest ihres Lebens den Schluss, dass sie immer erst genau nachrechnen bevor sie sich erschrecken lassen.

Terminologie und Verfahren, die sie für das Lösen der folgenden Aufgaben kennen sollten: (Nachzulesen in der entsprechenden Fachliteratur!)

  • Begriffe der Statistik:
    Messwerte, Ergebnis, Zufallsvariable
    Grundgesamtheit, Stichprobe, Messwert
    Wahrer Wert μ, Extremwerte, Datenzahl
    Häufigkeit
  • Lagekennzahlen:
    Modalwert Modus, Median, Mittelwert
  • Normalverteilung:
    Normal- oder Gauss-Verteilung
  • Streuungskennzahlen:
    Spannweite, Varianz, Standardabweichung

3.2 Extremwerte und Häufigkeitsverteilung ermitteln

Erforderliches Datenmaterial hier herunterladen: Notenspiegel.xlsx
Bestimmen Sie für die Aufzeichnung "Notenspiegel" mit Excel die folgende Kennzahlen:

  • Die Extremwerte Minimum und Maximum
  • Die Häufigkeitsverteilung als Balkendiagramm
  • Die Häufigkeitsverteilung als Balkendiagramm aufgeteilt in Klassen (Halbnotenschritte wie 1 bis 0.49 | 0.5 bis 0.95 | 1 bis 1.49 etc.) 

3.3 Lagekennzahlen Median und Mittelwert verstehen

Erforderliches Datenmaterial hier herunterladen: Notenspiegel.xlsx
Auf welchen Wert würde sich bei unserem Würfelexperiment der Median und der Mittelwert ändern, wenn anstelle einer 6 eine weitere 1 gewürfelt wurde? Welche Erkenntnisse und Schlüsse ziehen sie daraus?

3.4 Lagekennzahlen Median und Mittelwert mit Excel ermitteln

Erforderliches Datenmaterial hier herunterladen: Notenspiegel.xlsx
Bestimmen Sie für die Aufzeichnung "Notenspiegel" in Excel folgende Kennzahlen:

  • Medianwert
  • Mittelwert

3.5 Normalverteilungskurve für Würfelkombinationen erstellen

Ihnen stehen für diese Aufgabe zwei Würfel (Rot und Grün) zur Verfügung. Sie möchten nun herausfinden, wieviele Würfelkombinationen jeweils dieselbe Augensumme ergeben. Vervollständigen sie die Tabelle links. Anschliessend visualisieren sie die ermittelten Werte bzw. Verteilung, indem sie das Säulendiagramm rechts ergänzen. Was stellen sie fest? (Wir stellen fest, dass die Wahrscheinlichkeit, einen Wert 12 (6-6) zu würfeln, gleich klein ist, wie den Wert 2 zu würfeln: (1-1) - Die Wahrscheinlichkeit, dass man den Wert 7 würfelt, ist allerdings sechsmal grösser: (6-1, 1-6, 5-2, 2-5, 4-3, 3-4))

3.6 Normalverteilungskurve mit Excel erstellen

Erforderliches Datenmaterial hier herunterladen: Notenspiegel.xlsx
Wie verteilen sich die Prüfungsresultate in unserem Notenspiegel?

3.7 Streuungskennzahlen ermitteln

Erforderliches Datenmaterial hier herunterladen: Notenspiegel.xlsx
Bestimmen Sie für die Aufzeichnung "Notenspiegel" in Excel folgende Kennzahlen:

  • Spannweite
  • Varianz
  • Standardabweichung
  • Standardabweichung, wenn im vorliegenden Notenspiegel nur eine Stichprobe mit 30 Noten von insgesamt 100 Noten erfasst wäre?

3.8 Kennzahlen für das "Weinbergschneckenrennen" ermitteln

In der französischen Bourgogne findet alljährlich das mit grosser Aufmerksamkeit verfolgte Weinbergschneckenrennen statt. Das in mehreren Tagesetappen ausgetragene Rennen, das aufgrund der eingesetzten Dopingmittel (in Form von Salat) auch "Tour de Trance" genannt wird, führt vor der letzten Etappe von Marinade nach Casserole die Schnecke Emilio Escargot an, die aus diesem Grunde auch das so genannte "gelbe Schneckenhaus" tragen darf. Am Start zur 13. und letzten Etappe ist Ricki Raserati der aussichtsreichste Verfolger von Emilio Escargot.

Etappe 1 2 3 4 5 6 7 8 9 10 11 12
Etappenlänge in m 3.2 1.9 3.4 3.3 2.7 2.9 1.8 2.6 2.3 2.2 1.8 2.1
Raserati Geschwindigkeit m/Std 0.8 0.6 0.68 0.72 0.9 0.88 0.87 0.69 0.75 0.77 0.63 0.91
Escargot Geschwindigkeit m/Std 0.77 0.8 0.79 0.81 0.69 0.85 0.96 0.87 0.82 0.74 0.71 0.7
  1. Berechnen Sie für die Etappenlänge in Meter folgende Kennzahlen: Arithmetisches Mittel, Modus und Median.
  2. Erstellen Sie ein Säulendiagramm, das die Geschwindigkeit der beiden Schnecken je Etappe in einer Grafik nebeneinander stellt.
  3. Erweitern Sie die Tabelle um die Zeit in Stunden (Dezimal) je Schnecke und je Etappe (Mit Formeln).
  4. Erstellen Sie ein Liniendiagramm, das die Zeit in Stunden (Dezimal) der beiden Schnecken über alle Etappen vergleicht.
  5. Ermitteln Sie mit Formeln die Zeitdifferenz zwischen den beiden Schnecken je Etappe und insgesamt.
  6. Ermitteln Sie aus den bis jetzt erstellten Daten die Anzahl Etappensiege (mit Formeln).

3.9 Kennzahlen für den "Buchstabensalat" ermitteln

Es ist Ihnen sicher bekannt, dass die Buchstaben des Alphabets innerhalb eines deutschen Textes nicht gleich häufig vorkommen. Diesen Zusammenhang wollen wir analysieren. Es steht Ihnen die Datei Buchstabensalat.xls zur Verfügung.

  1. Suche Text
    Suchen sie im Internet einen geeigneten Text, den sie analysieren wollen. Der Text sollte nicht zu kurz sein, damit die Verteilung typisch ist. In Buchstabensalat.xls können sie mit Ctrl+B das Makro starten, das es ihnen erlaubt den Text in die Tabelle zu übertragen. Beachten sie, dass nur die Buchstaben a bis z eingetragen werden. Grosse Buchstaben werden automatisch umgewandelt.
  2. Bestimmung des Modus
    Aus dieser vollständigen Tabelle lässt sich bereits der Modus bestimmen. In Excel wird dieser Wert als Modalwert bezeichnet. Bestimmen sie den Buchstaben, welcher in ihrem Text die grösste Häufigkeit aufweist.
  3. Verteilung der absoluten Häufigkeit
    Stellen sie für ihren Text die absolute Häufigkeit des Auftretens der Buchstaben zusammen. Es gibt die Funktion "ZähleWenn" aber setzen Sie auch die Häufigkeitsfunktion ein. Das ist eine so genannte Matrixfunktion. Verwenden Sie die Hilfefunktion von der Tabellenkalkulation um die Details zu erfahren.
  4. Relative Häufigkeit
    Ergänzen sie ihre Tabelle durch die relative Häufigkeit in %.
  5. Median, Arithmetisches Mittel, Spannweite, Varianz, Standardabweichung
    Bestimmen sie für die relative Häufigkeit den Median, das arithmetische Mittel, die Spannweite, die Varianz und die Standardabweichung. Versuchen sie jede Grösse mit eigenen Worten zu interpretieren.
  6. Grafische Aufarbeitung
    Stellen sie das Ergebnis ihrer Statistik grafisch dar. Wir wollen anschliessend die Ergebnisse der Texte vergleichen und versuchen, eine allgemein gültige Aussage zu machen. Gleichzeitig sollen die Ergebnisse der relativen Häufigkeit in die Tabelle Auswertung.xls eingetragen werden.

Prüfung Nr. 1

(Diese Prüfung steht leider nur den Lernenden von Jürg Arnold an der TBZ-IT zur Verfügung!)


4. Abfragen

4.1 Abfragen in Firma_1.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_1.odb
Beantworten Sie die folgenden Fragen, die sich auf die drei Tabellen TPerson, TOrt und TRechnung beziehen. Notieren Sie die Antworten.

  1. Wie heisst die Person mit dem Nachnamen "Neubert" mit Vornamen?
  2. Welche Postleitzahl hat der Ort Mumpf?
  3. Wie lauten die Nachnamen von allen Personen, die mit Vornamen Horst heissen?
  4. Welche Personen sind vor dem 01.01.1965 geboren?
  5. Aus welchem Ort kommt Bianca Heling?
  6. Welche Personen kommen aus Mumpf?
  7. Welche Personen kommen aus dem Kanton Jura?
  8. Wie hoch ist der Rechnungsbetrag von "Jörg Mäder"?
  9. Aus welchem Kanton kommt die Person mit der Rechnung Nummer 8?
  10. Aus welchen Kantonen kommen Personen mit Rechnungen über 8000.- sFr.?

4.2 Abfragen in Firma_2.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_2.odb
Beantworten Sie die folgenden Fragen und notieren Sie die Antworten bzw. Abfragen.

  1. Wie viele Datensätze enthält die Tabelle tbl_Orte?
  2. Erstellen Sie eine Abfrage, die nur die Ortsnamen und die Kantone anzeigt.
  3. Sortieren Sie das Ergebnis von Frage 2 nach den Ortsnamen – kontrollieren sie was unter „aufsteigend“ und unter „absteigend“ verstanden wird.
  4. Erstellen Sie eine Abfrage mit allen Attributen der Tabelle tbl_Orte, aber nur mit den Orten aus dem Kanton Aargau. Wie viele Datensätze erhalten Sie?
  5. Blenden Sie bei dem Ergebnis der Frage 4. den Kanton aus.
  6. Als nächstes suchen Sie von den Datensätzen, die aus dem Kanton Aargau sind noch diejenigen heraus, deren Postleitzahl kleiner als 5000 ist.
  7. Wir schränken die Auswahl weiter ein und suchen die Aargauer Gemeinden, deren Postleitzahl grösser oder gleich 4800 ist und kleiner als 5000.
  8. Zusätzlich zum Punkt 7 wollen wir noch alle Aargauer Orte aufgelistet haben, deren Postleitzahl grösser als 8900 ist (NUR die aus dem Aargau!).
  9. Wir suchen alle Orte, deren Bezeichnung mit „Me“ beginnt.
  10. Suchen Sie alle Orte, die auf „wil“ enden.
  11. Wie viele Orte enden auf „wil“ oder „kon“?
  12. Welche Orte beginnen mit dem Buchstaben D und enden auf „kon“?
  13. Die Postleitzahlen sind hier als Texte gespeichert. Wir möchten alle Orte, die eine volle tausender Postleitzahl haben (1000, 2000, usw.).

4.3 Abfragen in Firma_3.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_3.odb
Bevor Sie mit der Beantwortung der Fragen beginnen, machen Sie sich darüber klar, wie die Tabellen miteinander verknüpft sind. Zeichnen Sie ein Schema der fünf Tabellen mit den jeweiligen Attributen, über die sie verknüpft sind. Beantworten Sie nun die folgenden Fragen und notieren Sie die Antworten bzw. Abfragen.

  1. Wie viele Positionen enthält die Rechnung Nummer 1 vom 01.03.2002?
  2. Wie viele Teile (Stück über alle Artikel) enthält Rechnung Nummer 2?
  3. Wie oft wurde der Artikel Nummer 2 verkauft?
  4. Wie viel Umsatz wurde mit dem Artikel Nummer 2 erzielt?
  5. Wie lautet der Gesamtbetrag bei Rechnung Nummer 4?
  6. Ermitteln Sie das Gewicht der Lieferung von Rechnung Nummer 4
  7. Wie hoch ist der Gesamtumsatz von dem Kunden Horst Kolesnik?
  8. Erstellen Sie die Abfragen für den dritten Eintrag in TRechnung (ID-Rechnung = 3), die als Basis für eine Rechnung (Bericht) dienen können: a. Rechnungsdatum und Empfänger, b. Rechnungspositionen und c. Totalbetrag (siehe Bild unten)

4.4 Abfragen in Firma_4.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_4.odb
Bevor Sie die Abfragen erstellen, sollten Sie sich die Tabellen und die Beziehungen anschauen, um zu wissen, wo Sie welche Informationen finden. Die vorliegende Datenbank ist aus einer produktiven Umgebung kopiert und stark vereinfacht worden. Ausserdem sind die Daten verfälscht.
Notieren Sie jeweils die Antwort der Frage und speichern Sie die Abfragen in der Datenbank ab.

Im folgenden einfache Abfragen über eine Tabelle:

  1. In welchem Ort wohnt eine Person mit dem Nachnamen "Dra"?
  2. Sie haben eine Nachricht für eine Person, deren Nachname die Buchstabenkombination "ap" enthält und die in Luzern wohnt. Wie lautet der Vorname?
  3. Wie viele Personen hatten ihre Ankunft im Juni 1999?
  4. Wie viele Personen hatten ihre Ankunft oder Abreise im Juni 1999?

    Im folgenden einfache Abfragen über mehrere Tabellen:

  5. Welches ist die Ankunft von "Paul Müller"?
  6. Wie lauten die Namen der Personen, die mehr als 30 Tage Aufenthalt hatten?
  7. Erstellen Sie eine Liste mit allen Personen, die eine Ankunft im Jahre 2000 hatten und aus einem Ort mit einer 8000-er Postleitzahl kommen. Notieren Sie die Anzahl der Datensätze.

    Bemerkungen für die folgenden Fragen: Der Rabatt ist in dieser Datenbank als Faktor (eine Zahl zwischen 0 und 1) angegeben. Dies entspricht dem Rabattsatz in Prozent geteilt durch 100. Die Frage nach den grössten Beträgen können Sie ohne Funktion beantworten: Absteigend sortieren und den ersten Wert nehmen. Die Mehrwertsteuer können Sie hierbei ignorieren.
  8. Wer hat den grössten Nettobetrag pro Position ausgegeben? (Formel angeben!)

    Im folgenden Berechnungen mit dem Datentyp Zahl:

  9. Berechnen Sie pro Datensatz der Tabelle "Positionen" den Bruttobetrag (Anzahl * Preis). Welches ist der grösste Totalbetrag? (Formel angeben!)
  10. Berechnen Sie pro Datensatz der Tabelle "Positionen" den Rabattbetrag (Beispiel: 10% entspricht 0.1). Welches ist der grösste Rabattbetrag? (Formel angeben!)
  11. Berechnen Sie pro Datensatz der Tabelle "Positionen" den Nettobetrag (Bruttobetrag – Rabattbetrag) Welches ist der grösste Nettobetrag? (Formel angeben!)

    Im folgenden Filtern mit dem Datentyp Text:

  12. Erstellen Sie in einer Abfrage eine neue Spalte. Geben Sie in dieser Spalte Vorname und Nachname durch Komma getrennt aus. (Formel angeben!)
  13. Erstellen Sie in einer Abfrage eine neue Spalte. Gestalten Sie die Ausgabe gemäss folgendem Beispiel: Peter Muster aus Uster. (Formel angeben!)
  14. Erstellen Sie in einer Abfrage eine neue Spalte. Geben Sie den ersten Buchstaben des Vornamens und den Nachnamen aus. z.B: P. Muster. (Formel angeben!)

    Im folgenden Filtern mit dem Datentyp Datum:

  15. Berechnen Sie mit einer Abfrage über die Tabelle "Buchung" die Aufenthaltsdauer (Abreise - Ankunft). (Formel angeben! Tipp: Siehe Fachartikel)
  16. Geben Sie in einer Abfrage über die Tabelle "Buchung" nur das Jahr der Ankunft aus. Verwenden Sie die Year(date)-Funktion. (Formel angeben!)

    Im folgenden Abfragen mit Berechnungen (Aggregatsfunktionen):

  17. Wer hat den grössten Nettobetrag pro Buchung? (machen Sie sich den Unterschied zwischen "pro Buchung" und "pro Position" klar!)
  18. Welcher Mitarbeiter gab am meisten Rabatt?
  19. Wieviel Kunden wurden von Esther Müller bedient?
  20. Erstellen Sie eine Liste der Nettoumsätze pro Quartal. Erste Kolonne: Jahr. Zweite Kolonne: Quartal 1-4. Dritte Kolonne: Nettoumsatz.

4.5 Abfragen in Firma_5.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_5.odb
Fassen Sie alle Resultate in einem Dokument zusammen und speichern sie dieses in ihrem ePortfolio.

  1. Abfragen: (eine Tabelle, einfaches Kriterium)
    a) Für welches Erzeugnis (Erzeugnisbeschreibung) wurde ein Betrag von SFr. 1150.00 verrechnet?

    b) In wie vielen Datensätzen der Tabelle "TInverkehrbringer" taucht das Wort "markt" im Feld "Inverkehrbringer" auf?

  2. Abfragen: (eine Tabelle, verknüpfte Kriterien)
    a) In der Tabelle "TMangelcode_History" werden alle Mängel zu den Erzeugnissen erfasst. Notieren Sie alle Primärschlüssel der Mängel, die zwischen dem 8.09.1999 und dem 14.09.1999 erfasst wurden (inklusive der beiden Randdaten).

    b) In der Tabelle "TInverkehrbringer" sind die Firmen erfasst, die die Erzeugnisse verkauft haben. In wie vielen Datensätzen kommt im Feld "Inverkehrbringer" der Ausdruck "Jumbo" vor, aber nicht der Ausdruck "markt".
    Tipp: Sie können jedes Kriterium ins Gegenteil kehren, wenn Sie den Operator "Nicht" vor das Kriterium setzen. z. B: Nicht Wie 'Hans*' => alle Datensätze die nicht mit "Hans" beginnen.

  3. Abfragen: (mehrere Tabellen, einfache Kriterien)
    a) Wie lautet der "MangelCodeText" der Mängel, die zwischen dem 8.09.1999 und dem 14.09.1999 erfasst wurden (inklusive der beiden Randdaten)?

    b) Wie heisst die Handelsmarke des Erzeugnisses, bei dem für einen Arbeitsschritt 10 Stunden erfasst wurden?

  4. Abfragen: (mehrere Tabellen, verknüpfte Kriterien)
    a) Wie lauten die Typenbezeichnungen für die Stichsägen ("Erzeugnisbeschreibung") der Handelsmarken "Festo" und "Bosch"?
    Tipp: Feld "Typenbezeichnung" aus Tabelle "TErzeugnisse"

    b) Wie heissen die Handelmarken der Erzeugnisse, für die Eduardo de Anta als Sachbearbeiter zuständig ist und für die ein Verrechnungsbetrag von SFr. 750.- erfasst wurde?

  5. Abfragen: (berechnete Felder)
    a) Erstellen Sie eine Abfrage, die als Resultat die untenstehende (siehe Bild 1) Tabelle ausgibt. Notieren Sie, wie Sie das neue Feld "Produkt" definieren.

    b) Wie können Sie mit einer Abfrage (siehe Bild 2) die Kosten pro Arbeitsschritt berechnen, wenn pro Stunde SFr. 125.- verrechnet werden? Notieren Sie, wie Sie das neue Feld "Kosten" definieren.

  6. Abfragen: (mit Aggregats-/Guppierungsfunktionen)
    a) Es soll abgefragt werden, für welche Handelsmarke insgesamt am meisten Arbeitszeit eingegeben wurde. Dabei spielt es keine Rolle welche Erzeugnisse betroffen sind. Notieren Sie die Handelsmarken mit den drei höchsten summierten Arbeitszeiten (siehe Bild 3).

    b) Nennen Sie die Beschreibung des Erzeugnisses für das 37-mal ein Arbeitsschritt erfasst wurde.

Prüfung Nr. 2

(Diese Prüfung steht leider nur den Lernenden von Jürg Arnold an der TBZ-IT zur Verfügung!)