Datenverarbeitung

Modul 100 «Daten charakterisieren, aufbereiten und auswerten»

26. November 2020 , Modulidentifikation , LBV-Modul-100-1

Inhaltsverzeichnis

1. Daten erfassen und auswerten

Schwerpunkt dieses Abschnitts ist es, Strukturmerkmale von Daten zu erkennen. Wir unterscheiden zwischen unstrukturierten, halb und voll strukturierten Daten, wobei starke Strukturen für die Bewirtschaftung und Auswertung der Daten geeigneter sind. Ausserdem lernen wir die folgenden Begriffe besser kennen:

  • Daten sind Nachrichten, die maschinell verarbeitet und gespeichert werden können
  • Nachricht (Unterscheidung nach syntaktischem, semantischem und pragmatischem Aspekt)
  • Information (Sind in einer Nachricht enthalten und haben einen Neuigkeitswert)
  • Wissen (Verknüpfte Information - Assoziationen)
  • Redundanz (Redundante Informationen besitzen keinen Neuigkeitswert und sind in der Datenverarbeitung unerwünscht)

Daten für sich alleine stellen noch keine Informationen dar. Die Ziffernkombination «Fünf, Null» lässt den Wert 50 erkennen. Dieser Wert ist aber noch keine Information, Sie können damit noch nichts anfangen. Erst der Zusammenhang macht aus Daten Informationen

1.1 Fallbeispiel Personendaten (1): Steckbrief erstellen

Sie sollen nun ihre Klassenkameraden/innen etwas besser kennenlernen. Was genau möchten sie den gerne über ihre/n Mitschüler/in erfahren?
Erstellen sie nun ihren eigenen Steckbrief mit den Angaben zu ihrer Person, ihr Name, wo sie wohnen, wieviel Geschwister sie haben, was ihre Lieblingsfarbe, Lieblingssport, Lieblingsessen ist etc. Benutzen sie dazu dieses Steckbrief-Template: Steckbrief.jpg
Den fertigen Steckbrief hängen sie an die Wandtafel oder an die Schulzimmerwand. Danach haben sie die Gelegenheit, anhand dieser Steckbriefe etwas über ihre Mitschüler/innen zu erfahren.

1.2 Fallbeispiel Personendaten (2): Definieren von Kriterien bzw. Kategorien

Sie haben nun alle Steckbriefen ihrer Mitschüler/innen gelesen. Wie unterscheiden sich die Steckbriefe bezüglich den darin gemachten Angaben? Sind die Steckbriefe vergleichbar bzw. auswertbar und welche Strukturform weist diese Datenmenge (damit ist die Gesamtmenge aller Steckbriefe gemeint) auf?
Nun erstellen wir gemeinsam die relevanten Kategorien, nach denen die Personenangaben aus den Steckbriefen später geordnet erfasst werden sollen.

1.3 Fallbeispiel Personendaten (3): Daten nach Kategorien elektronisch erfassen und auswerten

Nun sollen die Steckbriefe (unstruktuierte Personendaten) elektronisch erfasst werden und zwar exakt in den Kategorieren die wir in der vorangegangenen Aufgabe definiert haben. Damit werden diese effizient auswert-, vergleich- und darstellbar!
Dazu ein Beispiel: Würde man bei allen Personen deren Vornamen, Familiennamen und Körpergewicht erfragen, könnte man anschliessend in einer Auswertung eine Aussage über das durchschnittliche Körpergewicht in der Klasse machen und die Resultate sogar noch graphisch darstellen. Allerdings ist diese Gewichtsauswertung etwas unfair. Das Körpergewicht müsste noch interpretiert bzw. in Relation zur Körperlänge gesetzt werden, weil doch grosse Personen meist auch ein grösseres Gewicht haben.

  1. Wir erstellen nun gemeinsam ein Excel-Sheet mit den vorher bestimmten Kategorien.
    Die gemeinsame Excel-Tabelle des Steckbriefs kann anschliessend hier heruntergeladen werden: Steckbrief.xlsx
  2. Jeder Lernende erfasst nun im zuvor erstellten Excel-Sheet seine eigenen Daten aus seinem Steckbrief.
  3. Anschliessend werden sämtliche Tabellen in ein Excel-Sheet zusammengeführt und die resultierende Datei "PersonalDescriptionSummary.xls" per Cloud an alle Lernende verteilt.
  4. Nun sollen die Personaldaten verglichen und ausgewertet werden (Demo!)

Tipp: Excel-Tabellen zusammenführen

Nachdem jeder Lernende die erhaltene Excel-Vorlage mit seinen persönlichen Angaben ergänzt hat, werden die Dateien nun eingesammelt. Um eine Übersicht zu erhalten oder Vergleiche anzustellen, müssen die Dateien zu einer einzigen EXCEL-Masterdatei zusammengeführt werden. Dies kann man mit EXCEL-Bordmitteln so erledigen: (Stichwort Power Query)

  1. Voraussetzung: Alle Tabellen weisen das selbe Format auf und befinden sich in einem extra erstellten Verzeichnis
  2. Excel → Daten → Daten abrufen
  3. Aus Datei → Aus Order
  4. Ordnerpfad angeben
  5. Kombinieren → Kombinieren und laden
  6. EXCEL-Datei auswählen (z.B. User1.xls) → Tabelle auswählen (z.B. Tabelle1) → Tabelle wird zur Kontrolle in der rechten Fensterhälfte angezeigt
  7. Den vorangegangenen Schritt für alle Tabellen wiederholen
  8. Die Tabellen werden in der aktuell offenen Excel-Datei bzw. Tabelle zusammengefasst

Musterlösung Steckbriefe

Hier können sie eine Musterlösung heruterladen, die die gesammelten Steckbriefe einer fiktiven Schulklasse zeigt, wo auch einige Merkmale ausgewertet und graphisch dargestellt sind: SteckbriefeMuster.xlsx


1.4. Datenerhebung - So machen es die Profis

Wenn sie wissen wollen, wie die Spezialisten Personendaten erheben, sei ihnen das folgende Dokument zur Durchsicht empfohlen: Personenfragebogen zur Eidgenössische Volkszählung 2000

1.5. Tabellenterminologie und dreistufige Adressierung

Diese Begriffe sollte man sich merken:

So werden Daten gefunden (Dreistufige Adressierung):

1.6. Datentypen und Wertebereiche

Datentypen:

Der Datentyp sagt aus, wie die im Computer binär vorliegenden bzw. verarbeitbaren Daten zu interpretieren sind. Die allgemeinen Datentypen:

  • Integer: Ganzzahl, ursprünglich 16 Bit = 216 Kombinationen und somit -32'768 .. + 32'767, Operationen: + - * / < > = % (%=Modulo)
  • Boolean: Wahr oder Falsch bzw. 1 oder 0, Operationen: NOT AND OR = (und Kombinationen davon)
  • Character: Alphanumerisches Zeichen, Satzzeichen (ASCII), Operationen: < > = StrToInt
  • Floating-point numbers: Fliesskommazahl oder Dezimalzahl in der Form ±0.xxx E±yyy, Operationen: + - * / < > =
  • Alphanumeric string: Zeichenkette oder Array of char

Weitere spezielle und zusammengesetzte Datentypen:

  • Enumeration: Aufzählungstypen wo der Wertebereicg selber definiert werden kann (z.B. Rot, Grün, Gelb, Blau, Schwarz, Weiss)
  • Record: Struktur, die ihrerseits verschiedene Datentypen enthält

Einige der zusätzlichen Zahlenformate in Excel:

  • Currency: Währung (z.B. CHF 23.40)
  • Date: Datum (z.B. Mittwoch, 14 März 2012)
  • Time: Zeit (z.B. 13:30 h)
  • Prozent: (z.B. 80.3%)

Wertebereiche:

Abgesehen davon, dass Datentypen wie der Integer keine unendlichen Wertebereiche haben, kann auch die Aufgabe eine Einschränkung der einzugebenden Daten erfordern. Zum Beispiel beginnen die Schweizer Postleitzahlen bei 1000 (Lausanne, VD) und enden bei 9658 (Wildhaus, SG). Somit kann man schon bei der Eingabe durch die Einschränkung «1000≤PLZ≤9658» verhindern, dass inexistente Postleitzahlen erfasst werden. (Plausibilität)

1.7. Datentypen und Wertebereiche anwenden

Erstellen sie eine Kundenkartei als Exceltabelle. Sie sollten von ihrer Kundschaft folgendes erfassen:

  • Vorname und Familienname
  • Genaue Adresse
  • Telefonnummer
  • Geburtsdatum
  • Geschlecht
  • Nationalität
  • Haarfarbe
  • Schuhgrösse
  • Aktuelle Kreditlimite

Achten sie darauf, die erhobenen Daten so anzulegen, dass sie bei einer anschliessenden Auswertung nicht eingeschränkt sind. Begründen sie die Wahl der jeweiligen Datentypen. Testen sie ihre Tabelle aus, indem sie ein paar Datensätze erfassen. Zeit: 20' Einzelarbeit

1.8. Strukturierte Datenerfassung

Je besser eine Datenablage organisiert bzw. strukturiert ist, desto komfortabler gestalten sich die Zugriffe darauf. Die Erstellung einer starken Datenstruktur erfordert allerdings auch einen höheren Arbeitsaufwand. Die Datenverwaltung umfasst folgende Aktionen:

  • Daten erfassen
  • Daten mutieren
  • Daten löschen
  • Daten auswerten
  • Daten formatieren

1.9 Datenstrukturen untersuchen

Telefonbuch in Papierformat:

  • Nach welchen Kriterien ist ein Telefonbuch organisiert?
  • Welche weiteren Organisationskriterien könnten in einem Telefonbuch auch von Interesse sein und warum?

1.10 Datenstrukturen vergleichen

Es soll nun untersucht werden, welche Vor- und Nachteile eine schwache, mittlere und starke Datenstruktur bietet. Dazu stehen folgende drei Dateien mit ähnlichen Daten zur Verfügung: Textverarbeitung Bestellung.docx, Tabellenkalkulation Bestellung.xlsx, Access-Datenbank Bestellung.mdb.

Führen sie folgende Aufträge nacheinander mit der Textverarbeitung, dann der Tabellenkalkulation und letzlich der Access-Datenbank durch. Beurteilen sie für jede Datei, wie der Auftrag ausgeführt werden konnte:

  • 0=nicht möglich
  • 1=umständlich und aufwändig
  • 2=erfordert tiefere Kenntnisse
  • 3=geht gut und einfach

Fassen sie ihre Resultate in einer Tabelle zusammen:

  1. Ändern Sie die Adresse von Felix Affentranger in allen Bestellungen. Neuer Wohnort: Sonnenbergstr. 50, 8032 Zürich
  2. Ändern Sie den Preis von Artikelnummer 2 (Haushaltpapier) auf 6.20 sFr.
  3. Ergänzen Sie die Bestellung Nr. 9 mit dem Lieferdatum. Setzen Sie das aktuelle Datum ein.
  4. Ergänzen Sie die Bestellung Nr. 10 mit folgender Bemerkung: «Auslieferung erfolgt nach Kundentelefon!»
  5. Erfassen Sie die Bemerkung «wichtiger Kunde» zu Kunde Nr. 64.
  6. Erfassen Sie eine neue Bestellung für Herrn Andreas Lienhard (Datensatznummer 180 bei Access). Er bestellt 2 Packungen Glühbirnen à 60W und 2 Packungen à 40W.
  7. Löschen Sie alle Bestellungen von Herrn Hugo Keiser.
  8. Das Waschpulver «Magic 60» soll aus dem Sortiment und aus allen bisherigen Bestellungen gelöscht werden.
  9. Wie oft wurde eine Packung Glühlampen 60W bestellt?
  10. Wie viele Bestellungen konnten noch nicht ausgeliefert werden (kein Lieferdatum vorhanden)?
  11. Formatieren Sie alle Preise mit Schriftgrösse 12 und fett.
  12. Ändern Sie die Schriftart aller Bestellungen auf «Arial».

2. Daten grafisch darstellen

2.1 Einführung

Warum Daten visualisieren?

Durch die Visualisierung wird beim Betrachter eines Diagramms ein zusätzlicher Kanal angesprochen. Man nutzt also die Erkenntnis, dass sich Denkoperationen auch in Bildern vollziehen können. Da die bildliche Wahrnehmung beim Menschen stark ausgeprägt ist, erhält man durch die Visualisierung von Daten folgende Vorteile:

  • Es bringt die Möglichkeit, das Wesentliche in einer kompakten Form zu zeigen
  • Sie erhöhen die Verständlichkeit - Man sieht das Wesentliche auf einen Blick
  • Durch das Aufzeigen von Grössenverhältnissen wirken die Zusammenhänge oft eindrücklicher
  • Dank unserem guten visuellen Gedächtnis erinnern wir uns später besser daran
  • In einem Bericht bewirken sorgfältig eingesetzte Diagramme oft einen besseren Gesamteindruck
  • Diagramme werden oft zur Manipulation der Betrachter herbeigezogen

2.2 Diagrammtypen

Daten können auf verschiedene Arten dargestellt werden:

  • Liniendiagramme: Sind wohl die bekanntesten Vertreter von Diagrammen. Sie sind besonders stark verbreitet in Mathematik und Physik aber auch bei Börsenkursen. Man versucht anhand der Kurvenverläufe Messungen und komplizierte Berechnungen besser zu verstehen oder wagt damit Prognosen. Typischerweise steigen die Werte in beide Achsenrichtungen kontinuierlich an. Jedem Punkt in der Diagrammebene kann man somit zwei Werte zuordnen. Man kann der Kurve entlangfahren und zu jeder beliebigen Position das aktuelle Wertepaar ablesen.
  • Balken– und Säulendiagramme: Beises ist im Prinzip dasselbe. Es werden einzig die beiden Achsen vertauscht. Balkendiagramme sind dann geeignet, wenn die Legenden der Rubrikenachse lang sind und (oder) man viele Rubriken hat. Jeder Gruppe wird ein Wert zugewiesen.
  • Kreisdiagramme: Diese (in dreidimensionaler Darstellung nennt man sie Tortendiagramme) sind dann geeignet, wenn man die verschiedenen Anteile von etwas Ganzem anzeigen möchte. Typisch z.B. zur Darstellung von Umfrageergebnissen.

2.3 Diagrammbezeichnungen

Bezeichnungen und Begriffe in Diagrammen:

2.4 Manipulation von und mit Diagrammen

Hinter bewusster Manipulation von Diagrammen steht die Absicht, gewissen Aspekten der Datenlage ein besonderes Gewicht zu geben. Mögliche Schlüsse sollen sich auffällig präsentieren oder man möchte gewisse Facts möglichst vertuschen. Der Betrachter erkennt oft nur beim aufmerksamen Studieren die wahren Absichten hinter solchen Verfälschungen. Hier einige beliebte Tricks:

  • Weglassen von einzelnen Diagrammelementen (z.B. fehlt die Achsenbeschriftung)
  • Ungleichmässige Abstände auf der Grössenachse
  • Verwenden von logarithmischen Skalen
  • Fokus (dargestellten Bereich) variieren - Damit kann man aus feinen Unterschieden grosse Sprünge machen und umgekehrt
  • Bei Säulendiagrammen kann man für einen doppelt so grossen Wert, nebst der doppelten Höhe der Säule auch deren Breite noch vergrössern (Ist die Breite z.B. 1.5 mal so gross, so wächst die Fläche bereits auf das 4.5 fache)
  • Visuell gewisse Teilaspekte besonders hervorheben - Oft lässt sich mit der Farbwahl der einzelnen Elemente bereits etwas erreichen
  • Verfälschen des ersten Eindrucks über die Grössenverhältnisse durch 3D-Ansichten

2.5 Mit Diagrammen arbeiten: Zeitreihe Produktivität

Situation: Sie arbeiten seit zwei Jahren in einer Firma. Nehmen wir an, dass ihre Produktivität klar messbar und in Zahlen auszudrücken ist. Diese Zahlen werden quartalsweise erfasst und befinden sich in der folgenden Tabelle:

Aufgabe: Erfassen sie die Daten in einer Tabellenkalkulation und stellen sie diese grafisch dar. Verwenden sie verschiedene Darstellungsformen und experimentieren sie mit den Möglichkeiten des Systems ein wenig herum. Speichern Sie die Variante, die ihnen am meisten zusagt ab.

2.6 Mit Excel visualisieren: Tauchgänge grafisch darstellen

Ein Taucher führt einen Tauchgang durch. Dabei muss er einen strengen Zeitplan beachten. Zu diesem Zweck will der den Tauchgang zunächst in Excel berechnen und anschliessend grafisch darstellen. Der Tauchgang soll nach dem folgenden Plan verlaufen:

  • Der Taucher taucht langsam ab auf 30 m Tiefe - Hierfür will er sich 10 Min. Zeit lassen
  • Nach 5 Min. Aufenthalt auf 30 m Tiefe taucht er weiter ab auf 50 m Tiefe hierfür rechnet er mit 5 Min.
  • Auf diesen 50 m Tiefe bleibt er 10 Min.
  • Anschliessend taucht er in 10-Meter-Schritten auf, wobei er für jeden Schritt 2 Min. rechnet und auf jeder Höhenstufe 10 Min. verweilen will

Speichern Sie Ihre Excel-Variante ab.

2.7 Welches ist die geeignete Diagrammform?

Erstellen sie mit dem folgenden Datenmaterial je eine Tabelle in Excel und visualisieren sie in einer geeigneten Diagrammform. Vergessen sie nicht, die Grafik korrekt und vollständig zu beschriften. Resultat auf Abgabeordner abgeben.

  1. Susi und Max trainieren 100m Lauf. Sie haben die folgenden Trainigsresultate erreicht:
    12.1.2017: Max=14.4sec, Susi=15.2sec. / 17.1.2017: Max=14.1sec, Susi=14.9sec. / 23.1.2017: Max=12.9sec, Susi=13.2sec. / 26.1.2017: Max=14.1sec, Susi=13.9sec. / 28.1.2017: Max=12.9sec, Susi=13.5sec. / 31.1.2017: Max=13.1sec, Susi=13.7sec.
  2. Eine Umfrage im Freundeskreis hat ergeben, dass 46% Himbeermarmelade, 23% Erdbeermarmelade, 19% Aprikosenmarmelade und 10% Orangenmarmelade als ihre Favoritenkonfitüre bezeichnen. 2% waren unentschlossen.
  3. Bei der letzten Mathematikprüfung wurden folgende Resultate erzielt: Susi=sehr-gut, Karl=gut, Hans=genügend, Fritz=ungenügend, Heinz=genügend, Vera=gut, Sepp=genügend, Anna=sehr-gut, Berta=genügend, Klaus=ungenügend, Ida=gut, Kurt=gut, Leo=genügend, Lara=gut, Xaver=schwach.

2.8 Mit Diagrammen manipulieren - Praxis

Die Grafikkarte PixelStrike-GTX007 hat am Erstausgabetag 20.3.2017 CHF899.- gekostet. Am 24.3.2017 sank der Preis auf CHF861.-, dann am 6.4.2017 sogar auf CHF854.-. Im Laufe der Zeit entwickelte sich der Preis wie folgt:
9.4.2017=CHF820.- / 15.4.2017=CHF822.- / 27.4.2017=CHF791.- / 5.5.2017=CHF801.- / 12.5.2017=CHF815.- / 16.5.2017=CHF811.- / 23.5.2017=CHF798.- / 6.6.2017=CHF788.- / 15.6.2017=CHF784.- / 30.6.2017=CHF777.- / 5.7.2017=CHF796.- / 23.7.2017=CHF869.- / 18.8.2017=CHF873.- / 21.8.2017=CHF799.- / 24.8.2017=CHF837.- / 30.8.2017=CHF833.- / 4.9.2017=CHF838.- / 7.9.2017=CHF850.- / 12.9.2017=CHF839.-
Erfassen sie diese Werte in einer Excel-Tabelle. Erstellen sie nun Diagramme, die die folgenden Aussagen bestärken:

  1. Die Grafikkarte ist ein Schnäppchen
  2. Die Grafikkarte ist überteuert
  3. Der Preis hat sich kaum verändert
  4. Der Preis spielt Achterbahn
  5. Der Preis wurde stetig gesenkt
  6. Der Preis hat sich kontinuierlich erhöht
  7. Die Grafikkarte für unter CHF 800.-
  8. Weitere Aussageverfälschungen, die ihnen noch in den Sinn kommen

3. Statistik

Ferien auf Pandora

Ihre Ferien auf Pandora gehen zu Ende. Zuhause angekommen erfahren sie, dass man von Pandora neben Erinnerungen an traumhaft neonfarbene Flora und Fauna auch ein Souvenir in Form einer seltenen Krankheit mitbringen kann, in deren Verlauf sich die menschliche Haut blau verfärbt. Da die Heilungschancen bei einer Früherkennung gross sind und sie in Zukunft nicht wie ein Schlumpf herumlaufen möchten, entschliessen sie sich, bei ihrem Hausarzt einen Test durchführen zu lassen. Dieser fällt leider positiv aus. Dies bedeutet, dass Hinweise auf die Krankheit gefunden worden sind. Ihr Arzt gibt ihnen zusätzlich folgende Informationen:

  1. Zuverlässigkeit des Tests: 99 von 100 Infizierten werden erkannt. Ein Infizierter wird übersehen.
    (In 99 Prozent der Untersuchungen von Erkrankten liefert der Test ein positives/richtiges, in 1 Prozent der Fälle ein negatives/falsches Ergebnis.).
  2. Von 100 Nichtinfizierten werden 98 als tatsächlich gesund erkannt. Zwei geraten fälschlich in Verdacht, krank zu sein (...und zu denen möchten Sie gehören).
    (Der Test liefert somit in 98 Prozent der Untersuchungen Gesunder ein negatives/richtiges und in 2 Prozent ein positives/falsches Ergebnis.)
  3. Die Krankheit tritt nur etwa bei jedem tausendsten Tourist/in auf. Symptome sind aber erst nach einer gewissen Zeit erkennbar.
    Bisher wurden 200'000 Reiserückkehrer/innen getestet.
  4. Da ihr Testergebnis positiv war, wird zur weiteren Abklärung ein umfassender Untersuch unter Vollnarkose erforderlich.

Zusammenfassung: Der Test identifiziert mit 99-prozentiger Sicherheit die Erkrankten und mit 98-prozentiger Sicherheit die Gesunden. Er ist also sehr zuverlässig und er ist bei ihnen positiv ausgefallen. Besteht nun Grund, sich ernsthaft Sorgen zu machen?
Da ihr Testergebnis positiv ist, sind sie mit welcher Wahrscheinlichkeit infiziert? ⇒ 99% ⇒ 98% ⇒ ca. 95% ⇒ ca. 50% ⇒ ca. 5% ⇒ 2% ⇒ 1%?


Auflösung:

Die Wahrscheinlichkeit der Erkrankung wird darum oft zu hoch eingeschätzt, weil man die Genauigkeit der Tests anschaut, ohne die Häufigkeit der Krankheit zu berücksichtigen. Der statistische Fachbegriff dafür lautet Prävalenz. Im unserem Fall ist unter Punkt 3 beschrieben, dass die Krankheit nur bei jedem tausendsten Reisenden auftritt: Somit ist die Prävalenz 1 Erkrankter auf 1000 Personen. (Korrekt spricht man von der Prävalenzratio: das ist die Anzahl Erkrankter durch die Anzahl untersuchter Personen.) In unserem Beispiel sind von 200'000 Personen deren 200 wirklich erkrankt. 99% dieser Erkrankten werden durch den Test auch erkannt: In diesem Fall 198 Personen. 2% geraten fälschlicherweise in Verdacht, erkrankt zu sein, sind es aber nicht: 2% von 199'800 gesunden Personen (3996 Personen) erhalten zusätzlich eine Positiv-Meldung. Von den 4196 Meldungen (100%) sind aber nur 200 wirklich erkrankt: Somit 4.77%.



3.1 Einleitung

Es ist unser Ziel, Ergebnisse von statistischen Erhebungen und grosse Datenmengen so zusammenzufassen, dass sie einfach zu interpretieren sind und das Wesentliche in möglichst knapper Form aussagen. Neben der graphischen Darstellung gibt es eine Reihe von statistischen Masszahlen mit denen wir dieses Ziel erreichen können. Das arithmetische Mittel (bzw. Durchschnitt) ist sicher allen bekannt. Auch wenn er eine rechnerisch klar definierte Grösse ist, ist seine Aussagekraft nicht immer eindeutig. Einige dieser Masszahlen werden im Folgenden Thema sein.

Terminologie und Verfahren, die sie für das Lösen der folgenden Aufgaben kennen sollten: (Nachzulesen in der entsprechenden Fachliteratur!)

  • Begriffe der Statistik:
    Messwerte, Ergebnis, Zufallsvariable
    Grundgesamtheit, Stichprobe, Messwert
    Wahrer Wert μ, Extremwerte, Datenzahl
    Häufigkeit
  • Lagekennzahlen:
    Modalwert Modus, Median, Mittelwert
  • Normalverteilung:
    Normal- oder Gauss-Verteilung
  • Streuungskennzahlen:
    Spannweite, Varianz, Standardabweichung

3.2 Extremwerte und Häufigkeitsverteilung ermitteln

Erforderliches Datenmaterial hier herunterladen: Notenspiegel.xlsx
Bestimmen Sie für die Aufzeichnung "Notenspiegel" mit Excel die folgende Kennzahlen:

  • Die Extremwerte Minimum und Maximum
  • Die Häufigkeitsverteilung als Balkendiagramm
  • Die Häufigkeitsverteilung als Balkendiagramm aufgeteilt in Klassen (Halbnotenschritte wie 1 bis 0.49 | 0.5 bis 0.95 | 1 bis 1.49 etc.) 

3.3 Lagekennzahlen Median und Mittelwert verstehen

Auf welchen Wert würde sich bei unserem Würfelexperiment der Median und der Mittelwert ändern, wenn anstelle einer weiteren 6 eine weitere 1 gewürfelt wurde? Welche Erkenntnisse und Schlüsse ziehen sie daraus?

Erkenntnis:

Bei weiterer gewürfelten 6: Median=3, Mittelwert=3.2666667
Bei weiterer gewürfelten 1: Median=3, Mittelwert=2.9333333
Wenn nicht neue, bisher unbekannte Werte dazukommen, ändert sich der Median nicht.



3.4 Lagekennzahlen Median und Mittelwert mit Excel ermitteln

Erforderliches Datenmaterial hier herunterladen: Notenspiegel.xlsx
Bestimmen Sie für die Aufzeichnung "Notenspiegel" in Excel folgende Kennzahlen:

  • Medianwert
  • Mittelwert

3.5 Normalverteilungskurve für Würfelkombinationen erstellen

Ihnen stehen für diese Aufgabe zwei Würfel (Rot und Grün) zur Verfügung. Sie möchten nun herausfinden, wieviele Würfelkombinationen jeweils dieselbe Augensumme ergeben. Vervollständigen sie die Tabelle links. Anschliessend visualisieren sie die ermittelten Werte bzw. Verteilung, indem sie das Säulendiagramm rechts ergänzen. Was stellen sie fest? (Wir stellen fest, dass die Wahrscheinlichkeit, einen Wert 12 (6-6) zu würfeln, gleich klein ist, wie den Wert 2 zu würfeln: (1-1) - Die Wahrscheinlichkeit, dass man den Wert 7 würfelt, ist allerdings sechsmal grösser: (6-1, 1-6, 5-2, 2-5, 4-3, 3-4))

3.6 Normalverteilungskurve mit Excel erstellen

Erforderliches Datenmaterial hier herunterladen: Notenspiegel.xlsx
Wie verteilen sich die Prüfungsresultate in unserem Notenspiegel?

3.7 Streuungskennzahlen ermitteln

Erforderliches Datenmaterial hier herunterladen: Notenspiegel.xlsx
Bestimmen Sie für die Aufzeichnung "Notenspiegel" in Excel folgende Kennzahlen:

  • Spannweite
  • Varianz
  • Standardabweichung
  • Standardabweichung, wenn im vorliegenden Notenspiegel nur eine Stichprobe mit 30 Noten von insgesamt 100 Noten erfasst wäre?

3.8 Kennzahlen für das "Weinbergschneckenrennen" ermitteln

In der französischen Bourgogne findet alljährlich das mit grosser Aufmerksamkeit verfolgte Weinbergschneckenrennen statt. Das in mehreren Tagesetappen ausgetragene Rennen, das aufgrund der eingesetzten Dopingmittel (in Form von Salat) auch "Tour de Trance" genannt wird, führt vor der letzten Etappe von Marinade nach Casserole die Schnecke Emilio Escargot an, die aus diesem Grunde auch das so genannte "gelbe Schneckenhaus" tragen darf. Am Start zur 13. und letzten Etappe ist Ricki Raserati der aussichtsreichste Verfolger von Emilio Escargot.

Etappe 1 2 3 4 5 6 7 8 9 10 11 12
Etappenlänge in m 3.2 1.9 3.4 3.3 2.7 2.9 1.8 2.6 2.3 2.2 1.8 2.1
Raserati Geschwindigkeit m/Std 0.8 0.6 0.68 0.72 0.9 0.88 0.87 0.69 0.75 0.77 0.63 0.91
Escargot Geschwindigkeit m/Std 0.77 0.8 0.79 0.81 0.69 0.85 0.96 0.87 0.82 0.74 0.71 0.7
  1. Berechnen Sie für die Etappenlänge in Meter folgende Kennzahlen: Arithmetisches Mittel, Modus und Median.
  2. Erstellen Sie ein Säulendiagramm, das die Geschwindigkeit der beiden Schnecken je Etappe in einer Grafik nebeneinander stellt.
  3. Erweitern Sie die Tabelle um die Zeit in Stunden (Dezimal) je Schnecke und je Etappe (Mit Formeln).
  4. Erstellen Sie ein Liniendiagramm, das die Zeit in Stunden (Dezimal) der beiden Schnecken über alle Etappen vergleicht.
  5. Ermitteln Sie mit Formeln die Zeitdifferenz zwischen den beiden Schnecken je Etappe und insgesamt.
  6. Ermitteln Sie aus den bis jetzt erstellten Daten die Anzahl Etappensiege (mit Formeln).

3.9 Kennzahlen für den "Buchstabensalat" ermitteln

Es ist Ihnen sicher bekannt, dass die Buchstaben des Alphabets innerhalb eines deutschen Textes nicht gleich häufig vorkommen. Diesen Zusammenhang wollen wir analysieren. Es steht Ihnen die Datei Buchstabensalat.xls zur Verfügung.

  1. Suche Text
    Suchen sie im Internet einen geeigneten Text, den sie analysieren wollen. Der Text sollte nicht zu kurz sein, damit die Verteilung typisch ist. In Buchstabensalat.xls können sie mit Ctrl+B das Makro starten, das es ihnen erlaubt den Text in die Tabelle zu übertragen. Beachten sie, dass nur die Buchstaben a bis z eingetragen werden. Grosse Buchstaben werden automatisch umgewandelt.
  2. Bestimmung des Modus
    Aus dieser vollständigen Tabelle lässt sich bereits der Modus bestimmen. In Excel wird dieser Wert als Modalwert bezeichnet. Bestimmen sie den Buchstaben, welcher in ihrem Text die grösste Häufigkeit aufweist.
  3. Verteilung der absoluten Häufigkeit
    Stellen sie für ihren Text die absolute Häufigkeit des Auftretens der Buchstaben zusammen. Es gibt die Funktion "ZähleWenn" aber setzen Sie auch die Häufigkeitsfunktion ein. Das ist eine so genannte Matrixfunktion. Verwenden Sie die Hilfefunktion von der Tabellenkalkulation um die Details zu erfahren.
  4. Relative Häufigkeit
    Ergänzen sie ihre Tabelle durch die relative Häufigkeit in %.
  5. Median, Arithmetisches Mittel, Spannweite, Varianz, Standardabweichung
    Bestimmen sie für die relative Häufigkeit den Median, das arithmetische Mittel, die Spannweite, die Varianz und die Standardabweichung. Versuchen sie jede Grösse mit eigenen Worten zu interpretieren.
  6. Grafische Aufarbeitung
    Stellen sie das Ergebnis ihrer Statistik grafisch dar. Wir wollen anschliessend die Ergebnisse der Texte vergleichen und versuchen, eine allgemein gültige Aussage zu machen. Gleichzeitig sollen die Ergebnisse der relativen Häufigkeit in die Tabelle Auswertung.xls eingetragen werden.

4. Abfragen

4.1 Abfragen in Firma_1.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_1.odb
Beantworten Sie die folgenden Fragen, die sich auf die drei Tabellen TPerson, TOrt und TRechnung beziehen. Notieren Sie die Antworten.

  1. Wie heisst die Person mit dem Nachnamen "Neubert" mit Vornamen?
  2. Welche Postleitzahl hat der Ort Mumpf?
  3. Wie lauten die Nachnamen von allen Personen, die mit Vornamen Horst heissen?
  4. Welche Personen sind vor dem 01.01.1965 geboren?
  5. Aus welchem Ort kommt Bianca Heling?
  6. Welche Personen kommen aus Mumpf?
  7. Welche Personen kommen aus dem Kanton Jura?
  8. Wie hoch ist der Rechnungsbetrag von "Jörg Mäder"?
  9. Aus welchem Kanton kommt die Person mit der Rechnung Nummer 8?
  10. Aus welchen Kantonen kommen Personen mit Rechnungen über 8000.- sFr.?

4.2 Abfragen in Firma_2.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_2.odb
Beantworten Sie die folgenden Fragen und notieren Sie die Antworten bzw. Abfragen.

  1. Wie viele Datensätze enthält die Tabelle tbl_Orte?
  2. Erstellen Sie eine Abfrage, die nur die Ortsnamen und die Kantone anzeigt.
  3. Sortieren Sie das Ergebnis von Frage 2 nach den Ortsnamen – kontrollieren sie was unter „aufsteigend“ und unter „absteigend“ verstanden wird.
  4. Erstellen Sie eine Abfrage mit allen Attributen der Tabelle tbl_Orte, aber nur mit den Orten aus dem Kanton Aargau. Wie viele Datensätze erhalten Sie?
  5. Blenden Sie bei dem Ergebnis der Frage 4. den Kanton aus.
  6. Als nächstes suchen Sie von den Datensätzen, die aus dem Kanton Aargau sind noch diejenigen heraus, deren Postleitzahl kleiner als 5000 ist.
  7. Wir schränken die Auswahl weiter ein und suchen die Aargauer Gemeinden, deren Postleitzahl grösser oder gleich 4800 ist und kleiner als 5000.
  8. Zusätzlich zum Punkt 7 wollen wir noch alle Aargauer Orte aufgelistet haben, deren Postleitzahl grösser als 8900 ist (NUR die aus dem Aargau!).
  9. Wir suchen alle Orte, deren Bezeichnung mit „Me“ beginnt.
  10. Suchen Sie alle Orte, die auf „wil“ enden.
  11. Wie viele Orte enden auf „wil“ oder „kon“?
  12. Welche Orte beginnen mit dem Buchstaben D und enden auf „kon“?
  13. Wir möchten alle Orte, die eine volle tausender Postleitzahl haben (1000, 2000, usw.).

4.3 Abfragen in Firma_3.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_3.odb
Bevor Sie mit der Beantwortung der Fragen beginnen, machen Sie sich darüber klar, wie die Tabellen miteinander verknüpft sind. Zeichnen Sie ein Schema der fünf Tabellen mit den jeweiligen Attributen, über die sie verknüpft sind. Beantworten Sie nun die folgenden Fragen und notieren Sie die Antworten bzw. Abfragen.

  1. Wie viele Positionen enthält die Rechnung Nummer 1 vom 01.03.2002?
  2. Wie viele Teile (Stück über alle Artikel) enthält Rechnung Nummer 2?
  3. Wie oft wurde der Artikel Nummer 2 verkauft?
  4. Wie viel Umsatz wurde mit dem Artikel Nummer 2 erzielt?
  5. Wie lautet der Gesamtbetrag bei Rechnung Nummer 4?
  6. Ermitteln Sie das Gewicht der Lieferung von Rechnung Nummer 4
  7. Wie hoch ist der Gesamtumsatz von dem Kunden Horst Kolesnik?
  8. Erstellen Sie die Abfragen für den dritten Eintrag in TRechnung (ID-Rechnung = 3), die als Basis für eine Rechnung (Bericht) dienen können: a. Rechnungsdatum und Empfänger, b. Rechnungspositionen und c. Totalbetrag (siehe Bild unten)

4.4 Abfragen in Firma_4.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_4.odb
Bevor Sie die Abfragen erstellen, sollten Sie sich die Tabellen und die Beziehungen anschauen, um zu wissen, wo Sie welche Informationen finden. Die vorliegende Datenbank ist aus einer produktiven Umgebung kopiert und stark vereinfacht worden. Ausserdem sind die Daten verfälscht.
Notieren Sie jeweils die Antwort der Frage und speichern Sie die Abfragen in der Datenbank ab.

Im folgenden einfache Abfragen über eine Tabelle:

  1. In welchem Ort wohnt eine Person mit dem Nachnamen "Dra"?
  2. Sie haben eine Nachricht für eine Person, deren Nachname die Buchstabenkombination "ap" enthält und die in Luzern wohnt. Wie lautet der Vorname?
  3. Wie viele Personen hatten ihre Ankunft im Juni 1999?
  4. Wie viele Personen hatten ihre Ankunft oder Abreise im Juni 1999?

    Im folgenden einfache Abfragen über mehrere Tabellen:

  5. Welches ist die Ankunft von "Paul Müller"?
  6. Wie lauten die Namen der Personen, die mehr als 30 Tage Aufenthalt hatten?
  7. Erstellen Sie eine Liste mit allen Personen, die eine Ankunft im Jahre 2000 hatten und aus einem Ort mit einer 8000-er Postleitzahl kommen. Notieren Sie die Anzahl der Datensätze.

    Bemerkungen für die folgenden Fragen: Der Rabatt ist in dieser Datenbank als Faktor (eine Zahl zwischen 0 und 1) angegeben. Dies entspricht dem Rabattsatz in Prozent geteilt durch 100. Die Frage nach den grössten Beträgen können Sie ohne Funktion beantworten: Absteigend sortieren und den ersten Wert nehmen. Die Mehrwertsteuer können Sie hierbei ignorieren.
  8. Wer hat den grössten Nettobetrag pro Position ausgegeben? (Formel angeben!)

    Im folgenden Berechnungen mit dem Datentyp Zahl:

  9. Berechnen Sie pro Datensatz der Tabelle "Positionen" den Bruttobetrag (Anzahl * Preis). Welches ist der grösste Totalbetrag? (Formel angeben!)
  10. Berechnen Sie pro Datensatz der Tabelle "Positionen" den Rabattbetrag (Beispiel: 10% entspricht 0.1). Welches ist der grösste Rabattbetrag? (Formel angeben!)
  11. Berechnen Sie pro Datensatz der Tabelle "Positionen" den Nettobetrag (Bruttobetrag – Rabattbetrag) Welches ist der grösste Nettobetrag? (Formel angeben!)

    Im folgenden Filtern mit dem Datentyp Text:

  12. Erstellen Sie in einer Abfrage eine neue Spalte. Geben Sie in dieser Spalte Vorname und Nachname durch Komma getrennt aus. (Formel angeben!)
  13. Erstellen Sie in einer Abfrage eine neue Spalte. Gestalten Sie die Ausgabe gemäss folgendem Beispiel: Peter Muster aus Uster. (Formel angeben!)
  14. Erstellen Sie in einer Abfrage eine neue Spalte. Geben Sie den ersten Buchstaben des Vornamens und den Nachnamen aus. z.B: P. Muster. (Formel angeben!)

    Im folgenden Filtern mit dem Datentyp Datum:

  15. Berechnen Sie mit einer Abfrage über die Tabelle "Buchung" die Aufenthaltsdauer (Abreise - Ankunft). (Formel angeben! Tipp: Siehe Fachartikel)
  16. Geben Sie in einer Abfrage über die Tabelle "Buchung" nur das Jahr der Ankunft aus. Verwenden Sie die Year(date)-Funktion. (Formel angeben!)

    Im folgenden Abfragen mit Berechnungen (Aggregatsfunktionen):

  17. Wer hat den grössten Nettobetrag pro Buchung? (machen Sie sich den Unterschied zwischen "pro Buchung" und "pro Position" klar!)
  18. Welcher Mitarbeiter gab am meisten Rabatt?
  19. Wieviel Kunden wurden von Esther Müller bedient?
  20. Erstellen Sie eine Liste der Nettoumsätze pro Quartal. Erste Kolonne: Jahr. Zweite Kolonne: Quartal 1-4. Dritte Kolonne: Nettoumsatz.

4.5 Abfragen in Firma_5.odb

Benutzen Sie für diese Übung die folgende LibreOffice-DB: Firma_5.odb
Fassen Sie alle Resultate in einem Dokument zusammen und speichern sie dieses in ihrem ePortfolio.

  1. Abfragen: (eine Tabelle, einfaches Kriterium)
    a) Für welches Erzeugnis (Erzeugnisbeschreibung) wurde ein Betrag von SFr. 1150.00 verrechnet?

    b) In wie vielen Datensätzen der Tabelle "TInverkehrbringer" taucht das Wort "Markt" im Feld "Inverkehrbringer" auf?

  2. Abfragen: (eine Tabelle, verknüpfte Kriterien)
    a) In der Tabelle "TMangelcode_History" werden alle Mängel zu den Erzeugnissen erfasst. Notieren Sie alle Primärschlüssel der Mängel, die zwischen dem 8.09.1999 und dem 14.09.1999 erfasst wurden (inklusive der beiden Randdaten).

    b) In der Tabelle "TInverkehrbringer" sind die Firmen erfasst, die die Erzeugnisse verkauft haben. In wie vielen Datensätzen kommt im Feld "Inverkehrbringer" der Ausdruck "Jumbo" vor, aber nicht der Ausdruck "markt".
    Tipp: Sie können jedes Kriterium ins Gegenteil kehren, wenn Sie den Operator "Nicht" vor das Kriterium setzen. z. B: Nicht Wie 'Hans*' => alle Datensätze die nicht mit "Hans" beginnen.

  3. Abfragen: (mehrere Tabellen, einfache Kriterien)
    a) Wie lautet der "MangelCodeText" der Mängel, die zwischen dem 8.09.1999 und dem 14.09.1999 erfasst wurden (inklusive der beiden Randdaten)?

    b) Wie heisst die Handelsmarke des Erzeugnisses, bei dem für einen Arbeitsschritt 10 Stunden erfasst wurden?

  4. Abfragen: (mehrere Tabellen, verknüpfte Kriterien)
    a) Wie lauten die Typenbezeichnungen für die Stichsägen ("Erzeugnisbeschreibung") der Handelsmarken "Festo" und "Bosch"?
    Tipp: Feld "Typenbezeichnung" aus Tabelle "TErzeugnisse"

    b) Wie heissen die Handelmarken der Erzeugnisse, für die Eduardo de Anta als Sachbearbeiter zuständig ist und für die ein Verrechnungsbetrag von SFr. 750.- erfasst wurde?

  5. Abfragen: (berechnete Felder)
    a) Erstellen Sie eine Abfrage, die als Resultat die untenstehende (siehe Bild 1) Tabelle ausgibt. Notieren Sie, wie Sie das neue Feld "Produkt" definieren.

    b) Wie können Sie mit einer Abfrage (siehe Bild 2) die Kosten pro Arbeitsschritt berechnen, wenn pro Stunde SFr. 125.- verrechnet werden? Notieren Sie, wie Sie das neue Feld "Kosten" definieren.

  6. Abfragen: (mit Aggregats-/Guppierungsfunktionen)
    a) Es soll abgefragt werden, für welche Handelsmarke insgesamt am meisten Arbeitszeit eingegeben wurde. Dabei spielt es keine Rolle welche Erzeugnisse betroffen sind. Notieren Sie die Handelsmarken mit den drei höchsten summierten Arbeitszeiten (siehe Bild 3).

    b) Nennen Sie die Beschreibung des Erzeugnisses für das 37-mal ein Arbeitsschritt erfasst wurde.