Datenanalyse
Der Prozess der Datenanalyse gliedert sich in zwei Arbeitsschritte. Im ersten Schritt, der Datenerhebung, müssen alle projektrelevanten Informationen wie
die Beschreibung von Arbeitsprozessen,
die Auflistung der an den Arbeitsprozessen beteiligten Personen und Objekte und
die für die Abwicklung der Arbeitsprozesse notwendigen Daten
zusammengetragen werden. Dieses kann mithilfe von Interviews, Bedarfsanalysen, Fragebogen oder ähnliches erfolgen. Das Ergebnis ist eine mit dem Auftragsgeber abgestimmte Anforderungsliste.
Im zweiten Schritt, der Datenmodellierung, werden aus der Anforderungsliste dei notwendigen Informationen extrahiert und das Datenmodell erstellt.
Datenerhebung
Beispielhaft soll für eine Schule eine Datenbank erstellt werden. Diese Datenbank soll nur einen kleinen Ausschnitt aus der Realität abbilden. Dazu werden die benötigten Informationen in einem Gespräch zwischen Datenbankentwickler und Schulmitarbeiter ermittelt.
Interview
DB-Entwickler
Welche Anforderungen soll die Datenbankanwendung erfüllen?
Schulmitarbeiter
Ich muss den Schülern Briefe zustellen können. Manchmal muss ich auch telefonisch mit den Schülern in Kontakt treten. Zu statistischen Zwecken muss ich wissen, wie viele Schüler und Lehrer insgesamt an unserer Schule sind. Zudem muss ich wissen, welcher Lehrer in welchen Klassen unterrichtet.
DB-Entwickler
Ich nehme an, dass in einer Klasse mehrere Lehrer unterrichten?
Schulmitarbeiter
Richtig!
DB-Entwickler
Welche Informationen benötigen Sie von den Lehrern?
Schulmitarbeiter
Der Vor- und der Nachname der Lehrer genügen. Oft werde ich auch gefragt, wer denn der Klassenlehrer eines Schülers ist.
DB-Entwickler
Da muss ich nochmal direkt nachfragen, um die Zuordnung sauber trennen zu können. Also, ein Lehrer ist Klassenlehrer einer Klasse, nicht eines einzelnen Schülers. Und die Schüler sind eindeutig einer Klass zugeordnet?
Schulmitarbeiter
Ja!
DB-Entwickler
Kann ein Lehrer Klassenlehrer von mehreren Klassen sein?
Schulmitarbeiter
In der Regel wird das vermieden, ausgeschlossen ist das aber nicht. Darüber hinaus muss ich noch wissen, seit wann ein Lehrer Klassenlehrer ist.
DB-Entwickler
Fallen Ihnen noch weitere benötigte Informationen über die Klassen und Schüler wissen müssen? Bisher sagten Sie, dass Sie die Schüleradressen und deren Telefonnummern benötigen.
Schulmitarbeiter
Ich muss zusätzlich wissen, ob ein Schüler volljährig ist oder nicht. Zu einer Klasse muss ich das Klassenkürzel und die Beschreibung kennen. Dann muss ich noch wissen, ob ein Schüler die Funktion des Klassensprechers übernommen hat. Dies ist wichtig, damit der Schüler die Einladung zu Sitzungen mit Schülerbeteiligung erhält.
DB-Entwickler
Danke für das Gespräch.
Wichtig
Wichtig für den DB-Entwickler ist, durch gezieltes Nachfragen die benötigten Informationen zusammenzutragen.
Anforderungsliste
Als Basis für die folgende Datenanalyse fasst der DB-Entwickler alle wichtigen Informationen der Datenerhebung in einer Anforderungsliste zusammen.
Wie viele Schüler hat die Schule?
Adressen und Telefonnummer der Schüler werden benötigt.
…
…
…
Analyse der Anforderungsliste
Die Anforderungsliste wird nun auf Entitäten, Attribute/Merkmale und Beziehungen mittels der Nominalextraktion untersucht.
1. Durchlesen und Verstehen der Anforderungen:
Ziel: Zunächst einmal solltest du die Anforderungsliste gründlich durchlesen, um den Kontext und die Bedürfnisse vollständig zu verstehen.
Fokus: Achte darauf, welche Entitäten (z.B. Personen, Objekte) in den Anforderungen vorkommen.
2. Identifikation der Nomina:
Markiere Nomina: Gehe jede Anforderung einzeln durch und markiere die Nomina. Diese Substantive repräsentieren häufig die Entitäten und Attribute, die in der Datenbank modelliert werden müssen.
Nomina extrahieren: Schreibe alle identifizierten Nomina auf. Dazu gehören Personen, Orte, Dinge, Konzepte oder Eigenschaften.
3. Kategorisierung der Nomina:
Entitäten: Identifiziere Nomina, die Entitäten darstellen (z.B. „Schüler“, „Lehrer“, „Klasse“).
Attribute: Erkenne Nomina, die Attribute dieser Entitäten beschreiben (z.B. „Vorname“, „Nachname“, „Adresse“).
Beziehungen: Markiere Nomina, die Beziehungen zwischen Entitäten darstellen oder beschreiben (z.B. „Klassensprecher“, „Klassenlehrer“).
4. Überprüfung auf Nomen mit Teilinformationen und Duplikate:
Nomen mit Teilinformationen: Ersetzen Sie Nomen, die mehrere Teilinformationen enthalten, durch unterschiedliche Nomen für jede Teilinformation. (Bank => Kontoinhaber, IBAN, BIC)
Duplikate: Entferne Duplikate, indem du identische oder ähnliche Nomina zusammenführst.
5. Zusammenstellung der finalen Liste:
Eindeutige Nomina: Erstelle eine Liste aller eindeutigen Nomina, die für das System relevant sind.
Überprüfung: Überprüfe die Liste, um sicherzustellen, dass keine wichtigen Konzepte übersehen wurden.