Seminar Datenqualität. Dr. V. Köppen. Einführung



Ähnliche Dokumente
Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Seminar. NoSQL Datenbank Technologien. Michaela Rindt - Christopher Pietsch. Richtlinien Ausarbeitung (15. November 2015)

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg

Seminar Programmierung und Reaktive Systeme

Informationsblatt zu den Seminaren am Lehrstuhl. für Transportsysteme und -logistik

Die Wirtschaftskrise aus Sicht der Kinder

Projektmanagement. Thema. Name der bzw. des Vortragenden. Vorname Nachname Sommersemester 2004

Seminar- und Vortragsvorbereitung

Mitarbeiterbefragung zur Führungsqualität und Mitarbeitermotivation in Ihrem Betrieb

Fragebogen: Abschlussbefragung

Grundbegriffe der Informatik

impact ordering Info Produktkonfigurator

Wege zur Patientensicherheit - Fragebogen zum Lernzielkatalog für Kompetenzen in der Patientensicherheit

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Vertrauen in Medien und politische Kommunikation die Meinung der Bürger

Java und Grid Computing

Digitaler*Ausstellungsbegleiter*für*Mobilgeräte ** * * * Alter: Studiengang: Geschlecht: $ $ $ $ Datum: Falls%Ja,%welches? Falls%ja, %welches?

BIA-Wissensreihe Teil 4. Mind Mapping Methode. Bildungsakademie Sigmaringen

Projekte für reale Herausforderungen Projektarbeit: Einleitung und Gliederung. Projekte für reale Herausforderungen

Summer Workshop Mehr Innovationskraft mit Change Management

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Kundenbeziehungsmanagement Plus. Zur Steigerung der Kundenzufriedenheit und bindung. CRM Plus

IMS - Learning Design

Objektorientierte Programmierung für Anfänger am Beispiel PHP

Zuhörer muss mit Thema vertraut werden Zuhörer müssen inhaltlich und logisch folgen können

VIP-Programm. Herzlich Willkommen!

Integrierte Dienstleistungen regionaler Netzwerke für Lebenslanges Lernen zur Vertiefung des Programms. Lernende Regionen Förderung von Netzwerken

IT-SICHERHEIT IM UNTERNEHMEN Mehr Sicherheit für Ihre Entscheidung

Organisatorisches. Proseminar Technische Informatik Oktober 2013

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

WENN DU DER GESAMTBEWERTER BIST

Tipps für die praktische Durchführung von Referaten Prof. Dr. Ellen Aschermann

Kapitalerhöhung - Verbuchung

Informationssysteme. PD Dr. Andreas Behrend. 7. Mai Abgegebene Fragebögen: 36

Ihre PLM-Prozessexperten für Entwicklung und Konstruktion

DER SELBST-CHECK FÜR IHR PROJEKT

Gestaltung wissenschaftlicher Poster

Zusammenfassung. Ortsbeschreibung. Zeichnung machen

Datenqualitätsmodelle

agitat Werkzeuge kann man brauchen und missbrauchen - vom Einsatz von NLP in der Führung

Methode Online Befragung 16 geschlossene Fragen Durchgeführt im März 2015 im Rahmen des Future of Work HR Kongresses.

Ein Gesuch erfassen und einreichen

Forschen - Schreiben - Lehren

Organisationsmanagement

Industrie 4.0 in Deutschland

Veröffentlichen von Apps, Arbeitsblättern und Storys. Qlik Sense Copyright QlikTech International AB. Alle Rechte vorbehalten.

Grundlagen von Python

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

Leitfaden zur Anfertigung von Diplomarbeiten

Seminar: Moderne Web Technologien (MWT)

Fortbildungsangebote Qualitätsmanagement 2014

Erfahrungen mit Hartz IV- Empfängern

Anleitung über den Umgang mit Schildern

Klausur Informationsmanagement

Fragebogen zur Nutzung des Angebots der Hochschulbibliothek an elektronischen Medien:

Fragebogen Social Media reloaded

Zum Konzept dieses Bandes

SALSAH eine virtuelle Forschungsumgebung für die Geisteswissenschaften

1 Mathematische Grundlagen

Der Klassenrat entscheidet

Studie zum Einsatz und Nutzen von strategischem IT-Benchmarking. Katharina Ebner Prof. Dr. Stefan Smolnik

Anwendungsbeispiele Buchhaltung

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Was ist Sozial-Raum-Orientierung?

SEPA Lastschriften. Ergänzung zur Dokumentation vom Workshop Software GmbH Siemensstr Kleve / /

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Der Tag hat 24 Stunden. Bitte schreibt in die linke Spalte alles auf, was ihr gestern getan habt und euch noch einfällt: War es ein stressiger

Linked Open Data (LOD) in der Landwirtschaft. Workshop Anwendungsbeispiele nach Themen I

Präsentationsordner-Info

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

KURZANLEITUNG CLOUD OBJECT STORAGE

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Fragebogen zur Diplomarbeit von Thomas Friedrich

Data Quality Management: Abgleich großer, redundanter Datenmengen

virtuos Leitfaden für die virtuelle Lehre

p-cost Benutzerhandbuch Alfred Pabinger

Es sollte die MS-DOS Eingabeaufforderung starten. Geben Sie nun den Befehl javac ein.

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

Handbuch ECDL 2003 Professional Modul 3: Kommunikation Kalender freigeben und andere Kalender aufrufen

Wissenschaftliches Präsentieren

ALEMÃO. Text 1. Lernen, lernen, lernen

1. Einführung. 2. Weitere Konten anlegen

PowerPoint 2010 Mit Folienmastern arbeiten

Herzlich Willkommen beim Webinar: Was verkaufen wir eigentlich?

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

Fragebogen zur Evaluation der Vorlesung und Übungen Computer Grafik, CS231, SS05

Pflegende Angehörige Online Ihre Plattform im Internet

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

Leseprobe. Bruno Augustoni. Professionell präsentieren. ISBN (Buch): ISBN (E-Book):

Schüler-E-Tutorial für mobile Endgeräte. Ein Folgeprojekt des Netzwerks Informationskompetenz Berlin/Brandenburg mit der HdM

Scheper Ziekenhuis Emmen. Tel.: + 31 (0) Fax: + 31 (0) Web:

Wie Sie mit Mastern arbeiten

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Portfolio: "Die Ratten" von Gerhart Hauptmann

Gelungene Präsentationen und Wissenschaftliches Schreiben

Leitfaden Internet-Redaktion kursana.de

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Arbeiten Sie gerne für die Ablage?

Transkript:

1 Seminar Datenqualität Einführung 27. Oktober 2011

2 Agenda Allgemeines Themen Datenqualität Seminardurchführung Themenvergabe

3 Allgemeines: Seminarablauf Leistungen: 1 Vortrag (vorab in der Konsultation besprechen!) Ausarbeitung (ca. 12-15 Seiten pro Teilnehmer davon mind. 8 Inhalt) Einführungsveranstaltung am (heute) Präsentationen am 1.12. und 8.12.2011 von 15-19 Uhr Abgabe der Ausarbeitung 06.02.2012 Bewertung Vorträge ~40-50% (20 min Vortrag + 10 min Diskussion) Ausarbeitung 50-60%

4 Allgemeines: Warum dieses Seminar Wichtige "Soft Skills" oder auch Schlüsselkompetenzen erlernen ein wissenschaftliches Papier schreiben wissenschaftliche Literatursuche und -analyse Vortragsweisen und -stil üben "Konferenzflair" erleben Arbeit mit entsprechenden Vorlagen (Empfehlung: LaTeX)... Diese sind genauso wichtig für eine akademische Karriere wie für eine Karriere in der Wirtschaft

5 Allgemeines: Themengebiete Wir geben keine speziellen Themen vor, sondern nur größere Themengebiete Ein Themengebiet wird wie folgt bearbeitet: erste Sichtung der aktuellen Forschung (nicht älter als 5 Jahre) Auswahl eines spezielleren Themas aus der ersten Sichtung die Auswahl nicht zu weit fassen, ein Thema wie "Data Warehousing" kann man nicht erfassen das gewählte Thema sollte in den letzten Jahren eine wissenschaftliche Relevanz haben/gehabt haben Verständnis und Einordnung des gewählten Themas in die aktuelle Forschung kii kritische Analyse und dabgrenzung des Themas gehört ebenfalls dazu...

6 Allgemeines: Literatur offene Fragen in Bezug auf die Forschung aus bereits besuchten Lehrveranstaltungen allgemein große Konferenzen wie VLDB, SIGMOD/PODS, etc. Bibliothek Online und gedruckt scholar.google.com ACM Digital Library dblp.uni-trier.de IEEE Xplore... Related Work in den Papieren und den Portalen...

7 Motivation: Datenqualität Fitness for use Quelle: Chrisman 1984 Was verbirgt sich nun hinter dem Begriff Datenqualität Fitness for use = Gebrauchstauglichkeit hk der Daten, Qualität = Eignung für den Zweck Datenfitness Aktualität von Daten für Bilanzen, Analyse des Kundenverhaltens Definition von Eigenschaften von Daten (Qualitätsmerkmale) Qualität eines Datenproduktes bestimmt durch die Gesamtheit der innewohnenden Merkmale

8 Motivation: Datenqualität Unterschiedliche Repräsentationen Tab.: Person Widersprüchliche Werte Referentielle Integrität verletzt KID KName Gebdat Alter Geschlecht Telefon PLZ Email unvollständig 34 Meier, Tom 21.01.1980 35 M 999-999 10117 null 34 Tina Möller 18.04.78 29 W 763-222 36999 null 35 Tom Meier 32.05.1969 27 F 222-231 10117 t@r.de Eindeutigkeit verletzt Tab.: Ort PLZ Ort 10117 Berlin 36996 Spanien 95555 Ullm Schreib- oder Tippfehler Fehlende Werte (z.b.: Default- Wert) Falsche oder unzulässige Werte Duplikate

9 Motivation: Datenqualität Ein Kennzahlenbeispiel Return on Investment Kapitalumschlag Umsatzrendite Jahresbericht Umsatz Gewinn Kosten ROI Kapital a 55 10 45 10 60 ± 20 ± 2 ± 20 ± 5 ± 1 Kapital Umsatz Umsatz Gewinn Umsatz Gewinn = Umsatz - Kosten Umsatzrendite =Gewinn/Umsatz Kapitalumschlag = Kapital / Umsatz ROI = Umsatzrendite / Kapitalumschlag Kosten

10 Fokus Implementierung: H2DB 100% JAVA-Datenbank inkl. JDBC API Open Source, kleiner Footprint In-Memory und Disk-Based DB Für Embedded- und Serversysteme SQL-Support Transaktionsverwaltung und Sicherheitsmechanismen vorhanden OBDC über PostreSQL OBDC über PostreSQL Umfangreiche Dokumentation

11 Fokus Implementierung Funktionsumfang H2DB Grundlegende DB-Funktionalität vorhanden Sehr großer Teil des relationalen Teil vom SQL-Standards umgesetzt (DDL, DML, etc.) Backup, Locking, Optimierung aus SQL möglich (Grundlagen) Wichtigste Datentypen bereits implementiert (int-varianten, (var-)char, date, CLOB/BLOB,...) Aggregate, Numerische-, String-, Zeitfunktionen bereits vorhanden

12 Themengebiete: Implementierung Welche Indexstrukturen gibt es in H2DB und wie werden diese genutzt? Finden und Abhängigkeiten analysieren Herauslösen zu Komponente Optimierungs- bzw. Kostenfunktion DQ-Performance Optimierungslösungen g Objektidentifikation Unsicherheitsbetrachtung Varianten und Möglichkeiten

13 Themengebiete: Object Identification Überblick Datentypen und Objektidentifikation Prozess der Objektidentifikation Vorverarbeitung Suchraumeingrenzung Vergleich Empirische Techniken Sorted Neighborhood Priority Queue Quelle: Hinrichs 2002, S. 97

14 Themengebiete: Edits Statistische Data Edits Data Cleaning und Data Imputation Fellegi Holt (1976) (Statistical Edits), viele Erweiterungen Numerische Zusammenhänge Beispiel-Papiere: William E. Winkler (2000) STATE OF STATISTICAL DATA EDITING AND CURRENT RESEARCH PROBLEMS. TR Fellegi, I. P. and Holt, D. (1976). A systematic approach to automatic edit and imputation. J. Amer. Statist. Assoc., 71, 17-35.

15 Themengebiete: Duplikaterkennung Ähnlichkeitsmaße Suchraumalgorithmen Phonetische Algorithmen (Phonetischer Code)

16 Vortrag 20 Minuten Vortrag 5-10 Minuten Diskussion/Fragen Überziehen: Redner wird abgewürgt zu früh: mehr Fragen (ggf. mehr Kritik) Rechner wird gestellt, vor Veranstaltung Präsentationen testen und bereitstellen!

17 Präsentationsrichtlinien Kenne Dein(e) Publikum/Zielgruppe Rede zum Publikum Rede laut und deutlich (langsam) Verstecke Dich nicht Achte auf Augenkontakt Lese nicht vor oder ab Übe Dein Timing Kenne Dein(e) Publikum/Zielgruppe

18 Vortrag: Struktur Stelle Dich selbst und Deinen Background vor (falls nötig) Erkläre das Ziel des Vortrages frühzeitig Motiviere Deine Arbeit Hintergrundwissen soweit wie nötig Hauptteil: Cohesion! - wichtigsten Ergebnisse - überspringe Details Zusammenfassung Fasse die Hauptpunkte zusammen, Hauptaussage (takeaway-message) Betone Schlüsse und Konsequenzen Literatur, wenn in Folien benutzt

19 Vortrag 20 min, ca. 7 bis 15 Folien Fontgröße 18, sans-serife Fonts Name, Titel und Zugehörigkeit auf jeder Folie Zusammenfassung Fasse die Hauptpunkte zusammen, Hauptaussage Betone Schlüsse und Konsequenzen auf jeder Folie Foliennummern auf jeder Folie Nur ein Thema pro Folie Farben und Visualisierungen nur wo/wenn nötig Vermeide übervolle Folien (> 7 Objekte oder > 36 Wörter) Vermeide ganze Sätze, stattdessen fasse Inhalt zusammen (benutze Schlag-/Stichwörter) Literatur, wenn in Folien benutzt

20 Warum ein Papier schreiben? Bekanntgeben von neuen Errungenschaften/Erfahrungen Publizieren = Ultimatives Ergebnis wissenschaftlicher Arbeit Forschung ist nie beendet, solange sie nicht publiziert wurde Andere (z.b. Community) über die eigene Arbeit informieren Anerkennung/Beachtung Kontakte, wertvolle Zusammen-/Mitarbeit Bekomme Feedback Bekomme Feedback extern, unabhängig, anonym

21 Was gehört in ein Papier? Man schreibt für den Leser (insb. Gutachter)! Kommunikation zwischen dem Leser und einem selbst Bedenke den Hintergrund/das Wissen der Leser Habe immer die Evaluierungskriterien in Gedanken: Orginaler Beitrag Signifikantes Problem Signifikante Lösung Aussagekräftige (robuste) Ergebnisse Aussagekräftige (robuste) Ergebnisse Hochqualitative Präsentation

22 Aufbau eines Papiers Titel Zusammenfassung Einleitung/ -führung Verwandte Arbeiten (auch nach Diskussion üblich/möglich) Eigene Arbeit (evtl. mehrere (Unter-)Kapitel) Evaluierung Diskussion Schlussfolgerung und Ausblick Referenzen/Literatur

23 Stil Cohesion (Zusammenhang) Roter Faden/Gedankenfluß In sich geschlossen Say what you re saying before saying it Vermeidung bloßer Beschreibungen

24 Don t Fehlende Motivation Unklare Ziele, unklarer Beitrag Fehlende Begründung Endlose Diskussionen, ungenutzter Background Fehlende Cohesion Das große Bild fehlt (einfach nur Details) Fehlende Schlussfolgerung g oder Ergebnisse Umgangssprache, fehlendes (Hintergrund-)Wissen Fehlende verwandte Arbeiten Max. Seiten (hier 15) überschreiten, aber auch nicht nur Hälfte nutzen Hälfte nutzen Nicht an Vorlage halten

25 Themenvergabe Thema Bearbeiter Thema Bearbeiter

26 Danke für die Aufmerksamkeit k wwwiti.cs.uni-magdeburg.de/iti_db : vkoeppen@ovgu.de A. Lübcke: andreas.luebcke@ovgu.de

27 Literatur Hinrichs, H.: Datenqualitätsmanagement in Data-Warehouse- Systemen, Universität Oldenburg, Diss., 2002.

28 BACKUP

29 Themengebiete: Data Quality Dimensions Überblick Datenqualitätsdimensionen Klassifikation Dimensionen von Datenqualität Glaubwürdigkeit, Nützlichkeit, Interpretierbarkeit, Integrität Zeitbasiert Konsistenz Schema bedingte Dimensionen Ansätze zur Definition der Dimensionen Quelle: Hinrichs 2002, S. 30

30 Themengebiete: Data Quality Models Überblick Modelle der Datenqualität Strukturierte Datenmodelle Konzeptuelle Modelle Logische Beschreibungen Data Provenance Quelle: Hinrichs 2002, S. 30 Semistrukturierte Datenmodelle Management IS Modelle IP-MAP

31 Themengebiete: Data Quality Steps Überblick Aktivitäten und Techniken Komposition Modelle Dimensionen Genauigkeit und Vollständigkeit Lokalisation und Korrektur Quelle: Hinrichs 2002, S. 30 Inkonsistenzen Unvollständige Daten Unvollständige Daten Ausreißer