Vorlesung Einführung in die Bioinformatik

Größe: px
Ab Seite anzeigen:

Download "Vorlesung Einführung in die Bioinformatik"

Transkript

1 Vorlesung Einführung in die Bioinformatik Dr. Uwe Scholz

2 Wiederholung I Research Group Internal Data Sources >HY01A03T ATGCTCATG rlkfelfdglgal CCATGGCGT söglölgfllhfd ACAATGCAG löshlkhs TTGCAAGTC hsäkhssäää GTACGTACT fdfdfölklfd GCACG Research Group Analysis Tools Internet External Analysis Tools Dr. Uwe Scholz Folie # 2

3 Wiederholung II Biologische Datenquellen: Verschiedene Plattformen Unterschiedliche Strukturen Heterogene Nutzerschnittstellen Lösungsansatz: Datenintegration Integration: Kombination von Inhalten multipler, oftmals heterogener Quellen Ziel: Informationsfusion Informationsfusion: Kombination, Verdichtung und Interpretation von Daten aus heterogenen Quellen, um daraus neue Informationen abzuleiten Dr. Uwe Scholz Folie # 3

4 Wiederholung III Zwei gebräuchliche Ansätze: Virtuelle oder logische Integration Integration zur Laufzeit nicht immer performant Keine lokale Datenspeicherung Daten immer aktuell Materialisierte oder physische Integration Datenspeicherung durch das Integrationssystem sehr performant Aktualität vom Aktualisierungsintervall abhängig Daten nicht immer aktuell Dr. Uwe Scholz Folie # 4

5 Herausfordeung Heterogenität Heterogenität von Informationssystemen Verschiedene Methoden des Datenzugriffs Unterschiedliche Modelle Abweichende Strukturen Arten der Heterogenität * : Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle/Schematische Heterogenität Semantische Heterogenität * verschiedene Unterteilungen in der Literatur Dr. Uwe Scholz Folie # 5

6 Technische Heterogenität Nicht auf Daten bezogen Unterschiede im Zugriff auf Daten Verschiedene Ebenen: Ebene Anfragemöglichkeit Ausprägungen Anfragesprache, parametrisierbare Funktionen, Formulare,... Anfragesprache SQL, XQuery, Volltext,... Austauschformat binär, XML, HTML, tabellarisch (CSV),... Kommunikationsprotokoll HTTP, JDBC, ODBC, SOAP,... [Leser & Naumann: Informationsintegration. dpunkt.verlag, 2006.] Dr. Uwe Scholz Folie # 6

7 Syntaktische Heterogenität Unterschiedliche Darstellung gleicher Sachverhalte Beispiele: Datentypen: integer vs. double Zeichenkodierungen: ASCII vs. Unicode Separatoren: Komma vs. Semikolon vs. Tabulator Dezimaltrennzeichen: Komma vs. Punkt Dr. Uwe Scholz Folie # 7

8 Datenmodellheterogenität I Datenquelle und Integrationssystem verwalten Daten in unterschiedlichen Modellen objektorientiert Dr. Uwe Scholz Folie # 8

9 Datenmodellheterogenität II relational Dr. Uwe Scholz Folie # 9

10 Datenmodellheterogenität III XML <Pflanze> <Name/> <Herkunft/> <Zulassungsjahr/> <Verwendung/> <Pedigree> <Elter_1/> <Elter_2/> </Pedigree> </Pflanze> Dr. Uwe Scholz Folie # 10

11 Strukturelle/Schematische Heterogenität I Abbildung des gleichen Sachverhalts Aber: Die Abbildung erfolgt unterschiedlich Die Entwicklung verschiedener Datenquellen erfolgt autonom unterschiedliche Anforderungen technische Einschränkungen persönliche Präferenzen von Entwicklern Beispiele: 1:1-Beziehung kann als eine oder zwei Relationen modelliert werden Modellierung als Attribut oder Relation Objektrelationales Mapping Dr. Uwe Scholz Folie # 11

12 Strukturelle/Schematische Heterogenität II Dr. Uwe Scholz Folie # 12

13 Semantische Heterogenität I Definition: Semantik bedeutet die Interpretation von Daten in einem bestimmten Kontext Beispiel: unterschiedliche Intension eines Attributnamens Name Vorname? Nachname? Kontext ist erforderlich Synonyme: gleiche Intension, aber unterschiedliche Bezeichnung Homonyme: unterschiedliche Intension, aber gleiche Bezeichnung Semantische Konflikte sind schwierig zu entdecken Dr. Uwe Scholz Folie # 13

14 Semantische Heterogenität II Weitere Beispiele: Unterschiedliche Einheiten: Pflanzenlänge in cm oder m? Verschiedene Kodierungen: 1 klein a klein 2 mittel vs. b mittel 3 groß c groß Unterschiedliche Bedeutung: Boniturskala A: 1 5 Boniturskala B: 0 9 Lösungsansatz: Ontologien Dr. Uwe Scholz Folie # 14

15 Ontologie I Von griech. on: Seiendes; logos: Wort Metaphysica generalis (Aristoteles): Lehre vom Seienden Traditionelle Ontologie: Verhältnis des Seins zum Seienden Ontologie in der Informatik: Definition von Klassen (Konzepte, Objekte) und ihren Beziehungen (Attribute, Rollen) Ist formal definiert Enthält wohldefiniertes Vokabular einer Domäne/eines Bereiches Ziel: Kommunikation zwischen Menschen verbessern Interoperabilität zwischen Systemen verbessern Dr. Uwe Scholz Folie # 15

16 Ontologie II Einsatz in der Biologie Bioontologien Formale Repräsentationen verschiedener biologischer Wissensbereiche, z.b.: Gene Ontology Plant Ontology Trait Ontology Objekte stehen zueinander in Beziehung!!! Abgrenzung zur Taxonomie: hierarchische Gliederung Dr. Uwe Scholz Folie # 16

17 Gene Ontology I Besteht aus drei kontrollierten Vokabularien: Molekulare Funktionen (z.b. oxidoreductase activity) Biologische Prozesse (z.b. oxidative phosphorylation) Zelluläre Komponenten (z.b. mitochondrial matrix) Beispiel: Ein Genprodukt ist in einer zellulären Komponente lokalisiert, ist dort an einem biologischen Prozess beteiligt und führt dabei eine molekulare Funktion aus. Beziehungen in der Gene Ontology: is_a, z.b. nuclear chromosome is_a chromosome part_of, z.b. nucleus part_of cell Dr. Uwe Scholz Folie # 17

18 Gene Ontology II Dr. Uwe Scholz Folie # 18

19 Gene Ontology III Dr. Uwe Scholz Folie # 19

20 Plant Ontology I Bestandteile: Pflanzenstruktur Botanische Terme, die Morphologie und anatomische Strukturen beschreiben Organe, Gewebe, Zelltypen und ihre Beziehungen Wachstums- und Entwicklungsstadien Terme für Wachstums- und Entwicklungsstadien und ihre Beziehungen Embryo, Samenentwicklung, Blüte etc. Dr. Uwe Scholz Folie # 20

21 Plant Ontology II Dr. Uwe Scholz Folie # 21

22 Plant Ontology III Dr. Uwe Scholz Folie # 22

23 Plant Ontology VI Dr. Uwe Scholz Folie # 23

24 Trait Ontology I Beschreibung von Merkmalen als unterscheidbare Eigenschaften von Organismen Beispiele: Pflanzenhöhe Krankheitsresistenz Dr. Uwe Scholz Folie # 24

25 Trait Ontology II Dr. Uwe Scholz Folie # 25

26 Trait Ontology III Dr. Uwe Scholz Folie # 26

27 Environment Ontology I Beschreibungen der Umwelt der untersuchten Pflanzen Beispiele: Wassertemperatur im Gewächshaus Beleuchtungsdauer Dr. Uwe Scholz Folie # 27

28 Environment Ontology II Dr. Uwe Scholz Folie # 28

29 Environment Ontology III Dr. Uwe Scholz Folie # 29

30 Was ist (Daten-)Qualität? Qualität ist die Übereinstimmung zwischen den festgestellten Eigenschaften und den vorher festgelegten Forderungen einer Betrachtungseinheit. [IEC 2371] Datenqualität ist ein mehrdimensionales Maß für die Eignung von Daten, den an ihre Erfassung/Generierung gebundenen Zweck zu erfüllen. [Würthele, 2003] Gute Datenqualität liegt dann vor, wenn die Daten den vom Nutzer verlangten Zweck erfüllen. [Wang & Madnick, 1990] Dr. Uwe Scholz Folie # 30

31 Probleme mit Daten I Annahme: bisherige Probleme gelöst Daten im gemeinsamen Schema Neue Probleme: Datenfehler: Unterschiedliche Formate, z.b. Datum Schreibfehler Inkonsistenzen, z.b. Postleitzahl und Ort Duplikate: z.b. zwei Gerstensorten sind in mehreren Quellen enthalten Datenqualität: Glaubwürdigkeit und Relevanz der Quellen Vollständigkeit: Sind alle relevanten Realweltobjekte integriert? Sind für alle Attribute Ausprägungen vorhanden? Diese Probleme müssen erkannt und gelöst werden Dr. Uwe Scholz Folie # 31

32 Probleme mit Daten II Heterogenität [Quelle: und Felix Datenqualität Naumann, Kai-Uwe Sattler] Dr. Uwe Scholz Folie # 32

33 Bereinigung von Daten I Arten von Datenfehlern: [Naumann: Datenqualität. Informatik-Spektrum, 2007.] Dr. Uwe Scholz Folie # 33

34 Bereinigung von Daten II Einzelne Datenquelle Schemaebene: Unzulässige Werte Verletzung von Attributabhängigkeiten Verletzung von Constraints Datenebene: Fehlende Werte Falsche/veraltete Werte Schreibfehler Integrierte Datenquelle Schemaebene: Strukturelle oder semantische Konflikte Datenebene: Daten aus mehreren Quellen widersprechen sich Unterschiedliche Genauigkeit oder Einheiten Dr. Uwe Scholz Folie # 34

35 Bereinigung von Daten III Entstehung von Fehlern: Eingabe von Daten Alterungsprozess von Daten Transformation von Daten Integration von Daten Fehlermanagement: Profiling Erkundung eines Datenbestandes Z.B. Statistik (min, max, Verteilungen) Assessment Definition von Bedingungen, die erfüllt sein müssen Messung des Erfüllungsgrades Z.B. Pflanzenhöhe < 2m Monitoring Basiert auf Ergebnissen des Assessments Einleiten und Überwachen von Gegenmaßnahmen Dr. Uwe Scholz Folie # 35

36 Bereinigung von Daten IV Beseitigung einfacher Fehler Normalisierung Umwandlung von Texten in Großbuchstaben bessere Vergleichbarkeit Rechtschreibprüfung Standardformate für Datum, Telefonnummer, Personennamen etc. Konvertierung Z.B. Umrechnung von Einheiten Fehlwerte Löschen von Zeilen/Spalten Ersetzen (avg, min, max, Median, Modalwert) Ausreißer Winsorizing Trimming Dr. Uwe Scholz Folie # 36

37 Erkennen von Duplikaten I Duplikat: mehrfache Abbildung desselben Realweltobjektes Vorgehen: Paarweiser Vergleich aller Tupel Berechnung der Ähnlichkeit sim der Tupel Duplikat, wenn die Ähnlichkeit über einem bestimmten Schwellwert liegt, z.b sim 90% Ziele: Möglichst alle Duplikate erkennen Performance Dr. Uwe Scholz Folie # 37

38 Erkennen von Duplikaten II Für numerische Daten Abweichung Z.B. 1 und 0,95 Für alphanumerische Daten: Äquivalenzmethoden Vergleichen zwei Strings Geben TRUE oder FALSE zurück Similarity-Ranking-Methoden Vergleichen ebenfalls zwei Strings Geben zurück, wie groß die Ähnlichkeit ist Dr. Uwe Scholz Folie # 38

39 Äquivalenzmethoden I Lautähnlichkeit Vergleich darüber, wie zwei Strings ausgesprochen klingen Funktioniert ähnlich wie ein Hash-Verfahren Abhängigkeit von der jeweiligen Sprache Z.B. Soundex-Algorithmus englisch Wortstamm Vergleich auf Basis von Wortstämmen Suffixwörterbuch erforderlich Sprachabhängig Groß-/Kleinschreibung Sind zwei Zeichenketten identisch, wenn die Groß- /Kleinschreibung ignoriert wird? Z.B. Gerste und GERSTE Dr. Uwe Scholz Folie # 39

40 Äquivalenzmethoden II Synonyme Haben zwei Strings dieselbe Bedeutung? Benötigt kontrolliertes Vokabular Z.B. Gerste und Hordeum Wildcards Verwendung von Platzhaltern Überprüfung, ob zwei Strings in Teilen übereinstimmen Ein Zeichen, z. B. _ oder?; beliebig viele Zeichen, z. B. % oder * Z.B. Golden% findet Golden Green und Golden Promise Dr. Uwe Scholz Folie # 40

41 Similarity-Ranking-Methoden I Hamming-Ähnlichkeit Hamming-Abstand: Positionsweiser Vergleich zweier Strings gleicher Länge (Hordeum und Horedum) Zählen der Unterschiede (2) Umrechnung in Ähnlichkeitsmaß: hamm( S1, S2) sim hamm ( S1, S2) 1 n Edit-basiert Editierabstand: Anzahl von Operationen, um String 1 in String 2 zu überführen Einfügen, Löschen, Ersetzen (Levenshtein-Distanz) Zusätzlich: Vertauschen (Damerau-Distanz) Levenshtein-Distanz von Hordeum und Horedum ist 2 Umrechnung in Ähnlichkeitsmaß: sim ed ( S1, S 2 ) 1 ed( S1, S2) max{ S, S 1 2 } Dr. Uwe Scholz Folie # 41

42 Similarity-Ranking-Methoden II LCS-basiert Longest Common Substring: Vergleich der Teilstrings zweier Zeichenketten Je länger ein gemeinsamer Substring ist, desto größer ist die Ähnlichkeit Umrechnung in Ähnlichkeitsmaß: sim lcs ( S 1, S 2 lcs( S1, S2) ) max{ S, S } 1 2 Diese Algorithmen reagieren empfindlich Unterschiedliche Längen der Zeichenketten Vertauschungen Dr. Uwe Scholz Folie # 42

43 Similarity-Ranking-Methoden III Alternative: Token-basiert Zerlegung der Strings in Token (Vorkommen eines Zeichens) Vergleich über gemeinsame Token Reihenfolge spielt keine Rolle Dice-Ähnlichkeitskoeffizient S 1 S 2 Schnittmenge S 1 + S 2 Anzahl der verglichenen Elemente D(Hordeum,Horedum) = 2*7/(7+7) = 1 D 2 S S 1 1 S S 2 2 Jaccard-Ähnlichkeitskoeffizient S 1 S 2 Vereinigung J(Hordeum,Horedum) = 7/(7+7-7) = 1 J S S 1 1 S S 2 2 Dr. Uwe Scholz Folie # 43

44 Datenfusion I Datenfusion: Kombination der erkannten Duplikate Ein Realweltobjekt soll nur noch einmal repräsentiert werden Tupel werden durch Kombination mehrerer Quellen angereichert Auftreten von Konflikten ID Name Anbaujahr Herkunftsland Tupel #1 LAC 0815 Avondefiance 1980 NL Tupel #2 LAC 0815 Avondefiance 1980 NL Tupel #3 LAC 0815 Avondefiance Tupel #4 LAC NL Tupel #5 LAC 0815 Avondefiance 1984 GB Dr. Uwe Scholz Folie # 44

45 Datenfusion II Gleichheit Alle Attributausprägungen sind gleich (Tupel #1,#2) Tupel #1 LAC 0815 Avondefiance 1980 NL Tupel #2 LAC 0815 Avondefiance 1980 NL Subsumption (Zusammenfassung) Ein Tupel hat weniger Nullwerte Alle Nicht-Null-Attribute sind identisch (Tupel #1,#2 #3,#4) Tupel #1 LAC 0815 Avondefiance 1980 NL Tupel #2 LAC 0815 Avondefiance 1980 NL Tupel #3 LAC 0815 Avondefiance Tupel #4 LAC NL Dr. Uwe Scholz Folie # 45

46 Datenfusion III Komplementierung (Ergänzung) Tupel subsumieren sich nicht Attribut A mit einem Nicht-Null-Wert hat dieselbe Ausprägung wie Attribut B oder Attribut B hat einen Nullwert (Tupel #3,#4) Konflikt Tupel #3 LAC 0815 Avondefiance Tupel #4 LAC NL Alle anderen Situationen mit Widersprüchen (Tupel #5 mit allen) Tupel #1 LAC 0815 Avondefiance 1980 NL Tupel #2 LAC 0815 Avondefiance 1980 NL Tupel #3 LAC 0815 Avondefiance Tupel #4 LAC NL Tupel #5 LAC 0815 Avondefiance 1984 GB Dr. Uwe Scholz Folie # 46

47 Datenfusion IV Lösungsmöglichkeiten: Union Kombination zweier Relationen mit gleichem Schema Duplikate werden entfernt Join Kombination zweier Relationen mit unterschiedlichem Schema Konfliktlösung: z.b. COALESCE (erster Nicht-Null-Wert) Gruppierung und Aggregation Gruppierung über z.b. eine ID Spezielle Aggregatfunktion für jedes Attribut Dr. Uwe Scholz Folie # 47

48 Datenqualität Datenqualität: Eignung von Daten für einen bestimmten Zweck Messung anhand von Qualitätskriterien Konsistenz: Widerspruchsfreiheit von Daten untereinander Korrektheit: richtige Abbildung eines Sachverhalts Vollständigkeit: hinreichende Füllung von Attributen Genauigkeit: Detaillierung, Nachkommastellen, Homonyme Zuverlässigkeit: Nachvollziehbarkeit, Vertrauenswürdigkeit Verständlichkeit: Beschreibungen für kodierte Werte Verwendbarkeit: Strukturen, die den Import ermöglichen Bewertung durch Nutzer (Verständlichkeit, Verwendbarkeit) Datenquelle (Vollständigkeit, Zuverlässigkeit) Bearbeitung der Anfrage (Konsistenz, Korrektheit, Genauigkeit) Dr. Uwe Scholz Folie # 48

49 Qualitätsprobleme in der Bioinformatik I Ursachen Informationstechnische Ursachen: Heterogene Software Weiterverbreitung von Daten Ursachen während der Datengewinnung: Unzureichende Dokumentation von Primär- und Sekundärdaten Methodenbedingte Fehler Ableitung von Daten Zeitlich begrenzte Projekte und dezentrale Speicherung Biologisch bedingte Ursachen: Entwicklungsstadien Funktionsorte Umweltfaktoren Konzeptionelle Ursachen: Bewertungssysteme Informationssysteme Vorhersagemethoden Nichteinheitliche Vokabulare / Methoden Dr. Uwe Scholz Folie # 49

50 Qualitätsprobleme in der Bioinformatik II Lösungsvorschläge Automatische Erfassung von Daten Performanter Fehlerpotenzial durch manuelle Erfassung verringern Protokollierung Nachvollziehbarkeit durch strukturierte Dokumentation gewährleisten Messverfahren Probleme mit (verschiedenen) Boniturskalen vermeiden Mittelwertvermeidung Einzelne Messwerte für Sorten, Orte, Jahre etc. speichern Vermeidung von Analyseproblemen Datenbanknutzung Zentral Persistent Dr. Uwe Scholz Folie # 50

51 Qualitätsprobleme in der Bioinformatik III Lösungsvorschläge (Fortsetzung) Vermeidung von Ad-hoc-Statistik Gefahr fehlerhafter Anwendung und Fehlerfortpflanzung durch abgeleitete Daten Kennzeichnung abgeleiteter Daten Abgeleitete und/oder vorhergesagte Daten mit Labeln versehen (Quality- Tagging) Kennzeichnung von Daten aus anderen Quellen Parallele Versionierung Vorteile bei abweichenden fachlichen Meinungen und Publikationen Umfassende Verwendung von Metadaten Erlaubte Merkmalsbezeichnungen (kontrolliertes Vokabular) Mapping von Merkmalen verschiedener Quellen (Synonyme, Homonyme) Erlaubte Wertebereiche / Ausprägungen Methoden der Merkmalserfassung Verwendete Einheiten Externe Einflüsse Dr. Uwe Scholz Folie # 51

Vorlesung Einführung in die Bioinformatik

Vorlesung Einführung in die Bioinformatik Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 18.04.2016 Wiederholung I Research Group with Special Queries External Databases Internet Dr. Stephan Weise Folie # 2 Wiederholung II Biologische

Mehr

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009 Datenqualität: allgemeiner Überblick Waldemar Braun Seminar Datenqualität OvGU Magdeburg Gliederung 1. Einleitung 2. Motivation 3. Definition 4. DQ-Probleme 5. DQ-Dimensionen 6. DQ-Modelle 7. Messen der

Mehr

Klassifikation von Integrationskonflikten

Klassifikation von Integrationskonflikten Klassifikation von Integrationskonflikten Christiane Telöken 1 Inhaltsverzeichnis 1. Was bedeutet Integration? 2. Strukturelle Heterogenitätskonflikte 2.1 Konflikte bei bilateralen Korrespondenzen 2.2

Mehr

Präsentation zum Thema XML Datenaustausch und Integration

Präsentation zum Thema XML Datenaustausch und Integration Sebastian Land Präsentation zum Thema XML Datenaustausch und Integration oder Warum eigentlich XML? Gliederung der Präsentation 1. Erläuterung des Themas 2. Anwendungsbeispiel 3. Situation 1: Homogene

Mehr

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling 30. Juni 2006 - Technische Universität Kaiserslautern Paul R. Schilling ! " #$% & '( ( ) *+, - '. / 0 1 2("$ DATEN SIND ALLGEGENWÄRTIG Bill Inmon, father of data warehousing Unternehmen In einer vollkommenen

Mehr

Informationsintegration

Informationsintegration Informationsintegration Grundlegende Architekturen Ulf Leser Inhalt diese Vorlesung Klassifikation verteilter, autonomer, heterogener Systeme Weitere Klassifikationskriterien Schichtenaufbau integrierter

Mehr

Datenbanken. Prof. Dr. Bernhard Schiefer. bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer

Datenbanken. Prof. Dr. Bernhard Schiefer. bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Datenbanken Prof. Dr. Bernhard Schiefer bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Wesentliche Inhalte Begriff DBS Datenbankmodelle Datenbankentwurf konzeptionell, logisch und relational

Mehr

Duplikaterkennung - Motivation Masterseminar. Felix Naumann Hasso-Plattner-Institut

Duplikaterkennung - Motivation Masterseminar. Felix Naumann Hasso-Plattner-Institut Duplikaterkennung - Motivation Masterseminar 16.4.2008 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Datenqualität Datenfehler und ihre Ursachen Datenreinigung i Duplikaterkennung

Mehr

10. Vorlesung: Datenorganisation SS 2007

10. Vorlesung: Datenorganisation SS 2007 10. Vorlesung: Datenorganisation SS 2007 8 Parallele Transaktionen 9 9.1 Drei-Ebenen Ebenen-Architektur 9.2 Verteilte Datenbanken 9.3 Client-Server Server-Datenbanken 9.4 Föderierte Datenbanken 9.5 Das

Mehr

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen Datenintegration Datenintegration Kapitel 3: Eigenschaften von Integrationssystemen Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Einordnung

Mehr

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Dr. Anika Groß Sommersemester 2014

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Dr. Anika Groß Sommersemester 2014 Datenintegration Datenintegration Kapitel 2: Verteilung, Autonomie und Heterogenität Dr. Anika Groß Sommersemester 2014 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Verteilung

Mehr

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Andreas Thor Sommersemester 2008. Inhalt

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Andreas Thor Sommersemester 2008. Inhalt Datenintegration Datenintegration Kapitel 2: Verteilung, Autonomie und Heterogenität Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Verteilung

Mehr

Informationsintegration I Einführung

Informationsintegration I Einführung Informationsintegration I Einführung Felix Naumann Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system

Mehr

VBA-Programmierung: Zusammenfassung

VBA-Programmierung: Zusammenfassung VBA-Programmierung: Zusammenfassung Programmiersprachen (Definition, Einordnung VBA) Softwareentwicklung-Phasen: 1. Spezifikation 2. Entwurf 3. Implementierung Datentypen (einfach, zusammengesetzt) Programmablaufsteuerung

Mehr

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad Datenqualität mit dem DataFlux dfpower Studio 8.1 Tobias Jansen Zaferna-Hütte, 4. Januar 2009 Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter Nasa Marssonde Mars Climate Orbiter

Mehr

Requirements Dokumentation Seminar- Requirements Engineering. Manoj Samtani Oliver Frank

Requirements Dokumentation Seminar- Requirements Engineering. Manoj Samtani Oliver Frank Requirements Dokumentation Seminar- Requirements Engineering Manoj Samtani Oliver Frank 24.07.2007 TU Berlin SS 2007 Inhaltsübersicht Ziel des Dokumentierens Dokumentation vs. Spezifikation Qualitätskriterien

Mehr

Quality Point München Datenqualität

Quality Point München Datenqualität Quality Point München Datenqualität Paul, wie ist denn Eure Datenqualität? Nachdem ich bei der letzten Gehaltszahlung mit Frau... angeredet wurde, bin ich mir nicht mehr so sicher. Autor: W. Ulbrich IT&More

Mehr

Raumbezogene Datenbanken (Spatial Databases)

Raumbezogene Datenbanken (Spatial Databases) Raumbezogene Datenbanken (Spatial Databases) Ein Vortrag von Dominik Trinter Alexander Christian 1 Inhalte Was ist ein raumbezogenes DBMS? Modellierung Abfragen Werkzeuge zur Implementierung Systemarchitektur

Mehr

Speicherung von XML in (objekt-)relationalen Datenbanken. Burkhard Schäfer

Speicherung von XML in (objekt-)relationalen Datenbanken. Burkhard Schäfer Speicherung von XML in (objekt-)relationalen Datenbanken Burkhard Schäfer Übersicht Motivation Anforderungen Ansätze modellorientiert strukturorientiert Zusammenfassung Motivation Warum XML in Datenbanken

Mehr

Software-Engineering und Datenbanken

Software-Engineering und Datenbanken Software-Engineering und Datenbanken Prof. Dr. Bernhard Schiefer bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Prof. Dr. Bernhard Schiefer 1-1 Wesentliche Inhalte Begriff DBS Datenbankmodelle

Mehr

Datenbanktechnologie für Data-Warehouse-Systeme

Datenbanktechnologie für Data-Warehouse-Systeme Wolfgang Lehner Datenbanktechnologie für Data-Warehouse-Systeme Konzepte und Methoden dpunkt.verlag 1 1.1 1.2 1.3 1.4 1. 5 2 2.1 2.2 2.3 Einleitung 1 Betriebswirtschaftlicher Ursprung des Data Warehousing...

Mehr

Frühjahrsemester 2013. CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt. Datenqualität

Frühjahrsemester 2013. CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt. Datenqualität Frühjahrsemester 2013 CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt * Folien basieren zum Teil auf Unterlagen von Dr. Diego Milano Datenqualität Datenqualität (DQ) beschreibt allgemein die (anwendungsspezifische)

Mehr

Vorlesung Datenbankmanagementsysteme

Vorlesung Datenbankmanagementsysteme Vorlesung Datenbankmanagementsysteme SQL zur Datenanalyse & Einführung Online Analytical Processing (OLAP) (auf Basis von Oracle) Vorlesung Datenbankmanagementsysteme SQL zur Datenanalyse M. Lange, S.

Mehr

Kurze Einführung in IBM SPSS für Windows

Kurze Einführung in IBM SPSS für Windows Kurze Einführung in IBM SPSS für Windows SPSS Inc. Chicago (1968) SPSS GmbH Software München (1986) 1984: Datenanalyse Software für den PC 1992: Datenanalyse Software unter Windows 1993: Datenanalyse Software

Mehr

Projekt zur Entwicklung, Umsetzung und Evaluation von Leitlinien zum adaptiven Management von Datenqualität in Kohortenstudien und Registern

Projekt zur Entwicklung, Umsetzung und Evaluation von Leitlinien zum adaptiven Management von Datenqualität in Kohortenstudien und Registern Projekt zur Entwicklung, Umsetzung und Evaluation von Leitlinien zum adaptiven Management von Datenqualität in Kohortenstudien und Registern gefördert durch die Indikatoren von Datenqualität Michael Nonnemacher

Mehr

Entwurf von Datenbanken

Entwurf von Datenbanken Bisher: was sind Datenbanken? Wie funktionieren sie? Im Folgenden: wie entwickle ich eine Datenbank? Was ist eine gute Datenbank? Der Datenbankentwurfsprozess Das Entity Relationship (ER) Modell Abbildung

Mehr

Mai 2006. Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Mai 2006. Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln Hauptseminar: Nichtrelationale Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln Mai 2006 Was ist eine Datenbank? Erweiterung relationaler um eine Deduktionskomponente Diese

Mehr

Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse

Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse Expressionsdatenanalyse U. Scholz & M. Lange Folie #6-1 Grundidee U. Scholz & M. Lange Folie #6-2 Ergebnis der Experimente I U. Scholz & M. Lange Folie #6-3 Genexpression U. Scholz & M. Lange Folie #6-4

Mehr

Vorlesungsplan. Datenbanken in der Bioinformatik. Veranstaltungsmodalitäten. Biodatenbanken Überblick. Inhalt. Alexander Hinneburg

Vorlesungsplan. Datenbanken in der Bioinformatik. Veranstaltungsmodalitäten. Biodatenbanken Überblick. Inhalt. Alexander Hinneburg Vorlesungsplan Datenbanken in der Bioinformatik hinneburg@informatik.uni-halle.de www.informatik.uni-halle.de/~hinneburg 1. Übersicht 2. Datenmodelle Textdateien, Entry-Modell Relationale DB XML 3. Genom-DB

Mehr

3. Das Relationale Datenmodell

3. Das Relationale Datenmodell 3. Das Relationale Datenmodell Das Relationale Datenmodell geht zurück auf Codd (1970): E. F. Codd: A Relational Model of Data for Large Shared Data Banks. Comm. of the ACM 13(6): 377-387(1970) DBMS wie

Mehr

erfolgreich steuern Datenqualität rä dpunkt.verlag Ldwi Praxislösungen für Business-Intelligence-Projekte Rüdiger Eberlein Edition TDWI

erfolgreich steuern Datenqualität rä dpunkt.verlag Ldwi Praxislösungen für Business-Intelligence-Projekte Rüdiger Eberlein Edition TDWI Detlef Apel Wolfgang Behme Rüdiger Eberlein Christian Merighi Datenqualität erfolgreich steuern Praxislösungen für Business-Intelligence-Projekte 3., überarbeitete und erweiterte Auflage Edition TDWI rä

Mehr

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo. Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten

Mehr

Einführung. Informationssystem als Abbild der realen Welt

Einführung. Informationssystem als Abbild der realen Welt Was ist ein Datenbanksystem? Anwendungsgrundsätze Betrieb von Datenbanksystemen Entwicklung von Datenbanksystemen Seite 1 Informationssystem als Abbild der realen Welt Modellierung (Abstraktion) Sachverhalte

Mehr

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken Profilbezogene informatische Bildung in den Klassenstufen 9 und 10 Schwerpunktthema Robby Buttke Fachberater für Informatik RSA Chemnitz Fachliche Einordnung Phasen relationaler Modellierung Fachlichkeit

Mehr

FOSD-Treffen 2012 Struktur- und Constraintbasierte Konfiguration

FOSD-Treffen 2012 Struktur- und Constraintbasierte Konfiguration FOSD-Treffen 2012 Struktur- und Constraintbasierte Konfiguration Uwe Lesta 22. März 2012 Übersicht Produktkonfiguration Konfigurationsarten Produkt- und Konfigurationswissen Aufbau des Produktkonfigurators

Mehr

Datenqualität erfolgreich steuern

Datenqualität erfolgreich steuern Edition TDWI Datenqualität erfolgreich steuern Praxislösungen für Business-Intelligence-Projekte von Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi 3., überarbeitete und erweiterte Auflage

Mehr

Carl-Engler-Schule Karlsruhe Datenbank 1 (5)

Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Informationen zur Datenbank 1. Definition 1.1 Datenbank-Basis Eine Datenbank-Basis ist eine Sammlung von Informationen über Objekte (z.b Musikstücke, Einwohner,

Mehr

Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013

Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013 Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013 Endler Gregor, Warum Datenqualität? 2002, USA: 600.000.000 $ Y2k weltweit: 1.500.000.000 $ Kosten 44.000 98.000 Todesfälle

Mehr

VL Informationsintegration Verteilung, Autonomie und Heterogenität. 25.10.2004 Felix Naumann. Aufbau eines Data Warehouse

VL Informationsintegration Verteilung, Autonomie und Heterogenität. 25.10.2004 Felix Naumann. Aufbau eines Data Warehouse VL Informationsintegration Verteilung, Autonomie und Heterogenität 25.10.2004 Felix Naumann Wiederholung: Data Warehouse Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses 25.10.2004 Felix

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Semantische Infomationsintegration à la carte?

Semantische Infomationsintegration à la carte? Semantische Infomationsintegration à la carte? Ziele und Herausforderungen der Anwendung des CIDOC CRM. Historisch-Kulturwiss. Informationsverarbeitung, Universität Köln 1. Oktober 2010 1 Ein User Scenario

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! www.semantic-web-grundlagen.de Ontology Engineering! Dr. Sebastian Rudolph! Semantic Web Architecture

Mehr

Ontologien und Ontologiesprachen

Ontologien und Ontologiesprachen Ontologien und Ontologiesprachen Semantische Datenintegration SoSe2005 Uni Bremen Yu Zhao Gliederung 1. Was ist Ontologie 2. Anwendungsgebiete 3. Ontologiesprachen 4. Entwicklung von Ontologien 5. Zusammenfassung

Mehr

Vorlesung Informatik II

Vorlesung Informatik II Vorlesung Informatik II Universität Augsburg Wintersemester 2011/2012 Prof. Dr. Bernhard Bauer Folien von: Prof. Dr. Robert Lorenz Lehrprofessur für Informatik 08. Exkurs: Datenbanken 1 Motivation Datenbanksysteme

Mehr

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2005 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

Tutorial Excel Übung 8 Datenbanken II -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8.

Tutorial Excel Übung 8 Datenbanken II -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8. Tutorial Excel Übung 8 Datenbanken II -1-1 Aufgabenstellung Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8. 2 Abfragen auf Muster und nach Listenelementen Zur Formulierung von Abfragen

Mehr

Grundlagen der Informatik II. Teil I: Formale Modelle der Informatik

Grundlagen der Informatik II. Teil I: Formale Modelle der Informatik Grundlagen der Informatik II Teil I: Formale Modelle der Informatik 1 Einführung GdInfoII 1-2 Ziele/Fragestellungen der Theoretischen Informatik 1. Einführung abstrakter Modelle für informationsverarbeitende

Mehr

Model Driven Architecture (MDA)

Model Driven Architecture (MDA) Model Driven Architecture (MDA) Vortrag im Fach Software Engineering II BA Mannheim / Fachrichtung Angewandte Informatik Torsten Hopp Gliederung Einleitung Motivation Grundzüge der MDA Ziele & Potenziale

Mehr

SQL SQL. SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R. Grundlagen der Datenbanksysteme I

SQL SQL. SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R. Grundlagen der Datenbanksysteme I SQL SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R VII-1 Beispielrelationen Filiale ( Name Leiter Stadt Einlagen ) Konto ( KontoNr KundenNr FilialName Saldo ) Kredit

Mehr

Kapitel 7: Formaler Datenbankentwurf

Kapitel 7: Formaler Datenbankentwurf 7. Formaler Datenbankentwurf Seite 1 Kapitel 7: Formaler Datenbankentwurf Die Schwierigkeiten der konzeptuellen Modellierung sind zu einem großen Teil dadurch begründet, dass sich die relevanten Strukturen

Mehr

Informationsintegration

Informationsintegration Informationsintegration Verteilung, Autonomie, Heterogenität, Transparenz Ulf Leser Inhalt dieser Vorlesung Verteilung Autonomie Heterogenität Transparenz Ulf Leser: Informationsintegration 2 Klassifikationsdimensionen

Mehr

Continuous Information Quality Assessment in Stream Based Smart City Frameworks

Continuous Information Quality Assessment in Stream Based Smart City Frameworks Continuous Information Quality Assessment in Stream Based Smart City Frameworks 19. VDE/ITG Fachtagung Mobilkommunikation Osnabrück, 22.05.2014 Thorben Iggena Tel.: +49 541/969-2723 E-Mail: t.iggena@hs-osnabrueck.de

Mehr

Einführung in SQL Datenbanken bearbeiten

Einführung in SQL Datenbanken bearbeiten Einführung in SQL Datenbanken bearbeiten Jürgen Thomas Entstanden als Wiki-Buch Bibliografische Information Diese Publikation ist bei der Deutschen Nationalbibliothek registriert. Detaillierte Angaben

Mehr

Servicebasierte Datenintegration

Servicebasierte Datenintegration Präsentation zur Seminararbeit Christoph Aßmann Aßmann, Christoph Leipzig, 26.01.2010 Folie 1 Inhalt Begriffe Motivation Abgrenzung Grid Cloud OGSA: Architektur servicebasierter Grids Standardisierung

Mehr

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich: Glossare 1 Inhalt 1 Inhalt... 1 2 Prozesse... 1 3 Eine kleine Zeittabelle...... 1 4 Die ersten Schritte... 2 5 Die nächsten Schritte...... 2 6 Die letzten Schritte... 3 7 Das Tool...... 4 8 Beispiele...

Mehr

Datenwertintegration / Informationsqualität

Datenwertintegration / Informationsqualität / Fabian Panse 09.09.2014 Fabian Panse II Datenintegration 09.09.2014 1 / 18 Datenreinigung Datenintegration [NL06] Wenn Daten in gemeinsamem Schema vorliegen: weitere Probleme Datenfehler: Formatfehler

Mehr

Software-Engineering und Datenbanken

Software-Engineering und Datenbanken Software-Engineering und Datenbanken Datenbankentwurf Prof. Dr. Bernhard Schiefer 5-1 Datenbankentwurf: Phasenmodell Anforderungsanalyse Konzeptioneller Entwurf Verteilungsentwurf Logischer Entwurf Datendefinition

Mehr

Universität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov. 2006 M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5

Universität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov. 2006 M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5 Universität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov. 2006 M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5 Aufgabe 1: Projektion Datenbanksysteme I π A1,...,A n (π B1,...,B

Mehr

Microsoft Access 2010 Daten importieren

Microsoft Access 2010 Daten importieren Microsoft Access 2010 Daten importieren Daten nach Access importieren Klick auf den Reiter des Menübandes Externe Daten. In der Gruppe Importieren und Verknüpfen werden mit Hilfe von Befehlen die verschiedenen

Mehr

Software-Engineering Einführung

Software-Engineering Einführung Software-Engineering Einführung 7. Übung (04.12.2014) Dr. Gergely Varró, gergely.varro@es.tu-darmstadt.de Erhan Leblebici, erhan.leblebici@es.tu-darmstadt.de Tel.+49 6151 16 4388 ES Real-Time Systems Lab

Mehr

Semantic Web Technologies I

Semantic Web Technologies I Semantic Web Technologies I Lehrveranstaltung im WS11/12 Dr. Elena Simperl PD Dr. Sebastian Rudolph M. Sc. Anees ul Mehdi Ontology Engineering Dr. Elena Simperl XML und URIs Einführung in RDF RDF Schema

Mehr

Datenintegration. Kapitel 1: Einführung. Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11

Datenintegration. Kapitel 1: Einführung. Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11 Datenintegration Datenintegration Kapitel 1: Einführung Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1

Mehr

Andreas Heuer Gunter Saake Kai-Uwe Sattler. Datenbanken. kompakt

Andreas Heuer Gunter Saake Kai-Uwe Sattler. Datenbanken. kompakt Andreas Heuer Gunter Saake Kai-Uwe Sattler Datenbanken kompakt Inhaltsverzeichnis Vorwort v 1 Was sind Datenbanken 1 1.1 Warum Datenbanken 1 1.2 Datenbanksysteme 4 1.3 Anforderungen: Die Codd'schen Regeln

Mehr

Projektseminar "Texttechnologische Informationsmodellierung"

Projektseminar Texttechnologische Informationsmodellierung Projektseminar "Texttechnologische Informationsmodellierung" Speicherung von Korpora Ziele dieser Sitzung Nach dieser Sitzung sollten Sie: einen Überblick über die Alternativen zur Speicherung von Korpusdaten

Mehr

Vorlesung Datenbankmanagementsysteme. Vorlesung Datenbankmanagementsysteme Überblick M. Lange, S. Weise Folie #0-1

Vorlesung Datenbankmanagementsysteme. Vorlesung Datenbankmanagementsysteme Überblick M. Lange, S. Weise Folie #0-1 Vorlesung Datenbankmanagementsysteme Vorlesung Datenbankmanagementsysteme Überblick M. Lange, S. Weise Folie #0-1 Vorlesung Datenbankmanagementsysteme Überblick M. Lange, S. Weise Folie #0-2 Bioinformatik:

Mehr

Frieder Nake: Information und Daten

Frieder Nake: Information und Daten Frieder Nake: Information und Daten Mit Grundlagen der Zeichentheorie nach Morris Seminar 31120: Information Philosophische und informationswissenschaftliche Perspektiven, SS 2004 Frieder Nake: Information

Mehr

Guten Tag! CampusSource. Die CSE Integration Platform. CampusSource Engine. Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund

Guten Tag! CampusSource. Die CSE Integration Platform. CampusSource Engine. Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund Engine Die CSE Integration Platform Guten Tag! Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund Integriertes Informationsmanagement mit der Engine - A2A vs. EBI Folie 2 Integration

Mehr

Enterprise Applikation Integration und Service-orientierte Architekturen. 01 Einführung

Enterprise Applikation Integration und Service-orientierte Architekturen. 01 Einführung Enterprise Applikation Integration und Service-orientierte Architekturen 01 Einführung Agenda Warum EAI Klassifikation von EAI-Ansätzen Ebenen der Integration Architekturen zur Datenintegration Prof. Dr.

Mehr

Relationale Datenbanken in der Praxis

Relationale Datenbanken in der Praxis Seite 1 Relationale Datenbanken in der Praxis Inhaltsverzeichnis 1 Datenbank-Design...2 1.1 Entwurf...2 1.2 Beschreibung der Realität...2 1.3 Enitiy-Relationship-Modell (ERM)...3 1.4 Schlüssel...4 1.5

Mehr

Analysen sind nur so gut wie die Datenbasis

Analysen sind nur so gut wie die Datenbasis Analysen sind nur so gut wie die Datenbasis Datenaufbereitung und Sicherung der Datenqualität durch den kontextbasierten MIOsoft Ansatz. Daten gelten längst als wichtiger Produktionsfaktor in allen Industriebereichen.

Mehr

SQL Tutorial. SQL - Tutorial SS 06. Hubert Baumgartner. INSO - Industrial Software

SQL Tutorial. SQL - Tutorial SS 06. Hubert Baumgartner. INSO - Industrial Software SQL Tutorial SQL - Tutorial SS 06 Hubert Baumgartner INSO - Industrial Software Institut für Rechnergestützte Automation Fakultät für Informatik Technische Universität Wien Inhalt des Tutorials 1 2 3 4

Mehr

Wege aus dem Datenlabyrinth

Wege aus dem Datenlabyrinth Wege aus dem Datenlabyrinth - Datenqualität auf dem Prüfstand - 17. November 2009 CEA v6.4 Studie IT-Trends 2009 in Deutschland: Das BI-Top-Thema ist Datenqualität Business Intelligence: Bedeutung einzelner

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Kapitel DB:III. III. Konzeptueller Datenbankentwurf

Kapitel DB:III. III. Konzeptueller Datenbankentwurf Kapitel DB:III III. Konzeptueller Datenbankentwurf Einführung in das Entity-Relationship-Modell ER-Konzepte und ihre Semantik Charakterisierung von Beziehungstypen Existenzabhängige Entity-Typen Abstraktionskonzepte

Mehr

Objektrelationale und erweiterbare Datenbanksysteme

Objektrelationale und erweiterbare Datenbanksysteme Objektrelationale und erweiterbare Datenbanksysteme Erweiterbarkeit SQL:1999 (Objekt-relationale Modellierung) In der Vorlesung werden nur die Folien 1-12 behandelt. Kapitel 14 1 Konzepte objekt-relationaler

Mehr

Datenintegration. Kapitel 1: Einführung. Andreas Thor Sommersemester 2008. Inhalt

Datenintegration. Kapitel 1: Einführung. Andreas Thor Sommersemester 2008. Inhalt Datenintegration Datenintegration Kapitel 1: Einführung Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Begriffsdefinition Anwendungsgebiete

Mehr

Kapitel 3: Datenbanksysteme

Kapitel 3: Datenbanksysteme LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2015 Kapitel 3: Datenbanksysteme Vorlesung:

Mehr

Fundamentals of Software Engineering 1

Fundamentals of Software Engineering 1 Folie a: Name Fundamentals of Software Engineering 1 Grundlagen der Programmentwurfstechnik 1 Sommersemester 2012 Dr.-Ing. Stefan Werner Fakultät für Ingenieurwissenschaften Folie 1 Inhaltsverzeichnis

Mehr

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen Was bisher geschah abstrakter Datentyp : Signatur Σ und Axiome Φ z.b. ADT Menge zur Verwaltung (Finden, Einfügen, Entfernen) mehrerer Elemente desselben Typs Spezifikation einer Schnittstelle Konkreter

Mehr

Einleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join

Einleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join Parsen der Anfrage (SQL) Transformation in eine Standardform (Relationenalgebra) Logische Optimierung Transformation in alternative Zugriffspläne, Physische Optimierung Ausführung des gewählten Zugriffsplans

Mehr

Übung Datenbanksysteme I Transaktionen, Selektivität und XML. Thorsten Papenbrock

Übung Datenbanksysteme I Transaktionen, Selektivität und XML. Thorsten Papenbrock Übung Datenbanksysteme I Transaktionen, Selektivität und XML Thorsten Papenbrock Übersicht: Übungsthemen 2 Transaktionen Selektivität XML Thorsten Papenbrock Übung Datenbanksysteme I JDBC Transaktionen:

Mehr

Extraktion, Transformation, Laden (ETL)

Extraktion, Transformation, Laden (ETL) Extraktion, Transformation, Laden (ETL) ETL-Prozeß Integrationsschritte Integrationsprobleme fi Konflikte und deren Klassifikation fi Behebung von Konflikten Data Cleaning VL Data Warehouses, WS 2000/2001

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Das SQL-Schlüsselwort ALL entspricht dem Allquantor der Prädikatenlogik

Das SQL-Schlüsselwort ALL entspricht dem Allquantor der Prädikatenlogik Beispielaufgaben Informationssysteme erstellt von Fabian Rump zur IS Vorlesung 2009/10 1 Multiple Choice Aussage richtig falsch Eine SQL-Abfrage beginnt immer mit dem Schlüsselwort SELECT Eine Datenbank

Mehr

Eine völlig andere Form Abfragen zu erstellen ist, sie mit Hilfe der Datenbankabfragesprache SQL zu gestalten.

Eine völlig andere Form Abfragen zu erstellen ist, sie mit Hilfe der Datenbankabfragesprache SQL zu gestalten. Einführung SQL 2010 Niko Becker Mit unseren Übungen zu ACCESS können Sie Aufbau und Struktur einer relationalen Datenbank kennenlernen. Wir zeigen Ihnen wie Sie Tabellen, Formulare und Berichte erstellen

Mehr

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik Bearbeiter: Shuangqing He Betreuer: Toralf Kirsten, Michael Hartung Universität

Mehr

SQL. SQL: Structured Query Language. Früherer Name: SEQUEL. Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99

SQL. SQL: Structured Query Language. Früherer Name: SEQUEL. Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99 SQL Früherer Name: SEQUEL SQL: Structured Query Language Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99 SQL ist eine deklarative Anfragesprache Teile von SQL Vier große Teile:

Mehr

TimeSafe Leistungserfassung

TimeSafe Leistungserfassung Keep your time safe. TimeSafe Leistungserfassung Adressimport 1/8 Inhaltsverzeichnis Inhaltsverzeichnis... 2 1 Allgemeines... 3 1.1 Adressen in der TimeSafe Leistungserfassung... 3 1.2 Organisationen und/oder

Mehr

Integration, Migration und Evolution

Integration, Migration und Evolution 14. Mai 2013 Programm für heute 1 2 Quelle Das Material zu diesem Kapitel stammt aus der Vorlesung Datenintegration & Datenherkunft der Universität Tübingen gehalten von Melanie Herschel im WS 2010/11.

Mehr

Einführung in Datenbanken

Einführung in Datenbanken Grundlagen der Programmierung 2 Einführung in Datenbanken Grundlagen der Programmierung 2 I-1 Inhalt Einführung Entity-Relationship-Diagramm Relationales Modell Entity-Relationship-Diagramm ins Relationales

Mehr

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem. Themenblock: Erstellung eines Cube Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Praktikum: Data Warehousing und Data Mining Idee Speicherung der Daten in Form von Tabellen

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Java Einführung VARIABLEN und DATENTYPEN Kapitel 2

Java Einführung VARIABLEN und DATENTYPEN Kapitel 2 Java Einführung VARIABLEN und DATENTYPEN Kapitel 2 Inhalt dieser Einheit Variablen (Sinn und Aufgabe) Bezeichner Datentypen, Deklaration und Operationen Typenumwandlung (implizit/explizit) 2 Variablen

Mehr

Datenbanken I - Einführung

Datenbanken I - Einführung - Einführung April, 2011 1 von 30 Outline 1 Organisatorisches 2 Vorlesungsinhalt 3 Begrisklärung 4 Motivation 5 Abstraktion 6 Datenmodelle 7 Literaturangabe 2 von 30 Scheinkriterien Belegübung Regelmäÿige

Mehr

Automatisierte Durchführung von Transporten in der Automic (UC4) Automation Engine - ONE Automation

Automatisierte Durchführung von Transporten in der Automic (UC4) Automation Engine - ONE Automation WF2Trans Automatisierte Durchführung von Transporten in der Automic (UC4) Automation Engine - ONE Automation Aus unserer langjährigen Erfahrung in Kundenprojekten wissen wir, dass ein klares und eindeutiges

Mehr

Relationales Datenbanksystem Oracle

Relationales Datenbanksystem Oracle Relationales Datenbanksystem Oracle 1 Relationales Modell Im relationalen Modell wird ein relationales Datenbankschema wie folgt beschrieben: RS = R 1 X 1 SC 1... R n X n SC n SC a a : i=1...n X i B Information

Mehr

Architektur eines Identitätsmanagementsystems an einer Hochschule

Architektur eines Identitätsmanagementsystems an einer Hochschule Diplomarbeit Architektur eines Identitätsmanagementsystems an einer Hochschule steffen.hofmann@fu-berlin.de betreut von Birgit Feldmann an der Fakultät für Mathematik und Informatik, Lehrgebiet Informationssysteme

Mehr

GIS 1 Kapitel 5: Bedeutung von Metadaten und Qualität t von Daten

GIS 1 Kapitel 5: Bedeutung von Metadaten und Qualität t von Daten GIS 1 Kapitel 5: und Qualität t von Daten Stephan Mäs Prof. Dr.-Ing. Wolfgang Reinhardt Arbeitsgemeinschaft GIS Universität der Bundeswehr München Wolfgang.Reinhardt@unibw.de www.agis.unibw.de - Definition

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining 2 Cognos Report Net (CRN) Ermöglicht Erstellen von Ad-hoc-Anfragen (Query Studio) Berichten (Report Studio) Backend Data Cube Relationale Daten Übung: Cognos Report Net

Mehr