Vorlesung Einführung in die Bioinformatik

Größe: px
Ab Seite anzeigen:

Download "Vorlesung Einführung in die Bioinformatik"

Transkript

1 Vorlesung Einführung in die Bioinformatik Dr. Uwe Scholz

2 Wiederholung I Research Group Internal Data Sources >HY01A03T ATGCTCATG rlkfelfdglgal CCATGGCGT söglölgfllhfd ACAATGCAG löshlkhs TTGCAAGTC hsäkhssäää GTACGTACT fdfdfölklfd GCACG Research Group Analysis Tools Internet External Analysis Tools Dr. Uwe Scholz Folie # 2

3 Wiederholung II Biologische Datenquellen: Verschiedene Plattformen Unterschiedliche Strukturen Heterogene Nutzerschnittstellen Lösungsansatz: Datenintegration Integration: Kombination von Inhalten multipler, oftmals heterogener Quellen Ziel: Informationsfusion Informationsfusion: Kombination, Verdichtung und Interpretation von Daten aus heterogenen Quellen, um daraus neue Informationen abzuleiten Dr. Uwe Scholz Folie # 3

4 Wiederholung III Zwei gebräuchliche Ansätze: Virtuelle oder logische Integration Integration zur Laufzeit nicht immer performant Keine lokale Datenspeicherung Daten immer aktuell Materialisierte oder physische Integration Datenspeicherung durch das Integrationssystem sehr performant Aktualität vom Aktualisierungsintervall abhängig Daten nicht immer aktuell Dr. Uwe Scholz Folie # 4

5 Herausfordeung Heterogenität Heterogenität von Informationssystemen Verschiedene Methoden des Datenzugriffs Unterschiedliche Modelle Abweichende Strukturen Arten der Heterogenität * : Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle/Schematische Heterogenität Semantische Heterogenität * verschiedene Unterteilungen in der Literatur Dr. Uwe Scholz Folie # 5

6 Technische Heterogenität Nicht auf Daten bezogen Unterschiede im Zugriff auf Daten Verschiedene Ebenen: Ebene Anfragemöglichkeit Ausprägungen Anfragesprache, parametrisierbare Funktionen, Formulare,... Anfragesprache SQL, XQuery, Volltext,... Austauschformat binär, XML, HTML, tabellarisch (CSV),... Kommunikationsprotokoll HTTP, JDBC, ODBC, SOAP,... [Leser & Naumann: Informationsintegration. dpunkt.verlag, 2006.] Dr. Uwe Scholz Folie # 6

7 Syntaktische Heterogenität Unterschiedliche Darstellung gleicher Sachverhalte Beispiele: Datentypen: integer vs. double Zeichenkodierungen: ASCII vs. Unicode Separatoren: Komma vs. Semikolon vs. Tabulator Dezimaltrennzeichen: Komma vs. Punkt Dr. Uwe Scholz Folie # 7

8 Datenmodellheterogenität I Datenquelle und Integrationssystem verwalten Daten in unterschiedlichen Modellen objektorientiert Dr. Uwe Scholz Folie # 8

9 Datenmodellheterogenität II relational Dr. Uwe Scholz Folie # 9

10 Datenmodellheterogenität III XML <Pflanze> <Name/> <Herkunft/> <Zulassungsjahr/> <Verwendung/> <Pedigree> <Elter_1/> <Elter_2/> </Pedigree> </Pflanze> Dr. Uwe Scholz Folie # 10

11 Strukturelle/Schematische Heterogenität I Abbildung des gleichen Sachverhalts Aber: Die Abbildung erfolgt unterschiedlich Die Entwicklung verschiedener Datenquellen erfolgt autonom unterschiedliche Anforderungen technische Einschränkungen persönliche Präferenzen von Entwicklern Beispiele: 1:1-Beziehung kann als eine oder zwei Relationen modelliert werden Modellierung als Attribut oder Relation Objektrelationales Mapping Dr. Uwe Scholz Folie # 11

12 Strukturelle/Schematische Heterogenität II Dr. Uwe Scholz Folie # 12

13 Semantische Heterogenität I Definition: Semantik bedeutet die Interpretation von Daten in einem bestimmten Kontext Beispiel: unterschiedliche Intension eines Attributnamens Name Vorname? Nachname? Kontext ist erforderlich Synonyme: gleiche Intension, aber unterschiedliche Bezeichnung Homonyme: unterschiedliche Intension, aber gleiche Bezeichnung Semantische Konflikte sind schwierig zu entdecken Dr. Uwe Scholz Folie # 13

14 Semantische Heterogenität II Weitere Beispiele: Unterschiedliche Einheiten: Pflanzenlänge in cm oder m? Verschiedene Kodierungen: 1 klein a klein 2 mittel vs. b mittel 3 groß c groß Unterschiedliche Bedeutung: Boniturskala A: 1 5 Boniturskala B: 0 9 Lösungsansatz: Ontologien Dr. Uwe Scholz Folie # 14

15 Ontologie I Von griech. on: Seiendes; logos: Wort Metaphysica generalis (Aristoteles): Lehre vom Seienden Traditionelle Ontologie: Verhältnis des Seins zum Seienden Ontologie in der Informatik: Definition von Klassen (Konzepte, Objekte) und ihren Beziehungen (Attribute, Rollen) Ist formal definiert Enthält wohldefiniertes Vokabular einer Domäne/eines Bereiches Ziel: Kommunikation zwischen Menschen verbessern Interoperabilität zwischen Systemen verbessern Dr. Uwe Scholz Folie # 15

16 Ontologie II Einsatz in der Biologie Bioontologien Formale Repräsentationen verschiedener biologischer Wissensbereiche, z.b.: Gene Ontology Plant Ontology Trait Ontology Objekte stehen zueinander in Beziehung!!! Abgrenzung zur Taxonomie: hierarchische Gliederung Dr. Uwe Scholz Folie # 16

17 Gene Ontology I Besteht aus drei kontrollierten Vokabularien: Molekulare Funktionen (z.b. oxidoreductase activity) Biologische Prozesse (z.b. oxidative phosphorylation) Zelluläre Komponenten (z.b. mitochondrial matrix) Beispiel: Ein Genprodukt ist in einer zellulären Komponente lokalisiert, ist dort an einem biologischen Prozess beteiligt und führt dabei eine molekulare Funktion aus. Beziehungen in der Gene Ontology: is_a, z.b. nuclear chromosome is_a chromosome part_of, z.b. nucleus part_of cell Dr. Uwe Scholz Folie # 17

18 Gene Ontology II Dr. Uwe Scholz Folie # 18

19 Gene Ontology III Dr. Uwe Scholz Folie # 19

20 Plant Ontology I Bestandteile: Pflanzenstruktur Botanische Terme, die Morphologie und anatomische Strukturen beschreiben Organe, Gewebe, Zelltypen und ihre Beziehungen Wachstums- und Entwicklungsstadien Terme für Wachstums- und Entwicklungsstadien und ihre Beziehungen Embryo, Samenentwicklung, Blüte etc. Dr. Uwe Scholz Folie # 20

21 Plant Ontology II Dr. Uwe Scholz Folie # 21

22 Plant Ontology III Dr. Uwe Scholz Folie # 22

23 Plant Ontology VI Dr. Uwe Scholz Folie # 23

24 Trait Ontology I Beschreibung von Merkmalen als unterscheidbare Eigenschaften von Organismen Beispiele: Pflanzenhöhe Krankheitsresistenz Dr. Uwe Scholz Folie # 24

25 Trait Ontology II Dr. Uwe Scholz Folie # 25

26 Trait Ontology III Dr. Uwe Scholz Folie # 26

27 Environment Ontology I Beschreibungen der Umwelt der untersuchten Pflanzen Beispiele: Wassertemperatur im Gewächshaus Beleuchtungsdauer Dr. Uwe Scholz Folie # 27

28 Environment Ontology II Dr. Uwe Scholz Folie # 28

29 Environment Ontology III Dr. Uwe Scholz Folie # 29

30 Was ist (Daten-)Qualität? Qualität ist die Übereinstimmung zwischen den festgestellten Eigenschaften und den vorher festgelegten Forderungen einer Betrachtungseinheit. [IEC 2371] Datenqualität ist ein mehrdimensionales Maß für die Eignung von Daten, den an ihre Erfassung/Generierung gebundenen Zweck zu erfüllen. [Würthele, 2003] Gute Datenqualität liegt dann vor, wenn die Daten den vom Nutzer verlangten Zweck erfüllen. [Wang & Madnick, 1990] Dr. Uwe Scholz Folie # 30

31 Probleme mit Daten I Annahme: bisherige Probleme gelöst Daten im gemeinsamen Schema Neue Probleme: Datenfehler: Unterschiedliche Formate, z.b. Datum Schreibfehler Inkonsistenzen, z.b. Postleitzahl und Ort Duplikate: z.b. zwei Gerstensorten sind in mehreren Quellen enthalten Datenqualität: Glaubwürdigkeit und Relevanz der Quellen Vollständigkeit: Sind alle relevanten Realweltobjekte integriert? Sind für alle Attribute Ausprägungen vorhanden? Diese Probleme müssen erkannt und gelöst werden Dr. Uwe Scholz Folie # 31

32 Probleme mit Daten II Heterogenität [Quelle: und Felix Datenqualität Naumann, Kai-Uwe Sattler] Dr. Uwe Scholz Folie # 32

33 Bereinigung von Daten I Arten von Datenfehlern: [Naumann: Datenqualität. Informatik-Spektrum, 2007.] Dr. Uwe Scholz Folie # 33

34 Bereinigung von Daten II Einzelne Datenquelle Schemaebene: Unzulässige Werte Verletzung von Attributabhängigkeiten Verletzung von Constraints Datenebene: Fehlende Werte Falsche/veraltete Werte Schreibfehler Integrierte Datenquelle Schemaebene: Strukturelle oder semantische Konflikte Datenebene: Daten aus mehreren Quellen widersprechen sich Unterschiedliche Genauigkeit oder Einheiten Dr. Uwe Scholz Folie # 34

35 Bereinigung von Daten III Entstehung von Fehlern: Eingabe von Daten Alterungsprozess von Daten Transformation von Daten Integration von Daten Fehlermanagement: Profiling Erkundung eines Datenbestandes Z.B. Statistik (min, max, Verteilungen) Assessment Definition von Bedingungen, die erfüllt sein müssen Messung des Erfüllungsgrades Z.B. Pflanzenhöhe < 2m Monitoring Basiert auf Ergebnissen des Assessments Einleiten und Überwachen von Gegenmaßnahmen Dr. Uwe Scholz Folie # 35

36 Bereinigung von Daten IV Beseitigung einfacher Fehler Normalisierung Umwandlung von Texten in Großbuchstaben bessere Vergleichbarkeit Rechtschreibprüfung Standardformate für Datum, Telefonnummer, Personennamen etc. Konvertierung Z.B. Umrechnung von Einheiten Fehlwerte Löschen von Zeilen/Spalten Ersetzen (avg, min, max, Median, Modalwert) Ausreißer Winsorizing Trimming Dr. Uwe Scholz Folie # 36

37 Erkennen von Duplikaten I Duplikat: mehrfache Abbildung desselben Realweltobjektes Vorgehen: Paarweiser Vergleich aller Tupel Berechnung der Ähnlichkeit sim der Tupel Duplikat, wenn die Ähnlichkeit über einem bestimmten Schwellwert liegt, z.b sim 90% Ziele: Möglichst alle Duplikate erkennen Performance Dr. Uwe Scholz Folie # 37

38 Erkennen von Duplikaten II Für numerische Daten Abweichung Z.B. 1 und 0,95 Für alphanumerische Daten: Äquivalenzmethoden Vergleichen zwei Strings Geben TRUE oder FALSE zurück Similarity-Ranking-Methoden Vergleichen ebenfalls zwei Strings Geben zurück, wie groß die Ähnlichkeit ist Dr. Uwe Scholz Folie # 38

39 Äquivalenzmethoden I Lautähnlichkeit Vergleich darüber, wie zwei Strings ausgesprochen klingen Funktioniert ähnlich wie ein Hash-Verfahren Abhängigkeit von der jeweiligen Sprache Z.B. Soundex-Algorithmus englisch Wortstamm Vergleich auf Basis von Wortstämmen Suffixwörterbuch erforderlich Sprachabhängig Groß-/Kleinschreibung Sind zwei Zeichenketten identisch, wenn die Groß- /Kleinschreibung ignoriert wird? Z.B. Gerste und GERSTE Dr. Uwe Scholz Folie # 39

40 Äquivalenzmethoden II Synonyme Haben zwei Strings dieselbe Bedeutung? Benötigt kontrolliertes Vokabular Z.B. Gerste und Hordeum Wildcards Verwendung von Platzhaltern Überprüfung, ob zwei Strings in Teilen übereinstimmen Ein Zeichen, z. B. _ oder?; beliebig viele Zeichen, z. B. % oder * Z.B. Golden% findet Golden Green und Golden Promise Dr. Uwe Scholz Folie # 40

41 Similarity-Ranking-Methoden I Hamming-Ähnlichkeit Hamming-Abstand: Positionsweiser Vergleich zweier Strings gleicher Länge (Hordeum und Horedum) Zählen der Unterschiede (2) Umrechnung in Ähnlichkeitsmaß: hamm( S1, S2) sim hamm ( S1, S2) 1 n Edit-basiert Editierabstand: Anzahl von Operationen, um String 1 in String 2 zu überführen Einfügen, Löschen, Ersetzen (Levenshtein-Distanz) Zusätzlich: Vertauschen (Damerau-Distanz) Levenshtein-Distanz von Hordeum und Horedum ist 2 Umrechnung in Ähnlichkeitsmaß: sim ed ( S1, S 2 ) 1 ed( S1, S2) max{ S, S 1 2 } Dr. Uwe Scholz Folie # 41

42 Similarity-Ranking-Methoden II LCS-basiert Longest Common Substring: Vergleich der Teilstrings zweier Zeichenketten Je länger ein gemeinsamer Substring ist, desto größer ist die Ähnlichkeit Umrechnung in Ähnlichkeitsmaß: sim lcs ( S 1, S 2 lcs( S1, S2) ) max{ S, S } 1 2 Diese Algorithmen reagieren empfindlich Unterschiedliche Längen der Zeichenketten Vertauschungen Dr. Uwe Scholz Folie # 42

43 Similarity-Ranking-Methoden III Alternative: Token-basiert Zerlegung der Strings in Token (Vorkommen eines Zeichens) Vergleich über gemeinsame Token Reihenfolge spielt keine Rolle Dice-Ähnlichkeitskoeffizient S 1 S 2 Schnittmenge S 1 + S 2 Anzahl der verglichenen Elemente D(Hordeum,Horedum) = 2*7/(7+7) = 1 D 2 S S 1 1 S S 2 2 Jaccard-Ähnlichkeitskoeffizient S 1 S 2 Vereinigung J(Hordeum,Horedum) = 7/(7+7-7) = 1 J S S 1 1 S S 2 2 Dr. Uwe Scholz Folie # 43

44 Datenfusion I Datenfusion: Kombination der erkannten Duplikate Ein Realweltobjekt soll nur noch einmal repräsentiert werden Tupel werden durch Kombination mehrerer Quellen angereichert Auftreten von Konflikten ID Name Anbaujahr Herkunftsland Tupel #1 LAC 0815 Avondefiance 1980 NL Tupel #2 LAC 0815 Avondefiance 1980 NL Tupel #3 LAC 0815 Avondefiance Tupel #4 LAC NL Tupel #5 LAC 0815 Avondefiance 1984 GB Dr. Uwe Scholz Folie # 44

45 Datenfusion II Gleichheit Alle Attributausprägungen sind gleich (Tupel #1,#2) Tupel #1 LAC 0815 Avondefiance 1980 NL Tupel #2 LAC 0815 Avondefiance 1980 NL Subsumption (Zusammenfassung) Ein Tupel hat weniger Nullwerte Alle Nicht-Null-Attribute sind identisch (Tupel #1,#2 #3,#4) Tupel #1 LAC 0815 Avondefiance 1980 NL Tupel #2 LAC 0815 Avondefiance 1980 NL Tupel #3 LAC 0815 Avondefiance Tupel #4 LAC NL Dr. Uwe Scholz Folie # 45

46 Datenfusion III Komplementierung (Ergänzung) Tupel subsumieren sich nicht Attribut A mit einem Nicht-Null-Wert hat dieselbe Ausprägung wie Attribut B oder Attribut B hat einen Nullwert (Tupel #3,#4) Konflikt Tupel #3 LAC 0815 Avondefiance Tupel #4 LAC NL Alle anderen Situationen mit Widersprüchen (Tupel #5 mit allen) Tupel #1 LAC 0815 Avondefiance 1980 NL Tupel #2 LAC 0815 Avondefiance 1980 NL Tupel #3 LAC 0815 Avondefiance Tupel #4 LAC NL Tupel #5 LAC 0815 Avondefiance 1984 GB Dr. Uwe Scholz Folie # 46

47 Datenfusion IV Lösungsmöglichkeiten: Union Kombination zweier Relationen mit gleichem Schema Duplikate werden entfernt Join Kombination zweier Relationen mit unterschiedlichem Schema Konfliktlösung: z.b. COALESCE (erster Nicht-Null-Wert) Gruppierung und Aggregation Gruppierung über z.b. eine ID Spezielle Aggregatfunktion für jedes Attribut Dr. Uwe Scholz Folie # 47

48 Datenqualität Datenqualität: Eignung von Daten für einen bestimmten Zweck Messung anhand von Qualitätskriterien Konsistenz: Widerspruchsfreiheit von Daten untereinander Korrektheit: richtige Abbildung eines Sachverhalts Vollständigkeit: hinreichende Füllung von Attributen Genauigkeit: Detaillierung, Nachkommastellen, Homonyme Zuverlässigkeit: Nachvollziehbarkeit, Vertrauenswürdigkeit Verständlichkeit: Beschreibungen für kodierte Werte Verwendbarkeit: Strukturen, die den Import ermöglichen Bewertung durch Nutzer (Verständlichkeit, Verwendbarkeit) Datenquelle (Vollständigkeit, Zuverlässigkeit) Bearbeitung der Anfrage (Konsistenz, Korrektheit, Genauigkeit) Dr. Uwe Scholz Folie # 48

49 Qualitätsprobleme in der Bioinformatik I Ursachen Informationstechnische Ursachen: Heterogene Software Weiterverbreitung von Daten Ursachen während der Datengewinnung: Unzureichende Dokumentation von Primär- und Sekundärdaten Methodenbedingte Fehler Ableitung von Daten Zeitlich begrenzte Projekte und dezentrale Speicherung Biologisch bedingte Ursachen: Entwicklungsstadien Funktionsorte Umweltfaktoren Konzeptionelle Ursachen: Bewertungssysteme Informationssysteme Vorhersagemethoden Nichteinheitliche Vokabulare / Methoden Dr. Uwe Scholz Folie # 49

50 Qualitätsprobleme in der Bioinformatik II Lösungsvorschläge Automatische Erfassung von Daten Performanter Fehlerpotenzial durch manuelle Erfassung verringern Protokollierung Nachvollziehbarkeit durch strukturierte Dokumentation gewährleisten Messverfahren Probleme mit (verschiedenen) Boniturskalen vermeiden Mittelwertvermeidung Einzelne Messwerte für Sorten, Orte, Jahre etc. speichern Vermeidung von Analyseproblemen Datenbanknutzung Zentral Persistent Dr. Uwe Scholz Folie # 50

51 Qualitätsprobleme in der Bioinformatik III Lösungsvorschläge (Fortsetzung) Vermeidung von Ad-hoc-Statistik Gefahr fehlerhafter Anwendung und Fehlerfortpflanzung durch abgeleitete Daten Kennzeichnung abgeleiteter Daten Abgeleitete und/oder vorhergesagte Daten mit Labeln versehen (Quality- Tagging) Kennzeichnung von Daten aus anderen Quellen Parallele Versionierung Vorteile bei abweichenden fachlichen Meinungen und Publikationen Umfassende Verwendung von Metadaten Erlaubte Merkmalsbezeichnungen (kontrolliertes Vokabular) Mapping von Merkmalen verschiedener Quellen (Synonyme, Homonyme) Erlaubte Wertebereiche / Ausprägungen Methoden der Merkmalserfassung Verwendete Einheiten Externe Einflüsse Dr. Uwe Scholz Folie # 51

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009 Datenqualität: allgemeiner Überblick Waldemar Braun Seminar Datenqualität OvGU Magdeburg Gliederung 1. Einleitung 2. Motivation 3. Definition 4. DQ-Probleme 5. DQ-Dimensionen 6. DQ-Modelle 7. Messen der

Mehr

Informationsintegration

Informationsintegration Informationsintegration Grundlegende Architekturen Ulf Leser Inhalt diese Vorlesung Klassifikation verteilter, autonomer, heterogener Systeme Weitere Klassifikationskriterien Schichtenaufbau integrierter

Mehr

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Dr. Anika Groß Sommersemester 2014

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Dr. Anika Groß Sommersemester 2014 Datenintegration Datenintegration Kapitel 2: Verteilung, Autonomie und Heterogenität Dr. Anika Groß Sommersemester 2014 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Verteilung

Mehr

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Andreas Thor Sommersemester 2008. Inhalt

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Andreas Thor Sommersemester 2008. Inhalt Datenintegration Datenintegration Kapitel 2: Verteilung, Autonomie und Heterogenität Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Verteilung

Mehr

Präsentation zum Thema XML Datenaustausch und Integration

Präsentation zum Thema XML Datenaustausch und Integration Sebastian Land Präsentation zum Thema XML Datenaustausch und Integration oder Warum eigentlich XML? Gliederung der Präsentation 1. Erläuterung des Themas 2. Anwendungsbeispiel 3. Situation 1: Homogene

Mehr

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad Datenqualität mit dem DataFlux dfpower Studio 8.1 Tobias Jansen Zaferna-Hütte, 4. Januar 2009 Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter Nasa Marssonde Mars Climate Orbiter

Mehr

Frühjahrsemester 2013. CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt. Datenqualität

Frühjahrsemester 2013. CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt. Datenqualität Frühjahrsemester 2013 CS243 Datenbanken Kapitel 4: Datenqualität* H. Schuldt * Folien basieren zum Teil auf Unterlagen von Dr. Diego Milano Datenqualität Datenqualität (DQ) beschreibt allgemein die (anwendungsspezifische)

Mehr

Datenintegration. Kapitel 1: Einführung. Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11

Datenintegration. Kapitel 1: Einführung. Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11 Datenintegration Datenintegration Kapitel 1: Einführung Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1

Mehr

Datenwertintegration / Informationsqualität

Datenwertintegration / Informationsqualität / Fabian Panse 09.09.2014 Fabian Panse II Datenintegration 09.09.2014 1 / 18 Datenreinigung Datenintegration [NL06] Wenn Daten in gemeinsamem Schema vorliegen: weitere Probleme Datenfehler: Formatfehler

Mehr

Vorlesung Datenbankmanagementsysteme. Vorlesung Datenbankmanagementsysteme Überblick M. Lange, S. Weise Folie #0-1

Vorlesung Datenbankmanagementsysteme. Vorlesung Datenbankmanagementsysteme Überblick M. Lange, S. Weise Folie #0-1 Vorlesung Datenbankmanagementsysteme Vorlesung Datenbankmanagementsysteme Überblick M. Lange, S. Weise Folie #0-1 Vorlesung Datenbankmanagementsysteme Überblick M. Lange, S. Weise Folie #0-2 Bioinformatik:

Mehr

Kapitel 3: Datenbanksysteme

Kapitel 3: Datenbanksysteme LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2015 Kapitel 3: Datenbanksysteme Vorlesung:

Mehr

Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse

Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse Expressionsdatenanalyse U. Scholz & M. Lange Folie #6-1 Grundidee U. Scholz & M. Lange Folie #6-2 Ergebnis der Experimente I U. Scholz & M. Lange Folie #6-3 Genexpression U. Scholz & M. Lange Folie #6-4

Mehr

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2005 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

Informationsintegration

Informationsintegration Informationsintegration Verteilung, Autonomie, Heterogenität, Transparenz Ulf Leser Inhalt dieser Vorlesung Verteilung Autonomie Heterogenität Transparenz Ulf Leser: Informationsintegration 2 Klassifikationsdimensionen

Mehr

Wege aus dem Datenlabyrinth

Wege aus dem Datenlabyrinth Wege aus dem Datenlabyrinth - Datenqualität auf dem Prüfstand - 17. November 2009 CEA v6.4 Studie IT-Trends 2009 in Deutschland: Das BI-Top-Thema ist Datenqualität Business Intelligence: Bedeutung einzelner

Mehr

Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013

Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013 Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013 Endler Gregor, Warum Datenqualität? 2002, USA: 600.000.000 $ Y2k weltweit: 1.500.000.000 $ Kosten 44.000 98.000 Todesfälle

Mehr

Servicebasierte Datenintegration

Servicebasierte Datenintegration Präsentation zur Seminararbeit Christoph Aßmann Aßmann, Christoph Leipzig, 26.01.2010 Folie 1 Inhalt Begriffe Motivation Abgrenzung Grid Cloud OGSA: Architektur servicebasierter Grids Standardisierung

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Fundamentals of Software Engineering 1

Fundamentals of Software Engineering 1 Folie a: Name Fundamentals of Software Engineering 1 Grundlagen der Programmentwurfstechnik 1 Sommersemester 2012 Dr.-Ing. Stefan Werner Fakultät für Ingenieurwissenschaften Folie 1 Inhaltsverzeichnis

Mehr

Quality Point München Datenqualität

Quality Point München Datenqualität Quality Point München Datenqualität Paul, wie ist denn Eure Datenqualität? Nachdem ich bei der letzten Gehaltszahlung mit Frau... angeredet wurde, bin ich mir nicht mehr so sicher. Autor: W. Ulbrich IT&More

Mehr

Einführung in SQL Datenbanken bearbeiten

Einführung in SQL Datenbanken bearbeiten Einführung in SQL Datenbanken bearbeiten Jürgen Thomas Entstanden als Wiki-Buch Bibliografische Information Diese Publikation ist bei der Deutschen Nationalbibliothek registriert. Detaillierte Angaben

Mehr

Informationsintegration

Informationsintegration Informationsintegration Einführung Ulf Leser Wissensmanagement in der Bioinformatik Informationsintegration Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form

Mehr

VL Informationsintegration Verteilung, Autonomie und Heterogenität. 25.10.2004 Felix Naumann. Aufbau eines Data Warehouse

VL Informationsintegration Verteilung, Autonomie und Heterogenität. 25.10.2004 Felix Naumann. Aufbau eines Data Warehouse VL Informationsintegration Verteilung, Autonomie und Heterogenität 25.10.2004 Felix Naumann Wiederholung: Data Warehouse Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses 25.10.2004 Felix

Mehr

erfolgreich steuern Datenqualität rä dpunkt.verlag Ldwi Praxislösungen für Business-Intelligence-Projekte Rüdiger Eberlein Edition TDWI

erfolgreich steuern Datenqualität rä dpunkt.verlag Ldwi Praxislösungen für Business-Intelligence-Projekte Rüdiger Eberlein Edition TDWI Detlef Apel Wolfgang Behme Rüdiger Eberlein Christian Merighi Datenqualität erfolgreich steuern Praxislösungen für Business-Intelligence-Projekte 3., überarbeitete und erweiterte Auflage Edition TDWI rä

Mehr

Techniken des Data Merging in Integrationssystemen

Techniken des Data Merging in Integrationssystemen Techniken des Data Merging in Integrationssystemen Jens Bleiholder Humboldt-Universität zu Berlin, Institut für Informatik bleiho@informatik.hu-berlin.de Zusammenfassung Die Integration von Daten aus heterogenen

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Datenqualität erfolgreich steuern

Datenqualität erfolgreich steuern Edition TDWI Datenqualität erfolgreich steuern Praxislösungen für Business-Intelligence-Projekte von Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi 3., überarbeitete und erweiterte Auflage

Mehr

SQL SQL. SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R. Grundlagen der Datenbanksysteme I

SQL SQL. SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R. Grundlagen der Datenbanksysteme I SQL SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R VII-1 Beispielrelationen Filiale ( Name Leiter Stadt Einlagen ) Konto ( KontoNr KundenNr FilialName Saldo ) Kredit

Mehr

FUSIONPLEX. Datenfusion mit. 1 Datenfusion 2 Multiplex 3 Fusionplex 4 Autoplex 5 Konkurrenzansatz

FUSIONPLEX. Datenfusion mit. 1 Datenfusion 2 Multiplex 3 Fusionplex 4 Autoplex 5 Konkurrenzansatz Datenfusion mit FUSIONPLEX Seminar Datenfusion in drei Schritten im Wintersemester 2006/2007 Kathleen Haucke Inhalt 1 Datenfusion 2 Multiplex 3 Fusionplex 4 Autoplex 5 Konkurrenzansatz 2 1 1 Datenfusion

Mehr

Semantische Infomationsintegration à la carte?

Semantische Infomationsintegration à la carte? Semantische Infomationsintegration à la carte? Ziele und Herausforderungen der Anwendung des CIDOC CRM. Historisch-Kulturwiss. Informationsverarbeitung, Universität Köln 1. Oktober 2010 1 Ein User Scenario

Mehr

Relationale Datenbanken Kursziele

Relationale Datenbanken Kursziele Relationale Datenbanken Kursziele DB Grundlagen Daten-Modellierung Relationales Modell und DB => Praxis: Mit SQL als Anfragesprache Mit MySQL als DB RDB 1-1 Kursinhalt (Tage) 1. DB Einleitung / Entity-Relationship

Mehr

Software-Engineering und Datenbanken

Software-Engineering und Datenbanken Software-Engineering und Datenbanken Prof. Dr. Bernhard Schiefer bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Prof. Dr. Bernhard Schiefer 1-1 Wesentliche Inhalte Begriff DBS Datenbankmodelle

Mehr

Datenbanktechnologie für Data-Warehouse-Systeme

Datenbanktechnologie für Data-Warehouse-Systeme Wolfgang Lehner Datenbanktechnologie für Data-Warehouse-Systeme Konzepte und Methoden dpunkt.verlag 1 1.1 1.2 1.3 1.4 1. 5 2 2.1 2.2 2.3 Einleitung 1 Betriebswirtschaftlicher Ursprung des Data Warehousing...

Mehr

Analysen sind nur so gut wie die Datenbasis

Analysen sind nur so gut wie die Datenbasis Analysen sind nur so gut wie die Datenbasis Datenaufbereitung und Sicherung der Datenqualität durch den kontextbasierten MIOsoft Ansatz. Daten gelten längst als wichtiger Produktionsfaktor in allen Industriebereichen.

Mehr

SQL Tutorial. SQL - Tutorial SS 06. Hubert Baumgartner. INSO - Industrial Software

SQL Tutorial. SQL - Tutorial SS 06. Hubert Baumgartner. INSO - Industrial Software SQL Tutorial SQL - Tutorial SS 06 Hubert Baumgartner INSO - Industrial Software Institut für Rechnergestützte Automation Fakultät für Informatik Technische Universität Wien Inhalt des Tutorials 1 2 3 4

Mehr

Einführung in SQL. Sprachumfang: Indizes. Datensätzen. Zugriffsrechten

Einführung in SQL. Sprachumfang: Indizes. Datensätzen. Zugriffsrechten Einführung in SQL Die Sprache SQL (Structured Query Language) ist eine Programmiersprache für relationale Datenbanksysteme, die auf dem ANSI-SQL-Standard beruht. SQL wird heute von fast jedem Datenbanksystem

Mehr

Kurze Einführung in IBM SPSS für Windows

Kurze Einführung in IBM SPSS für Windows Kurze Einführung in IBM SPSS für Windows SPSS Inc. Chicago (1968) SPSS GmbH Software München (1986) 1984: Datenanalyse Software für den PC 1992: Datenanalyse Software unter Windows 1993: Datenanalyse Software

Mehr

Projekt zur Entwicklung, Umsetzung und Evaluation von Leitlinien zum adaptiven Management von Datenqualität in Kohortenstudien und Registern

Projekt zur Entwicklung, Umsetzung und Evaluation von Leitlinien zum adaptiven Management von Datenqualität in Kohortenstudien und Registern Projekt zur Entwicklung, Umsetzung und Evaluation von Leitlinien zum adaptiven Management von Datenqualität in Kohortenstudien und Registern gefördert durch die Indikatoren von Datenqualität Michael Nonnemacher

Mehr

Informationsintegration

Informationsintegration Informationsintegration Anwendungsszenarien Ulf Leser Inhalt dieser Vorlesung Zwei Anwendungsszenarien Data Warehouse Föderierte Datenbanken Abgrenzung Daten versus Schema Ulf Leser: Informationsintegration

Mehr

Erfahrungsberichte XÖS-Person

Erfahrungsberichte XÖS-Person Nutzung der XÖV-Kernkomponenten, Vorbereitung auf die XÖV-Konformität Rico.Apitz@init.de 3. XÖV-Anwenderkonferenz Berlin, 30. September 2010 1. Aufgabenstellung für XÖS-Person 2. Vorgehen 3. Transformation

Mehr

Repräsentation von Daten Binärcodierung von rationalen Zahlen und Zeichen

Repräsentation von Daten Binärcodierung von rationalen Zahlen und Zeichen Kapitel 4: Repräsentation von Daten Binärcodierung von rationalen Zahlen und Zeichen Einführung in die Informatik Wintersemester 2007/08 Prof. Bernhard Jung Übersicht Codierung von rationalen Zahlen Konvertierung

Mehr

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Exposé zur Diplomarbeit Humboldt-Universität zu Berlin Mathematisch-Naturwissenschaftliche Fakultät II Institut

Mehr

Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten

Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten Michael Hahne T&I GmbH Workshop MSS-2000 Bochum, 24. März 2000 Folie 1 Worum es geht...

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

A Framework for Planing and Controlling Data Quality in Data-Warehouse-Systems

A Framework for Planing and Controlling Data Quality in Data-Warehouse-Systems A Framework for Planing and Controlling Data Quality in Data-Warehouse-Systems markus.helfert@unisg.ch Slide 2 Überblick Data-Warehouse-Systeme und Datenqualität Datenqualitätsmanagement Datenqualität

Mehr

Programmiervorkurs. Organisation: Steffen Gebert, Alexander Wolff. Tutoren: Jürgen Zöller, Jonathan Stoll. Wintersemester 2012/2013

Programmiervorkurs. Organisation: Steffen Gebert, Alexander Wolff. Tutoren: Jürgen Zöller, Jonathan Stoll. Wintersemester 2012/2013 Programmiervorkurs Wintersemester 2012/2013 Organisation: Steffen Gebert, Alexander Wolff Tutoren: Jürgen Zöller, Jonathan Stoll Kontakt (für Organisatorisches, Fehler auf Folien...): Steffen Gebert steffen.gebert@informatik.uni-wuerzburg.de

Mehr

Kapitel II. Datenbereitstellung 2004 AIFB / FZI 1. Vorlesung Knowledge Discovery

Kapitel II. Datenbereitstellung 2004 AIFB / FZI 1. Vorlesung Knowledge Discovery Kapitel II Datenbereitstellung 2004 AIFB / FZI 1 II. Datenbereitstellung 2004 AIFB / FZI 2 II. Datenbereitstellung Collect Initial Data identify relevant attributes identify inconsistencies between sources

Mehr

Die Oracle BI Trilogie von Trivadis

Die Oracle BI Trilogie von Trivadis Die Oracle BI Trilogie von Trivadis Teil 2 - Aufbau einer DWH- und BI-Landschaft Zürich, 25. November 2009 Basel Baden Bern Lausanne Zürich Düsseldorf Frankfurt/M. Freiburg i. Br. Hamburg München Stuttgart

Mehr

SQL. Abfragesprache Datenmanipulation - DML

SQL. Abfragesprache Datenmanipulation - DML SQL Abfragesprache Datenmanipulation - DML SQL DML-Operationen DML = Data Manipulation Language Sprache zur Veränderung der Daten Operationen Daten selektieren Daten einfügen Daten ändern Daten löschen

Mehr

Software-Engineering Einführung

Software-Engineering Einführung Software-Engineering Einführung 7. Übung (04.12.2014) Dr. Gergely Varró, gergely.varro@es.tu-darmstadt.de Erhan Leblebici, erhan.leblebici@es.tu-darmstadt.de Tel.+49 6151 16 4388 ES Real-Time Systems Lab

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Relationale Datenbanken in der Praxis

Relationale Datenbanken in der Praxis Seite 1 Relationale Datenbanken in der Praxis Inhaltsverzeichnis 1 Datenbank-Design...2 1.1 Entwurf...2 1.2 Beschreibung der Realität...2 1.3 Enitiy-Relationship-Modell (ERM)...3 1.4 Schlüssel...4 1.5

Mehr

Data Warehouse. für den Microsoft SQL SERVER 2000/2005

Data Warehouse. für den Microsoft SQL SERVER 2000/2005 Warehouse für den Microsoft SQL SERVER 2000/2005 Begriffe 1 DWH ( Warehouse) ist eine fachübergreifende Zusammenfassung von Datentabellen. Mart ist die Gesamtheit aller Datentabellen für einen fachlich

Mehr

Erläuterung zu den möglichen Einträgen in die Formseiten der Word-Datei zur Metadatenerfassung:

Erläuterung zu den möglichen Einträgen in die Formseiten der Word-Datei zur Metadatenerfassung: Anlage 1A Erläuterung zu den möglichen Einträgen in die Formseiten der Word-Datei zur Metadatenerfassung: Fußzeile: Dateiname der vorliegenden Beschreibung, Seitenzahl, Datum der letzten Speicherung Kopfdaten

Mehr

QUICK-START EVALUIERUNG

QUICK-START EVALUIERUNG Pentaho 30 für 30 Webinar QUICK-START EVALUIERUNG Ressourcen & Tipps Leo Cardinaals Sales Engineer 1 Mit Pentaho Business Analytics haben Sie eine moderne und umfassende Plattform für Datenintegration

Mehr

Data Warehouse Grundlagen

Data Warehouse Grundlagen Seminarunterlage Version: 2.10 Version 2.10 vom 24. Juli 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

TransConnect - Anwendertag

TransConnect - Anwendertag TransConnect - Anwendertag Master Data Management mit TransConnect - neu oder nicht? Jürgen Bittner Realität eines Unternehmens Zahlreiche Softwaresysteme bzw. Datenbestände, die Daten der gleichen Objekte

Mehr

Kapitel DB:III. III. Konzeptueller Datenbankentwurf

Kapitel DB:III. III. Konzeptueller Datenbankentwurf Kapitel DB:III III. Konzeptueller Datenbankentwurf Einführung in das Entity-Relationship-Modell ER-Konzepte und ihre Semantik Charakterisierung von Beziehungstypen Existenzabhängige Entity-Typen Abstraktionskonzepte

Mehr

Vorstellung Schnittstellenanalyse und -spezifikation

Vorstellung Schnittstellenanalyse und -spezifikation Vorstellung Schnittstellenanalyse und -spezifikation Schnittstellenanalyse und -spezifikation zum Projektmanagement zur Überwachung von taktischer Projektplanung und durchführung Oliver Paech 11.06.2008

Mehr

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-

Mehr

Carl-Engler-Schule Karlsruhe Datenbank 1 (5)

Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Informationen zur Datenbank 1. Definition 1.1 Datenbank-Basis Eine Datenbank-Basis ist eine Sammlung von Informationen über Objekte (z.b Musikstücke, Einwohner,

Mehr

Unterabfragen (Subqueries)

Unterabfragen (Subqueries) Unterabfragen (Subqueries) Die kürzeste Formulierung ist folgende: SELECT Felderliste FROM Tabelle1 WHERE Tabelle1.Feldname Operator (SELECT Feldname FROM Tabelle2 WHERE Bedingung); wobei Tabelle1 und

Mehr

1. Grundlagen der Informatik Zahlensysteme und interne Informationsdarstellung

1. Grundlagen der Informatik Zahlensysteme und interne Informationsdarstellung 1. Grundlagen der Informatik Zahlensysteme und interne Informationsdarstellung Inhalt Grundlagen digitaler Systeme Boolesche Algebra / Aussagenlogik Organisation und Architektur von Rechnern Algorithmen,

Mehr

Aus Daten werden Informationen

Aus Daten werden Informationen Swiss PLM-Forum 2011 Differenzierung durch Standards Aus Daten werden Informationen Jochen Sauter BCT Technology AG Agenda Vorstellung BCT Technology AG Product Lifecycle Management Definition / Daten

Mehr

Datenqualität. Werner Nutt. In Zusammenarbeit mit Simon Razniewski. Freie Universität Bozen

Datenqualität. Werner Nutt. In Zusammenarbeit mit Simon Razniewski. Freie Universität Bozen Datenqualität Werner Nutt In Zusammenarbeit mit Simon Razniewski Freie Universität Bozen Vorstellung Werner Nutt Professor für Informatik and der Freien Univ. Bozen Schwerpunkte in Lehre und Forschung:

Mehr

Berichte aus der Medizinischen Informatik und Bioinformatik. Günther Schadow. Krankenhauskommunikation mit HL7

Berichte aus der Medizinischen Informatik und Bioinformatik. Günther Schadow. Krankenhauskommunikation mit HL7 Berichte aus der Medizinischen Informatik und Bioinformatik Günther Schadow Krankenhauskommunikation mit HL7 Analyse, Implementation und Anwendungeines Protokollstandards für medizinische Datenkommunikation

Mehr

DB2 SQL, der Systemkatalog & Aktive Datenbanken

DB2 SQL, der Systemkatalog & Aktive Datenbanken DB2 SQL, der Systemkatalog & Aktive Datenbanken Lehr- und Forschungseinheit Datenbanken und Informationssysteme 1 Ziele Auf DB2 Datenbanken zugreifen DB2 Datenbanken benutzen Abfragen ausführen Den Systemkatalog

Mehr

3. Spezielle ER-Modelle und Tabellenableitung. Transformation von ER-Diagrammen in Relationen

3. Spezielle ER-Modelle und Tabellenableitung. Transformation von ER-Diagrammen in Relationen 3. Spezielle ER-Modelle und Tabellenableitung Spezialfälle von ER-Modellen Grundlage, was sind Relationen Transformation von ER-Diagrammen in Relationen 56 Lesebeispiel Access (Realisierungmodell!) 57

Mehr

Uni Duisburg-Essen Fachgebiet Informationssysteme Prof. Dr. N. Fuhr

Uni Duisburg-Essen Fachgebiet Informationssysteme Prof. Dr. N. Fuhr Raum: LF 230 Bearbeitung: 9.-11. Mai 2005 Datum Gruppe Vorbereitung Präsenz Aktuelle Informationen unter: http://www.is.informatik.uni-duisburg.de/courses/dbp_ss03/ Tabellen in IBM DB2 Tabellen Eine relationale

Mehr

LDAP. Lightweight Directory. Desanka Bogicevic 1121621 Michael Wenig 1220567 Rupert Eisl 1220225

LDAP. Lightweight Directory. Desanka Bogicevic 1121621 Michael Wenig 1220567 Rupert Eisl 1220225 LDAP Lightweight Directory Access Protokoll Desanka Bogicevic 1121621 Michael Wenig 1220567 Rupert Eisl 1220225 LDAP Was ist LDAP? Was sind Verzeichnisdienste? Was ist ein Verzeichnis? Geschichte http://directory.apache.org/apacheds/basic-ug/1.2-some-background.html

Mehr

Zahlensysteme. Digitale Rechner speichern Daten im Dualsystem 435 dez = 1100110011 binär

Zahlensysteme. Digitale Rechner speichern Daten im Dualsystem 435 dez = 1100110011 binär Zahlensysteme Menschen nutzen zur Angabe von Werten und zum Rechnen vorzugsweise das Dezimalsystem Beispiel 435 Fische aus dem Teich gefischt, d.h. 4 10 2 + 3 10 1 +5 10 0 Digitale Rechner speichern Daten

Mehr

Sructred Query Language

Sructred Query Language Sructred Query Language Michael Dienert 11. November 2010 Inhaltsverzeichnis 1 Ein kurzer Versionsüberblick 1 2 SQL-1 mit einigen Erweiterungen aus SQL-92 2 3 Eine Sprache zur Beschreibung anderer Sprachen

Mehr

TimeSafe Leistungserfassung

TimeSafe Leistungserfassung Keep your time safe. TimeSafe Leistungserfassung Adressimport 1/8 Inhaltsverzeichnis Inhaltsverzeichnis... 2 1 Allgemeines... 3 1.1 Adressen in der TimeSafe Leistungserfassung... 3 1.2 Organisationen und/oder

Mehr

7. Analyse-Phase: Datenmodellierung Software Engineering

7. Analyse-Phase: Datenmodellierung Software Engineering 7. Analyse-Phase: Datenmodellierung Software Engineering Hochschule Darmstadt Haardtring 100 D-64295 Darmstadt Prof. Dr. Bernhard Humm Hochschule Darmstadt, 20. November 2006 Einordnung in den Kontext

Mehr

DBS ::: SERIE 5. Join Right Semi- Join Left Semi-Join Projektion Selektion Fremdschlüssel. Kreuzprodukt

DBS ::: SERIE 5. Join Right Semi- Join Left Semi-Join Projektion Selektion Fremdschlüssel. Kreuzprodukt DBS ::: SERIE 5 Die Relation produkt enthält Hersteller, Modellnummer und Produktgattung (pc, laptop oder drucker aller Produkte. Die Modellnummer ist (der Einfachheit halber eindeutig für alle Hersteller

Mehr

Logische Modellierung von Data Warehouses

Logische Modellierung von Data Warehouses Logische Modellierung von Data Warehouses Vertiefungsarbeit von Karin Schäuble Gliederung. Einführung. Abgrenzung und Grundlagen. Anforderungen. Logische Modellierung. Methoden.. Star Schema.. Galaxy-Schema..

Mehr

Unterrichtsvorhaben Q2- I:

Unterrichtsvorhaben Q2- I: Schulinterner Lehrplan Informatik Sekundarstufe II Q2 III. Qualifikationsphase Q2 Unterrichtsvorhaben Q2- I: Im ersten Halbjahr 1 Klausur, im 2. Halbjahr ein Projekt. Die Länge der Klausur beträgt 90 min.

Mehr

Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben. Die Hypercube-Technologie

Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben. Die Hypercube-Technologie Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben Transbase Hypercube ist eine Transbase -Option, die die innovative Hypercube-Technologie für komplexe analytische Anwendungen (OLAP)

Mehr

Business Intelligence Data Warehouse. Jan Weinschenker

Business Intelligence Data Warehouse. Jan Weinschenker Business Intelligence Data Warehouse Jan Weinschenker 28.06.2005 Inhaltsverzeichnis Einleitung eines Data Warehouse Data Warehouse im Zusammenfassung Fragen 3 Einleitung Definition: Data Warehouse A data

Mehr

IV. Datenbankmanagement

IV. Datenbankmanagement Wirtschaftsinformatik 2 (PWIN) IV. Datenbankmanagement Kapitel 2: Datenmanipulationssprache SQL Wirtschaftsinformatik 2 (PWIN) SS 2009, Professur für Mobile Business & Multilateral Security 1 Agenda 1.

Mehr

Migration von RMS nach ORACLE http://138.245.152.20/edv/decus2003_web.html

Migration von RMS nach ORACLE http://138.245.152.20/edv/decus2003_web.html http://138.245.152.20/edv/decus2003_web.html E.W.Raschner, Max von Pettenkofer-Institut, LMU München, raschner@m3401.mpk.med.uni-muenchen.de Voraussetzungen, Umgebung Grundlegende Überlegungen Aufbau der

Mehr

Agenda. Themenblock: Data Warehousing (I) Referenzarchitektur. Eigenschaften eines Data Warehouse. Einführung Data Warehouse Data Access mit SQL

Agenda. Themenblock: Data Warehousing (I) Referenzarchitektur. Eigenschaften eines Data Warehouse. Einführung Data Warehouse Data Access mit SQL Themenblock: Data Warehousing (I) Praktikum: Data Warehousing und Data Mining 2 Eigenschaften eines Data Warehouse Referenzarchitektur Integrierte Sicht auf beliebige Daten aus verschieden Datenbanken

Mehr

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement

Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement Steuerungsverfahren und ihre Datenstrukturen 02 - Datenmanagement 1 Übersicht - Datenmanagement 1 Übersicht - Datenmanagement...1 2 Übersicht: Datenbanken - Datawarehouse...2 3 Übersicht: Data Mining...11

Mehr

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen Was bisher geschah abstrakter Datentyp : Signatur Σ und Axiome Φ z.b. ADT Menge zur Verwaltung (Finden, Einfügen, Entfernen) mehrerer Elemente desselben Typs Spezifikation einer Schnittstelle Konkreter

Mehr

AUSGEZEICHNETE SOFTWARE FÜR IHR EINKAUFSCONTROLLING. Creactives-TSV. (Total Spending Visibility)

AUSGEZEICHNETE SOFTWARE FÜR IHR EINKAUFSCONTROLLING. Creactives-TSV. (Total Spending Visibility) AUSGEZEICHNETE SOFTWARE FÜR IHR EINKAUFSCONTROLLING Creactives-TSV (Total Spending Visibility) Globale Kostensenkungspotenziale schneller erkennen International tätige Unternehmen versuchen die Transparenz

Mehr

Enterprise Content Management

Enterprise Content Management Enterprise Content Management Dr.-Ing. Raymond Bimazubute Lehrstuhl für Künstliche Intelligenz Friedrich Alexander Universität Erlangen-Nürnberg Email: raymond.bimazubute@informatik.uni-erlangen.de Vorbemerkungen

Mehr

Ein Ansatz für eine Ontologie-basierte Verbindung von IT Monitoring und IT Governance

Ein Ansatz für eine Ontologie-basierte Verbindung von IT Monitoring und IT Governance Ein Ansatz für eine Ontologie-basierte Verbindung von IT Monitoring und IT Governance MITA 2014 23.09.2014 Andreas Textor andreas.textor@hs-rm.de Hochschule RheinMain Labor für Verteilte Systeme Fachbereich

Mehr

1 Grundbegriffe...1. 2 Datenbanksysteme...7. 3 Entwicklung von Datenbanksystemen...15. Inhaltsverzeichnis. 1.1 Information und Daten...

1 Grundbegriffe...1. 2 Datenbanksysteme...7. 3 Entwicklung von Datenbanksystemen...15. Inhaltsverzeichnis. 1.1 Information und Daten... Inhaltsverzeichnis 1 Grundbegriffe...1 1.1 Information und Daten...2 1.2 Datenorganisation...3 1.3 Dateikonzept...5 1.4 Kontroll- und Vertiefungsfragen...6 2 Datenbanksysteme...7 2.1 Datenintegration...7

Mehr

Datenintegration & Datenherkunft Architekturen

Datenintegration & Datenherkunft Architekturen Datenintegration & Datenherkunft Architekturen Wintersemester 2010/11 Melanie Herschel melanie.herschel@uni-tuebingen.de Lehrstuhl für Datenbanksysteme, Universität Tübingen 1 Kapitel 4 Architekturen Überblick

Mehr

Kapitel II. Datenbereitstellung. II. Datenbereitstellung. II.1 Grundlagen. II. Datenbereitstellung. Collect Initial Data. II.

Kapitel II. Datenbereitstellung. II. Datenbereitstellung. II.1 Grundlagen. II. Datenbereitstellung. Collect Initial Data. II. II. bereitstellung Kapitel II bereitstellung 1 2 II. bereitstellung II.1 Grundlagen Collect Initial Data identify relevant attributes identify inconsistencies between sources Describe Data characterize

Mehr

EAI. Integration. EAI Version 0.9 1

EAI. Integration. EAI Version 0.9 1 EAI Enterprise Application Integration EAI Version 0.9 1 Heterogene Informationssysteme KIS DRG Grouper Stand-alone Anwendung (Windows) PACS Client-Server Anwendung (Java, LINUX, Caché) QM-System Client-Server

Mehr

Vorlesung. Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Email: Hans.Czap@uni-trier.de

Vorlesung. Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Email: Hans.Czap@uni-trier.de Vorlesung Grundlagen betrieblicher Informationssysteme Prof. Dr. Hans Czap Email: Hans.Czap@uni-trier.de - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf

Mehr

Guten Tag! CampusSource. Die CSE Integration Platform. CampusSource Engine. Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund

Guten Tag! CampusSource. Die CSE Integration Platform. CampusSource Engine. Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund Engine Die CSE Integration Platform Guten Tag! Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund Integriertes Informationsmanagement mit der Engine - A2A vs. EBI Folie 2 Integration

Mehr

Foundations of uncertain data integration

Foundations of uncertain data integration Foundations of uncertain data integration Seminar Informationsintegration Stephan Barnert IT Management & Consulting 11.09.2015 Agenda Problemstellung Einleitung Beispiel zur Integration Wiederholung LAV

Mehr

SQL SQL. SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R. Grundlagen der Programmierung 2

SQL SQL. SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R. Grundlagen der Programmierung 2 SQL SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R IV-1 Beispielrelationen Filiale ( Name Leiter Stadt Einlagen ) Konto ( KontoNr KundenNr FilialName Saldo ) Kredit

Mehr

Kapitel 7: Formaler Datenbankentwurf

Kapitel 7: Formaler Datenbankentwurf 7. Formaler Datenbankentwurf Seite 1 Kapitel 7: Formaler Datenbankentwurf Die Schwierigkeiten der konzeptuellen Modellierung sind zu einem großen Teil dadurch begründet, dass sich die relevanten Strukturen

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Fachbereich Informatik Praktikum 1

Fachbereich Informatik Praktikum 1 Hochschule Darmstadt DATA WAREHOUSE SS2015 Fachbereich Informatik Praktikum 1 Prof. Dr. S. Karczewski Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum: 14.April.2015 1. Kurzbeschreibung In diesem Praktikum geht

Mehr

Inhalt. Ein Einführung in die Nutzung von SQL-Datenbanken am Beispiel Oracle. Daten und Tabellen - ein Beispiel. Daten und Tabellen - Normalisierung

Inhalt. Ein Einführung in die Nutzung von SQL-Datenbanken am Beispiel Oracle. Daten und Tabellen - ein Beispiel. Daten und Tabellen - Normalisierung Inhalt Ein Einführung in die Nutzung von SQL-Datenbanken am Beispiel Oracle Daten und Tabellen Normalisierung, Beziehungen, Datenmodell SQL - Structured Query Language Anlegen von Tabellen Datentypen (Spalten,

Mehr

D A T E N... 1 Daten Micheuz Peter

D A T E N... 1 Daten Micheuz Peter D A T E N.....! Symbole, Alphabete, Codierung! Universalität binärcodierter Daten! Elementare Datentypen! Speicherung binärcodierter Daten! Befehle und Programme! Form und Bedeutung 1 Daten Micheuz Peter

Mehr