Datenvorverarbeitung von nominalen Daten für Data Mining

Größe: px
Ab Seite anzeigen:

Download "Datenvorverarbeitung von nominalen Daten für Data Mining"

Transkript

1 Datenvorverarbeitung von nominalen Daten für Data Mining Entstanden 2004/2005 bei der T-Systems International GmbH unter Betreuung von Prof. Dr. J. Fürnkranz Seite 1

2 Gliederung Datenvorverarbeitung Prepared Information Enviroment Vorverarbeitung von nominalen Daten Exponieren semantischer Information Seite 2

3 Datenvorverarbeitung Seite 3

4 Datenvorverarbeitung Der Zyklus Seite 4

5 Datenvorverarbeitung Auf die Daten zugreifen ETL Seite 5

6 Datenvorverarbeitung Daten betrachten Attribute verstehen Fehler erkennen Erste Hypothesen Umgesetzt mit OLAP Tools SQL Seite 6

7 Datenvorverarbeitung Datenqualität verbessern Behandlung von Ausreißern Ungültige Werte Falsche Formate Dubletten Fehlende Werte Widersprüchliche Werte Seite 7

8 Datenvorverarbeitung Daten anreichern Ergänzen um weitere Attribute Aggregationen von Werten Attribute aus externen Quellen Einbeziehen von Expertenwissen Domäne des menschlichen Experten Seite 8

9 Datenvorverarbeitung Dimension verringern Vermeiden von Overfitting Reduzieren der Rechenzeit Entfernen von Selbstbezügen Entfernen von Attributen, die in der Praxis nicht zur Verfügung stehen Seite 9

10 Datenvorverarbeitung Stichprobenverteilung prüfen Zufällige Verteilung des Targets?? Erhaltung der Verteilung des Targets Gleichmässige Verteilung von Target Seite 10

11 Datenvorverarbeitung Der Zyklus Seite 11

12 Prepared Information Environment Seite 12

13 Prepared Information Environment Überblick Ein Rahmen für die Vorverarbeitung Vereinfacht das erneute Anstoßen des Zyklus Sichert die Replizierbarkeit des Modells Routine bei periodisch zu erstellenden Modellen Spart Zeit Prepared Information Environment Seite 13

14 Prepared Information Environment PIE mit SQL Transformationen lassen sich mit SQL durchführen SQL Skripte können automatisiert erneut aufgerufen werden Ist bereits ein Nebenprodukt des Datenvorverarbeitungsprozesses Seite 14

15 Prepared Information Environment PIE mit SAS Prozesse in einem Flussdiagramm. SAS 9 ist konzipiert um alle Aufgaben der Datenvorverarbeitung durchzuführen Bedingt transportabel Seite 15

16 Prepared Information Environment Hybrides PIE Zusammenfügen von SQL-Skripten und SAS 8.2 Output über ID anstelle eines Output-Moduls Flexibel Geringer Mehraufwand Seite 16

17 Normalisieren von Schreibweisen Seite 17

18 Wissen in der Datenvorverarbeitung Unstrukturierte Felder enthalten menschenlesbare Informationen Produktnamen, Titel, Kommentare, Namen,... Anreichern der Daten ist eine kreative Arbeit Erfahrung und Fachwissen wird für viele Entscheidungen benötigt Seite 18

19 Wissen in der Datenvorverarbeitung Datenbanken Expertenwissen zum befüllen notwendig Auflistung existenter Nachnamen Befüllung sehr aufwändig Datenbank wird sehr gross Angereichert mit Metadaten Seite 19

20 Wissen in der Datenvorverarbeitung Heuristiken Levenshtein Distanz Präfix Matching Jaro Ähnlichkeitsmaß Jaro-Winkler Maß Smith-Waterman Algorithmus Seite 20

21 Wissen in der Datenvorverarbeitung Semantische Netzwerke Knoten beinhalten Begriffe Kanten repräsentieren Relationen Semantische Distanz zwischen Knoten Geeignet um Zusammenhänge und Assoziationen zu verarbeiten Homonyme Synonyme Antonyme Hyperonyme Hyponyme Meronyme Seite 21

22 Wissen in der Datenvorverarbeitung Regeldatenbanken Regeln können wiederkehrende Fehler beheben Regeln können Wortformen normalisieren Eine Regeldatenbank enthält Regeln und Referenzen T-Systems Int. TSI GmbH T-S-I GmbH TS International TSI GmbH TSI GmbH Seite 22

23 Normalisieren von Schreibweisen Problemstellung Welche Zeichen sind falsch? Welche Zeichen fehlen? Welche Zeichen sind verdreht? Welche Worte sind falsch? Welche Worte sind korrekt, gehören aber woanders hin? Welche Worte können unterschiedlich geschrieben werden? Seite 23

24 Normalisieren von Schreibweisen Lösungskonzept Eindeutige Form notwendig Anwendung von Regeln In unbekannten Fällen werden mit Hilfe des Experten weitere Regeln erstellt Datenbank mit korrekten Formen Vergleich von Formen über Heuristiken Seite 24

25 Erkennen von semantischen Fehlern Problemstellung Sind automatisiert fast nicht zu erkennen Der Computer kann die menschenlesbaren Informationen nicht ohne Hilfe verarbeiten Seite 25

26 Erkennen von semantischen Fehlern Lösungskonzept Sichtung durch einen Experten Erkennen des Fehlers am Ende eines Datenvorverarbeitungszyklus Zur Automatisierung ist Wissen erforderlich Externe Informationen müssten automatisch herangezogen werden. Seite 26

27 Exponieren semantischer Information Seite 27

28 Exponieren semantischer Information Brainstorming Seite 28

29 Exponieren semantischer Information Verringern der Dimension Seite 29

30 Exponieren semantischer Information SCM Tool Seite 30

31 Exponieren semantischer Information Evaluationszenario Verwendung der offiziellen MovieLens Datenbank Prognose der Bewertung anhand des Kinotitels Angereichert um manuell erstellte Genre Angereichert um mit SCM erstellte Attribute Up in Smoke (1978) Two Deaths (1995) Safe Passage (1994) Nine Months (1995) Money Train (1995)... Seite 31

32 Exponieren semantischer Information Evaluationsresultat Daten Wahrpositiv Gesamter Fehler Normierte Präzision Genre 0,0% 21,3% -1,00 SCM 2.0 8,8% 22,3% -0,82 SCM ,7% 22,9% -0,70 Genre_SCM 2.0 8,8% 23,9% -0,82 Genre_SCM 2.5 5,8% 21,3% -0,88 Seite 32

33 Vielen Dank für ihre Aufmerksamkeit Seite 33

ABP Wo steckt der Fehler in der SQL-Anfrage? Semantische Prüfung von Lösungen Prof. Dr. Inga Marina Saatz

ABP Wo steckt der Fehler in der SQL-Anfrage? Semantische Prüfung von Lösungen Prof. Dr. Inga Marina Saatz ABP 017 Wo steckt der Fehler in der SQL-Anfrage? Semantische Prüfung von Lösungen 017 - Prof. Dr. Inga Marina Saatz Inhaltsübersicht Prof. Inga M. Dr. Saatz I. Saatz Datenbanken SQLearn 1 Fachbereich ABP

Mehr

DWH Automatisierung mit Data Vault 2.0

DWH Automatisierung mit Data Vault 2.0 DWH Automatisierung mit Data Vault 2.0 Andre Dörr Trevisto AG Nürnberg Schlüsselworte Architektur, DWH, Data Vault Einleitung Wenn man die Entwicklung von ETL / ELT Prozessen für eine klassische DWH Architektur

Mehr

Profiling Linked Open Data with ProLOD. LiDDM: A Data Mining System for Linked Data

Profiling Linked Open Data with ProLOD. LiDDM: A Data Mining System for Linked Data Profiling Linked Open Data with ProLOD LiDDM: A Data Mining System for Linked Data Seminar aus maschinellem Lernen Frederik Janssen, Dr. Heiko Paulheim 20. Dez.2011 Fachbereich 20 Informatik Seminar aus

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Data Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz

Data Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner Fakultät Informatik Motivation CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen

Mehr

Messung von Datenqualität bei Registern und Kohorten

Messung von Datenqualität bei Registern und Kohorten Messung von Datenqualität bei Registern und Kohorten Carsten Oliver Schmidt, Jürgen Stausberg, Ron Pritzkuleit, Thomas Schrader, Michael Nonnemacher DKVF 2013 QS Ziele Befunde sollen Intern und Extern

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Uwe Ligges Informatik LS 8 22.04.2010 1 von 26 Gliederung 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der

Mehr

Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen

Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen Exposé für eine Diplomarbeit Jan Hegewald Betreut von Jana Bauckmann 7. März 2007 1

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Gliederung Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Claus Weihs 14.07.2009 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der Cube-Operator 5 Implementierung

Mehr

Teil II: Einstieg in Expertensysteme

Teil II: Einstieg in Expertensysteme Teil II: Einstieg in Expertensysteme Begriffsbestimmung: Was sind wissensbasierte Systeme? Die beiden Begriffe Expertensystem und wissensbasiertes System werden weitgehend synonym verwendet für Softwaresysteme,

Mehr

Verbesserte Nutzbarkeit heterogener und verteilter Geodaten durch Semantische Interoperabilität

Verbesserte Nutzbarkeit heterogener und verteilter Geodaten durch Semantische Interoperabilität Verbesserte Nutzbarkeit heterogener und verteilter Geodaten durch Semantische Interoperabilität Eva Klien 7. Seminar GIS & Internet 15. bis 17. September 2004 UniBwMünchen Überblick Semantische Heterogenitätsprobleme

Mehr

Schema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23

Schema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23 Dr. Armin Roth arminroth.de 25.04.2013 Dr. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Agenda 1 Wiederholung: Schema Matching / Integration 2 Schema Mapping Definitionen Beispiel Algorithmus

Mehr

Ereignis-basierter Test grafischer Benutzeroberflächen ein Erfahrungsbericht

Ereignis-basierter Test grafischer Benutzeroberflächen ein Erfahrungsbericht 29. Treffen der GI-Fachgruppe Test, & Verifikation von Software (TAV) 12. und 13. November 2009, FH Stralsund Thema: Testmanagement meets MBT Autoren: Fevzi Belli, Mutlu Beyazit, Axel Hollmann, Michael

Mehr

Data Warehouse und Data Mining

Data Warehouse und Data Mining Einführungsseminar Data Mining Seminarvortrag zum Thema: Data Warehouse und Data Mining Von gehalten am Betreuer: Dr. M. Grabert Einführung Problemstellung Seite 2 Einführung Unternehmen bekommen eine

Mehr

Relationales Datenbankpraktikum 2016ss

Relationales Datenbankpraktikum 2016ss Relationales Datenbankpraktikum 2016ss 3 Teile 1) Datenbankentwurf, Datenimport 2) Formulierung von SQL-Anfragen V. Christen, Dr. A. Groß, M. Junghanns, Z. Sehili 3) Entwicklung einer Middleware für eine

Mehr

Data Warehouse in der Telekommunikation

Data Warehouse in der Telekommunikation Data Warehouse in der Telekommunikation Hans-Friedrich Pfeiffer Talkline GmbH & Co.KG Elmshorn, 11.06.2007 Übersicht Historie Struktureller Aufbau des Dara Warehouse Anforderungen an das Data Warehouse

Mehr

Produktdatenmanagement. mit KI. Onedot AG Zürich, Dezember 2018

Produktdatenmanagement. mit KI. Onedot AG Zürich, Dezember 2018 Produktdatenmanagement mit KI Onedot AG Zürich, Dezember 2018 Herausforderungen Mit was für Herausforderungen kämpfen Sie im Bereich Produktdaten? 1) Onboarding Lieferanten 6) Anpassungen Produktdatenmodell

Mehr

Stratego/XT und ASF+SDF Meta-Environment. Paul Weder Seminar Transformationen Datum:

Stratego/XT und ASF+SDF Meta-Environment. Paul Weder Seminar Transformationen Datum: Stratego/XT und ASF+SDF Meta-Environment Paul Weder Seminar Transformationen Datum: 20.01.2006 Gliederung Allgemeines ASF+SDF Meta-Environment Stratego/XT Zusammenfassung/Vergleich SDF (Syntax Definition

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Inhaltsverzeichnis. 1 Einleitung Motivation und Umfeld Zielsetzung der Arbeit Methodisches Vorgehen und Aufbau der Arbeit 3

Inhaltsverzeichnis. 1 Einleitung Motivation und Umfeld Zielsetzung der Arbeit Methodisches Vorgehen und Aufbau der Arbeit 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Motivation und Umfeld 1 1.2 Zielsetzung der Arbeit 2 1.3 Methodisches Vorgehen und Aufbau der Arbeit 3 2 Grundlagen des Feuerwehrwesens 5 2.1 Kategorisierung der Feuerwehren

Mehr

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation: 02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete

Mehr

19. DOAG-Konferenz Data Profiling: Erste Erfahrungen mit dem OWB 10g R2 Mannheim, Detlef Apel

19. DOAG-Konferenz Data Profiling: Erste Erfahrungen mit dem OWB 10g R2 Mannheim, Detlef Apel 19. DOAG-Konferenz Data Profiling: Erste Erfahrungen mit dem OWB 10g R2 Mannheim, 16.11.2006 Detlef Apel Agenda Agenda Platzierung Kundenlogo Unser Unser Unternehmen Datenqualität warum? Unser Projekt

Mehr

3D Shape Matching Using Skeleton Graphs

3D Shape Matching Using Skeleton Graphs 3D Shape Matching Using Skeleton Graphs Angela Brennecke & Tobias Isenberg OTTO-VON-GUERICKE-UNIVERSITÄT MAGDEBURG Institut für Simulation und Graphik Fakultät für Informatik Otto-von-Guericke-Universität

Mehr

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data

Mehr

Kurzeinführung in Citavi 5

Kurzeinführung in Citavi 5 Kurzeinführung in Citavi 5 Warum Citavi? Projektarbeit A Projektarbeit B Becker: Die Kunst des Professionellen Schreibens Becker: München. Die Kunst Hanser des Verlag Professionellen 2015 Schreibens Text

Mehr

Automatische Vergabe von RVK-Notationen mittels fallbasiertem Schließen. Magnus Pfeffer Universitätsbibliothek Mannheim

Automatische Vergabe von RVK-Notationen mittels fallbasiertem Schließen. Magnus Pfeffer Universitätsbibliothek Mannheim Automatische Vergabe von RVK-Notationen mittels fallbasiertem Schließen Magnus Pfeffer Universitätsbibliothek Mannheim Gliederung Motivation und Historie Verfahren Umsetzung Experimentelle Ergebnisse Nachnutzung

Mehr

Kapitel 6 Vorverarbeitung. Vorlesung Knowledge Discovery

Kapitel 6 Vorverarbeitung. Vorlesung Knowledge Discovery Kapitel 6 Vorverarbeitung 1 6 Vorverarbeitung 6.1 Einführung in die Vorverarbeitung Zweck der Vorverarbeitung Transformiere die Daten so, dass sie optimal vom Miner verarbeitet werden können. Problem:

Mehr

Der Weg ins Portal. Erfahrungen der Fachstelle Archiv im Handling von Datenlieferungen

Der Weg ins Portal. Erfahrungen der Fachstelle Archiv im Handling von Datenlieferungen Der Weg ins Portal Erfahrungen der Fachstelle Archiv im Handling von Datenlieferungen Workshop mit Herstellern archivischer Software 10. März 2016, Sächsisches Staatsarchiv Dresden Agenda 1. Ausgangssituation

Mehr

Ground Truth ohne Datenqualität kein Machine Learning. Erfolgsfaktoren für Predictive Analytics, BI und Data Mining

Ground Truth ohne Datenqualität kein Machine Learning. Erfolgsfaktoren für Predictive Analytics, BI und Data Mining Ground Truth ohne Datenqualität kein Machine Learning. Erfolgsfaktoren für Predictive Analytics, BI und Data Mining Prof. Dr.-Ing. Peter Lehmann Hochschule der Medien Stuttgart GLIEDERUNG Etwas über Machine

Mehr

Datenqualitätsportal für das Data Warehouse mit APEX und Regelwerk

Datenqualitätsportal für das Data Warehouse mit APEX und Regelwerk DATA WAREHOUSE Datenqualitätsportal für das Data Warehouse mit APEX und Regelwerk Alfred Schlaucher, Oracle Data Warehouse Themen Wo wird geprüft Was wird geprüft Dokumentation und Steuerung der Prüfungen

Mehr

Zusammenführung und Vereinheitlichung von Eisenbahn-Streckennetzdaten Alexander Matheisen

Zusammenführung und Vereinheitlichung von Eisenbahn-Streckennetzdaten Alexander Matheisen Zusammenführung und Vereinheitlichung von Eisenbahn-Streckennetzdaten Alexander Matheisen FOSSGIS 2017, Passau Über mich Alexander Matheisen seit 2008 bei OpenStreetMap aktiv

Mehr

DataCategorizer Qualität & Transparenz

DataCategorizer Qualität & Transparenz DataCategorizer Qualität & Transparenz für Ihre klassifizieren Stammdaten konsolidieren bereinigen Die Qualität Ihrer verbessern. www.procurement-data.com Der größte Teil der Lieferanten lässt sich auf

Mehr

Geodatenintegration unter Nutzung von Linked Data Prinzipien Stefan Wiemann Technische Universität Dresden

Geodatenintegration unter Nutzung von Linked Data Prinzipien Stefan Wiemann Technische Universität Dresden 14. Seminar GIS & Internet UniBw München, 17. 18.09.2014 Geodatenintegration unter Nutzung von Linked Data Prinzipien Stefan Wiemann Technische Universität Dresden Motivation Isolierte Daten Verlinkte

Mehr

Vortrag im Rahmen der Veranstaltung Anwendungen 1

Vortrag im Rahmen der Veranstaltung Anwendungen 1 Vortrag im Rahmen der Veranstaltung Anwendungen 1 Thema: Workflow Optimierung, automatische Generierung von medizinischen Berichten unterstützt durch Regeln und semantische Annotationen. von Jan Kuhr Betreuer:

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen

Mehr

Datenlieferung in EAD(DDB)

Datenlieferung in EAD(DDB) Datenlieferung in EAD(DDB) Martin Reisacher (Landesarchiv Baden-Württemberg) Workshop: Beteiligung an der Deutschen Digitalen Bibliothek und am Archivportal-D Frankfurt, 29.04.2014 https://www.deutsche-digitale-bibliothek.de/item/3ijzmwikfzqjgq7ufycw6woelkl3km2w

Mehr

Sprache systematisch verbessern. Eugen Okon

Sprache systematisch verbessern. Eugen Okon Sprache systematisch verbessern Eugen Okon Sprache systematisch verbessern Gliederung Einleitung Die CLEAR Methode CLEAR in einer Fallstudie Ergebnisse und Bewertung Zusammenfassung Sprache systematisch

Mehr

DOAG BI Data-Mining in sozialen Online-Netzwerken

DOAG BI Data-Mining in sozialen Online-Netzwerken DOAG BI 2013 Data-Mining in sozialen Online-Netzwerken Bianca Vornamen Böckelmann, Name, 17. dd.mm.yyyy April 2013 Agenda Über Robotron Motivation Knowledge Discovery in Databases (KDD)-Prozess Oracle

Mehr

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2 Tom Schelthoff 30.11.2018 Inhaltsverzeichnis Deep Learning Seed-Stabilität Regularisierung Early Stopping Dropout Batch Normalization

Mehr

fuzzy-entscheidungsbäume

fuzzy-entscheidungsbäume fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian

Mehr

Quality Point München Datenqualität

Quality Point München Datenqualität Quality Point München Datenqualität Paul, wie ist denn Eure Datenqualität? Nachdem ich bei der letzten Gehaltszahlung mit Frau... angeredet wurde, bin ich mir nicht mehr so sicher. Autor: W. Ulbrich IT&More

Mehr

Information und Produktion. Rolland Brunec Seminar Wissen

Information und Produktion. Rolland Brunec Seminar Wissen Information und Produktion Rolland Brunec Seminar Wissen Einführung Informationssystem Einfluss des Internets auf Organisation Wissens-Ko-Produktion Informationssystem (IS) Soziotechnisches System Dient

Mehr

II Heterogenität und Architekturen

II Heterogenität und Architekturen II Heterogenität und Dr. Armin Roth arminroth.de 24.04.2013 Dr. Armin Roth (arminroth.de) II Heterogenität und 24.04.2013 1 / 24 Agenda 1 Semantische Heterogenität 2 Architekturparadigmen PDMS Dr. Armin

Mehr

VORDIPLOMSPRÜFUNG FÜR ELEKTROINGENIEURE. Einführung in die Informatik III

VORDIPLOMSPRÜFUNG FÜR ELEKTROINGENIEURE. Einführung in die Informatik III Universität Stuttgart Institut für Automatisierungs- und Softwaretechnik Prof. Dr.-Ing. Dr. h. c. P. Göhner VORDIPLOMSPRÜFUNG FÜR ELEKTROINGENIEURE Einführung in die Informatik III Name: Matrikelnummer:

Mehr

Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen

Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen 28. V. 2018 Outline 1 Organisatorisches 2 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 3 Ranking 4 SQL Organisatorisches Ergebnisse

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Modelle, deren Bestandteile und Weiteres SDDM organisiert alle Projektaspekte in einer klassischen Baumansicht, wie Abbildung 1 sie zeigt.

Modelle, deren Bestandteile und Weiteres SDDM organisiert alle Projektaspekte in einer klassischen Baumansicht, wie Abbildung 1 sie zeigt. Automatisierte Modellierung? SQL Developer Data Modeler! Dr.-Ing. Holger Friedrich sumit AG Baden - Schweiz Schlüsselworte SQL Developer Data Modeler, Datenmodellierung Data Vault, Automatisierung Einleitung

Mehr

Problem erkannt, Problem gebannt? Mit SFX Parsern die Verlinkungsqualität verbessern. Inga Overkamp, MPDL

Problem erkannt, Problem gebannt? Mit SFX Parsern die Verlinkungsqualität verbessern. Inga Overkamp, MPDL Problem erkannt, Problem gebannt? Mit SFX Parsern die Verlinkungsqualität verbessern Inga Overkamp, MPDL 15.06.2010 Ausgangssituation SFX Source SFX Server SFX Target R Source Parser Target Parser R R

Mehr

PLANUNG MIT SAP ANALYTICS CLOUD

PLANUNG MIT SAP ANALYTICS CLOUD PLANUNG MIT SAP ANALYTICS CLOUD W E I T B L I C K. L E I D E N S C H A F T. W E N D I G K E I T. V O R S P R U N G. Hausmesse 4process AG, 08. März 2018 Christian Thurner Seite 1 2015 VORSTELLUNG 18 Jahre

Mehr

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse

Mehr

Knowledge Engineering und Lernen in Spielen. Thema: Opening Book Learning von: Thomas Widjaja

Knowledge Engineering und Lernen in Spielen. Thema: Opening Book Learning von: Thomas Widjaja Knowledge Engineering und Lernen in Spielen Thema: Opening Book Learning von: Thomas Widjaja Gliederung Allgemeines Drei Beispielverfahren zum Anpassen eines Opening Books Deep Blue Logistello (Michael

Mehr

ASSC Automated SAP System Copy. Produktpräsentation

ASSC Automated SAP System Copy. Produktpräsentation ASSC Automated SAP System Copy Produktpräsentation 1 System Software Consult/R www.consultr.at 2017 Nutzen und Funktionsbeschreibung Das Automated SAP System Copy (ASSC) Tool wird eingesetzt, um die notwendige

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Teil II: Architektur eines Data-Warehouse-Systems... 57

Teil II: Architektur eines Data-Warehouse-Systems... 57 O:/Wiley/Reihe_Dummies/9783527714476_Gerken/3d/ftoc.3d from 08.08.2018 14:02:02 Auf einen Blick Einleitung... 19 Teil I: Was ist ein Data Warehouse?... 25 Kapitel 1: Ein Beispiel zur Einführung..... 27

Mehr

Konzeption und Umsetzung eines Data Warehouse zur Erstellung von Ganglinien und zur Bewertung von Prognosen im Verkehr

Konzeption und Umsetzung eines Data Warehouse zur Erstellung von Ganglinien und zur Bewertung von Prognosen im Verkehr Konzeption und Umsetzung eines Data Warehouse zur Erstellung von Ganglinien und zur Bewertung von Prognosen im Verkehr Studienarbeit von Ling Kong Betreuer: Heiko Schepperle 15. Oktober 2004 IPD - Institut

Mehr

Adresspflege Online Produktbeschreibung/Handlungsempfehlungen

Adresspflege Online Produktbeschreibung/Handlungsempfehlungen Adresspflege Online Produktbeschreibung/Handlungsempfehlungen Mit Adresspflege Online können die Postkunden ihre Adressen verwalten und pflegen. Dieser Onlinedienst stellt Ihnen ein Instrument zur Verfügung,

Mehr

Die Fleissarbeit dem PC: Umfragen auf Knopfdruck auswerten

Die Fleissarbeit dem PC: Umfragen auf Knopfdruck auswerten Die Fleissarbeit dem PC: Umfragen auf Knopfdruck auswerten Druckreife statistische Auswertungen von Umfragen in Rekordzeit Jonas Bieri Basel-Stadt jonas.bieri@bs.ch Agenda 1. Das Problem Bestehende Umfrageauswertungs-Tools:

Mehr

Es empfiehlt sich, die häufigst verwendete Sprache als Standard für die aktive Dokumentvorlage zu bestimmen.

Es empfiehlt sich, die häufigst verwendete Sprache als Standard für die aktive Dokumentvorlage zu bestimmen. Sprache Word Aufgaben Im Menü EXTRAS Sprache können Sie die Sprache bestimmen das Synonymen-Wörterbuch wählen die Silbentrennung einstellen Sprache bestimmen Word unterstützt verschiedene Sprachen und

Mehr

Algorithmen und Datenstrukturen 2 VU 3.0 Nachtragstest SS Oktober 2016

Algorithmen und Datenstrukturen 2 VU 3.0 Nachtragstest SS Oktober 2016 Technische Universität Wien Institut für Computergraphik und Algorithmen Algorithms and Complexity Group 186.815 Algorithmen und Datenstrukturen 2 VU 3.0 Nachtragstest SS 2016 5. Oktober 2016 Machen Sie

Mehr

Lean Data Management für SAP mit Excel und Workflows

Lean Data Management für SAP mit Excel und Workflows Lean Data Management für SAP mit Excel und Workflows Der schnelle, flexible Ansatz für die Optimierung und Automatisierung Ihrer ERP-Datenprozesse. 1 Copyright Winshuttle 2014 Tausende von Kunden vertrauen

Mehr

NOW YOU KNOW [ONTOS TM WHITE PAPER SERIES] Intelligentes Information Mining durch Ontologie [YVES BRENNWALD, ONTOS INTERNATIONAL AG]

NOW YOU KNOW [ONTOS TM WHITE PAPER SERIES] Intelligentes Information Mining durch Ontologie [YVES BRENNWALD, ONTOS INTERNATIONAL AG] NOW YOU KNOW [ SERIES] Intelligentes Information Mining durch Ontologie [YVES BRENNWALD, ONTOS INTERNATIONAL AG] 001 Information Mining Wissen in unstrukturierten Daten aufdecken Information Mining ist

Mehr

Innovationslabor Semantische Integration von Webdaten

Innovationslabor Semantische Integration von Webdaten Innovationslabor Semantische Integration von Webdaten Workflow-basierte Datenintegration und Objekt-Matching Dr. Andreas Thor http://dbs.uni-leipzig.de/format Workflow-basierte Datenintegration Ausgangspunkt

Mehr

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann.  Lehrstuhl für Wirtschaftsinformatik II Kurzinformation zur Vorlesung Data und Web Mining Univ.-Prof. Dr. Ralph Bergmann www.wi2.uni-trier.de - I - 1 - Die Ausgangssituation (1) Unternehmen und Organisationen haben enorme Datenmengen angesammelt

Mehr

IHRE DATEN SIND GOLD WERT!

IHRE DATEN SIND GOLD WERT! IHRE DATEN SIND GOLD WERT! DATENQUALITÄT ALS GRUNDLAGE FÜR AUSSAGEKRÄFTIGE RESULTATE EPA LEP ANWENDERKONFERENZ / 19. NOVEMBER 2015 / JÜRG DIETRICH Statistik Predictive Analytics Data Mining Big Data Data

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Einführung 5.4.2011 Gliederung 1 Modellbildung und Evaluation 2 Verlaufsmodell der Wissensentdeckung 3 Einführung in das Werkzeug RapidMiner Problem Wir haben nur eine endliche

Mehr

MS Visio 2007 & DocuSnap 4.0

MS Visio 2007 & DocuSnap 4.0 MS Visio 2007 & DocuSnap 4.0 Franz-Larcher-Straße 4 D-83088 Kiefersfelden www.itelio.de Tel.: +49-8033-6978-0 Fax: +49-8033-6978-91 info@itelio.de Agenda Methoden der IT-Dokumentation Dokumentation mit

Mehr

Anpassung von Data-Warehouse-Techniken für den Einsatz unsicherer Verkehrsdaten

Anpassung von Data-Warehouse-Techniken für den Einsatz unsicherer Verkehrsdaten Diplomvortrag Anpassung von Data-Warehouse-Techniken für den entstanden im Rahmen des OVID-Projektes Institut für Programmstrukturen und Datenorganisation Verantwortlicher Betreuer: Prof. Dr.-Ing. Klemens

Mehr

Konzeptueller Entwurf

Konzeptueller Entwurf Konzeptueller Entwurf UML Klassendiagrame UML Assoziationen Entspricht Beziehungen Optional: Assoziationsnamen Leserichtung ( oder ), sonst bidirektional Rollennamen Kardinalitätsrestriktionen UML Kardinalitätsrestriktionen

Mehr

Programmierung 2 Studiengang MI / WI

Programmierung 2 Studiengang MI / WI Programmierung 2 Studiengang MI / WI Dipl.-Inf., Dipl.-Ing. (FH) Michael Wilhelm Hochschule Harz FB Automatisierung und Informatik mwilhelm@hs-harz.de Raum 2.202 Tel. 03943 / 659 338 Fachbereich Automatisierung

Mehr

Transaction Reporting gem. Art. 26 MiFIR Online Registrierungs-Tool

Transaction Reporting gem. Art. 26 MiFIR Online Registrierungs-Tool Transaction Reporting gem. Art. 26 MiFIR Online Registrierungs-Tool Version 1.1 Stand 08.09.2017 1 INHALTSVERZEICHNIS 1. REGISTRIERUNG... 3 1.1. Beantragung eines Accounts... 3 1.2. Vergabe eines Passworts...

Mehr

Basiskurs für Citavi 6

Basiskurs für Citavi 6 Basiskurs für Citavi 6 Warum Citavi? Projektarbeit A Projektarbeit B Becker: Die Kunst des Professionellen Schreibens Becker: München. Die Kunst Hanser des Verlag Professionellen 2015 Schreibens Text Text

Mehr

Data Cube. 1. Einführung. 2. Aggregation in SQL, GROUP BY. 3. Probleme mit GROUP BY. 4. Der Cube-Operator. 5. Implementierung des Data Cube

Data Cube. 1. Einführung. 2. Aggregation in SQL, GROUP BY. 3. Probleme mit GROUP BY. 4. Der Cube-Operator. 5. Implementierung des Data Cube Data Cube 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator 5. Implementierung des Data Cube 6. Zusammenfassung und Ausblick Dank an Hanna Köpcke! 1 On-line Analytical

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.

Mehr

6. Texterkennung in Videos Videoanalyse

6. Texterkennung in Videos Videoanalyse 6. Texterkennung in Videos Videoanalyse Dr. Stephan Kopf 1 Übersicht Motivation Texterkennung in Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben 3. Auswahl der Buchstabenpixel

Mehr

Repetitorium. Data Warehousing und Data Mining 11/12. Sebastian Wandelt 13./16. Februar 2012

Repetitorium. Data Warehousing und Data Mining 11/12. Sebastian Wandelt 13./16. Februar 2012 Repetitorium Data Warehousing und Data Mining 11/12 Sebastian Wandelt 13./16. Februar 2012 Inhalt Data Warehousing und Data Mining auf 40 Slides Weder in-, noch exklusiv! Subjektive Zusammenfassung pro

Mehr

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Einführungsveranstaltung Überblick Organisation Literatur Inhalt und Ziele der Vorlesung Beispiele aus der Praxis 2 Organisation Vorlesung/Übung + Projektarbeit. 4 Semesterwochenstunden.

Mehr

1.1 Mitglieder Import

1.1 Mitglieder Import 1.1 Mitglieder Import Der Mitglieder-Import ermöglicht es Daten aus einer Datei in die Mitgliederverwaltung zu importieren. Bevor ein Import durchgeführt werden kann, muss eine CSV-Datei bzw. -Datei erstellt

Mehr

Produktionscontrolling auf dem Weg zur Industrie 4.0

Produktionscontrolling auf dem Weg zur Industrie 4.0 Produktionscontrolling auf dem Weg zur Industrie 4.0 Intelligente Produktion durch Real-Time-Big-Data-Analyse von Sensordaten & Bern, 27.05.2016 Jörg Rieth Jedox vereinfacht Planung, Reporting & Analyse

Mehr

Die Bestellungen eines Schreibwarengeschäftes sollen auf eine aktuelle Form mit Hilfe einer zeitgemäßen Datenbank umgestellt werden.

Die Bestellungen eines Schreibwarengeschäftes sollen auf eine aktuelle Form mit Hilfe einer zeitgemäßen Datenbank umgestellt werden. Die Bestellungen eines Schreibwarengeschäftes sollen auf eine aktuelle Form mit Hilfe einer zeitgemäßen Datenbank umgestellt werden. Die nachfolgende Tabellenform, eine sogenannte Nullform muss in eine

Mehr

Microsoft Visio Das offizielle Trainingsbuch

Microsoft Visio Das offizielle Trainingsbuch Microsoft Visio 2010 - Das offizielle Trainingsbuch von Scott Helmers 1. Auflage Microsoft 2011 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 86645 077 6 Zu Leseprobe schnell und portofrei erhältlich

Mehr

DATA GOVERNANCE ERFOLGREICH UMSETZEN. Uniserv Academy Seminar 21. März 2017, Sofitel München Dr. Christiana Klingenberg

DATA GOVERNANCE ERFOLGREICH UMSETZEN. Uniserv Academy Seminar 21. März 2017, Sofitel München Dr. Christiana Klingenberg DATA GOVERNANCE ERFOLGREICH UMSETZEN Uniserv Academy Seminar 21. März 2017, Sofitel München Dr. Christiana Klingenberg IHRE REFERENTEN Dr. Christiana Klingenberg Solution & Product Manager Uniserv Christiana.Klingenberg@uniserv.com

Mehr

BERUFSPRAKTIKUM UND -VORBEREITUNG

BERUFSPRAKTIKUM UND -VORBEREITUNG Department für Geographie Marco Brey BERUFSPRAKTIKUM UND -VORBEREITUNG Crashkurs IT-Methoden ein anwendungsorientierter Einstieg in Datenbanksysteme, Programmierung und fortgeschrittene Excel-Funktionen

Mehr

Effizienter Arbeiten mit InDesign: Praktische Tipps und Tricks. Pascal Schrafl, JetNet Services GmbH Digicomp Publishing Day

Effizienter Arbeiten mit InDesign: Praktische Tipps und Tricks. Pascal Schrafl, JetNet Services GmbH Digicomp Publishing Day Effizienter Arbeiten mit InDesign: Praktische Tipps und Tricks Pascal Schrafl, JetNet Services GmbH Digicomp Publishing Day 2015 11. März 2015 Ablauf Farbfelder und Farbtöne Farben importieren und exportieren

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Klein anfangen und groß rauskommen mit Data Vault 2.0 Leif Hitzschke & Dajana Schleuß

Klein anfangen und groß rauskommen mit Data Vault 2.0 Leif Hitzschke & Dajana Schleuß Klein anfangen und groß rauskommen mit Data Vault 2.0 Leif Hitzschke & Dajana Schleuß Hamburg, den 16.09.2016 Der führende B2B-Marktplatz wlw.de wlw.at wlw.ch Agenda 1. wlw das Unternehmen 2. BI im Überblick

Mehr

Geodatenmodellierung. Regeln zur Nomenklatur. Umweltdepartement Amt für Vermessung und Geoinformation

Geodatenmodellierung. Regeln zur Nomenklatur. Umweltdepartement Amt für Vermessung und Geoinformation Umweltdepartement Amt für Vermessung und Geoinformation Bahnhofstrasse 16 Postfach 1213 6431 Schwyz Telefon 041 819 25 41 Geodatenmodellierung Regeln zur Nomenklatur 1 Zu diesem Dokument Hintergrund Die

Mehr

Semiautomatische Erweiterung von Topic Maps mit Hilfe von Thesauri und User-Feedback

Semiautomatische Erweiterung von Topic Maps mit Hilfe von Thesauri und User-Feedback Semiautomatische Erweiterung von Topic Maps mit Hilfe von Thesauri und User-Feedback Andreas Bertram andy@asware.net Abstract: Das Semantic Web stellt die nächste Stufe der Evolution des World Wide Web

Mehr

Algorithmen und Datenstrukturen 06

Algorithmen und Datenstrukturen 06 31. Mai 2012 1 Besprechung Blatt 5 Fragen 2 Objektorientierte Programmierung Allgemein Sichtbarkeit Konstanten 3 Unified Modeling Language (UML) Klassendiagramme Anwendungsfalldiagramme 4 Vorbereitung

Mehr

Informationsintegration Beispiel

Informationsintegration Beispiel Informationsintegration Beispiel 17.4.2007 Felix Naumann Informationsintegration 2 Web Service A Web Service B Federated Database Systems Amit Sheth

Mehr

Distributed Algorithms. Image and Video Processing

Distributed Algorithms. Image and Video Processing Chapter 6 Optical Character Recognition Distributed Algorithms for Übersicht Motivation Texterkennung in Bildern und Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben

Mehr

Bildverarbeitung: RANSAC. D. Schlesinger () Bildverarbeitung: RANSAC 1 / 11

Bildverarbeitung: RANSAC. D. Schlesinger () Bildverarbeitung: RANSAC 1 / 11 Bildverarbeitung: RANSAC D. Schlesinger () Bildverarbeitung: RANSAC 1 / 11 Beispielaufgaben Man suche eine Gerade ax + by = 1 d.h. die unbekannten Parameter a und b anhand einer Lernstichprobe der Punkte

Mehr

ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D-73312 Geislingen Tel. +49 73 31 / 30 76-0 Fax +49 73 31 / 30 76-76 www.antares-is.

ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D-73312 Geislingen Tel. +49 73 31 / 30 76-0 Fax +49 73 31 / 30 76-76 www.antares-is. ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D-73312 Geislingen Tel. +49 73 31 / 30 76-0 Fax +49 73 31 / 30 76-76 www.antares-is.de insight und dynasight sind eingetragene Markenzeichen der

Mehr