Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen

Größe: px
Ab Seite anzeigen:

Download "Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen"

Transkript

1 Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen Hanna Köpcke AG 3: Objekt Matching

2 Agenda Problemstellung FEVER-System - Manuell definierte Match-Strategien - Trainingsbasierte Match-Strategien - Evaluierung Anwendungsszenarien Zusammenfassung

3 Erkennung von Dubletten (Objekt-Matching) Identifikation semantisch äquivalenter Objekte - z.b. zur Eliminierung, Fusion oder zum Datenvergleich - kritischer Schritt für hohe Datenqualität derzeit v.a. für strukturierte (relationale) Daten Quelle1: Kontakt KID Name Strasse Stadt Frau 11 Kristen Schmid Hanse Pl 2 Berlin 1 24 Christian Schmied Hanse Str 2 Berlin 0 Quelle2: Kunde Kdnr Nachname Vorname Geschl Adresse Telefon 11 Schmid Chris M Hansestr. 2, Bentwich 493 Schmid Kris L. W Hansa-Platz 2, Berlin

4 Dubletten in Ecommerce Webdaten

5 Herausforderungen Sehr ähnliche Attributwerte (Title, Beschreibung, Preis,..) für ähnliche aber unterschiedliche Produkte Heterogene Repräsentationen für das gleiche Produkt Geringe Datenqualität - Fehlende Angaben - Fehlerhafte Angaben Inakustik Star Lautsprecherkabel Inakustik Star Lautsprecherkabel Star Lautsprecherkabel 2 x 2,5 mm², transparent, Länge 10m Star Lautsprecherkabel 2 x 1,5 mm², transparent, Länge 10m Nikon Blitzgerät SB-900 = NIKON Speedlight SB-900 Leitzahl Blitzausleuchtung Brennweite mm

6 Objekt-Matching-Ansätze Zahlreiche Forschungsansätze und -prototypen sowie kommerzielle Lösungen Zumeist Nutzung von Ähnlichkeiten von Attributwerten - z.b. gemäß String-Ähnlichkeitsmaßen Probleme - Effektive Kombination mehrerer Match-Verfahren - Hoher Tuning-Aufwand für Konfigurierung (z.b. Auswahl relevanter Attribute, Ähnlichkeitsschwellwerte, Gewichtung einzelner Verfahren) - Laufzeit für große Datenmengen

7 FEVER Framework FEVER = Framework for EValuating Entity Resolution - System zur Definition, Konfigurierung und Evaluierung von Objekt-Matching (entity resolution )-Strategien Wesentliche Merkmale: - Flexible Kombination mehrerer Match-Verfahren im Rahmen von Objekt-Matching-Workflows - Semi-automatische Parameter-Konfigurierung, z.b. für Ähnlichkeitsschwellwerte - Unterstützung trainingsbasierter Match-Verfahren zur Reduzierung des manuellen Tuningaufwands - Vergleichende Analyse alternativer Verfahren

8 FEVER Architektur GUI Workflow Definition Optimization Workflow Execution Engine Preprocessing Blocking Matcher Combination Data Services Operator Library

9 Match Workflow Vorverarbeitung Blocking zur Reduzierung des Suchraumes - z.b. durch Clustering, Sorted Neighborhood Attribut-Matcher sowie Kontext-Matcher - zahlreiche Ähnlichkeitsfunktionen und externe Implementierungen Quelle 1 Quelle 2 Preprocess Preprocess Blocking Matcher 1 Matcher 2 Merge

10 Trainingsbasierte Strategien Nutzung von Trainingsdaten um effektive Kombination von Matchern und deren Konfigurierung zu bestimmen (supervised learning) In FEVER unterstützte Lernverfahren: - Entscheidungsbaum, Logistische Regression, SVM - Mehrheits-Lerner Produkttitel Preis Ä<80% Ä 80% Hersteller >50% 50% Ä<60% Ä 60%... +

11 Evaluation 4 Matchaufgaben mit 7 Datenquellen - bibliographisch: DBLP-ACM - E-Commerce: Abt-Buy DBLP-Google Scholar (GS) Amazon - GP bis zu 64,000 Objekte pro Quelle Perfektes Ergebnis bekannt - Manuell bestimmt bzw. über UPCs für Produktdaten Vergleich zwischen - kommerziellem Match-Ansatz mit Parameteroptimierung und trainingsbasierten Ansätzen

12 Tuning des kommerziellen Match-Ansatzes Bibliografisch ECommerce DBLP-ACM DBLP-Scholar Abt-Buy Amazon-GP 1 attribute 2 attributes 2 attributes (tuned)

13 Ergebnisse Matching von Publikationen

14 Ergebnisse Matching von Produkten

15 Anwendungsszenarien Integration und Aufbereitung unternehmensinterner und externer Daten (Webdaten) für weitergehende Analysen, z.b. für - Customer Relationship Management - Kundenbewertung analysieren - Erstellung von Konkurrenzanalysen (Produkt, Preis, Anbieter, Zielgruppen) Preisentwicklung -

16 Zusammenfassung Flexible Kombination mehrerer Match-Verfahren Semi-automatische Parameter-Konfigurierung, auch für externe Matchansätze Unterstützung trainingsbasierter Match-Verfahren zur Reduzierung des manuellen Tuningaufwands Gute Effektivität für bibliografische Probleme - F-Measure > 91% E-Commerce Daten deutlich schwieriger - F-Measure 77-86% Vergleich mit kommerzieller Lösung - Bis zu 15% höhere Performanz (F-Measure)

17 Vielen Dank für Ihre Aufmerksamkeit!

Innovationslabor Semantische Integration von Webdaten

Innovationslabor Semantische Integration von Webdaten Innovationslabor Semantische Integration von Webdaten Workflow-basierte Datenintegration und Objekt-Matching Dr. Andreas Thor http://dbs.uni-leipzig.de/format Workflow-basierte Datenintegration Ausgangspunkt

Mehr

Innovationslabor Semantische Integration von Webdaten

Innovationslabor Semantische Integration von Webdaten Innovationslabor Semantische Integration von Webdaten Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de/format Programmablauf Überblicksvortrag Prof. Rahm Feedback / Diskussion Vorstellung der Prototypen

Mehr

Continuous Information Quality Assessment in Stream Based Smart City Frameworks

Continuous Information Quality Assessment in Stream Based Smart City Frameworks Continuous Information Quality Assessment in Stream Based Smart City Frameworks 19. VDE/ITG Fachtagung Mobilkommunikation Osnabrück, 22.05.2014 Thorben Iggena Tel.: +49 541/969-2723 E-Mail: t.iggena@hs-osnabrueck.de

Mehr

Suchdienste für Dokumente

Suchdienste für Dokumente Wer aufhört zu werben, um Geld zu sparen, kann ebenso seine Uhr anhalten, um Zeit zu sparen. (Henry Ford, 1863-1947) Suchdienste für Dokumente Vergleich von Ansätzen zur Suche, Navigation und Präsentation

Mehr

Meeting the Challenges of Integrating Large and Diverse Geographic Databases

Meeting the Challenges of Integrating Large and Diverse Geographic Databases Meeting the Challenges of Integrating Large and Diverse Geographic Databases M. Sc. Michael Schäfers schaefers@dbs.uni-hannover.de 04. März 2014 Agenda: 1 Motivation: Räumliche Datenintegration 2 3 Take-Home-Message:

Mehr

Datenintegration für Big Data. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de

Datenintegration für Big Data. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de Datenintegration für Big Data Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 1 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten weltweit wurden in den

Mehr

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016 Citizen Data Science Balázs Bárány Linuxwochen Wien 2016 29. April 2016 Inhalt Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Daten holen Daten verstehen Daten-Vorverarbeitung Prädiktive

Mehr

Sechster ProSTEP Benchmark Teil 2: PDM Data Exchange

Sechster ProSTEP Benchmark Teil 2: PDM Data Exchange Sechster ProSTEP Benchmark Teil 2: PDM Data Exchange Erster Benchmark für den PDM-Datenaustausch im STEP-Format Der Austausch von CAD-Modellen mit Hilfe des neutralen Datenaustauschformats entsprechend

Mehr

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik Bearbeiter: Shuangqing He Betreuer: Toralf Kirsten, Michael Hartung Universität

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Informationsflut bewältigen - Textmining in der Praxis

Informationsflut bewältigen - Textmining in der Praxis Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland

Mehr

Einführung Software Domänenspezifische Anpassung Demo Ausblick. ERM mit OntoWiki. Andreas Nareike

Einführung Software Domänenspezifische Anpassung Demo Ausblick. ERM mit OntoWiki. Andreas Nareike Entwicklung eines Electronic Resource Management Systems für Bibliotheken auf Basis von Linked Data Technologien Institut für Informatik, UB Leipzig Universität Leipzig DINI AG KIM Workshop, 15 April 2014

Mehr

Matching von Produktdaten. Wie Sie mit Hilfe lernender Match-Algorithmen eine saubere Datenbasis schaffen.

Matching von Produktdaten. Wie Sie mit Hilfe lernender Match-Algorithmen eine saubere Datenbasis schaffen. Matching von Produktdaten Wie Sie mit Hilfe lernender Match-Algorithmen eine saubere Datenbasis schaffen. Matching von Produktdaten 2 Einleitung Ob Online-Shop oder Markenhersteller - Unternehmen zahlreicher

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Semantische Datenintegration: von der Theorie zur Anwendung

Semantische Datenintegration: von der Theorie zur Anwendung Semantische Datenintegration: von der Theorie zur Anwendung Prof. Dr. Heiner Stuckenschmidt Institut für Enterprise Systems Name und Datum www.uni-mannheim.de Seite 1 Teil I: Grundlagen Das Problem der

Mehr

DAFFODIL : Nutzerorientiertes Zugangssystem für heterogene Digitale Bibliotheken

DAFFODIL : Nutzerorientiertes Zugangssystem für heterogene Digitale Bibliotheken DAFFODIL : Nutzerorientiertes Zugangssystem für heterogene Digitale Bibliotheken C.-P. Klas N. Fuhr S. Kriewel A. Schaefer G. Fischer Informatik 2005 Outline Motivation Strategische Unterstützung Höhere

Mehr

e-business - Patterns Stefan Brauch (sb058) -- Julian Stoltmann (js057)

e-business - Patterns Stefan Brauch (sb058) -- Julian Stoltmann (js057) e-business - Patterns Stefan Brauch (sb058) -- Julian Stoltmann (js057) 1 e-business Patterns??? e-business Patterns Architekturen, die sich über die Zeit bewährt haben. Pattern-Fundgrube web-basierte

Mehr

Wo r k f l o ws i m C3- Gr i d Pr o j ek t

Wo r k f l o ws i m C3- Gr i d Pr o j ek t Wo r k f l o ws i m C3- Gr i d Pr o j ek t Analyse, Scheduling und Bearbeitung Christian Grimme 05.03.08 Gl i ed er u n g C3- Grid, ein Überblick Workflows im C3- Grid Beschreibung von Workflows Task-

Mehr

Datenidentifikation und -synchronisation: Grundlage zur Erfüllung der Qualitätsanforderungen beim Datenaustausch zwischen Systemen

Datenidentifikation und -synchronisation: Grundlage zur Erfüllung der Qualitätsanforderungen beim Datenaustausch zwischen Systemen Datenidentifikation und -synchronisation: Grundlage zur Erfüllung der Qualitätsanforderungen beim Datenaustausch zwischen Systemen Jürg Simonett Luzern, 26. März 2015 Datenaustausch zwischen Systemen Synchronisation

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken Profilbezogene informatische Bildung in den Klassenstufen 9 und 10 Schwerpunktthema Robby Buttke Fachberater für Informatik RSA Chemnitz Fachliche Einordnung Phasen relationaler Modellierung Fachlichkeit

Mehr

Ein Erfahrungsbericht beim Einsatz von generierenden Ansätzen im Vergleich zu generischen Lösungen

Ein Erfahrungsbericht beim Einsatz von generierenden Ansätzen im Vergleich zu generischen Lösungen Ein Erfahrungsbericht beim Einsatz von generierenden Ansätzen im Vergleich zu generischen Lösungen Tom Krauß Agenda Begriffsdefinition Verfahren Praktische Beispiele Vergleich und Bewertung Begriffsklärung

Mehr

erfolgreich steuern Datenqualität rä dpunkt.verlag Ldwi Praxislösungen für Business-Intelligence-Projekte Rüdiger Eberlein Edition TDWI

erfolgreich steuern Datenqualität rä dpunkt.verlag Ldwi Praxislösungen für Business-Intelligence-Projekte Rüdiger Eberlein Edition TDWI Detlef Apel Wolfgang Behme Rüdiger Eberlein Christian Merighi Datenqualität erfolgreich steuern Praxislösungen für Business-Intelligence-Projekte 3., überarbeitete und erweiterte Auflage Edition TDWI rä

Mehr

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert Maika Büschenfeldt Datenbanken: Skript 1 1. Was ist eine relationale Datenbank? In Datenbanken können umfangreiche Datenbestände strukturiert abgelegt werden. Das Konzept relationaler Datenbanken soll

Mehr

Entwicklung eines Electronic Resource Management Systems für Bibliotheken auf Basis von Linked Data Technologien

Entwicklung eines Electronic Resource Management Systems für Bibliotheken auf Basis von Linked Data Technologien Entwicklung eines Electronic Resource Management Systems für Bibliotheken auf Basis von Linked Data Technologien Lydia Unterdörfel, Björn Muschall Wissenschaftskommunikation im Semantischen Web (EFRE)

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Integration, Migration und Evolution

Integration, Migration und Evolution 14. Mai 2013 Programm für heute 1 2 Quelle Das Material zu diesem Kapitel stammt aus der Vorlesung Datenintegration & Datenherkunft der Universität Tübingen gehalten von Melanie Herschel im WS 2010/11.

Mehr

Datenqualität erfolgreich steuern

Datenqualität erfolgreich steuern Edition TDWI Datenqualität erfolgreich steuern Praxislösungen für Business-Intelligence-Projekte von Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi 3., überarbeitete und erweiterte Auflage

Mehr

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft Prof. Dr. Anett Mehler-Bicher Fachhochschule Mainz, Fachbereich Wirtschaft Prof. Dr. Klaus Böhm health&media GmbH 2011 health&media

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen

Mehr

Web Mining und Farming

Web Mining und Farming Web Mining und Farming Shenwei Song Gliederung Übersicht über Web Mining und Farming Web Mining Klassifikation des Web Mining Wissensbasierte Wrapper-Induktion Web Farming Übersicht über Web-Farming-Systeme

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Regelbasiertes Routing unstrukturierter Daten

Regelbasiertes Routing unstrukturierter Daten Regelbasiertes Routing unstrukturierter Daten Mittwoch, 16. September 2015, Developer Academy Thomas Nitzsche, Sales Engineer Regelbasiertes Routing unstrukturierter Daten Überblick Ziel: Regelbasiertes

Mehr

Integration lokaler Daten in ifuice

Integration lokaler Daten in ifuice : Integration lokaler Daten in ifuice Bearbeiter: Sarah Gebhardt Betreuer: Andreas Thor Seite 1 Motivation Warum eine Integration lokaler Daten? Viele Infos im Web, aber andere Listen im Web, aber nicht

Mehr

Insight 2011. Anforderungsanalyse für SOA Services. Dr. Gregor Scheithauer OPITZ CONSULTING München GmbH Björn Hardegen MID GmbH

Insight 2011. Anforderungsanalyse für SOA Services. Dr. Gregor Scheithauer OPITZ CONSULTING München GmbH Björn Hardegen MID GmbH Insight 2011 Anforderungsanalyse für SOA Services bei einer deutsche Behörde Dr. Gregor Scheithauer OPITZ CONSULTING München GmbH Björn Hardegen MID GmbH Nürnberg, 29. November 2011 MID Insight 2011 Seite

Mehr

Ausgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz

Ausgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz Ausgangspunkt Datenintegration Web Informationssysteme Wintersemester 2002/2003 Donald Kossmann Daten liegen in verschiedenen Datenquellen (Extremfall: jede URL eigene Datenquelle) Mietautos bei www.hertz.com

Mehr

Komponenten für kooperative Intrusion Detection in dynamischen Koalitionsumgebungen

Komponenten für kooperative Intrusion Detection in dynamischen Koalitionsumgebungen Komponenten für kooperative Intrusion Detection in dynamischen Koalitionsumgebungen Marko Jahnke /F Neuenahrer Str. 20 D-53343 Wachtberg jahnke@fgan.de Unter Mitarbeit von Sven Henkel, Michael Bussmann

Mehr

Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17 Dr. Armin Roth arminroth.de 27.04.2013 Dr. Armin Roth (arminroth.de) II Duplikaterkennung 27.04.2013 1 / 17 Agenda 1 Wiederholung: Datenwertintegration 2 Duplikaterkennung Dr. Armin Roth (arminroth.de)

Mehr

Evaluation von Open-Source-Software für System Dynamics hinsichtlich deren Integrierbarkeit

Evaluation von Open-Source-Software für System Dynamics hinsichtlich deren Integrierbarkeit Evaluation von Open-Source-Software für System Dynamics hinsichtlich deren Integrierbarkeit Axel Hummel 1, Heiko Kern 1, Christian Böhme 2, René Keßler 2 und Arndt Döhler 2 1 Betriebliche Informationssysteme,

Mehr

MHP Real-Time Business Solution Ihre Lösung zur Harmonisierung und Analyse polytechnischer Messdaten

MHP Real-Time Business Solution Ihre Lösung zur Harmonisierung und Analyse polytechnischer Messdaten MHP Real-Time Business Solution Ihre Lösung zur Harmonisierung und Analyse polytechnischer Messdaten Christian Hartmann Präsentation Business Solutions 2014 Mieschke Hofmann und Partner Gesellschaft für

Mehr

Software Engineering Projekt WS2003/2004 ELF. Persistenz. Serge Didier Bedime 28.11.03

Software Engineering Projekt WS2003/2004 ELF. Persistenz. Serge Didier Bedime 28.11.03 Persistenz -1- Einführung Konventionelle Dateiverwaltung Datenbanksystem() Xindice als Datenbankbeispiel Zusammenfassung -2- Einführung Definition I Persistence ist the property of an object through which

Mehr

OrViA. Orchestrierung und Validierung integrierter Anwendungssysteme. Julia Wagner Senior Manager ARIS Research IDS Scheer AG PROJEKTTRÄGER

OrViA. Orchestrierung und Validierung integrierter Anwendungssysteme. Julia Wagner Senior Manager ARIS Research IDS Scheer AG PROJEKTTRÄGER OrViA Orchestrierung und Validierung integrierter Anwendungssysteme Julia Wagner Senior Manager ARIS Research IDS Scheer AG PROJEKTTRÄGER Agenda Einleitung Problemstellung Ansatz Erste Ergebnisse Zusammenfassung

Mehr

Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels

Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels TDWI Konferenz München, 24.06.2014 M.Sc.Susann Dreikorn Institut für Wirtschaftsinformatik, 2014 Agenda

Mehr

Entwicklung von Data-Warehouse-Systemen

Entwicklung von Data-Warehouse-Systemen Matthias Goeken Entwicklung von Data-Warehouse-Systemen Anforderungsmanagement, Modellierung, Implementierung Mit einem Geleitwort von Prof. Dr. Ulrich Hasenkamp Deutscher Universitäts-Verlag Inhaltsverzeichnis

Mehr

Vom Geschäftsprozess zum Workflow

Vom Geschäftsprozess zum Workflow Jakob Freund Klaus Götzer Vom Geschäftsprozess zum Workflow Ein Leitfaden für die Praxis HANSER Inhalt 1 Einleitung 1 1.1 Die Geschichte der Prozesse 1 1.2 Aktuelle Herausforderungen 2 1.3 Business Process

Mehr

Bernd Weiser. Ein System zur Anwendung von Push-Konzepten in E-Commerce-Transaktionen

Bernd Weiser. Ein System zur Anwendung von Push-Konzepten in E-Commerce-Transaktionen Bernd Weiser Ein System zur Anwendung von Push-Konzepten in E-Commerce-Transaktionen Verzeichnisse Inhaltsverzeichnis Abbildungsverzeichnis Tabellenverzeichnis VI XI Kapitel 1: Einleitung 1 1.1 Problemstellung

Mehr

Luca Piras SharePoint Specialist it-function software GmbH

Luca Piras SharePoint Specialist it-function software GmbH Luca Piras SharePoint Specialist it-function software GmbH Agenda Fazit & Ausblick BPM Vision Lösungsideen SharePoint & WfM Workflow Baukasten Die Business Process Management Vision Problemstellungen Komplexität

Mehr

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Bessere Daten durch Stammdatenmanagement

Bessere Daten durch Stammdatenmanagement make connections share ideas be inspired Bessere Daten durch Stammdatenmanagement Mit SAS MDM, bessere Stammdaten für operativen Systeme make connections share ideas be inspired Overview Mit SAS MDM bessere

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Bibliothekarische Fortbildung in Deutschland.

Bibliothekarische Fortbildung in Deutschland. Herbsttagung des Arbeitskreises kritischer BibliothekarInnen im Renner-Institut, Wien Fortbildung auf neuen Wegen Bibliothekarische Fortbildung: Strukturen - Defizite - Kooperation 23. - 25. November 2001

Mehr

SAP SharePoint Integration. e1 Business Solutions GmbH

SAP SharePoint Integration. e1 Business Solutions GmbH SAP SharePoint Integration e1 Business Solutions GmbH Inhalt Duet Enterprise Überblick Duet Enterprise Use Cases Duet Enterprise Technologie Duet Enterprise Entwicklungs-Prozess Duet Enterprise Vorteile

Mehr

Einteilung von Datenbanken

Einteilung von Datenbanken Datenbanksysteme (c) A.Kaiser; WU-Wien 1 Einteilung von Datenbanken 1. formatierte Datenbanken 2. unformatierte Datenbanken Information Retrieval Systeme 2 Wozu Datenbanken? Speicherung und Verwaltung

Mehr

Intelligente Informationssysteme CoreMedia Smart Content Technology. Grundlagen

Intelligente Informationssysteme CoreMedia Smart Content Technology. Grundlagen Intelligente Informationssysteme CoreMedia Smart Content Technology Grundlagen Gunar Fiedler CAU Kiel, Institut für Informatik und Praktische Mathematik Arbeitsgruppe Technologie der Informationssysteme

Mehr

BEST PRACTICE: VOM GIEßKANNEN-PRINZIP ZUR EFFEKTIVEN DATA GOVERNANCE HAGEN TITTES

BEST PRACTICE: VOM GIEßKANNEN-PRINZIP ZUR EFFEKTIVEN DATA GOVERNANCE HAGEN TITTES BEST PRACTICE: VOM GIEßKANNEN-PRINZIP ZUR EFFEKTIVEN DATA GOVERNANCE HAGEN TITTES Das Unternehmen Das Unternehmen Vorwerk: seit seiner Gründung 1883 ein Familienunternehmen Geschäftsvolumen 2013: 3,1 Milliarden

Mehr

Praxisbeispiel Blended Learning Kurs M153 Datenmodelle entwickeln und umsetzen

Praxisbeispiel Blended Learning Kurs M153 Datenmodelle entwickeln und umsetzen Praxisbeispiel Blended Learning Kurs M153 Datenmodelle entwickeln und umsetzen wurde am 3. April 2004 als Innovatives Bildungsprojekt Schweiz am Blended Learning Forum ausgezeichnet. Walter Schnider KPP

Mehr

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling 30. Juni 2006 - Technische Universität Kaiserslautern Paul R. Schilling ! " #$% & '( ( ) *+, - '. / 0 1 2("$ DATEN SIND ALLGEGENWÄRTIG Bill Inmon, father of data warehousing Unternehmen In einer vollkommenen

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

EFFIZIENTE MAPREDUCE- PARALLELISIERUNG VON ENTITY RESOLUTION-WORKFLOWS

EFFIZIENTE MAPREDUCE- PARALLELISIERUNG VON ENTITY RESOLUTION-WORKFLOWS Universität Leipzig Fakultät für Mathematik und Informatik Institut für Informatik EFFIZIENTE MAPREDUCE- PARALLELISIERUNG VON ENTITY RESOLUTION-WORKFLOWS Dissertation zur Erlangung des akademischen Grades

Mehr

KOMPLEXITÄT BEGREIFEN. LÖSUNGEN SCHAFFEN. viadee crm. Transparente Prozesse und vertrauenswürdige Daten als Fundament Ihrer Entscheidungen

KOMPLEXITÄT BEGREIFEN. LÖSUNGEN SCHAFFEN. viadee crm. Transparente Prozesse und vertrauenswürdige Daten als Fundament Ihrer Entscheidungen KOMPLEXITÄT BEGREIFEN. LÖSUNGEN SCHAFFEN. viadee crm Transparente Prozesse und vertrauenswürdige Daten als Fundament Ihrer Entscheidungen VIADEE CRM VIEL MEHR ALS EIN STÜCK SOFTWARE Eine Vielzahl von unterschiedlichen

Mehr

BARC-Intensivseminar Auswahl von Enterprise-Content- Management-Lösungen. Martin Böhn

BARC-Intensivseminar Auswahl von Enterprise-Content- Management-Lösungen. Martin Böhn BARC-Intensivseminar Auswahl von Enterprise-Content- -Lösungen Würzburg, 07. Mai 2007 Martin Böhn Wiesenweg 31 D-97084 Würzburg +49-931-8806510 www.barc.de Seminaragenda 1 Begrüßung, und Vorstellung, Erwartungen

Mehr

Analyse von Zitierungshäufigkeiten für die Datenbankkonferenz BTW

Analyse von Zitierungshäufigkeiten für die Datenbankkonferenz BTW HANNA KÖPCKE. ERHARD RAHM für die Datenbankkonferenz BTW In diesem Beitrag präsentieren wir eine Auswertung zur Häufigkeit von Zitierungen der Publikationen, die im Rahmen der zehn BTW-Tagungen von bis

Mehr

wirtschaftsinformatik im hauptstudium:

wirtschaftsinformatik im hauptstudium: wirtschaftsinformatik im hauptstudium: einführung in erp 03/2000 martin finkbeiner 1 inhalt theoretische grundlagen erp am beispiel sap r/3 praktische anwendung eines r/3 moduls mit uebungen 03/2000 martin

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

DYONIPOS: Wissenszentrierte Unterstützung und Steuerung von Prozessen

DYONIPOS: Wissenszentrierte Unterstützung und Steuerung von Prozessen DYONIPOS: Wissenszentrierte Unterstützung und Steuerung von Prozessen Ein Pilotprojekt mit dem Bundesministerium für Finanzen 07.09.2006, I-KNOW 06 Doris Reisinger [m2n consulting and development gmbh]

Mehr

Inhaltsverzeichnis. I Geschäftsprozesse - Warum?.' 1

Inhaltsverzeichnis. I Geschäftsprozesse - Warum?.' 1 I Geschäftsprozesse - Warum?.' 1 1.1 Aufbauorganisation 1 1.2 Ablauforganisation: Organisationsverbindende Prozesse 3 1.3 Geschäftsprozess - Definition 4 1.4 Statische und dynamische Prozesse 8 1.5 Detaillierungsgrade

Mehr

Integration von digitalen Bibliotheken in Learning-Management-Systeme

Integration von digitalen Bibliotheken in Learning-Management-Systeme Integration von digitalen Bibliotheken in Learning-Management-Systeme LEBONED (Learning Environment Based On Non Educational Digital Libraries) Dipl.-Inform. Frank Oldenettel Dipl.-Inform. Michael Malachinski

Mehr

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT DIE DATEN IM ZENTRUM: SAS DATA RAINER STERNECKER SOLUTIONS ARCHITECT SAS INSTITUTE SOFTWARE GMBH Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d. NEUE WEGE GEHEN SAS DATA GOVERNANCE & QUALITY

Mehr

Moderne Informationsarchitektur mit Drupal

Moderne Informationsarchitektur mit Drupal Moderne Informationsarchitektur mit Drupal Hochschule Bonn-Rhein-Sieg Relaunch der Website Jutta Horstmann Dipl. Inf., Dipl. Pol. Data in Transit GmbH Geschäftsführerin Agenda Vorstellung Data in Transit

Mehr

Inhaltsverzeichnis. 1. Fragestellung

Inhaltsverzeichnis. 1. Fragestellung Inhaltsverzeichnis 1. Fragestellung... 1 2. Herleitung zum Thema... 1 3. Das Entity Relationship Modell (ERM)... 2 4. Praktisches Beispiel zum ERM... 7 5. Anhang...Fehler! Textmarke nicht definiert. 1.

Mehr

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG DB Fernverkehr AG Dr.-Ing. Axel Schulz, Dr. Matthias Platho P.FMB 2, DB Fernverkehr AG Frankfurt, 22.05.2015 Motivation An meinem

Mehr

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad Datenqualität mit dem DataFlux dfpower Studio 8.1 Tobias Jansen Zaferna-Hütte, 4. Januar 2009 Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter Nasa Marssonde Mars Climate Orbiter

Mehr

On the Consistency of Spatial Semantic Integrity Constraints. Konsistenzprüfung von räumlichen semantischen Integritätsregeln.

On the Consistency of Spatial Semantic Integrity Constraints. Konsistenzprüfung von räumlichen semantischen Integritätsregeln. On the Consistency of Spatial Semantic Integrity Constraints Konsistenzprüfung von räumlichen semantischen Problemstellung Geographische Daten werden immer häufiger dezentral gehalten und mithilfe vernetzter

Mehr

BPM: Integrierte Prozesse im ecommerce

BPM: Integrierte Prozesse im ecommerce BPM: Integrierte Prozesse im ecommerce Vom Geschäftsprozess bis zur lauffähigen Applikation. Thomas Grömmer Head of Business Process Solutions Ulf Ackermann Consultant Business Process Solutions Solution

Mehr

aseaco Central Master Data Management Framework - Whitepaper -

aseaco Central Master Data Management Framework - Whitepaper - aseaco Central Master Data Management Framework - Whitepaper - Autor: Udo Zabel Das aseaco Central Master Data Management Framework (CMDMF) ermöglicht erfolgreiches kollaboratives Stammdatenmanagement

Mehr

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen Datenintegration Datenintegration Kapitel 3: Eigenschaften von Integrationssystemen Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Einordnung

Mehr

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining Das Knowledge Grid Eine Architektur für verteiltes Data Mining 1 Gliederung 1. Motivation 2. KDD und PDKD Systeme 3. Knowledge Grid Services 4. TeraGrid Projekt 5. Das Semantic Web 2 Motivation Rapide

Mehr

Bürger Services aus dem E-Shop. Friedrich Steinbrucker Krems, 25. Mai 2007

Bürger Services aus dem E-Shop. Friedrich Steinbrucker Krems, 25. Mai 2007 Bürger Services aus dem E-Shop Friedrich Steinbrucker Krems, 25. Mai 2007 E-Government Masterplan: Ziele E-Government ist Bürgerfreundlich (E-Inclusion) Effektiv (zusätzliches Bürger Service) + Effizient

Mehr

Multiagentensysteme in der rückführenden Logistik

Multiagentensysteme in der rückführenden Logistik Multiagentensysteme in der rückführenden Logistik Dirk Braunisch Multiagentensysteme in der rückführenden Logistik Entwurf einer Systemarchitektur zur Steigerung der Prozesseffizienz durch dynamische

Mehr

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009 Datenqualität: allgemeiner Überblick Waldemar Braun Seminar Datenqualität OvGU Magdeburg Gliederung 1. Einleitung 2. Motivation 3. Definition 4. DQ-Probleme 5. DQ-Dimensionen 6. DQ-Modelle 7. Messen der

Mehr

Cross-Media-Publishing im E-Learning Umfeld

Cross-Media-Publishing im E-Learning Umfeld Cross-Media-Publishing im E-Learning Umfeld Referent: Dipl.-Inf. Torsten Heinrich Fachhochschule Brandenburg Deckblatt_neu Überblick Zielsetzungen Merkmale Cross-Media-Publishing Das movii-system Publizieren

Mehr

Integration verteilter Datenquellen in GIS-Datenbanken

Integration verteilter Datenquellen in GIS-Datenbanken Integration verteilter Datenquellen in GIS-Datenbanken Seminar Verteilung und Integration von Verkehrsdaten Am IPD Lehrstuhl für Systeme der Informationsverwaltung Sommersemester 2004 Christian Hennings

Mehr

Data Warehousing in der Lehre

Data Warehousing in der Lehre Data Warehousing in der Lehre Prof. Dr.-Ing. Tomas Benz Dipl.-Inform. Med. Alexander Roth Agenda Vorstellung Fachhochschule Heilbronn Vorstellung i3g Vorlesungen im DWH-Bereich Seminare Projekte Studien-

Mehr

Jenseits der Datenbank: Ausweg zu verkaufen. Vorsprung im Wettbewerb durch one to one - Marketing

Jenseits der Datenbank: Ausweg zu verkaufen. Vorsprung im Wettbewerb durch one to one - Marketing Jenseits der Datenbank: Ausweg zu verkaufen Vorsprung im Wettbewerb durch one to one - Marketing Erfahrungen im Vertrieb 2004 Regionalisierung der Kundenstruktur Aufträge werden kleiner Kunden verhalten

Mehr

NHibernate vs. Entity Framework

NHibernate vs. Entity Framework Manfred Steyer CAMPUS 02 softwarearchitekt.at NHibernate vs. Entity Framework Ziele NHibernate und Entity Framework sowie deren Unterschiede kennen lernen 1 Agenda Kriterien Beispiel mit EF Beispiel mit

Mehr

Inhaltsverzeichnis. Jakob Freund, Klaus Götzer. Vom Geschäftsprozess zum Workflow. Ein Leitfaden für die Praxis ISBN: 978-3-446-41482-2

Inhaltsverzeichnis. Jakob Freund, Klaus Götzer. Vom Geschäftsprozess zum Workflow. Ein Leitfaden für die Praxis ISBN: 978-3-446-41482-2 Inhaltsverzeichnis Jakob Freund, Klaus Götzer Vom Geschäftsprozess zum Workflow Ein Leitfaden für die Praxis ISBN: 978-3-446-41482-2 Weitere Informationen oder Bestellungen unter http://www.hanser.de/978-3-446-41482-2

Mehr

Logistikmanagement aus Kundensicht, ein unterschätztes Potenzial

Logistikmanagement aus Kundensicht, ein unterschätztes Potenzial Logistikmanagement aus Kundensicht, ein unterschätztes Potenzial INHALTSVERZEICHNIS INHALT MANAGEMENT DES NETZWERKS LOGISTIKPROZESSE TRANSPARENZ INOS JG CONSULTING Management des Supply-Netzwerks Logistikprozesse

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

Datenbanken. Erstellen des Semantischen Modells. Manuel Friedrich. Schiller-Gymnasium Hof

Datenbanken. Erstellen des Semantischen Modells. Manuel Friedrich. Schiller-Gymnasium Hof Datenbanken Erstellen des Semantischen Modells Die Objektorientierte Sichtweise! Die Objektorientierte Sichtweise! Alles ist ein Objekt! Mensch Lehrgang Produkt Kunde Lieferant Beispiel Kreis Linienfarbe

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

Analytisches CRM in der Automobilindustrie

Analytisches CRM in der Automobilindustrie Analytisches CRM in der Automobilindustrie Dr. Frank Säuberlich Practice Manager European Customer Solutions Urban Science International GmbH Automobilhersteller müssen neue Wege gehen Anforderungen in

Mehr

DIGITALE TRANSFORMATION MITTELSTAND POTENTIALE FÜR PROZESS-, PRODUKT- UND DIENSTLEISTUNGSINNOVATION

DIGITALE TRANSFORMATION MITTELSTAND POTENTIALE FÜR PROZESS-, PRODUKT- UND DIENSTLEISTUNGSINNOVATION DIGITALE TRANSFORMATION MITTELSTAND POTENTIALE FÜR PROZESS-, PRODUKT- UND DIENSTLEISTUNGSINNOVATION Dr. Daniel Jeffrey Koch Fraunhofer IAIS 19. Oktober 2015 1 Die Fraunhofer-Gesellschaft Forschen für die

Mehr

Redaktionelles Arbeiten auf Basis von Big-Data Methoden aus der Rundfunk/Fernseh-Perspektive

Redaktionelles Arbeiten auf Basis von Big-Data Methoden aus der Rundfunk/Fernseh-Perspektive Redaktionelles Arbeiten auf Basis von Big-Data Methoden aus der Rundfunk/Fernseh-Perspektive Institut für Rundfunktechnik, 17. Februar 2014 Norbert Pillmayer, BU-Leiter Software Solutions, NorCom Information

Mehr

Oracle Scorecard & Strategy Management

Oracle Scorecard & Strategy Management Oracle Scorecard & Strategy Management Björn Ständer ORACLE Deutschland B.V. & Co. KG München Schlüsselworte: Oracle Scorecard & Strategy Management; OSSM; Scorecard; Business Intelligence; BI; Performance

Mehr