3rd IQ Best Practice Day 2007

Ähnliche Dokumente
Vertrag inkl. Bestellschein SQLape-Monitor

Klicken Sie auf Weiter und es erscheint folgender Dialog

Indizes. Index. Datenfeld Normale Tabelle. Gesucht wird: Zugriff. 3. Zugriff 1. Zugriff.

Aufbau einer Import-Datei

A BFRAGEN IN M ICROSOFT A CCESS

Proseminar String Matching

Flächenangaben Anzeigen Beschreibung Datensatzstrukturen tracciati record

Datenübernahme in ADITO AID 013 DE

ETL-Industrialisierung mit dem OWB Mapping Generator. Irina Gotlibovych Senior System Beraterin

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Tabellenkalkulation 1. Einheit 5 Rechnerpraktikum EDV

Microsoft Access Integritätsregeln für Tabellen. Anja Aue

SQL Data Manipulation Language (DML) und Query Language (QL)

Allgemeiner Import-Ablauf

Microsoft Access 2010 und Excel Leibniz Universität IT Services Anja Aue

Dynamische XML-Verarbeitung

Handbuch organice ExcelTransfer

Microsoft Access Relationen. Anja Aue

Wie erreiche ich was?

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.

SQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT

Tutorial Excel Übung 9 Datenbanken III -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 9.

Effiziente Algorithmen 2

Anleitung CSV-Import KLR-Zuordnungen - Version: Draft

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle

SQL-Abfragen selbst gemacht SAP Business One

Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments

Daten Import. 2. Daten für Import aufbereiten allgemeines Überblick

SJ PROMA. SJ Software. Bauzeitenpläne / Projekt- und Terminplanung Mit allen wichtigen Funktionen für eine komfortable Zeitplanung

(Bamberg)

Algorithmische Bioinformatik 1

Entwurf. Anwendungsbeginn E DIN EN (VDE ): Anwendungsbeginn dieser Norm ist...

Microsoft Access 2010 Daten importieren

Whitepaper. Produkt: combit Relationship Manager 5. Import von Adressen nach Firmen und Personen. combit GmbH Untere Laube Konstanz

Vortrag im Rahmen der Veranstaltung Anwendungen 1

Anwendung von Vektormodell und boolschem Modell in Kombination

Objektkatalog für das Straßen- und Verkehrswesen Änderungsantrag. Änderung Nr. A0002 Datum Kategorie Erweiterung Bearbeiter Peter Rauen

Gesichtsidentifikation mit dem Erkennungssystem FaceVACS SDK der Firma Cognitec

Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen

DFBnet-Vereinsverwaltung

Naive Bayes für Regressionsprobleme

OpenOffice - Base G. Laner 1

Benutzerhandbuch Business-Mailingmanager

Wirtschaftsinformatik

Dienstleistungsportal der deutschen Bürgschaftsbanken

Evaluation Sport JST 3

Neue Funktionen und Konzepte in emikat.at

Relationales Datenbankpraktikum 2016ss

Bayesianische Netzwerke - Lernen und Inferenz

Software mikropro hades

Zur automatisierten Berechnung steht die Software PhytoFluss Version 2.2 (Böhmer & Mischke 2011) zur Verfügung (s. Abb. 1).

Identitätsmanagement - HIS-Schnittstellen Folke-Gert Stümpel

Excel 2016 Pivot Tabellen und Filter Daten professionell auswerten

Wie erreiche ich was?

Technologische Analysen im Umfeld Sozialer Netzwerke

IN-FIBU. Finanzbuchhaltung leicht gemacht!

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Ein Beispiel: Tabelle DICHTER

CSV-Import von Kontakten. Leicht gemacht

Data Mining auf Datenströmen Andreas M. Weiner

ER-Modell, Normalisierung

Entwurf und Umsetzung eines Werkzeugs für die Fluchtwegplanung

Handbuch OEE Abteilung Rechner. Viktor Bitter

Algorithmen und Datenstrukturen

Der Importmanager in VENTA KVM

Automatische Beschlagwortung mit dem Vokabular der Schlagwortnormdatei (SWD) und der Personennamendatei (PND) Erfahrungen aus dem DNB-Projekt PETRUS

So geht s Schritt-für-Schritt-Anleitung

Praktische Eine Einführung

XML-Translation Engine

Erste Schritte in etab

CLICK TO EDIT MASTER TITLE STYLE

N table. Das Tabellen-Tool von N counter. Spart Zeit für das Wesentliche

Wettspiele auswerten

Anleitung zum Exportieren von Gewerbedaten

Schema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23

DataManagement. smcdatamanagement - SQL-Tabellen verwalten für jedermann

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup März 2015

Erste Schritte in PROLab

Dieses Dokument wurde anfangs Juli 2010 von Niklaus Giger erstellt.

Import von Benutzerdaten

Microsoft Access Abfragen: Informationen anzeigen und sortieren

Benutzerhandbuch Beispielapplikation Finanzsituation

Abfragen aus mehreren Tabellen (mit join)

Datenbank und Tabelle mit SQL erstellen

Projektmanagement-Software von Can Do Neues in der Update-Version 5.1 (Unterschied zu 5.0)

Einstieg in die Informatik mit Java

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Cognitive Interaction Technology Center of Excellence

Matching (Duplikaterkennung)

Der Tabellenname wird in Grossbuchstaben geschrieben.

Wie erreiche ich was?

Korrektur: dpw-abwesenheiten. Krankheit Angestellter Anspruchserhöhung erfolgt zu früh

Aktueller Stand Entwicklung eines Parser- und Instrumentierungssystems für den strukturorientierten Programmtest

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien

Vorkurs: Java-Einführung

Importdatei Grobkoordinaten mit Excel erstellen und bearbeiten

CSV Import WP-Meldung.doc

ANLEITUNG. Dienstplan im Excel - Schema

Transkript:

1 3rd IQ Best Practice Day 2007 Klaus Koch, Torsten Kaup, Felix Michels, Daniel Elsner, Bernhard Kurpicz, Dirk Malzahn Schema Matching Automatische Erkennung semantisch gleicher Attribute Frankfurt am Main, 22. Mai 2007

2 Gliederung Vorstellung des Teams Hintergrund der Thematik Schema-Matching Genereller Ablauf des Lösungsansatzes Unsere Software: Hot Match! Vorstellung der Matching-Algorithmen Ausblick Live Präsentation

3 Das Team DaQuMa Westfalen gegründet zum 3rd IQ-Contest 2006 Klaus Koch Torsten Kaup Felix Michels Daniel Elsner Dirk Malzahn Bernhard Kurpicz

Hintergrund der Thematik Schema-Matching Worum geht es? 4 1. Vergleich der Spalten und Daten zweier Tabellenschemata 2. Finden von möglichen Matchings innerhalb der Tabellen ID Firmenname ID Firma 1 Accel 2 Accel GmbH

Hintergrund der Thematik Schema-Matching Was ist zu tun? 5 Definition von Ähnlichkeitsmerkmalen Auswertung dieser Merkmale durch Algorithmen automatisierte ti i t Analyse der Tabellenspalten lt Aufbereitung des Analyse-Ergebnisses zur weiteren Verarbeitung

6 Genereller Ablauf des Schema-Matchings 1. Einlesen der Schema-Informationen 2. Erstellung einer Ähnlichkeitsmatrix 3. Verbesserung der Ähnlichkeitsmatrix durch mehrstufige Anwendung von verschiedensten Suchalgorithmen 4. Auswertung anhand eines Kombinationsalgorithmus zu einem Schema-Matching

Hot Match! 7 Allgemeine Vorgehensweise automatischer Import von Schemainformationen Format: Microsoft Excel Auswahl der gewünschten Suchalgorithmen modularer Aufbau, dadurch leichte Erweiterbarkeit Generierung der Ähnlichkeitsmatrix durch Suchalgorithmen Kombinationsalgorithmus finden optimaler Werte in der Matrix

Hot Match! Implementierte Suchalgorithmen 8 Syntaktischer Vergleich der Spaltennamen Dictionary zur Analyse nicht-gleichsprachlicher Schemata Einheitensuche Kategoriensuche

Syntaktischer Vergleich der Spaltennamen I Berechnung der mittleren Übereinstimmung über die Wortlänge 9 Zeichenfolgen können sein: Spaltenbezeichnungen Feldinhalte Anzahl der Buchstaben: 8 Anzahl der Buchstaben: 4 Nachname Name Anzahl identischer Buchstaben: 4 Mittlere Wortlänge: (8 + 4) / 2 = 6 Buchstaben Syntaxkoeffizient: 4 / 6 = 0,67 M SY ( AB) ID = LengthA + 2 AB Length B

10 Syntaktischer Vergleich der Spaltennamen II Beispiel für hinterlegte Methodik Ansatz: Ermittlung der syntaktischen Überdeckung auf Basis der Zeichen zu vergleichender Feldnamen. Beispiel 1 syntaktische Abhängigkeiten A = {Strasse} B={Str} C={Name} A und B enthalten identische Buchstaben. Daraus folgt: IDAB = 3. MSY AB = IDAB = 3 = 3 = 0,6 #A + #B 7+3 = 5 2 2 MSY AC = 2 = 2 = 0,33 7+4 = 6 2 Die größere Gemeinsamkeit hat demnach auch rechnerisch A und B (Wert 0,6) und nicht A und C (Wert 0,33). Ein Mapping würde also für MSY AB = 0,6 durchgeführt werden.

Ergebnis Syntaktischer Vergleich Ähnlichkeitsmatrix 11 ID FIRSTNAME LASTNAME STREET_ADDRESS CITY ZIP_CODE COUNTRY PHONE_NUMBER COMPANY AUTO_MODEL PID 0,80 0,17 0,00 0,12 0,29 0,55 0,00 0,13 0,20 0,00 VNAME 0,00 0,57 0,62 0,21 0,00 0,15 0,17 0,35 0,33 0,27 NNAME 0,00 0,57 0,62 0,22 0,00 0,15 0,17 0,47 0,50 0,40 TELEFON 0,00 0,50 0,53 0,30 0,00 0,27 0,43 0,42 0,29 0,35 GEBURTSORT 0,00 0,32 0,22 0,35 0,14 0,22 0,47 0,45 0,12 0,40 JOB 0,00 0,00 0,00 0,00 0,00 0,18 0,20 0,27 0,20 0,15 VEREIN 0,25 0,53 0,43 0,30 0,20 0,29 0,31 0,44 0,15 0,13 POSITION 0,20 0,47 0,38 0,18 0,33 0,38 0,40 0,30 0,20 0,33

Die Algorithmen von Hot Match! 12 Dictionary Identifiziert mehrsprachige Spaltennamen anhand einer hinterlegten Übersetzungsdatenbank Ausgewähltes Dictionary: Deutsch / Englisch Vergleich: Vorname zu Firstname 1. Syntaktikvergleich: Koeffizient: 4/8 = 0,5 2. Syntaktikvergleich nach Anwendung des Dictionarys: Koeffizient: 1,0

Die Algorithmen von Hot Match! 13 Einheitensuche bestimmt Matches über Einheitenkonvertierung von Werten durchsucht Spaltennamen und Daten nach definierten Einheitenkürzeln Erweiterbarkeit des Algorithmus über datenbankbasierende Kürzeldefinitionen findet Einheitenkonvertierung durch bekannte Konvertierungsfunktionen einfaches Beispiel: 1000g = 1kg

Die Algorithmen von Hot Match! 14 Kategoriesuche findet Matchings anhand von Ähnlichkeiten der Daten Analyse der Daten jeder Spalte auf Kategorieeigenschaften nur eine geringe Anzahl von unterschiedlichen Dateneinträgen vorhanden sucht Spalten die sich in ihrer Kategorieeigenschaft ähneln erstellt ein Matching dieser Spalten Beispiel: boolsche Felder, Dropdownliste

15 Hot Match! Ausblick Datumssuche identifiziert Datumseinträge (Tag, Monat, Jahr, Woche ) verfügt über eine Menge von Beziehungen zwischen Datumseinträgen Zusammenfügung Verallgemeinerung g Spezialisierung Untermengenbildung bildet Matching aus gefunden Beziehungen Spalte Geburtsdatum identifiziert tag, monat, jahr findet Beziehung Datum = concat(tag, monat, jahr) Matching: Geburtsdatum = concat(geburtstag, Geburtsmonat, Geburtsjahr)

Hot Match! Ausblick Numerische Suche 16 Findet Ähnlichkeiten bei Wertebereichen von Spalten Findet Ähnlichkeiten bei Wertebereichen von berechneten Spalten Matcht Spalten die in ihrer Wahrscheinlichkeitsfunktion Ahnlichkeiten aufweisen

Live Präsentation 17

Vielen Dank für Ihre Aufmerksamkeit! 18

19 Fazit unsere Software liegt irgendwo zwischen Genie und Wahnsinn

Die Algorithmen von Hot Match! Schema-Mismatch-Suche 20 Vergleicht die Daten eines Schemas mit dem Schema eines anderen identifiziert zuerst binäre Attribute eines Schemas durchsucht dann die Daten des Vergleichsschemas nach der Spaltenbezeichnung des binären Attributs Matching, wenn in einer Spalte Datenstamm eine bestimmte Anzahl Übereinstimmungen gefunden wurden identifiziere diese Spalte als Kategorie Matche die Datensätze die dem binären Attribut entsprechen