Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik. Exposé zur Bachelorarbeit

Ähnliche Dokumente
WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG

2. Datenvorverarbeitung

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Integration lokaler Daten in ifuice

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

ML-Werkzeuge und ihre Anwendung

Data Mining-Modelle und -Algorithmen

Jens Kupferschmidt Universitätsrechenzentrum

Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

Exploration und Klassifikation von BigData

Data Mining - Clustering. Sven Elvers

IBM Content Manager CM V Proof of Technology

DIGITAL OBJECT IDENTIFIER (DOI) FÜR TECHNIK UND NATURWISSENSCHAFTEN. So werden Ihre Forschungsdaten im Internet auffindbar und zitierfähig.

XINDICE. The Apache XML Project Name: J acqueline Langhorst blackyuriko@hotmail.de

Automatisierte Dossier- Erstellung mittels Text-Mining

Detecting Near Duplicates for Web Crawling

EXASOL Anwendertreffen 2012

6. Faktorenanalyse (FA) von Tests

Vorlesung Information Retrieval Wintersemester 04/05

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Large-Scale Image Search

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Willkommen. Benutzerhandbuch für die OECD Online-Bibliothek

The integration of business intelligence and knowledge management

Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung

Extraktion von durch PubMed verlinkten Volltexten mit Hilfe von Machine Learning Exposé Studienarbeit

Literaturrecherche Thema: Analyse sozialer Netzwerke in wissenschaftlichen Communities. Peter Kraker. Empirische Methoden WS09/10 Prof.

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Objektorientierte Modellierung (1)

Deutsche Übersetzung des Dublin-Core-Metadaten-Elemente-Sets. Version 1.1

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Predictive Modeling Markup Language. Thomas Morandell

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Ontologie-Extraktion aus Texten

Studierende, die diese Vorlesung hören, haben sich auch für folgende Lehrveranstaltungen interessiert:

WEKA A Machine Learning Interface for Data Mining

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Symbolleiste Menü Einfügen

Universität Zürich und Open Access

SEMACODE: Semantische Kodierung von Bildern

Supporting Consumers by Characterizing the Quality of Online Health Information: A Multidimensional Framework. Von Dominic Kipry

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

Wie Google Webseiten bewertet. François Bry

GDI-Forum Nordrhein-Westfalen Technischer Workshop 2 - Geodienste INSPIRE-konforme Download-Dienste. Inhalt

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell


Das Repositorium für Forschungsdaten und publikationen der TU Berlin als Serviceplattform für die Wissenschaftler

SharePoint 2013 als Wissensplattform

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Empfehlungen für die Zukunft Mehrwerte für Ihre Daten. Prof. Felix Sasaki (Deutsches Forschungszentrum für Künstliche Intelligenz)

Interdisziplinäres Fernstudium Umweltwissenschaften - infernum. Reader: Statistik in den Umweltwissenschaften.

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Running R. Windows Aus Menü. Lese R Code ein führt den Code auch gleich aus, eventuell muss vorher das Verzeichnis gewechselt werden.

Information Retrieval in P2P-Netzen

BI Publisher Berichtswesen einfach und sicher. Alexander Klauss Centric IT Solutions GmbH

Warum gefällt uns ein Foto?

SIZ 422 Tabellenkalkulation. mit Excel Peter Wies. 1. Ausgabe, Mai 2016

Access für Windows. Andrea Weikert 1. Ausgabe, 4. Aktualisierung, Juni Grundlagen für Anwender

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Vorbesprechung Seminar Biomedical Informatics

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Google der Wissenschaft am KIT - 6 Monate Betrieb von Primo

Berechnung des LOG-RANK-Tests bei Überlebenskurven

file:///c:/users/wpzsco/appdata/local/temp/arc476e/tmpf79d.tmp.htm

Literatursuche in Med-Datenbanken

Grundlagen der Bioinformatik Übung 5 Einführung in R. Ulf Leser, Yvonne Mayer

Verfahrensgrundlage Vergabe von Registrierungskennzahlen für Informationsobjekte

Dokumenten-Clustering. Norbert Fuhr

Innovator 11 classix. Erweiterter XMI-Export aus Innovator Business und Object classix. HowTo.

Studierende, die diese Vorlesung hören, haben sich auch für folgende Lehrveranstaltungen interessiert:

Proseminar - Data Mining

Maschinelles Lernen mit RapidMiner

Nutzungsbedingungen für Online-Angebote der Herzog August Bibliothek Wolfenbüttel

Neue Ansätze der Softwarequalitätssicherung

XML in der Oracle Datenbank

Maschinelles Lernen mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz

file:///c:/users/wpzsco/appdata/local/temp/tmp373d.tmp.htm

Textklassifizierung nach Erbkrankheiten aus OMIM Exposé einer Diplomarbeit

Thema: Outplacement als Teilsystem des Personalmanagements

Seminar: mobile GIS Austausch von Geodaten

Semantic Web Technologies I

Data Mining mit RapidMiner

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH

Inhaltsverzeichnis. Seite.

Willkommen zum Webinar!

Opinion Mining in der Marktforschung

PREMIS Aktuelle Entwicklungen und Perspektiven

Corporate Semantic Search -

Textmining Clustering von Dokumenten

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

disigner Bedienungsanleitung Version 1.0, 26. Mai 2010

Navigation anhand natürlicher Landmarken mit Hilfe der Scale Invariant Feature Transform. Thorsten Jost INF-M2 AW1 Sommersemester

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

VIVIT TQA Treffen in Köln am API- Programmierung und Nutzung bei HP Quality Center / ALM. Michael Oestereich IT Consultant QA

Transkript:

Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik Exposé zur Bachelorarbeit eingereicht von Irina Glushanok 23.04.2015

1 Einführung Um eine bequeme Suche nach passender Literatur zu ermöglichen, bieten viele Bibliotheken die Möglichkeit der elektronischen Suche. Bei einer detaillierten Suche kann der Anwender festlegen, welche Schlagwörter im Text eines Dokuments und welche in seinen Metadaten, d. h. Titel, Autor(en), Verlag etc., gefunden werden sollen. Eine explizite Suche nach Tabellen und deren Analyse wurde jedoch eine lange Zeit nicht unterstützt. Dabei sind Tabellen ein fester Bestandteil von wissenschaftlichen Publikationen und dienen i. d. R. einer kompakten Darstellung wissenschaftlicher Erkenntnisse bzw. Versuchsergebnisse. In dieser Bachelorarbeit soll die Extraktion von Tabellen und die Erkennung deren Semantik implementiert werden. 2 Ziel Es wird mit dem Corpus von BioMed Central [5] gearbeitet. Es beinhaltet ca. 250.000 Volltextpublikationen aus den Domänen Biologie, Medizin und Biomedizin. Alle Publikationen liegen im xml-format vor. Diese Bachelorarbeit umfasst die nachfolgenden Teilaufgaben: 1. Extraktion von Tabellen 2. Auslesen von tabellenbezogenen Daten (Spalten- und Zeilenüberschriften, Zelleninhalte, Tabellenüberschrift, Absatz, in dem auf die Tabelle verwiesen wird) 3. Gesamtdatensatz statistisch beschreiben 4. Clustern von Tabellen mit dem Ziel, zusammenhänge Tabellen zu identifizieren 5. Visualisierung der Cluster 6. Evaluation des Clusterings 3 Ansatz Alle Artikel im o. g. Corpus unterliegen einem XML-Schema, sodass sich die ersten zwei Teilaufgaben mittels XQuery und XPath mit 1

einem überschaubaren Aufwand lösen lassen. Somit liegt der Schwerpunkt der Arbeit beim Punkt 3. Die Erkennung der Semantik von Tabellen entspricht der im Data- Mining-Bereich bekannten Clustering-Aufgabe. Das Ziel ist also, die Termvektoren, die die vorliegenden Tabellen repräsentieren, in semantisch zusammenhängende Cluster so zu gruppieren, dass der Abstand zwischen den Clustern maximiert und der Abstand zwischen den einzelnen Termvektoren innerhalb jedes Clusters minimiert wird. Danach müssen für jedes Cluster Schlagwörter gefunden werden, die seine Semantik widerspiegeln. Zur Lösung der Clustering-Aufgabe haben sich einige Verfahren etabliert. Darunter der k-means-algorithmus, der in dieser Arbeit angewandt wird. Das k steht hier für die Anzahl der Cluster. Eine wichtige Voraussetzung für die Implementation des o. g. Algorithmus ist die s. g. Feature Selection. Alle zu untersuchenden Objekte, in unserem Fall Tabellen, werden durch die Termvektoren gleicher Länge repräsentiert. Die Werte der einzelnen Komponenten dieser Vektoren indizieren, mit welcher Gewichtung ein Term in den tabellenbezogenen Daten vorhanden ist. Es ist wichtig, die Dimension des Vektorraums zu reduzieren und sich auf die Terme einzuschränken, die die Unterschiede zwischen den Objekten erkennbar machen. Mit diesen Maßnahmen erreicht man eine Reduktion der Anzahl der Rechenoperationen und eine Qualitätserhöhung des Clusterings. Die nachfolgenden Techniken könnten zum Einsatz kommen, um die Feature Selection zu unterstützen: 1. Stop-Wörter entfernen 2. numerische Werte entfernen, da diese nicht zur Semantikerkennung beitragen 3. die Terme aus den Absätzen, die auf die Tabellen verweisen, nutzen 4. Das Feature Subset kann durch die entsprechenden Oberbegriffe von vorkommenden Instanzbezeichnungen angereichert werden. Dies kann mit Hilfe eines Thesaurus erfolgen, falls frei verfügbar. 2

Ob die Instanznamen selbst aus dem Feature Subset entfernt werden sollten, muss noch untersucht werden. 5. Reduktion der Dimensionen der Termvektoren durch Hauptkomponentenanalyse (engl. Principal Component Analysis oder kurz PCA) Ferner muss für die Anwendung des k-means-algorithmus ein geeignetes k gewählt werden, welches als Parameter an den Algorithmus übergeben wird. Ein Verfahren für die Bestimmung von k wird in [3] beschrieben. Man initialisiert das k mit einem kleinen Wert, z. B. mit 1. In jedem Iterationsschritt wird der k-means-algorithmus ausgeführt. Dann wird testet, ob die Punkte in jedem erzeugten Cluster normalverteilt sind. Im positiven Fall wird die Schleife abgebrochen, im negativen Falls wird das k erhöht. Die Prüfung der Punkte auf Normalverteilung erfolgt mittels Anderson-Darling-Test. Für die Clustervisualisierung scheinen die Parallelkoordinaten [4] ein geeignetes Mittel zu sein. Sie bringen den Vorteil, dass man durch die Beibehaltung der Dimensionen der bereits durch Preprocessing aufbereiteten Termvektoren keine für den Betrachter wichtige Information verliert. Für jeden Termvektor wird eine Art Zickzack-Kurve erzeugt, die die Koordinatenpunkte der einzelnen Vektorkomponenten verbindet. Die Cluster sollten als Kurvenbündel zu erkennen sein. 4 Related Work Es gibt bereits einige nennenswerte Arbeiten auf dem Gebiet der Tabellensuche. Die meisten konzentrieren sich auf die Suche von Tabellen in semistrukturierten Dokumenten. So bietet z. B. Google die Suche nach Tabellen in den Webseiten [6]. Das Projekt ist aber noch im Entwicklungsstadium. Liu et al. [1] haben ein Tool zur Suche von Tabellen in PDF-Dokumenten entwickelt. Die Tabellenerkennung erfolgt regelbasiert. Das Ranking von Tabellen wurde klassisch über das Vektorraum-Modell realisiert, jedoch wurden die üblichen Term-Gewichtungen TF und IDF an die Aufgabenstellung angepasst und wurden zu s. g. TTF (Table Term Frequency) und ITTF (Inverse Table Term Frequency). 3

Einen anderen Schwerpunkt hat die Arbeit von S. Kim et al. [2]. Hier liegt die Problematik der Klassifikation von Tabellen im Fokus. Jede Tabelle wird einer der vordefinierten Klassen zugeordnet, wie z. B. Statistics oder Example. Auch hier hat man mit den in [1] erwähnten speziellen Termgewichtungen gearbeitet. References [1] Ying Liu, Kun Bai, Prasenjit Mitra, C. Lee Giles: TableSeer: Automatic Table Metadata Extraction and Searching in Digital Libraries [2] Seongchan Kim, Keejun Han, Soon Young Kim, Ying Liu: Scientific Table Type Classification in Digital Library [3] Greg Hamerly, Charles Elkan: Learning the k in k-means [4] Edward J. Wegman: Hyperdimensional Data Analysis Using Parallel Coordinates. Journal of the American Statistical Association, Vol. 85, No. 411 (Sep., 1990), 664-675. [5] BioMed Central http://www.biomedcentral.com/ [6] Google Table Search https://research.google.com/tables 4