Inaugural-Dissertation. Philosophie



Ähnliche Dokumente
Bastian HAARMANN ONTOLOGY ON DEMAND. Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse

XDOC Extraktion, Repräsentation und Auswertung von Informationen

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Semantic Role Labeling im modernen Text-Analyse-Prozess

Reihe: Supply Chain, Logistics and Operations Management Band 1. Herausgegeben von Prof. Dr. Dr. h. c. Wolfgang Kersten, Hamburg

Abbildungsverzeichnis. Tabellenverzeichnis. Algorithmenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Personalmanagement in transnationalen Dienstleistungsunternehmen - untersucht am Beispiel der Hotellerie in der Karibik

A Zur Wirksamkeit von Testimonial Endorsed Cause-Related Marketing

Semantic Web Technologies I

Entwicklung eines Beratungsprogramms zur Förderung der emotionalen Intelligenz im Kindergarten

Der Einfluß von Volition auf das Verhalten von Führungskräften

Personalisiertes E-Learning

Die Liberalisierung vergleichender Werbung in Deutschland

Managementprozesse und Performance

Petri-Netzbasierte Modellierung und. Analyse von Risikoaspekten in. Zur Erlangung des akademischen Grades eines. Doktors der Wirtschaftswissenschaften

Kapitel 9. Zusammenfassung & Ausblick

Grundlagen von Datenbanksystemen

Marlene Haupt. Konsumentensouveränität. im Bereich privater Altersvorsorge. Informationen und Institutionen. n Nomos

Internationale Konzernverrechnungspreise für Dienstleistungen am Beispiel der pharmazeutischen Industrie

Kundenintegration im Innovationsprozess

Unternehmerische Selbständigkeit in der beruflichen Aus- und Weiterbildung

Identifikation und Bewertung der Konfigurationen internationaler Marktein- und Marktaustrittsstrategien junger Technologieunternehmen

Corporate Reputation Management durch Corporate Communications

Internes Audit in universitären Hochschulen

$QNH 5HLQKROG )RUVFKXQJVGDWHQ LQ GHU YLGHREDVLHUWHQ 8QWHUULFKWVIRUVFKXQJ %HQXW]HU]HQWULHUWH 0RGHOOLHUXQJ XQG (YDOXLHUXQJ HLQHU

Auswirkungen steuerlicher Zinsabzugsbeschränkungen auf Finanzierungsentscheidungen von Unternehmen

Erklärung und Vorhersage des Nutzungsverhaltens eines e-learning- Systems am Beispiel des ProduktionsLernSystems bei der Daimler AG.

Strategische Managementsysteme im internationalen Unternehmen

Informationsextraktion aus radiologischen Befundberichten

Yvonne Höfer-Diehl. Hochs chulcontrolling. %ur Sicherung der Lehreffektivität

INHALTSVERZEICHNIS WIDMUNG... IV VORWORT DES VERFASSERS... V INHALTSVERZEICHNIS... VII KAPITEL I: EINLEITUNG... 1

Universität OLDENBURG

Der Autokäufer das bekannte Wesen

Die Einkaufsstättenwahl der Konsumenten bei Lebensmitteln

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Universität Ulm. Fakultät für Mathematik und Wirtschaftswissenschaften. ulm university Universität I

Der Einfluss von Kosten, Steuern und Sterblichkeit auf die private kapitalgedeckte Altersvorsorge

Qualitative Politikanalyse

Vorstellungsorientierte Textarbeit mit narratiyen Texten im Englischunterricht der Sekundarstufe I (Mittelstufe)

Dissertation. zur Erlangung des akademischen Grades eines. Doktors der Wirtschaftswissenschaften. (Dr. rer. pol.)

IT-Outsourcing-Entscheidungen

Entwicklung domänenspezifischer Software

Christoph Puls. Zielorientiertes Management. von Logistikdienstleistungen in. Netzwerken kooperierender. Unternehmen

Inhaltsverzeichnis TABELLENVERZEICHNIS. Nagengast, Liane Kunden erfolgreich binden 2011

Michael Trübestein. Real Estate Asset Management für institutionelle Investoren

Make-or-Buy bei Anwendungssystemen

Ein datenbankgestütztes. Vertragsmanagementmodell zur. Entscheidungsunterstützung im

Instrumente einer erfolgreichen Kundenorientierung

Opinion Mining in der Marktforschung

Investor Relations im Internet

Workflow-Kontext zur Realisierung prozessorientierter Assistenz in Organisational Memories

Logistische Leistungsdifferenzierung im Supply Chain Management

Strategisches Studienmarketing zur. Begünstigung der Aufnahme eines Informatik-Studiums. Eine empirische Studie unter besonderer Berücksichtigung

Gordana Bjelopetrovic

TEIL A GRUNDLAGENTHEORETISCHER BEZUGSRAHMEN.. 7 I

Semantic Web Services

Seminar: Anwendungen von Semantic MediaWiki - Forschungsaufgabenmanagement

13* Markteinsteiger - eine interessante Zielgruppe? Erfolg von speziellen Marketing-Massnahmen zur Gewinnung und Bindung von Markteinsteigern

Standardisierte Integration und Datenmigration in heterogenen Systemlandschaften am Beispiel von Customer Relationship Management

Kognitive Therapie der Persönlichkeitsstörungen

Supply Chain Management und Advanced Planning

Identifikation von Erfolgsfaktoren und Ableitung von Handlungsempfehlungen für die Implementierung eines Qualitätsmanagementsystems in der Apotheke

Die Entwicklung von Kundenbeziehungen in der Nachfolge mittelständischer Familienunternehmen

Die Auflösung von Aktienfonds

Stefanie Lahn. Der Businessplan in. Theorie und Praxis. Überlegungen zu einem. zentralen Instrument der. deutschen Gründungsförderung

Die Abhängigkeit der Lyophilisatquaiitat von einigen Verfahrensparametern unter besonderer Berücksichtigung des Restlösungsmittelgehaltes

Konstruktion eines semi-qualitativen Risikographen flir das Eisenbahnwesen

Ontologien. Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Ontologien: Konstrukte. Konzepte/Klassen

Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr

Risikomanagement Eine spezifische Controllingaufgabe

Potentiale und Grenzen des E-Business bei komplexen Produkten im B2B-Bereich

Informationstechnik in der Kreditwirtschaft

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie.

Interaktives Fernsehen im internationalen Vergleich. Eine länderübergreifende Analyse zwischen Deutschland und Weißrussland

Inhaltsverzeichnis Inhaltsverzeichnis

Dissertation. Doktoringenieur (Dr.-Ing.) vorgelegt an der Technischen Universität Dresden Fakultät Informatik

Miriam Heckmann. Dynamische Fähigkeiten im. Strategischen HRM: Zugrunde liegende HR-Prozesse. und Wirkungen. Eine qualitative Einzelfallstudie

Stammdatenmanagement zwischen Handel und Konsumgüterindustrie Referenzarchitektur für die überbetriebliche Datensynchronisation

Nicolas Heidtke. Das Berufsbild des Spielervermittlers im professionellen Fußball

Wertschöpfungskonfiguration im internationalen Kontext

Florian Roßwog. Finanzintermediation durch Spar- und Kreditgenossenschaften in Mexiko:

Technische Universität München Fachgebiet Dienstleistungsökonomik. Strategisches Kooperationsmanagement von Wirtschaftsverbänden.

Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten) Diagnoseziel Klassifikation

TECHNISCHE UNIVERSITÄT DRESDEN FAKULTÄT ELEKTROTECHNIK UND INFORMATIONSTECHNIK. Institut für Feinwerktechnik und Elektronik-Design DIPLOMARBEIT

Semantische Datenintegration: von der Theorie zur Anwendung

Implementierung von Coaching als Instrument der Personalentwicklung in deutschen Großunternehmen

Geschäftsmodelle für Netzeffektgüter - Eine Analyse am Beispiel des Smart Home -

Betriebliche Weiterbildung in Deutschland und Europa

Peter Brückner-Bozetti. Unternehmensberatung. und Partizipation. Eine empirische Untersuchung. in Krankenhausunternehmen

Bausteine für zukünftige HL7- Hausstandards. Kraska D, Wentz B, Prokosch HU Medizinisches IK-Zentrum; Universitätsklinikum Erlangen

2 Begriffliche und theoretische Grundlagen... 9

DIE AUFKLARUNGSPFLICHT DER BANKEN BEI DER UMSCHULDUNG SITTENWIDRIGER KREDITE

Translation und Technik

Inhalt. Vorwort von Gerhard Stahl 11. Vorwort von Bernhard Schareck 15. Prolog 17

Transkript:

Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät für PMloJogie der RUHR-UNIVERSITÄT BOCHUM vorgelegt von Bastian Haarmann, M.A.

Inhaltsverzeichnis Vorwort 14 Einleitung 20 Teil 1: Theorie & Methodik Kapitel 1: Ontotogien 32 1.1 Ontologie in der Philosophie 33 1.1.1 Die aristotelische Ontologie 34 1.1.2 Erweiterung durch Porphyrios 37 1.1.3 Die kantianische Ontologie 40 1.2 Ontologie in der Informatik 42 1.2.1 Definition 43 1.2.2 Ontologiekomponenten 45 1.2.2.1 Instanzen 46 1.2.2.2 Attribute 46 1.2.2.2.1 Eigenschaften (Datatype Properties) 47 1.2.2.2.2 Relationen (Object Properties) 47 1.2.2.3 Konzepte (Klassen) 50 1.2.2.4 Vererbung 51 1.2.2.5 Geltungs- und Wertebereiche 52 1.2.2.6 Restriktionen 53

1.2.2.7 Labels 54 1.2.3 Ontologietypen 55 1.2.3.1 Lightweight Ontologies 56 1.2.3.2 Heavyweight Ontologies 59 1.2.4 Auszeichnungssprachen 63 1.2.4.1 OWLLite 65 1.2.4.2 OWLDL 65 1.2.4.3 OWLFull 66 Kapitel 2: Textmining 68 2.1 Strukturierte vs. unstrukturierte Informationen 70 2.2 Abgrenzung des Begriffs 71 2.2.1 Textmining vs. Datamining 72 2.2.2 Reasoning & Querying 73 2.2.3 Information Retrieval 75 2.2.4 Automatische Textklassifizierung 77 2.2.5 Automatische Textzusammenfassung 79 2.3 Zusammenspiel zwischen Textmining und Ontologien 80 2.4 Ansätze computergestützter Ontologieerstellung 83 2.4.1 Ontology Learning aus Texten 84 2.4.1.1 Musterbasierte Erkennung 84

2.4-1-2 Konzept-Clustering 85 2.4.1.3 Kombiniertes Konzept-Lernen 87 2.4.1.4 Assoziationsregeln 88 2.4.1.5 Ontology Pruning 89 2.4.2 Ontology Learning aus Datenbanken und Schemata 91 2.4.3 Ontology Learning aus anderen Ontologien..92 2.5 Systeme für (halb)automatische Ontologieerstellung 93 Kapitel 3: Informationsextraktion 98 3.1 Standard-Informationsextraktion 101 3.1.1 Tokenizer 102 3.1.2 Gazetteer 104 3.1.3 Sentence Splitter 106 3.1.4 Part-Of-Speech Tagger 109 3.1.4.1 Genauigkeit und Trefferquote 111 3.1.4.2 Vergleich zwischen POS Taggern 113 3.1.5 Named Entitiy Recognizer 114 3.1.6 Parser 116 3.2 Spezifische Anpassungen 118 3.2.1 Pre-Analyzer 119 3.2.2 General Transducer 119 3.2.3 Chunking statt Parsing 121

3.2.4 Semantic Role Labeling 123 Schlussbemerkungen zum Theorieteil 125 Teil 2: Vom Textkorpus zur Ontologie Kapitel 4: Die Textsammlung 130 4.1 Restriktionen 132 4.1.1 Richtlinien zur Texterstellung 132 4.1.2 Fehlertoleranz 136 4.1.2.1 Fehlende Zeichen 137 4.1.2.2 Zuviel gesetzte Zeichen 138 4.2 Textstrukturen 139 4.3 Textsorte 141 Kapitel 5: Syntaktische/semantische Analyse.. 146 5.1 Vorbemerkungen 147 5.2 Die Lernphase 149 5.2.1 Pre-Analyzer 150 5.2.2 Tokenizing-Phase 151 5.2.3 Gazetteer Lookup 151 5.2.4 Sentence Splitting 154 5.2.5 Part-Of-Speech Tagging 156 5.2.6 General Transducer 157

5-2.6.1 Operationen auf Zeichenebene 158 5.2.6.1.1 Retokenizing 158 5.2.6.1.2 Retagging 159 5.2.6.2 Operationen auf Wortebene 160 5.2.6.2.1 Retagging & Retokenizing auf Wortebene...161 5.2.6.2.2 Koordination 162 5.2.6.3 Named Entity Recognition 163 5.2.6.4 Chunker 164 5.2.6.4.1 Aufbau enfacher Phrasen 164 5.2.6.4.2 Expansion zu komplexen Phrasen 165 5.2.6.4.3 Verbgruppen und Präpositionalattribute 167 5.2.6.4.4 Annotationsattribute und Werte 169 5.2.6.4.5 Koordination auf Phrasenebene 170 5.2.6.5 Anaphernresolution 171 5.2.6.6 Verb-Argument-Analyse 177 5.3 Statistische Auswertung 183 5.4 Aufbau & Struktur der BackboneOntologie. 186 5.5 Qualifizierung semantischer Rollen 189 5.5.1 Definition eines Rollensets 191 5-5-1-1 Primäre Rollen 192 5.5.1.2 Periphäre Rollen 194 5.5.1.3 Mögliche alternative Rollen 196 5.5.1.4 Verbvalenz 197

5.5-1-5 Gewinnung von Valenzinformationen 198 5.5.2 Semantic Role Qualifying 201 5.6 Semantic Role Labeling 205 5.7 Sense Analysis 208 Kapitel 6: Ontologieaufbau 216 6.1 Vorbemerkungen 217 6.2 Erzeugung von Instanzen und Klassen 218 6.2.1 Individualität 224 6.2.1.1 Identitätskriterien 225 6.2.1.2 Einheitskriterien 225 6.2.2 Quantoren 226 6.3 Erzeugung von Eigenschaften 228 6.4 Erzeugung von Relationen 231 6.5 Spezial-Relationen 235 Schlussbemerkungen zum Implementationsteil 236 Teil 3: Evaluation & Diskussion Kapitel 7: Evaluation 242 7.1 Erzeugung eines Vergleichsmaßes 243 7.2 Empirische Ergebnisse 246 7.2.1 Verbontologie 246

7.2.2 Semantic Role Labeling 249 7.3 Vergleich zwischen händischer und automatischer Erzeugung 252 7.3.1 Aufbau der Vergleichsontologie 253 7.3.2 Ergebnisse der automatischen Generierung255 Kapitel 8: Diskussion des Ansatzes 258 8.1 Probleme der Analyse 259 8.1.1 Fehler des POS Taggings 260 8.1.2 Syntaktische Ambiguität 263 8.1.2.1 Ambiguität bei Genitivanschluss 263 8.1.2.2 Ambige Koordination 265 8.1.2.2.1 Koordination von Phrasen 266 8.1.2.2.2 Komposita 267 8.1.2.3 Ambige Koreferenz 270 8.1.2.4 Ambiguität der Präpositionalphrasen- Anbindung 271 8.1.3 Grenzen der Formalisierbarkeit 273 8.2 Neue Ansätze bei Ontology On Demand 276 8.2.1 Retokenizing und Retagging 277 8.2.2 Linguistische 8.2.3 Umsetzung impliziter Ebenen 278 Relationen 281 8.2.4 Einbeziehung einer Backbone-Ontologie 283 8.2.5 Adjektive als Datatype Properties 285

8.2.6 Komplettierung von Konzeptnamen 287 8.2.7 Normalisierung von Konzeptnamen 287 Kapitel 9: Zusammenfassung & Ausblick 290 9.1 Zusammenfassung 291 9.2 Applikation 295 9.3 Ausblick 298 Schlussbemerkungen 301 Quellennachweise Literaturverzeichnis 304 Abbildungsverzeichnis 322 Appendix Anhang A 324 Anhang B 328 AnhangC 33 Anhang D 331