Inaugural-Dissertation. Philosophie

Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät für PMloJogie der RUHR-UNIVERSITÄT BOCHUM vorgelegt von Bastian Haarmann, M.A.

Inhaltsverzeichnis Vorwort 14 Einleitung 20 Teil 1: Theorie & Methodik Kapitel 1: Ontotogien 32 1.1 Ontologie in der Philosophie 33 1.1.1 Die aristotelische Ontologie 34 1.1.2 Erweiterung durch Porphyrios 37 1.1.3 Die kantianische Ontologie 40 1.2 Ontologie in der Informatik 42 1.2.1 Definition 43 1.2.2 Ontologiekomponenten 45 1.2.2.1 Instanzen 46 1.2.2.2 Attribute 46 1.2.2.2.1 Eigenschaften (Datatype Properties) 47 1.2.2.2.2 Relationen (Object Properties) 47 1.2.2.3 Konzepte (Klassen) 50 1.2.2.4 Vererbung 51 1.2.2.5 Geltungs- und Wertebereiche 52 1.2.2.6 Restriktionen 53

1.2.2.7 Labels 54 1.2.3 Ontologietypen 55 1.2.3.1 Lightweight Ontologies 56 1.2.3.2 Heavyweight Ontologies 59 1.2.4 Auszeichnungssprachen 63 1.2.4.1 OWLLite 65 1.2.4.2 OWLDL 65 1.2.4.3 OWLFull 66 Kapitel 2: Textmining 68 2.1 Strukturierte vs. unstrukturierte Informationen 70 2.2 Abgrenzung des Begriffs 71 2.2.1 Textmining vs. Datamining 72 2.2.2 Reasoning & Querying 73 2.2.3 Information Retrieval 75 2.2.4 Automatische Textklassifizierung 77 2.2.5 Automatische Textzusammenfassung 79 2.3 Zusammenspiel zwischen Textmining und Ontologien 80 2.4 Ansätze computergestützter Ontologieerstellung 83 2.4.1 Ontology Learning aus Texten 84 2.4.1.1 Musterbasierte Erkennung 84

2.4-1-2 Konzept-Clustering 85 2.4.1.3 Kombiniertes Konzept-Lernen 87 2.4.1.4 Assoziationsregeln 88 2.4.1.5 Ontology Pruning 89 2.4.2 Ontology Learning aus Datenbanken und Schemata 91 2.4.3 Ontology Learning aus anderen Ontologien..92 2.5 Systeme für (halb)automatische Ontologieerstellung 93 Kapitel 3: Informationsextraktion 98 3.1 Standard-Informationsextraktion 101 3.1.1 Tokenizer 102 3.1.2 Gazetteer 104 3.1.3 Sentence Splitter 106 3.1.4 Part-Of-Speech Tagger 109 3.1.4.1 Genauigkeit und Trefferquote 111 3.1.4.2 Vergleich zwischen POS Taggern 113 3.1.5 Named Entitiy Recognizer 114 3.1.6 Parser 116 3.2 Spezifische Anpassungen 118 3.2.1 Pre-Analyzer 119 3.2.2 General Transducer 119 3.2.3 Chunking statt Parsing 121

3.2.4 Semantic Role Labeling 123 Schlussbemerkungen zum Theorieteil 125 Teil 2: Vom Textkorpus zur Ontologie Kapitel 4: Die Textsammlung 130 4.1 Restriktionen 132 4.1.1 Richtlinien zur Texterstellung 132 4.1.2 Fehlertoleranz 136 4.1.2.1 Fehlende Zeichen 137 4.1.2.2 Zuviel gesetzte Zeichen 138 4.2 Textstrukturen 139 4.3 Textsorte 141 Kapitel 5: Syntaktische/semantische Analyse.. 146 5.1 Vorbemerkungen 147 5.2 Die Lernphase 149 5.2.1 Pre-Analyzer 150 5.2.2 Tokenizing-Phase 151 5.2.3 Gazetteer Lookup 151 5.2.4 Sentence Splitting 154 5.2.5 Part-Of-Speech Tagging 156 5.2.6 General Transducer 157

5-2.6.1 Operationen auf Zeichenebene 158 5.2.6.1.1 Retokenizing 158 5.2.6.1.2 Retagging 159 5.2.6.2 Operationen auf Wortebene 160 5.2.6.2.1 Retagging & Retokenizing auf Wortebene...161 5.2.6.2.2 Koordination 162 5.2.6.3 Named Entity Recognition 163 5.2.6.4 Chunker 164 5.2.6.4.1 Aufbau enfacher Phrasen 164 5.2.6.4.2 Expansion zu komplexen Phrasen 165 5.2.6.4.3 Verbgruppen und Präpositionalattribute 167 5.2.6.4.4 Annotationsattribute und Werte 169 5.2.6.4.5 Koordination auf Phrasenebene 170 5.2.6.5 Anaphernresolution 171 5.2.6.6 Verb-Argument-Analyse 177 5.3 Statistische Auswertung 183 5.4 Aufbau & Struktur der BackboneOntologie. 186 5.5 Qualifizierung semantischer Rollen 189 5.5.1 Definition eines Rollensets 191 5-5-1-1 Primäre Rollen 192 5.5.1.2 Periphäre Rollen 194 5.5.1.3 Mögliche alternative Rollen 196 5.5.1.4 Verbvalenz 197

5.5-1-5 Gewinnung von Valenzinformationen 198 5.5.2 Semantic Role Qualifying 201 5.6 Semantic Role Labeling 205 5.7 Sense Analysis 208 Kapitel 6: Ontologieaufbau 216 6.1 Vorbemerkungen 217 6.2 Erzeugung von Instanzen und Klassen 218 6.2.1 Individualität 224 6.2.1.1 Identitätskriterien 225 6.2.1.2 Einheitskriterien 225 6.2.2 Quantoren 226 6.3 Erzeugung von Eigenschaften 228 6.4 Erzeugung von Relationen 231 6.5 Spezial-Relationen 235 Schlussbemerkungen zum Implementationsteil 236 Teil 3: Evaluation & Diskussion Kapitel 7: Evaluation 242 7.1 Erzeugung eines Vergleichsmaßes 243 7.2 Empirische Ergebnisse 246 7.2.1 Verbontologie 246

7.2.2 Semantic Role Labeling 249 7.3 Vergleich zwischen händischer und automatischer Erzeugung 252 7.3.1 Aufbau der Vergleichsontologie 253 7.3.2 Ergebnisse der automatischen Generierung255 Kapitel 8: Diskussion des Ansatzes 258 8.1 Probleme der Analyse 259 8.1.1 Fehler des POS Taggings 260 8.1.2 Syntaktische Ambiguität 263 8.1.2.1 Ambiguität bei Genitivanschluss 263 8.1.2.2 Ambige Koordination 265 8.1.2.2.1 Koordination von Phrasen 266 8.1.2.2.2 Komposita 267 8.1.2.3 Ambige Koreferenz 270 8.1.2.4 Ambiguität der Präpositionalphrasen- Anbindung 271 8.1.3 Grenzen der Formalisierbarkeit 273 8.2 Neue Ansätze bei Ontology On Demand 276 8.2.1 Retokenizing und Retagging 277 8.2.2 Linguistische 8.2.3 Umsetzung impliziter Ebenen 278 Relationen 281 8.2.4 Einbeziehung einer Backbone-Ontologie 283 8.2.5 Adjektive als Datatype Properties 285

8.2.6 Komplettierung von Konzeptnamen 287 8.2.7 Normalisierung von Konzeptnamen 287 Kapitel 9: Zusammenfassung & Ausblick 290 9.1 Zusammenfassung 291 9.2 Applikation 295 9.3 Ausblick 298 Schlussbemerkungen 301 Quellennachweise Literaturverzeichnis 304 Abbildungsverzeichnis 322 Appendix Anhang A 324 Anhang B 328 AnhangC 33 Anhang D 331