Text Mining - Wissensrohstoff Text Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik
NER Grundlagen Ziel: Informationsextraktion aus Textdaten, Beschränkung auf vordefinierte informationelle Kategorien: named entities (NE) Aufgabe: The named entity task is to identify and mark certain types of names and referring expressions in input texts, typically via SGML tags. (Boisen et al. 2000) - Vorstufe zum Textverstehen - i. d. R. Verzicht auf vollständige Strukturanalyse (d. h. allenfalls POS-Parsing / shallow analysis) 2
Named Entity Recognition Problemstellung: Markiere Namen im Text mit richtiger Kategorie: Personenname Heiner Müller, Schröder, Maggie Namen von Orten Leipzig, Oberwiesenthal, Ouagadougou Organisationen Deutsche Bank AG, UNESCO, Arbeitsamt sonstige Namen Fiat Tipo; Wanderer, kommst Du nach Spa...; Starlight Express Namen machen bis zu 10% von Texten aus, sie referieren auf eindeutige Objekte und dienen daher als Anker für das automatische Sprachverstehen 3
NER Beispiel - Bundesanzeiger 79312 Emmendingen Ortsnamenserkennung DV - Expect GmbH LABORSYSTEME Herbolzheim Belchenstr. 44 HRB 662 K - 06. November 2001 Neueintragungen HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in 1 (Firma) am 09. Oktober 2001. Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.
NER Beispiel - Bundesanzeiger Erkennung rechtsrelevanten Vokabulars 3 79312 Emmendingen DV - Expect GmbH LABORSYSTEME Herbolzheim Belchenstr. 44 HRB 662 K - 06. November 2001 Neueintragungen HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in 1 (Firma) am 09. Oktober 2001. Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.
NER Beispiel - Bundesanzeiger Erkennung von Fachvokabular (Firmenzweck) 79312 Emmendingen DV - Expect GmbH LABORSYSTEME Herbolzheim Belchenstr. 44 HRB 662 K - 06. November 2001 Neueintragungen HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in 1 (Firma) am 09. Oktober 2001. Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.
NER Beispiel - Bundesanzeiger Erkennung numerischer Angaben (Zeit, Geld,, HR-Nr.) 79312 Emmendingen DV - Expect GmbH LABORSYSTEME Herbolzheim Belchenstr. 44 HRB 662 K - 06. November 2001 Neueintragungen HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in 1 (Firma) am 09. Oktober 2001. Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.
Beispiel NER - GATE Leading open-source tool: GATE/ANNIE http://www.gate.ac.uk/annie/
Voraussetzungen Geeigneter maschinenlesbarer Text, z. B. Zeitungstext Agenturmeldungen Text von Websites vordefinierte Textkollektionen (z. B. die MUC-Corpora (message understanding conference), erhältlich vom Linguistic Data Consortium, LDC, http://www.ldc.upenn.edu)) 9
Allgemeine Beobachtungen Namen sind eine offene Wortklasse: - Neubildungen möglich - potentiell alle Wörter können Namen sein - wesentliches Merkmal: Referentielles Objekt (mit einem Namen benennbares Objekt), immer mit POS-Kategorie N Beispiel: Der Fisch kochte in dem Topf. Prof. Ralph DER, Joseph FISCH, Anja KOCHTE, IN(diana state), Augsburger Rolladenfabrik Hermann TOPF 10
Allgemeine Beobachtungen 2 named entities verhalten sich wie auch das Auftreten unterschiedlicher Wortformen im Allgemeinen nach dem Zipfschen Gesetz, d. h.: Frequenz * Rang = konstant wenige Namen treten sehr häufig, viele selten (nie) auf Folgerung: lexikonbasierte Ansätze können nie zu 100% erfolgreich arbeiten und sind durch andere Strategien zu ergänzen Problem: Erkennen bisher unbekannter Namen Linguistische Probleme: Zuordnung zu mehreren Kategorien (Polysemie) Namen als Teile anderer Namen (New Mexico, Bank of England) 11
Strategien der Extraktion manuelle Annotation von Textkorpora lexikonbasierter Ansatz (seed lists) regelbasierte Verfahren: Konstruktionsregeln für namend entities statistische Verfahren Entscheidungsbäume Mischverfahren
Lexikonbasierter Ansatz Einführung von Lexika / Listen unterschiedlicher Namenstypen (Gazzetteers), zusammengestellt z. B. aus dem WWW Wikipedia Findet praktisch bei allen Ansätzen zur NE-Erkennung Verwendung. Beispiel: Namenserkennung im Deutschen Wortschatz (2005) Liste für Heyer: Wort: (Wort_nr: 59353): Heyer Häufigkeitsklasse: 15 (Anzahl: 173) Sachgebiet: Nachname (Nachname -> Personen -> Eigennamen) Grundform: Heyer [173] Teilwort von: Jürgen Heyer [121], Jörg Heyer [4], Lutz Heyer [3], Heiner Heyer [1] 13
Manuelle Annotation Erstellung hochqualitativer Referenzlisten u.a. zum Evaluieren und Testen Annotiertes Material dient dem Trainieren des Extraktionstools (Test u. a. gegen die nicht-annotierten Trainingsdaten) Hauptproblem: Finden zusätzlicher Namen, um recall zu verbessern Annotation: I. d. R. Studenten, im Mittel 5k Wörter / h, bei deutlicher Qualitätsverbesserung nach einigen Wochen Hilfsmittel: Annotationseditoren, mechanical turk Auswahl zu annotierender Sätze durch Heraussuchen von unbekanntem Vokabularmaterial (um Re-Annotieren bekannter Items zu verhindern) 14
Vorgenerierte Listen von Namenskandidaten Z. B rechte Nachbarn von Funktionsbezeichnungen wie Geschäftsführer Peter Struck 434 Joachim Hörster 230 Werner Schulz 166 Lutz Sikorski 151 Peter Ramsauer 139 Volker Liepelt 133 Jörg van Essen 123 Wilhelm Schmidt 105 Jürgen Rüttgers 94 Eduard Oswald 76 Klaus Fuchs 75 Axel Nawrocki 74 Karl Hopfner 69 Richard Heideker 64 Werner Hackmann 61 Franz Frey 60 Thilo Bode 57 Jörg Walter 53 Franz Ruland 52 Bernd Kundrun 49 Peter Sauerbaum 48 Wolfgang Loos 48 Günter Sanders 47 Herbert Märtin 47 Franz Josef Jung 45 Walter Gehring 44 Andreas Schmidt 43 Helmut Thoma 42 Lothar Breitkreuz 42 Ulf Kalkmann 41 Günter Pfefferkorn 40 Joachim Enßlin 40 Reinhold Schlicht 40 Sven Jäger 40 Volker Sparmann 40 Hans-Joachim Feuerbach 39 Hans-Peter Repnik 36 Peter Hanraths 36 Volker Nickel 36 Andreas Eichstaedt 35 Carl Michael Baumann 35 Dietmar Koschmieder 35 Volker Hassemer 35 Jürgen Köhn 34 Michael Peters 34 Willy Fischel 34 Dirk Gaerte 33 Heinz Daum 32 Klaus Kröll 32 Hans-Peter Seitz 31 Helmut Bälz 31 Karl-Ludwig Böttcher 31 Messe München GmbH 31 Felix Somm 30 Jürgen Uhlemann 30 Ulrich Heinrich 30 Willibald Saller 30 Daniel Beauvois 29 Günter Schreiner 29 Karl-Joachim Kierey 29 Nils Busch- Petersen 29 Dieter Gorny 28 Eckart Fiedler 28 Hans-Walter Herpel 28 Rolf Hüllinghorst 28 Dieter Hapel 27 Georg Gafron 27 Jürgen Doetz 27 Kunibert Schmidt 27 Peter Danylow 27 Sascha Hettrich 27 Stadion GmbH 27 Werner Hoyer 27 Edgar Geenen 26 Herbert Kämpfer 26 Jörg Hiemer 26 Markus Tellenbach 26 Wolfgang Glöckle 26 Horst Gregor Lappe 25 Jürgen Salzhuber 25 Klaus Diehl 25 Leonhard Reeb 25 Manfred Brückl 25 Michael Bühler 25 Peter Broß 25 Rainer Adrion 25 Rainer Vögele 25 Walter Wilken 25 Wolfgang Brakhane 25 Hanns Peter Nerger 24 Jan Mojto 24 Kilian Krieger 24 Peter Heimes 24 Ulrich Aengenvoort 24 Walter Rogg 24 Wolfgang Schwab 24 Eberhard Fehrmann 23 Gottfried Zmeck 23 Rolf Hahn 23 Theodor Diener 23 Frank Giesbert 22 Heiner Bartling 22 Helmut Zirkelbach 22 Jörg Schaible 22 Peter Saile 22 Siegfried Rumpf 22 Sieghard Kelle 22 Berlin Tourismus Marketing GmbH 21 Burkhard Gnärig 21 Christoph Schindler 21 Hans-Jürgen Mammitzsch 21 Heinz Vietze 21 Hermann Jäger 21 15
Vorgehensweise bei NE Zweistufiges Vorgehen ist üblich: Zunächst Namen finden, dann in Kategorien einteilen Die Unterscheidung Name/ Nichtname kann evtl. einem POS- Tagger überlassen werden. Hier: [NE]-Tag Zuvor[ADV] hatte[vafin] Johannes[NE] Paul[NE] II.[NE] im[apprart] feierlichen[adja] Neujahrsgottesdienst[NN*] im[apprart] Petersdom[NN*] an[appr] die[art] blutigen[adja] Konflikte[NN] auf[appr] dem[art] Balkan[NE],[$,] in[appr] Afrika[NE] und[kon]... Bernd[NE] Heisig[NE*],[$,] Direktor[NN] der[art] Deutschen[ADJA] Bau-[TRUNC] und[kon] Bodenbank[NN*] AG[NN],[$,] ist[vafin] zum[apprart] Geschäftsführer[NN] der[art] Baucontact[NN*] Immobilien[NN] GmbH.[NE*] mit[appr] Sitz[NN] in[appr] Ost-Berlin[NE*]... Rudolf[NE] Müller[NE],[$,] Vorstandsmitglied[NN] der[art] Südzucker[ADJA*] AG[NN]... Manchmal jedoch werden Namen als NN getagged, außerdem gibt es Namen wie Joseph[NE] Freiherr[NN] von[appr] Eichendorf[NE] -> Brauchen zusätzlichen Mechanismus. Zumindest kommt in einem Namen immer ein [NN] vor, wenn schon kein [NE]. 16
Features Features sind i.a. Eigenschaften und können sich sowohl auf das Wort an sich, als auch auf den Kontext beziehen. Für jedes betrachtete Wort lassen sich Features ausrechnen, ein NER-System kann auf Featureprofile für die Namenskategorien trainiert werden Für das Training können Standardverfahren aus dem Bereich Machine Learning eingesetzt werden 17
Features für Einzelwörter Vorhandensein im Gazetteer Vorhandensein im Trainingstext Orthographie: Groß/Kleinschreibung, Bindestriche oder Zahlen im Wort etc. Worthäufigkeit Präfixe Suffixe POS-Tags Wortlänge N-Gramme für Buchstaben 18
Kontextfeatures Triggerwörter wie GmbH, Frau, Stadt, Buch im Kontext - an festen Positionen - an beliebigen Positionen im Fenster um das Wort Satzzeichen Andere Namen in der Nähe Die Größe des Fensters variiert üblicherweise zwischen 3 und 7 In diesem Satz ist ein Wortfenster der Länge fünf eingezeichnet. 19
Feature Selection Manche Features sind aussagekräftiger als andere manche Features sind nicht für alle Sprachen sinnvoll Vor dem eigentlichen Training wird die Aussagekraft von Features bestimmt. Features, die zu schwach sind, werden im Folgenden weggelassen, dies ist abhängig vom Trainingsalgorithmus: Manche Algorithmen selektieren automatisch Manche Algorithmen sind nur für wenige Features sinnvoll 20
Trainingsalgorithmen Support Vector Machines: Binärer Klassifikator für dünn besetzte, große Vektoren HMMs: Übergangswahrscheinlichkeiten aufgrund von Tags oder Wörtern Entscheidungsbäume: Binäre, verschachtelte IF- Entscheidungen Boosting: viele schwache Regeln mit Reihenfolge Memory-based Learning: Clustern aufgrund Trainingstext Transformation-based learning: Transformationsregeln mit Zwischeneigenschaften Stacking: Mehrere Klassifikatoren verwenden, die aufeinander aufbauen 21
Evaluation Qualitätskriterien Genauigkeit (precision): Anteil korrekt erkannter an allen erkannten NEs Vollständigkeit (recall): Anteil der korrekt erkannten an allen vorhandenen NEs D. h.: Evaluierungsmaße wie im Information Retrieval Feindifferenzierung Unterscheidung zwischen Erkennung von tokens und korrekter Zuordnung von tokens zu einer Klasse 22
Beispiel - Personennamenerkennung Personennamen bilden reguläre Muster in Texten, z.b. TITEL VORNAME NACHNAME Dr. Hubert Müller Gisela Fischer Herr Schmidt Relation PN(TIT,VN,NN) mit TIT={Dr., Prof., Präsident...} Menge der Titel VN={Hans, Peter, Maria,...} Vornamen NN={Maier, Huber, Schulze...} Nachnamen 23
Idee des Pendel-Algorithmus Annotiere Text mit bekannten Items, sowie flacher Eigenschaften, z.b. "... sagte Jonas Berger, der.. "... KL GR NN SZ DET.. Benutze Regeln wie GR* NN -> VN VN GR* -> NN um "Jonas" als Vornamen zu klassifizieren Derartige Regeln sind schwache Hypothesen, da sie nicht immer zutreffen, z.b. in "Bevor Berger nachdachte,..." "... Karten bei Konzertagentur Berger, München. Regeln alleine unzureichend. 24
Der Pendel-Algorithmus (Biemann 2003) Lade Beispiele //einige Vor- und Nachnamen, Titel Lade Regeln // z.b. TIT GR* NN -> VN StartItems newi:=beispiele Wissen K:=Beispiele+Grundwissen //Grundwissen: Artikel etc. do { Items I:=newI newi:=leer for all i I { text_i:=hole Sätze aus Korpus, die i enthalten // FINDEN kandidaten:=wende Regeln auf text_i an for all k kandidaten { // VERIFIZIEREN kandtext:= Hole Sätze aus Korpus, die k enthalten rating_k:= Wende Regeln auf kandtext an und überprüfe, wie oft k wie in text_i klassifiziert wird wenn rating_k hoch genug, füge k zu K und zu newi hinzu } // for all k } // for all i } while newi nicht leer. 25
Erklärungen zum Pendel-Algorithmus Regeln werden zum Finden und zum Verifizieren von Kandidaten benutzt bekannte und gelernte Items werden zum Finden und zum Verifizieren von Kandidaten benutzt Ein Wort wird nur dann mit seiner Klassifizierung gespeichert, wenn es - mehrfach - mit ausreichender Häufigkeit im Korpus mit dieser Klassifizierung auftritt. 26
Regeln lernen Regellernen ist dem eigentlichen Algorithmus vorgeschaltet. Gegeben: z.b. 50 Vornamen, 50 Nachnamen Suche Sätze, die je mindestens einen bekannten Vornamen und Nachnamen enthalten für Trainingstext Annotiere Trainingstext und baue alle möglichen Regeln um bekannte Namen Teste, wie viele Items durch jede Regel richtig und falsch erkannt werden Bei ausreichendem Rating wird Regel im Weiteren verwendet rating 0,5 richtig falsch 2 ( richtig falsch ) 27
Konstruktion von Regeln Text: "John Roth und Frank Dunn stehen während..." Anno: {GR} {GR,NN} {KL} {GR,VN} {GR,NN} {KL} {KL} Konstruierte Regeln der Längen 2 und 3: KL GR* -> VN GR* GR -> VN GR* NN -> VN GR KL GR* -> VN NN KL GR* -> VN KL GR* GR -> VN KL GR* NN -> VN GR* GR KL -> VN GR* NN KL -> VN Diese werden anschliessend getestet. 28
Gelernte Regeln......sind manchmal überraschend, z.b. VN KL GR* NN -> VN...leisten im Pendelprozess weniger als ausgedachte Regeln mit gleicher Präzision...kommen in hoher Anzahl...brauchen Zeit Verbesserungen möglich durch besser annotierten Trainingstext Einschränkungen auf enthaltene Tags anderes Bewertungsverfahren 29
Ergebnisse - Namen Deutsch Gegeben: 150 Vornamen, 400 Nachnamen, 9 Titel, 9 Regeln, 5 Startitems Gefunden: 1553 Vornamen (Precision: ca. 80%, mit Längenfilter 88%) 12313 Nachnamen (Precision ca. 99%) 30
Typische Fehler - Namen Deutsch Titel/Berufsbezeichnungen werden fälschlicherweise Vornamen "Bundeskanzler Kohl" Wörter, die vor Nachnamen stehen, wie Ära, Soko,... werden Vornamen "Ära Stresemann" Firmenbezeichnungen werden falsch eingeordnet "Autohaus Müller" Wörter, die u.a. Nachname sind, liefern falsche Vornamen "Sternbild Löwe", "Blauen Engels" 31
Ergebnisse - Namen Deutsch (2) Um Pendelprozess auszulösen, sind nur 10 häufige Items als Grundwissen und Startitems nötig Desto mehr Startitems, desto - höhere Abdeckung - sicherer geschieht Wachstumsprozess Am Anfang werden seltene Namen leichter gelernt 32
Weiterentwicklung des Pendel-Algorithmus Projekt QUID 33
Literatur C. Biemann, Extraktion von semantischen Relationen aus natürlichsprachlichem Text mit Hilfe von maschinellem Lernen, in: U.Seewald- Heeg (Hrsg.), Sprachtechnologie für die multilinguale Kommunikation, Beiträge der GLDV-Frühjahrstagung 2003, gardez!-verlag, Sankt Augustin 2003 H. Cunningham, D. Daynard, K. Bontcheva, V. Tablan, GATE: A framework and graphical develoopment environment for robust NLP tools and applications. In: Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics, Philadelphia PA 2002 Gerhard Heyer, Uwe Quasthoff und Thomas Wittig: Text Mining: Wissensrohstoff Text -- Konzepte, Algorithmen, Ergebnisse. W3L-Verlag, 2008 Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", 29 April 1998, http://en.wikipedia.org/wiki/named_entity_recognition Guo Dong Zhou and Jian Su. Named entity recognition using an HMM-based chunk tagger. In Proceedings of the 40th Annual Meeting of the ACL, pages 473 480, Philadelphia, PA. 2002 34