Text Mining - Wissensrohstoff Text

Ähnliche Dokumente
Linguistische Informatik Einführung

Text Mining Wissensrohstoff Text

Gerhard Heyer Universität Leipzig

Gerhard Heyer Universität Leipzig

Named Entity Recognition auf Basis von Wortlisten

Text Mining 4. Seminar Information Extraction

Dauerstartnummern Klassik-Geländesport 2018

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

in deutschsprachigen Romanen

Listen für die Stadtverordnetenversammlung der Kommunalwahlen

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Identifizierung von Adressangaben in Texten ohne Verwendung von Wörterbüchern

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Startnummern aller Rennfahrer der LK II und LK II von by JUME Lfd.

Chronik Vorstand. Vorstand Öffentlichkeitsarbeit. Vorstand

Ergebnis Stadtrat Nieder-Olm Endergebnis

Beim. errang die Mannschaft. den 1. Platz. Schützen: Werner Ehrle (141), Armin Daikeler (139), Uwe Kunz (136)

Name Heimatclub DGV-Stv DGV-Spv Netto. Rang 1 - GR Augsburg 1 A 219

Volksbank-Jagdpokal 2018 Gruppe A

Maschinelle Sprachverarbeitung

Kreis -Kegel-Verein Greiz Vorlauf

Listen für die Stadtverordnetenversammlung der Kommunalwahlen

Gesamtübersicht für Schießleitung und Obleute - Bezirksmeisterschaft

5.7 Partei- und Fraktionsvorsitzende

Linguistische Informatik

Sportpistole KK 2014 Gau Mittelmain

Bezirksmeisterschaft 2017

Schützenverband Berlin-Brandenburg

Question Answering mit Support Vector Machines

5.7 Partei- und Fraktionsvorsitzende

Named Entity Recognition (NER)

Ausschüsse des Landkreises 001 Seite 1. Ausschüsse des Landkreises

Liste der Teilnehmer. Ostdeutsche Meisterschaft Seite 1

Chronik Vorstand. Wirtschaftsaussch.Vors. 1. Vorsitzender. Spielausschu ßVorsitzender. Jahr. Chronik Vorstand (2)

TSG-Senioren. 1946/47 1. Kreisklasse :14:00 70:46:00 Franz Schlicher. 1947/48 Bezirksklasse :32:00 33:02:00 Franz Schlicher

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Skat - Vorausscheidung "Süd" am in Ludwigsburg

Einführung in das Maschinelle Lernen I

Kreismeisterschaft 2019

5.7 Partei- und Fraktionsvorsitzende

Trio Senioren B. Landesmeister Landesvizemeister 3. Platz. BSV Essen Hans Breuer, Max Laurin, Gerd Wynecken

Bund der Militär - und Polizeischützen e.v.

Verzeichnis der Mitglieder der städtischen Ausschüsse in der Wahlperiode 2014/2020

Kreis Ansbach 2009/2010

Westfälischer Schützenbund e.v.

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

TTC Nauort Juni 2017

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Bezirksmeisterschaft im Jagdlichen Schießen 2012

LG stehend Schüler, Einzel. LG stehend Jugend, Einzel

Entscheidungsbäume. Minh-Khanh Do Erlangen,

10. Weidaer Dreieck Ergebnislisten der Gleichmäßigkeitsläufe

Casino Seefeld - Alpen Skat 2016

Senioren Trio A Badische Trio Meisterschaft 2017

Bohle - Rangliste Bez. Liga Herren - Schnitt 2006/2007 Nr. NAME Vorname Klub Total Sp Schnitt 1 Schönfelder Klaus-Peter SG

16:32:27 Seite Samstag, 11. März 2006 Landesmeisterschaft Sachsen 1

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Diskriminatives syntaktisches Reranking für SMT

VEREIN DER SPORTANGLER KELLINGHUSEN E.V.

Egelsbach Ort Endergebnis (6 Wahlbezirke)

"Grüne Karte" für glaubwürdiges Klimabewusstsein

Wintercup 2015 im Alternate Sportpark Linden

Diözese Augsburg. Vertreter. 1. Domdekan i. R. Prälat Dr. Dietmar Bernt. 2. Pfarrer Thomas Brom. 3. Diakon i. R. Alfred Festl

Casino Seefeld - Alpen Skat 2016

Casino Seefeld - Alpen Skat 2016

Siegerbänder Australorps:

Golfclub Tegernbach e.v. Name Heimatclub DGV-Stv DGV-Spv Netto Rang 1 - GR Augsburg (0d) (0d) Rang 2 - Auf der Gsteig 216 (0d) (0d)

Name Heimatclub DGV-Stv DGV-Spv Brutto. Rang 1 - GR Augsburg 2 231

Einführung in die Computerlinguistik

Stand: :37

Mannschaftsmeisterschaft am in Chemnitz. Endstand nach der 4. Serie

Landesmeisterschaft Sachsen

Faustball. Deutsche Meisterschaft der Senioren Halle 09/10. Roth

Ewige Bestenliste Marathon - Herren

Bürgerschiessen Bürgerkönig

Stimmenzettel Gemeinde 2011 (links) im Vergleich mit StimmenZettel Niedenstein 2006 (rechts) Gebiet Vorläufiges Endergebnis

Saison 2016 / und

LG stehend Schüler, Einzel. LG stehend Jugend, Einzel

Platz Name Ergebnisse:

Ergebnisliste Bürgerschießen 2018 Wertung: ab 18 Jahre m/w gemischt. KKS-Himmelsthür e.v. Platz Name Start-Nr. Teiler 1 Teiler 2 Gesamt

weiblich 112 Wollny Marcel Schloß Neuhaus Pohlmann Anna Benhausen 135

Schießwertung. 20. Neujahrschießen der RK Engstingen e.v.

STAND: : Race to Sonnenbühl

Bund der Historischen Deutschen Schützenbruderschaften. Bezirksverband Düsseldorf-Nord-Angerland

Literatur zum BGB. Allgemeiner Teil

Deutsche Gehörlosen Skat- und Rommè e.v.

Aufsichtsplan 2018 Mittwoch u. Freitag von 19 Uhr bis 22 Uhr. Sonntag von 10 Uhr bis 12 Uhr Bei Nichterscheinen müssen 30 Euro entrichtet werden.

SCHÜTZENKREIS KOBLENZ e.v. im RHEINISCHER SCHÜTZENBUND e.v. ERGEBNISLISTE LIGAWETTKÄMPFE 2012

Literatur zum BGB. Allgemeiner Teil

Mannschaftswertung Luftgewehr

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

Übersicht Einzel-Spiele Best of Five Stand: Endstand Name Vorname Punkte Name Vorname Punkte

Verbandsliga 1. Spieltag Gesamt

Bund der Militär - und Polizeischützen e.v.

1. SVng Geifertshofen 979 Alexander Groß 351 Daniel Störrle 347 Marcel Munz Vogelgsang, Anna Katharina SpS Crailsheim

Daten von : Storath Erwin Bereich : Vereinsmitarbeiter SpVgg Stegaurach 1945 e.v. 2. Vorsitzender - Geschäftsführung-

Transkript:

Text Mining - Wissensrohstoff Text Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik

NER Grundlagen Ziel: Informationsextraktion aus Textdaten, Beschränkung auf vordefinierte informationelle Kategorien: named entities (NE) Aufgabe: The named entity task is to identify and mark certain types of names and referring expressions in input texts, typically via SGML tags. (Boisen et al. 2000) - Vorstufe zum Textverstehen - i. d. R. Verzicht auf vollständige Strukturanalyse (d. h. allenfalls POS-Parsing / shallow analysis) 2

Named Entity Recognition Problemstellung: Markiere Namen im Text mit richtiger Kategorie: Personenname Heiner Müller, Schröder, Maggie Namen von Orten Leipzig, Oberwiesenthal, Ouagadougou Organisationen Deutsche Bank AG, UNESCO, Arbeitsamt sonstige Namen Fiat Tipo; Wanderer, kommst Du nach Spa...; Starlight Express Namen machen bis zu 10% von Texten aus, sie referieren auf eindeutige Objekte und dienen daher als Anker für das automatische Sprachverstehen 3

NER Beispiel - Bundesanzeiger 79312 Emmendingen Ortsnamenserkennung DV - Expect GmbH LABORSYSTEME Herbolzheim Belchenstr. 44 HRB 662 K - 06. November 2001 Neueintragungen HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in 1 (Firma) am 09. Oktober 2001. Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.

NER Beispiel - Bundesanzeiger Erkennung rechtsrelevanten Vokabulars 3 79312 Emmendingen DV - Expect GmbH LABORSYSTEME Herbolzheim Belchenstr. 44 HRB 662 K - 06. November 2001 Neueintragungen HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in 1 (Firma) am 09. Oktober 2001. Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.

NER Beispiel - Bundesanzeiger Erkennung von Fachvokabular (Firmenzweck) 79312 Emmendingen DV - Expect GmbH LABORSYSTEME Herbolzheim Belchenstr. 44 HRB 662 K - 06. November 2001 Neueintragungen HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in 1 (Firma) am 09. Oktober 2001. Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.

NER Beispiel - Bundesanzeiger Erkennung numerischer Angaben (Zeit, Geld,, HR-Nr.) 79312 Emmendingen DV - Expect GmbH LABORSYSTEME Herbolzheim Belchenstr. 44 HRB 662 K - 06. November 2001 Neueintragungen HRB 662 K -- 06. November 2001: DV Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in 1 (Firma) am 09. Oktober 2001. Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu vertreten ( 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.

Beispiel NER - GATE Leading open-source tool: GATE/ANNIE http://www.gate.ac.uk/annie/

Voraussetzungen Geeigneter maschinenlesbarer Text, z. B. Zeitungstext Agenturmeldungen Text von Websites vordefinierte Textkollektionen (z. B. die MUC-Corpora (message understanding conference), erhältlich vom Linguistic Data Consortium, LDC, http://www.ldc.upenn.edu)) 9

Allgemeine Beobachtungen Namen sind eine offene Wortklasse: - Neubildungen möglich - potentiell alle Wörter können Namen sein - wesentliches Merkmal: Referentielles Objekt (mit einem Namen benennbares Objekt), immer mit POS-Kategorie N Beispiel: Der Fisch kochte in dem Topf. Prof. Ralph DER, Joseph FISCH, Anja KOCHTE, IN(diana state), Augsburger Rolladenfabrik Hermann TOPF 10

Allgemeine Beobachtungen 2 named entities verhalten sich wie auch das Auftreten unterschiedlicher Wortformen im Allgemeinen nach dem Zipfschen Gesetz, d. h.: Frequenz * Rang = konstant wenige Namen treten sehr häufig, viele selten (nie) auf Folgerung: lexikonbasierte Ansätze können nie zu 100% erfolgreich arbeiten und sind durch andere Strategien zu ergänzen Problem: Erkennen bisher unbekannter Namen Linguistische Probleme: Zuordnung zu mehreren Kategorien (Polysemie) Namen als Teile anderer Namen (New Mexico, Bank of England) 11

Strategien der Extraktion manuelle Annotation von Textkorpora lexikonbasierter Ansatz (seed lists) regelbasierte Verfahren: Konstruktionsregeln für namend entities statistische Verfahren Entscheidungsbäume Mischverfahren

Lexikonbasierter Ansatz Einführung von Lexika / Listen unterschiedlicher Namenstypen (Gazzetteers), zusammengestellt z. B. aus dem WWW Wikipedia Findet praktisch bei allen Ansätzen zur NE-Erkennung Verwendung. Beispiel: Namenserkennung im Deutschen Wortschatz (2005) Liste für Heyer: Wort: (Wort_nr: 59353): Heyer Häufigkeitsklasse: 15 (Anzahl: 173) Sachgebiet: Nachname (Nachname -> Personen -> Eigennamen) Grundform: Heyer [173] Teilwort von: Jürgen Heyer [121], Jörg Heyer [4], Lutz Heyer [3], Heiner Heyer [1] 13

Manuelle Annotation Erstellung hochqualitativer Referenzlisten u.a. zum Evaluieren und Testen Annotiertes Material dient dem Trainieren des Extraktionstools (Test u. a. gegen die nicht-annotierten Trainingsdaten) Hauptproblem: Finden zusätzlicher Namen, um recall zu verbessern Annotation: I. d. R. Studenten, im Mittel 5k Wörter / h, bei deutlicher Qualitätsverbesserung nach einigen Wochen Hilfsmittel: Annotationseditoren, mechanical turk Auswahl zu annotierender Sätze durch Heraussuchen von unbekanntem Vokabularmaterial (um Re-Annotieren bekannter Items zu verhindern) 14

Vorgenerierte Listen von Namenskandidaten Z. B rechte Nachbarn von Funktionsbezeichnungen wie Geschäftsführer Peter Struck 434 Joachim Hörster 230 Werner Schulz 166 Lutz Sikorski 151 Peter Ramsauer 139 Volker Liepelt 133 Jörg van Essen 123 Wilhelm Schmidt 105 Jürgen Rüttgers 94 Eduard Oswald 76 Klaus Fuchs 75 Axel Nawrocki 74 Karl Hopfner 69 Richard Heideker 64 Werner Hackmann 61 Franz Frey 60 Thilo Bode 57 Jörg Walter 53 Franz Ruland 52 Bernd Kundrun 49 Peter Sauerbaum 48 Wolfgang Loos 48 Günter Sanders 47 Herbert Märtin 47 Franz Josef Jung 45 Walter Gehring 44 Andreas Schmidt 43 Helmut Thoma 42 Lothar Breitkreuz 42 Ulf Kalkmann 41 Günter Pfefferkorn 40 Joachim Enßlin 40 Reinhold Schlicht 40 Sven Jäger 40 Volker Sparmann 40 Hans-Joachim Feuerbach 39 Hans-Peter Repnik 36 Peter Hanraths 36 Volker Nickel 36 Andreas Eichstaedt 35 Carl Michael Baumann 35 Dietmar Koschmieder 35 Volker Hassemer 35 Jürgen Köhn 34 Michael Peters 34 Willy Fischel 34 Dirk Gaerte 33 Heinz Daum 32 Klaus Kröll 32 Hans-Peter Seitz 31 Helmut Bälz 31 Karl-Ludwig Böttcher 31 Messe München GmbH 31 Felix Somm 30 Jürgen Uhlemann 30 Ulrich Heinrich 30 Willibald Saller 30 Daniel Beauvois 29 Günter Schreiner 29 Karl-Joachim Kierey 29 Nils Busch- Petersen 29 Dieter Gorny 28 Eckart Fiedler 28 Hans-Walter Herpel 28 Rolf Hüllinghorst 28 Dieter Hapel 27 Georg Gafron 27 Jürgen Doetz 27 Kunibert Schmidt 27 Peter Danylow 27 Sascha Hettrich 27 Stadion GmbH 27 Werner Hoyer 27 Edgar Geenen 26 Herbert Kämpfer 26 Jörg Hiemer 26 Markus Tellenbach 26 Wolfgang Glöckle 26 Horst Gregor Lappe 25 Jürgen Salzhuber 25 Klaus Diehl 25 Leonhard Reeb 25 Manfred Brückl 25 Michael Bühler 25 Peter Broß 25 Rainer Adrion 25 Rainer Vögele 25 Walter Wilken 25 Wolfgang Brakhane 25 Hanns Peter Nerger 24 Jan Mojto 24 Kilian Krieger 24 Peter Heimes 24 Ulrich Aengenvoort 24 Walter Rogg 24 Wolfgang Schwab 24 Eberhard Fehrmann 23 Gottfried Zmeck 23 Rolf Hahn 23 Theodor Diener 23 Frank Giesbert 22 Heiner Bartling 22 Helmut Zirkelbach 22 Jörg Schaible 22 Peter Saile 22 Siegfried Rumpf 22 Sieghard Kelle 22 Berlin Tourismus Marketing GmbH 21 Burkhard Gnärig 21 Christoph Schindler 21 Hans-Jürgen Mammitzsch 21 Heinz Vietze 21 Hermann Jäger 21 15

Vorgehensweise bei NE Zweistufiges Vorgehen ist üblich: Zunächst Namen finden, dann in Kategorien einteilen Die Unterscheidung Name/ Nichtname kann evtl. einem POS- Tagger überlassen werden. Hier: [NE]-Tag Zuvor[ADV] hatte[vafin] Johannes[NE] Paul[NE] II.[NE] im[apprart] feierlichen[adja] Neujahrsgottesdienst[NN*] im[apprart] Petersdom[NN*] an[appr] die[art] blutigen[adja] Konflikte[NN] auf[appr] dem[art] Balkan[NE],[$,] in[appr] Afrika[NE] und[kon]... Bernd[NE] Heisig[NE*],[$,] Direktor[NN] der[art] Deutschen[ADJA] Bau-[TRUNC] und[kon] Bodenbank[NN*] AG[NN],[$,] ist[vafin] zum[apprart] Geschäftsführer[NN] der[art] Baucontact[NN*] Immobilien[NN] GmbH.[NE*] mit[appr] Sitz[NN] in[appr] Ost-Berlin[NE*]... Rudolf[NE] Müller[NE],[$,] Vorstandsmitglied[NN] der[art] Südzucker[ADJA*] AG[NN]... Manchmal jedoch werden Namen als NN getagged, außerdem gibt es Namen wie Joseph[NE] Freiherr[NN] von[appr] Eichendorf[NE] -> Brauchen zusätzlichen Mechanismus. Zumindest kommt in einem Namen immer ein [NN] vor, wenn schon kein [NE]. 16

Features Features sind i.a. Eigenschaften und können sich sowohl auf das Wort an sich, als auch auf den Kontext beziehen. Für jedes betrachtete Wort lassen sich Features ausrechnen, ein NER-System kann auf Featureprofile für die Namenskategorien trainiert werden Für das Training können Standardverfahren aus dem Bereich Machine Learning eingesetzt werden 17

Features für Einzelwörter Vorhandensein im Gazetteer Vorhandensein im Trainingstext Orthographie: Groß/Kleinschreibung, Bindestriche oder Zahlen im Wort etc. Worthäufigkeit Präfixe Suffixe POS-Tags Wortlänge N-Gramme für Buchstaben 18

Kontextfeatures Triggerwörter wie GmbH, Frau, Stadt, Buch im Kontext - an festen Positionen - an beliebigen Positionen im Fenster um das Wort Satzzeichen Andere Namen in der Nähe Die Größe des Fensters variiert üblicherweise zwischen 3 und 7 In diesem Satz ist ein Wortfenster der Länge fünf eingezeichnet. 19

Feature Selection Manche Features sind aussagekräftiger als andere manche Features sind nicht für alle Sprachen sinnvoll Vor dem eigentlichen Training wird die Aussagekraft von Features bestimmt. Features, die zu schwach sind, werden im Folgenden weggelassen, dies ist abhängig vom Trainingsalgorithmus: Manche Algorithmen selektieren automatisch Manche Algorithmen sind nur für wenige Features sinnvoll 20

Trainingsalgorithmen Support Vector Machines: Binärer Klassifikator für dünn besetzte, große Vektoren HMMs: Übergangswahrscheinlichkeiten aufgrund von Tags oder Wörtern Entscheidungsbäume: Binäre, verschachtelte IF- Entscheidungen Boosting: viele schwache Regeln mit Reihenfolge Memory-based Learning: Clustern aufgrund Trainingstext Transformation-based learning: Transformationsregeln mit Zwischeneigenschaften Stacking: Mehrere Klassifikatoren verwenden, die aufeinander aufbauen 21

Evaluation Qualitätskriterien Genauigkeit (precision): Anteil korrekt erkannter an allen erkannten NEs Vollständigkeit (recall): Anteil der korrekt erkannten an allen vorhandenen NEs D. h.: Evaluierungsmaße wie im Information Retrieval Feindifferenzierung Unterscheidung zwischen Erkennung von tokens und korrekter Zuordnung von tokens zu einer Klasse 22

Beispiel - Personennamenerkennung Personennamen bilden reguläre Muster in Texten, z.b. TITEL VORNAME NACHNAME Dr. Hubert Müller Gisela Fischer Herr Schmidt Relation PN(TIT,VN,NN) mit TIT={Dr., Prof., Präsident...} Menge der Titel VN={Hans, Peter, Maria,...} Vornamen NN={Maier, Huber, Schulze...} Nachnamen 23

Idee des Pendel-Algorithmus Annotiere Text mit bekannten Items, sowie flacher Eigenschaften, z.b. "... sagte Jonas Berger, der.. "... KL GR NN SZ DET.. Benutze Regeln wie GR* NN -> VN VN GR* -> NN um "Jonas" als Vornamen zu klassifizieren Derartige Regeln sind schwache Hypothesen, da sie nicht immer zutreffen, z.b. in "Bevor Berger nachdachte,..." "... Karten bei Konzertagentur Berger, München. Regeln alleine unzureichend. 24

Der Pendel-Algorithmus (Biemann 2003) Lade Beispiele //einige Vor- und Nachnamen, Titel Lade Regeln // z.b. TIT GR* NN -> VN StartItems newi:=beispiele Wissen K:=Beispiele+Grundwissen //Grundwissen: Artikel etc. do { Items I:=newI newi:=leer for all i I { text_i:=hole Sätze aus Korpus, die i enthalten // FINDEN kandidaten:=wende Regeln auf text_i an for all k kandidaten { // VERIFIZIEREN kandtext:= Hole Sätze aus Korpus, die k enthalten rating_k:= Wende Regeln auf kandtext an und überprüfe, wie oft k wie in text_i klassifiziert wird wenn rating_k hoch genug, füge k zu K und zu newi hinzu } // for all k } // for all i } while newi nicht leer. 25

Erklärungen zum Pendel-Algorithmus Regeln werden zum Finden und zum Verifizieren von Kandidaten benutzt bekannte und gelernte Items werden zum Finden und zum Verifizieren von Kandidaten benutzt Ein Wort wird nur dann mit seiner Klassifizierung gespeichert, wenn es - mehrfach - mit ausreichender Häufigkeit im Korpus mit dieser Klassifizierung auftritt. 26

Regeln lernen Regellernen ist dem eigentlichen Algorithmus vorgeschaltet. Gegeben: z.b. 50 Vornamen, 50 Nachnamen Suche Sätze, die je mindestens einen bekannten Vornamen und Nachnamen enthalten für Trainingstext Annotiere Trainingstext und baue alle möglichen Regeln um bekannte Namen Teste, wie viele Items durch jede Regel richtig und falsch erkannt werden Bei ausreichendem Rating wird Regel im Weiteren verwendet rating 0,5 richtig falsch 2 ( richtig falsch ) 27

Konstruktion von Regeln Text: "John Roth und Frank Dunn stehen während..." Anno: {GR} {GR,NN} {KL} {GR,VN} {GR,NN} {KL} {KL} Konstruierte Regeln der Längen 2 und 3: KL GR* -> VN GR* GR -> VN GR* NN -> VN GR KL GR* -> VN NN KL GR* -> VN KL GR* GR -> VN KL GR* NN -> VN GR* GR KL -> VN GR* NN KL -> VN Diese werden anschliessend getestet. 28

Gelernte Regeln......sind manchmal überraschend, z.b. VN KL GR* NN -> VN...leisten im Pendelprozess weniger als ausgedachte Regeln mit gleicher Präzision...kommen in hoher Anzahl...brauchen Zeit Verbesserungen möglich durch besser annotierten Trainingstext Einschränkungen auf enthaltene Tags anderes Bewertungsverfahren 29

Ergebnisse - Namen Deutsch Gegeben: 150 Vornamen, 400 Nachnamen, 9 Titel, 9 Regeln, 5 Startitems Gefunden: 1553 Vornamen (Precision: ca. 80%, mit Längenfilter 88%) 12313 Nachnamen (Precision ca. 99%) 30

Typische Fehler - Namen Deutsch Titel/Berufsbezeichnungen werden fälschlicherweise Vornamen "Bundeskanzler Kohl" Wörter, die vor Nachnamen stehen, wie Ära, Soko,... werden Vornamen "Ära Stresemann" Firmenbezeichnungen werden falsch eingeordnet "Autohaus Müller" Wörter, die u.a. Nachname sind, liefern falsche Vornamen "Sternbild Löwe", "Blauen Engels" 31

Ergebnisse - Namen Deutsch (2) Um Pendelprozess auszulösen, sind nur 10 häufige Items als Grundwissen und Startitems nötig Desto mehr Startitems, desto - höhere Abdeckung - sicherer geschieht Wachstumsprozess Am Anfang werden seltene Namen leichter gelernt 32

Weiterentwicklung des Pendel-Algorithmus Projekt QUID 33

Literatur C. Biemann, Extraktion von semantischen Relationen aus natürlichsprachlichem Text mit Hilfe von maschinellem Lernen, in: U.Seewald- Heeg (Hrsg.), Sprachtechnologie für die multilinguale Kommunikation, Beiträge der GLDV-Frühjahrstagung 2003, gardez!-verlag, Sankt Augustin 2003 H. Cunningham, D. Daynard, K. Bontcheva, V. Tablan, GATE: A framework and graphical develoopment environment for robust NLP tools and applications. In: Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics, Philadelphia PA 2002 Gerhard Heyer, Uwe Quasthoff und Thomas Wittig: Text Mining: Wissensrohstoff Text -- Konzepte, Algorithmen, Ergebnisse. W3L-Verlag, 2008 Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", 29 April 1998, http://en.wikipedia.org/wiki/named_entity_recognition Guo Dong Zhou and Jian Su. Named entity recognition using an HMM-based chunk tagger. In Proceedings of the 40th Annual Meeting of the ACL, pages 473 480, Philadelphia, PA. 2002 34