1 Muster basierte Analyse NER & IE Text Mining - Wissensrohstoff Text Gerhard Heyer Universität Leipzig Institut für Informatik

2 Information Extraxtion - Definition und Abgrenzung Mit IE bezeichnet man das automatische Ausfüllen von vorgegebenen Templates aus geschriebenem Text Anders als Information Retrieval befasst sich IE nicht mit dem Auffinden von Textstellen anhand von Suchbegriffen, sondern fügt dem Text Strukturinformationen hinzu Diese können dann für IR, QA, statistische Analysen etc. genutzt werden Es funktioniert besser für eingegrenzte Textsorten Markup-Informationen dürfen berücksichtigt werden Prof. Dr. G. Heyer Modul Text Mining 2

3 Unteraufgaben des IE Named Entity recognition (NE) Erkennung von Personennamen, Orten, Firmen, Coreference Resolution (CO) Erkennung von Referenzgleichheiten im Text Template Element construction (TE) Erkennung deskriptiver Information zu Namen, benutzt NE, CO Template Relation construction (TR) Findet Relationen zwischen den Template-Elementen aus TE Scenario Template production (ST) Passt die Ergebnisse aus TE und TR spezifischen Szenarien an Prof. Dr. G. Heyer Modul Text Mining 3

4 Task: Extract Information from Text to DB October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor. Today, Microsoft claims to "love" the opensource concept. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying Name Organization Title Bill Gates CEO Microsoft Corp. Bill Veghte VP Microsoft Richard Stallman founder Free Softw. F [A. McCallum, W. Cohen] Prof. Dr. G. Heyer Modul Text Mining 4

5 Steps: Find Segments & Classify October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor. Today, Microsoft claims to "love" the opensource concept. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying n Segmentation into phrases n Classification into entity types Person name Person title Organization name Prof. Dr. G. Heyer Modul Text Mining 5

6 Steps: Extract Relations October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor. Today, Microsoft claims to "love" the opensource concept. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying n Segmentation into phrases n Classification into entity types n Relation extraction Person: Bill Gates Position: CEO Org: Microsoft Corp. Person: Bill Veghte Position: VP Org: Microsoft Prof. Dr. G. Heyer Modul Text Mining 6

7 Steps: Coreference Resolution October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor. Today, Microsoft claims to "love" the open-source concept. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying n Segmentation into phrases n Classification into entity types n Relation extraction n Coreference Resolution Bill Gates, Gates Microsoft Corporation Microsoft, its, we Bill Veghte, a Microsoft VP us, Free Software Foundation Prof. Dr. G. Heyer Modul Text Mining 7

8 Arten von IE-Systemen Handgemachte Systeme - Extraktionsregeln manuell - Gewinnung durch tiefes Nachdenken über Beispiele aus dem Korpus und Expertenbefragung - langwierig und aufwendig, aber transparent - sprachabhängig Trainierbare Systeme - Verwendung statistischer Methoden - Verwendung von annotierten Trainingskorpora für das Finden von Extraktionsregeln - Verarbeitung von Benutzerinteraktion für das Finden von Extraktionsregeln - sprachunabhängig Hybride Systeme Prof. Dr. G. Heyer Modul Text Mining 8

9 Grundlagen: Context Features n Four-grams [Schuetze 93] n Word-windows [Grefenstette 92] n Predicate-Argument relations (every man loves a woman) n Modifier Relations (fast car, the hood of the car) [Cimiano 04b] n Appositions (Ferrari, the fastest car in the world) [Caraballo 99] n Coordination (ladies and gentlemen) [Caraballo 99, Dorow and Widdows 03] Prof. Dr. G. Heyer Modul Text Mining 9

10 Using Syntactic Surface Dependencies Mopti is the biggest city along the Niger with one of the most vibrant ports and a large bustling market. Mopti has a traditional ambience that other towns seem to have lost. It is also the center of the local tourist industry and suffers from hard-sell overload. The nearby junction towns of Gao and San offer nice views over the Niger s delta. city: biggest(1) ambience: traditional(1) center: of_tourist_industry(1) junction town: nearby(1) market: bustling(1) port: vibrant(1) overload: suffer_from(1) tourist industry: center_of(1), local(1) town: seem_subj(1) view: nice(1), offer_obj(1) Prof. Dr. G. Heyer Modul Text Mining 10

11 Hearst Patterns Examples for hyponymy patterns [Hearst 1992]: n Vehicles such as cars, trucks and bikes n Such fruits as oranges, nectarines or apples n Swimming, running and other activities n Publications, especially papers and books n A seabass is a fish. n NP such as NP, NP,... and NP n Such NP as NP, NP,... or NP n NP, NP,... and other NP n NP, especially NP, NP,... and NP n NP is a NP. n... Principle idea: match these patterns in texts to retrieve isa-relations Precision wrt. Wordnet: 55,46% (66/119) Prof. Dr. G. Heyer Modul Text Mining 11

12 NER Grundlagen Ziel: Informationsextraktion aus Textdaten, Beschränkung auf vordefinierte informationelle Kategorien: named entities (NE) Aufgabe: The named entity task is to identify and mark certain types of names and referring expressions in input texts, typically via SGML tags. (Boisen et al. 2000) - Vorstufe zum Textverstehen - i. d. R. Verzicht auf vollständige Strukturanalyse (d. h. allenfalls POS-Parsing / shallow analysis) Prof. Dr. G. Heyer Modul Text Mining 12

13 Named Entity Recognition Problemstellung: Markiere Namen im Text mit richtiger Kategorie: Personenname Heiner Müller, Schröder, Maggie Namen von Orten Leipzig, Oberwiesenthal, Ouagadougou Organisationen Deutsche Bank AG, UNESCO, Arbeitsamt sonstige Namen Fiat Tipo; Wanderer, kommst Du nach Spa...; Starlight Express Namen machen bis zu 10% von Texten aus, sie referieren auf eindeutige Objekte und dienen daher als Anker für das automatische Sprachverstehen Prof. Dr. G. Heyer Modul Text Mining 13

14 Beispiel NER - GATE Leading open-source tool: GATE/ANNIE Prof. Dr. G. Heyer Modul Text Mining 14

15 Voraussetzungen Geeigneter maschinenlesbarer Text, z. B. Zeitungstext Agenturmeldungen Text von Websites vordefinierte Textkollektionen (z. B. die MUC-Corpora (message understanding conference), erhältlich vom Linguistic Data Consortium, LDC, Prof. Dr. G. Heyer Modul Text Mining 15

16 Allgemeine Beobachtungen Namen sind eine offene Wortklasse: - Neubildungen möglich - potentiell alle Wörter können Namen sein - wesentliches Merkmal: Referentielles Objekt (mit einem Namen benennbares Objekt), immer mit POS-Kategorie N Beispiel: Der Fisch kochte in dem Topf. Prof. Ralph DER, Joseph FISCH, Anja KOCHTE, IN(diana state), Augsburger Rolladenfabrik Hermann TOPF Prof. Dr. G. Heyer Modul Text Mining 16

17 Allgemeine Beobachtungen 2 named entities verhalten sich wie auch das Auftreten unterschiedlicher Wortformen im Allgemeinen nach dem Zipfschen Gesetz, d. h.: Frequenz * Rang = konstant wenige Namen treten sehr häufig, viele selten (nie) auf Folgerung: lexikonbasierte Ansätze können nie zu 100% erfolgreich arbeiten und sind durch andere Strategien zu ergänzen Problem: Erkennen bisher unbekannter Namen Linguistische Probleme: Zuordnung zu mehreren Kategorien (Polysemie) Namen als Teile anderer Namen (New Mexico, Bank of England) Prof. Dr. G. Heyer Modul Text Mining 17

18 Strategien der Extraktion manuelle Annotation von Textkorpora lexikonbasierter Ansatz (seed lists) regelbasierte Verfahren: Konstruktionsregeln für namend entities statistische Verfahren Entscheidungsbäume Mischverfahren Prof. Dr. G. Heyer Modul Text Mining 18

19 Lexikonbasierter Ansatz Einführung von Lexika / Listen unterschiedlicher Namenstypen (Gazzetteers), zusammengestellt z. B. aus dem WWW Wikipedia Findet praktisch bei allen Ansätzen zur NE-Erkennung Verwendung. Beispiel: Namenserkennung im Deutschen Wortschatz (2005) Liste für Heyer: Wort: (Wort_nr: 59353): Heyer Häufigkeitsklasse: 15 (Anzahl: 173) Sachgebiet: Nachname (Nachname -> Personen -> Eigennamen) Grundform: Heyer [173] Teilwort von: Jürgen Heyer [121], Jörg Heyer [4], Lutz Heyer [3], Heiner Heyer [1] Prof. Dr. G. Heyer Modul Text Mining 19

20 Features Features sind i.a. Eigenschaften und können sich sowohl auf das Wort an sich, als auch auf den Kontext beziehen. Für jedes betrachtete Wort lassen sich Features ausrechnen, ein NER-System kann auf Featureprofile für die Namenskategorien trainiert werden Für das Training können Standardverfahren aus dem Bereich Machine Learning eingesetzt werden Prof. Dr. G. Heyer Modul Text Mining 20

21 Features für Einzelwörter Vorhandensein im Gazetteer Vorhandensein im Trainingstext Orthographie: Groß/Kleinschreibung, Bindestriche oder Zahlen im Wort etc. Worthäufigkeit Präfixe Suffixe POS-Tags Wortlänge N-Gramme für Buchstaben Prof. Dr. G. Heyer Modul Text Mining 21

22 Kontextfeatures Triggerwörter wie GmbH, Frau, Stadt, Buch im Kontext - an festen Positionen - an beliebigen Positionen im Fenster um das Wort Satzzeichen Andere Namen in der Nähe Die Größe des Fensters variiert üblicherweise zwischen 3 und 7 In diesem Satz ist ein Wortfenster der Länge fünf eingezeichnet. Prof. Dr. G. Heyer Modul Text Mining 22

23 Feature Selection Manche Features sind aussagekräftiger als andere manche Features sind nicht für alle Sprachen sinnvoll Vor dem eigentlichen Training wird die Aussagekraft von Features bestimmt. Features, die zu schwach sind, werden im Folgenden weggelassen, dies ist abhängig vom Trainingsalgorithmus: Manche Algorithmen selektieren automatisch Manche Algorithmen sind nur für wenige Features sinnvoll Prof. Dr. G. Heyer Modul Text Mining 23

24 Trainingsalgorithmen Support Vector Machines: Binärer Klassifikator für dünn besetzte, große Vektoren HMMs: Übergangswahrscheinlichkeiten aufgrund von Tags oder Wörtern Entscheidungsbäume: Binäre, verschachtelte IF- Entscheidungen Boosting: viele schwache Regeln mit Reihenfolge Memory-based Learning: Clustern aufgrund Trainingstext Transformation-based learning: Transformationsregeln mit Zwischeneigenschaften Stacking: Mehrere Klassifikatoren verwenden, die aufeinander aufbauen Prof. Dr. G. Heyer Modul Text Mining 24

25 Beispiel - Personennamenerkennung Personennamen bilden reguläre Muster in Texten, z.b. TITEL VORNAME NACHNAME Dr. Hubert Müller Gisela Fischer Herr Schmidt Relation PN(TIT,VN,NN) mit TIT={Dr., Prof., Präsident...} Menge der Titel VN={Hans, Peter, Maria,...} Vornamen NN={Maier, Huber, Schulze...} Nachnamen Prof. Dr. G. Heyer Modul Text Mining 25

26 Idee des Pendel-Algorithmus Annotiere Text mit bekannten Items, sowie flacher Eigenschaften, z.b. "... sagte Jonas Berger, der.. "... KL GR NN SZ DET.. Benutze Regeln wie GR* NN -> VN VN GR* -> NN um "Jonas" als Vornamen zu klassifizieren Derartige Regeln sind schwache Hypothesen, da sie nicht immer zutreffen, z.b. in "Bevor Berger nachdachte,..." "... Karten bei Konzertagentur Berger, München. Regeln alleine unzureichend. Prof. Dr. G. Heyer Modul Text Mining 26

27 Der Pendel-Algorithmus (Biemann 2003) Lade Beispiele //einige Vor- und Nachnamen, Titel Lade Regeln // z.b. TIT GR* NN -> VN StartItems newi:=beispiele Wissen K:=Beispiele+Grundwissen //Grundwissen: Artikel etc. do { Items I:=newI newi:=leer for all i I { text_i:=hole Sätze aus Korpus, die i enthalten // FINDEN kandidaten:=wende Regeln auf text_i an for all k kandidaten { // VERIFIZIEREN kandtext:= Hole Sätze aus Korpus, die k enthalten rating_k:= Wende Regeln auf kandtext an und überprüfe, wie oft k wie in text_i klassifiziert wird wenn rating_k hoch genug, füge k zu K und zu newi hinzu } // for all k } // for all i } while newi nicht leer. Prof. Dr. G. Heyer Modul Text Mining 27

28 Erklärungen zum Pendel-Algorithmus Regeln werden zum Finden und zum Verifizieren von Kandidaten benutzt bekannte und gelernte Items werden zum Finden und zum Verifizieren von Kandidaten benutzt Ein Wort wird nur dann mit seiner Klassifizierung gespeichert, wenn es - mehrfach - mit ausreichender Häufigkeit im Korpus mit dieser Klassifizierung auftritt. Prof. Dr. G. Heyer Modul Text Mining 28

29 Regeln lernen Regellernen ist dem eigentlichen Algorithmus vorgeschaltet. Gegeben: z.b. 50 Vornamen, 50 Nachnamen Suche Sätze, die je mindestens einen bekannten Vornamen und Nachnamen enthalten für Trainingstext Annotiere Trainingstext und baue alle möglichen Regeln um bekannte Namen Teste, wie viele Items durch jede Regel richtig und falsch erkannt werden Bei ausreichendem Rating wird Regel im Weiteren verwendet rating 0,5 richtig falsch 2 ( richtig falsch) Prof. Dr. G. Heyer Modul Text Mining 29

30 Konstruktion von Regeln Text: "John Roth und Frank Dunn stehen während..." Anno: {GR} {GR,NN} {KL} {GR,VN} {GR,NN} {KL} {KL} Konstruierte Regeln der Längen 2 und 3: KL GR* -> VN GR* GR -> VN GR* NN -> VN GR KL GR* -> VN NN KL GR* -> VN KL GR*GR -> VN KL GR*NN -> VN GR*GR KL -> VN GR*NN KL -> VN Diese werden anschliessend getestet. Prof. Dr. G. Heyer Modul Text Mining 30

31 Gelernte Regeln......sind manchmal überraschend, z.b. VN KL GR* NN -> VN...leisten im Pendelprozess weniger als ausgedachte Regeln mit gleicher Präzision...kommen in hoher Anzahl...brauchen Zeit Verbesserungen möglich durch besser annotierten Trainingstext Einschränkungen auf enthaltene Tags anderes Bewertungsverfahren Prof. Dr. G. Heyer Modul Text Mining 31

32 Ergebnisse - Namen Deutsch Gegeben: 150 Vornamen, 400 Nachnamen, 9 Titel, 9 Regeln, 5 Startitems Gefunden: 1553 Vornamen (Precision: ca. 80%, mit Längenfilter 88%) Nachnamen (Precision ca. 99%) Anzahl Schritte vs. neue Items Anzahl Schritte vs. Gesamtitems neue Items Items gesamt Schritt Schritt Prof. Dr. G. Heyer Modul Text Mining 32

33 Typische Fehler - Namen Deutsch Titel/Berufsbezeichnungen werden fälschlicherweise Vornamen "Bundeskanzler Kohl" Wörter, die vor Nachnamen stehen, wie Ära, Soko,... werden Vornamen "Ära Stresemann" Firmenbezeichnungen werden falsch eingeordnet "Autohaus Müller" Wörter, die u.a. Nachname sind, liefern falsche Vornamen "Sternbild Löwe", "Blauen Engels" Prof. Dr. G. Heyer Modul Text Mining 33

34 Ergebnisse - Namen Deutsch (2) Um Pendelprozess auszulösen, sind nur 10 häufige Items als Grundwissen und Startitems nötig Desto mehr Startitems, desto - höhere Abdeckung - sicherer geschieht Wachstumsprozess Am Anfang werden seltene Namen leichter gelernt Prof. Dr. G. Heyer Modul Text Mining 34

35 Hybrid Approach: SRES (R. Feldman) SRES (Self-Supervised Relation Extraction System) learns to extract relations from the web in an unsupervised way. Input: the name of the relation and the types of its arguments and Output: a set of instances of the relation extracted from the given corpus. Prof. Dr. G. Heyer Modul Text Mining 35

36 SRES Architecture Web Sentence Gatherer Sentences keywords Seeds Generator Output: Extractions Input: Target Relations Definitions seeds Pattern Learner patterns Classifier NER Filter (optional) instances Instance Extractor Prof. Dr. G. Heyer Text Mining Wissensrohstoff Text 36

37 Seeds for Acquisition Example: the relation <X> has acquired <Y> Oracle PeopleSoft Oracle Siebel Systems PeopleSoft J.D. Edwards Novell SuSE Sun StorageTek Microsoft Groove Networks AOL Netscape Microsoft Vicinity San Francisco-based Vector Capital Corel HP Compaq Prof. Dr. G. Heyer Modul Text Mining 37

38 Major Steps in Pattern Learning The sentences containing the arguments of the seed instances are extracted from the large set of sentences (e.g. Web) returned by the Sentence Gatherer. Then, the patterns are learnt from the seed sentences. We need to generate automatically Positive Instances Negative Instances Finally, the patterns are post-processed and filtered. Prof. Dr. G. Heyer Modul Text Mining 38

39 Generating Positive and Negative Instances Positive set of a predicate: Sentences that contain an instance of the predicate with the actual instance s attributes changed to <AttrN>, where N is the attribute index. For example, the sentence The Antitrust Division of the U.S. Department of Justice evaluated the likely competitive effects of Oracle's proposed acquisition of PeopleSoft. will be changed to The Antitrust Division effects of <Attr1>'s proposed acquisition of <Attr2>. Negative set: generated from the sentences in the positive set by changing the assignment of one or both attributes to other suitable entities in the sentence. any suitable noun phrase can be assigned to an attribute. Prof. Dr. G. Heyer Modul Text Mining 39

40 Examples The Positive Instance The Antitrust Division of the U.S. Department of Justice evaluated the likely competitive effects of <Attr1> s proposed acquisition of <Attr2> Possible Negative Instances <Attr1> of the <Attr2> evaluated the likely <Attr2> of the U.S. acquisition of <Attr1> <Attr1> of the U.S. acquisition of <Attr2> The Antitrust Division of the <Attr1>.. acquisition of <Attr2> Prof. Dr. G. Heyer Modul Text Mining 40

41 Pattern Generation The patterns for a predicate P are generalizations of pairs of sentences from the positive set of P. The function Generalize(S1, S2) is applied to each pair of sentences S1 and S2 from the positive set of the predicate. The function generates a pattern that is the best (according to the objective function defined below) generalization of its two arguments. The following pseudo code shows the process of generating the patterns: For each predicate P For each pair S1, S2 from PositiveSet(P) Let Pattern = Generalize(S1, S2). Add Pattern to PatternsSet(P). Prof. Dr. G. Heyer Modul Text Mining 41

42 The Pattern Language The patterns are sequences of tokens, skips, and slots. tokens can match only themselves, skips match zero or more arbitrary tokens, slots match instance attributes. Examples of patterns: <Attr1> * was acquired by <Attr2> <Attr1> * merged with * <Attr2> <Attr2> is * ceo of * <Attr1> Note, that the sentences from the positive and negative sets of predicates are also patterns, the least general ones since they do not contain skips. Prof. Dr. G. Heyer Modul Text Mining 42

43 The Generalize Function The Generalize(s1, s2) function takes two patterns (e.g., two sentences with slots marked as <AttrN>) and generates the least (most specific) common generalization of both. The function does a dynamical programming search for the best match between the two patterns. The cost of the match is defined as the sum of costs of matches for all elements. two identical elements match at no cost, a token matches a skip or an empty space at cost 2, a skip matches an empty space at cost 1. All other combinations have infinite cost. After the best match is found, it is converted into a pattern by copying matched identical elements and adding skips where non-identical elements are matched. Prof. Dr. G. Heyer Modul Text Mining 43

44 Muster basierte Analyse IE/RE Example S1 = Toward this end, <Arg1> in July acquired <Arg2> S2 = Earlier this year, <Arg1> acquired <Arg2> After the dynamical programming-based search, the following match will be found: Toward (cost 2) Earlier (cost 2) this this (cost 0) end (cost 2) year (cost 2),, (cost 0) <Arg1 > <Arg1 > (cost 0) in July (cost 4) acquired acquired (cost 0) <Arg2 > <Arg2 > (cost 0) n at total cost = 12. The match will be converted to the pattern * * this * *, <Arg1> * acquired <Arg2> n which will be normalized (after removing leading and trailing skips, and combining adjacent pairs of skips) into this *, <Arg1> * acquired <Arg2>

45 Postprocessing and Generalizing of Patterns n Remove from each pattern all function words and punctuation marks surrounded by skips on both sides è, <Arg1> * acquired <Arg2> n Do not remove elements that are adjacent to meaningful words e.g. the comma in the pattern above, because such elements may be important. Every pattern must contain at least one word relevant to its predicate. Extract list of relevant words for a predicate from WordNet è follow all links to depth at most 2 starting from the predicate keywords. Pattern <Arg1> * by <Arg2> will be removed, Pattern <Arg1> * purchased <Arg2> will be kept, because the word purchased can be reached from acquisition via synonym and derivation links. Prof. Dr. G. Heyer Modul Text Mining 45

46 Scoring the Patterns score by their performance on the positive and negative sets. heuristic: rises monotonically with the number of positive sentences it matches drops very fast with the number of negative sentences it matches. Score( Pattern) S PositiveSet : Pattern matches S S NegativeSet : Pattern matches S 1 2 Prof. Dr. G. Heyer Modul Text Mining 46

47 Sample Patterns - Inventor X,.* inventor.* of Y X invented Y X,.* invented Y when X.* invented Y X ' s.* invention.* of Y inventor.* Y, X Y inventor X invention.* of Y.* by X after X.* invented Y X is.* inventor.* of Y inventor.* X,.* of Y inventor of Y,.* X, X is.* invention of Y Y,.* invented.* by X Y was invented by X Prof. Dr. G. Heyer Modul Text Mining 47

48 Sample Patterns CEO (Company/X,Person/Y) X ceo Y X ceo.* Y, former X.* ceo Y X ceo.* Y. Y,.* ceo of.* X, X chairman.* ceo Y Y, X.* ceo X ceo.* Y said X '.* ceo Y n Y,.* chief executive officer.* of X n said X.* ceo Y n Y,.* X '.* ceo n Y,.* ceo.* X corporation n Y,.* X ceo n X ' s.* ceo.* Y, n X chief executive officer Y n Y, ceo.* X, n Y is.* chief executive officer.* of X Prof. Dr. G. Heyer Modul Text Mining 48

49 Shallow Parser mode In the first mode of operation (without the use of NER), the predicates may define attributes of two different types: ProperName and CommonNP. It is assumed that the values of the ProperName type are always heads of proper noun phrases. And the values of the CommonNP type are simple common noun phrases (with possible proper noun modifiers, e.g. the Kodak camera ). A Java-written shallow parser from the OpenNLP ( package is used. Each sentence is tokenized, tagged with part-of-speech, and tagged with noun phrase boundaries. The pattern matching and extraction is straightforward. Prof. Dr. G. Heyer Modul Text Mining 49

50 Building a Classification Model Assume, that extraction E was generated by pattern P from a match M of the pattern P at a sentence S. The goal is to compute a score of the extractions using the information on the instance, the extracting patterns and the matches. The following features are used for scoring: Number of different sentences that produce E (with any pattern). Statistics on the pattern P generated during pattern learning the number of positive sentences matched and the number of negative sentences matched. Information on whether the slots in the pattern P are anchored. The number of non-stop words the pattern P contains. Information on whether the sentence S contains proper noun phrases between the slots of the match M and outside the match M. The number of words between the slots of the match M that were matched to skips of the pattern P. The number of correct entities for the arguments detected with a Named Entity Recognizer (NER). Prof. Dr. G. Heyer Modul Text Mining 50

51 Training 1. The patterns for a single model predicate are run over a small set of sentences (e.g sentences), producing a set of extractions (typically between extractions). 2. The extractions are manually labeled according to whether they are correct or no. 3. For each pattern match M k, the value of the feature vector f k = (f 1, f 16 ) is calculated, and the label L k = ±1 is set according to whether the extraction that the match produced is correct or no. 4. A regression model (e.g. SVM) estimating the function L(f) is built from the training data {( f k, L k )}. Prof. Dr. G. Heyer Modul Text Mining 51

52 Testing 1. The patterns for all predicates are run over the sentences. 2. For each pattern match M, its score L(f(M)) is calculated by the trained regression model. There is no threshold for the value of L, instead the raw probability value between zero and one is being used. 3. Final score for each extraction: the maximal score of all matches that produced the extraction. Prof. Dr. G. Heyer Modul Text Mining 52

53 Muster basierte Analyse IE/RE SRES Results Acquisition Merger Precision Precision ,000 10,000 15,000 20, ,000 4,000 6,000 8,000 10,000 Correct Extractions Correct Extractions KIA KIA-PL SRES S_NER KIA KIA-PL SRES S_NER Prof. Dr. G. Heyer Text Mining Wissensrohstoff Text 53

54 Muster basierte Analyse IE/RE More Results CeoOf MayorOf Precision Precision ,000 1,200 Correct Extractions Correct Extractions KIA KIA-PL SRES S_NER KIA KIA-PL SRES S_NER Prof. Dr. G. Heyer Text Mining Wissensrohstoff Text 54

55 Summary SRES collects candidate sentences from the web, which probably are in the target relation Forms patterns by comparing sentences and retaining matching elements Uses named entity recognition for the arguments Generates a number of score functions which are related to pattern quality. Requires manual labels for a set of examples (seeds). Trains a regression model to predict the probability of correct classifications from the score functions. n Very heuristic approach, but gives good results n Uses other resources: WordNet, POS-tagger, NER-recognition, Noun-phrase recognition Prof. Dr. G. Heyer Modul Text Mining 55

56 Literatur C. Biemann, Extraktion von semantischen Relationen aus natürlichsprachlichem Text mit Hilfe von maschinellem Lernen, in: U.Seewald-Heeg (Hrsg.), Sprachtechnologie für die multilinguale Kommunikation, Beiträge der GLDV-Frühjahrstagung 2003, gardez!- Verlag, Sankt Augustin 2003 H. Cunningham, D. Daynard, K. Bontcheva, V. Tablan, GATE: A framework and graphical develoopment environment for robust NLP tools and applications. In: Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics, Philadelphia PA 2002 Gerhard Heyer, Uwe Quasthoff und Thomas Wittig: Text Mining: Wissensrohstoff Text -- Konzepte, Algorithmen, Ergebnisse. W3L-Verlag, 2008 Benjamin Rozenfeld & Ronan Feldman, Self-supervised relation extraction from the Web, Knowledge and Information Systems Volume 17/Band 1, Oktober 2008, S , Springer-Verlag : New York Prof. Dr. G. Heyer Modul Text Mining 56

57 Literatur Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", 29 April 1998, Guo Dong Zhou and Jian Su. Named entity recognition using an HMMbased chunk tagger. In Proceedings of the 40th Annual Meeting of the ACL, pages , Philadelphia, PA


