Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel

Transkript

1 Sprachtechnologie Fraunhofer-Institut für Angewandte Informationstechnik FIT Katja Niemann Maren Scheffel

2 Inhalt Was ist Sprachtechnologie? Computerlinguistische Anwendungen Praktische Beispiele MACE Schlüsselaktionen

3 Sprachtechnologie Automatische Bearbeitung geschriebener oder gesprochener Sprache Viele Bezeichnungen Computerlinguistik Language Engineering Natural Language Processing Viele Disziplinen Linguistik Informatik Logik Nachrichtentechnik

4 Sprachtechnologie - Anwendungsgebiete Textbearbeitung Automatische Worttrennung Automatische Schreibfehlerkorrektur Automatische Grammatikkorrektur OCR (Optical Character Recognition) Textanalyse Informationsextraktion Informationsretrieval

5

6 Informationsretrieval vs. Informationsextraktion Informationsretrieval filtert für die Suchanfrage relevante Dokumente aus eine Dokumentenmenge Nutzer muss relevante Information innerhalb des Dokumentes selbst finden Informationsextraktion sucht und findet gezielt Information in relevanten Dokumenten

7 Sprachtechnologie - Anwendungsgebiete Textanalyse und -produktion Automatische Zusammenfassung Maschinelle Übersetzung Spracherkennung Sprecheridentifikation/-verifikation Diktiersysteme Sprachsteuerung von Programmen

8 Sprachtechnologie - Anwendungsgebiete Sprachproduktion Vorlesesysteme Dialogsysteme Beratungssysteme Auskunftssysteme Augmentierte und virtuelle Realitäten

9 Data Mining vs. Text Mining Data Mining automatisches Finden neuer Muster in Datenbeständen Anwendung meist bei strukturierten Daten Text Mining automatisches Finden neuer Muster in Texten Anwendung daher auf unstrukturierten Daten Texte müssen strukturiert, d.h. vorverarbeitet werden

10 Satzgrenzenerkennung Trennen des Textes hinter satzgebenden Zeichen, um einzelne Sätze zu erhalten Satzzeichen (.?!) sind doppeldeutig Die Frage Wo kommst du her? wird häufig gestellt. Satzzeichen, z.b. der Punkt, stehen nicht nur am Ende des Satzes. Mische alle trockenen Backzutaten: Mehl, Zucker, usw. Das Büro von Prof. Dr. Peter M. Beispiel ist im 18. Stock.

11 Tokenisierung Segmentieren eines Textes in einzelne Token Token = von Leerzeichen oder Interpunktion begrenzte Folge von Buchstaben oder Ziffern Problem: Mehrwortlexeme --> New York Im Sommer bin ich in New York. Im Im Sommer Sommer bin bin ich ich in New York in New York

12 Reduktion auf Grundform Stemming regelbasiertes Abschneiden von Affixen (ohne Wörterbuch) gelesen --> les Leser --> les Lemmatisierung Grundform aus dem Lexikon gelesen --> lesen Leser --> Leser

13 Part-of-Speech-Tagging Annotation jedes Wortes eines Textes mit seiner Wortart --> Die (ART) Frau (N) liest (V) ein (ART) Buch (N). Nomen, Verb, Artikel, Adjektiv, Präposition, Pronomen, Adverb, Konjunktion, Interjektion Oft differenziertere Angaben zu Fall, Geschlecht, Zeit --> Die (ART-best-nom-sg-fem) Frau (N-nom-sg-fem) liest (V-3P-sg-präs-akt) ein (ART-unbest-akk-sg-neu) Buch (N-akk-sg-neu).

14 Linguistische Analysemethoden Parsing Zerlegen eines Satzes in seine Bestandteile mit Hilfe von Regeln Ein Mann sieht ein Kind *Mann ein sieht Kind. S --> NP VP NP --> DET N VP --> V NP* DET --> ein N --> Mann, Kind V --> sieht NP Probleme durch Mehrfachlesarten S VP NP DET N V DET N ein Mann sieht ein Kind

15 Named Entity Recognition Personen, Organisationen, Orte, Zeitangaben, Listenbasierte Verfahren Gazetteer, Wortdatenbanken Regelbasierte Verfahren Manuelles Erstellen von Lexikon + Regeln Unüberwachtes Lernen von Assoziationsregeln Mr. Smith, John Smith, John T. Smith XYZ GmbH, Abc AG Statistische Verfahren Hidden Markov Modelle Maximale Entropie

16 Schlüsselworterkennung Schlüsselwörter repräsentieren den Inhalt eines Dokuments Manuelle Annotation durch Experten Automatische Extraktion textbasiert vs. korpusbasiert Repeated String Patterns n-gramme Nominalphrasen POS-Tags Chi-Quadrat (signifikante Unabhängikeit von Attributen) Log Likelihood

17 GATE (General Architecture for Text Engineering) Entwicklungsumgebung mit GUI + Klassenbibliothek Trennung von Daten, Algorithmen und Visualisierung. Language Resources: Lexika Korpora Ontologien Processing Resources: Stemmer POS Tagger Parser Visual Resources: für die Darstellung der Ergebnisse im GUI benötigt

18

19 Neue Lernpfade durch Real World Objects Renzo Piano Centre Pompidou Lloyd s Building Richard Rogers Millennium Dome

20

21 RWOs: Geographical Search

22 Erstellung von RWOs: DBpedia RDF Repräsentation der Informationen aus wikipedia Try: WHERE {?s dbpedia2:blackboard?blackboard.} Verschiedene Klassifikationsschemata, z.b. Wikipedia Ontologie Yago (Yet Another Great Ontology) SKOS (SKOS Simple Knowledge Organization System) Vorteile: Multilinguale Informationen mit Sprachtag Geographische Koordinaten für Gebäude Relationen zwischen Architekten und Gebäuden

23 Verbinde MOs und RWOs: Schritt 1 ANNIE information extraction system aus GATE: Der Tokenizer teilt den Text in einzelne Tokens Der Sentence Splitter teilt den Text in einzelne Sätze Der Part-of-Speech Tagger produziert ein POS-Tag für jedes Token Der ANNIE Gazetteer nutzt 100 vordefinierte Listen mit Namen und Keywords, die helfen, named entities zu erkennen (z.b. Mr., GmbH) Der Semantic Tagger erkennt Entitäten, z.b. Jahreszahlen, Personennamen Zusätzlicher Gazetteer um Gebäudenamen zu erkennen

24 Verbinde MOs und RWOs: Schritt 2 Gefundene Entitäten werden mit Titeln von RWOs verglichen Alle Tokens der gefundenen Namen (ohne Stoppwörter) müssen in der richtigen Reihenfolge im Titel enthalten sein z.b. Centre Pompidou passt zu Centre George Pompidou Abkürzungen in Personennamen werden überprüft z.b. D. Miller passt zu David Miller Ambiguitäten: Betrachtung weiterer gefundener Entitäten z.b. Millenium Tower London, Toronto Ein RWO enthält alle gefundenen Entitäten Nur ein RWO enthält mind. eine weitere gefundene Entität

25 Evaluierung Versuchsaufbau: Die 100 meist genutzten MOs wurden von 3 Experten getaggt: Gebäude, zu denen eine Verbindung bestehen soll Personen, zu denen eine Verbindung bestehen soll 67 MOs haben dabei mind. eine Verbindung zu einem RWO erhalten Evaluiert wird Precision und Recall für: Relationen zu Architekten Relationen zu Gebäuden

26 Evaluierung: Bewertungskriterien Recall: Wie viel Prozent der relevanten Relationen wurden gefunden? Precision: Wie viele der gefundenen Relationen sind relevant? false negatives true positives false positives relevante Relationen (manuell erzeugt) gefundene Relationen (automatisch erzeugt)

27 Evaluierung: Bewertungskriterien Bei steigendem Recall sinkt die Precision und umgekehrt f-measure: Harmonisches Mittel aus Precision und Recall Relationen in MACE: Precision wichtiger als Recall Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel

28 Relations - Projects / Buildings Results: Architekten: Precision: 90,6 %, Recall: 72,5% Gebäude: Precision: 92,2%, Recall: 61,9% Probleme: HUHKA / Het Museum van Hedendaagse Kunst Schlikker'sche Villa / Villa Schlikker Stichworte statt Sätze

29 Analyse von CAM mit CL-Methoden

30 Analyse von CAM mit CL-Methoden Actor Activity Program Item TS User A opens Word document B xxx User A edits Word document B xxx User A edits Word document B xxx User A saves Word document B xxx User A opens Word document C xxx User A edits Word document C xxx User A edits Word document B xxx User A closes Word document C xxx User A edits Word document B xxx User A saves Word document B xxx User A closes Word document B xxx User A opens Firefox document D xxx CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

31 Analyse von CAM mit CL-Methoden Übertragen von Sprachanalysemechanismen auf CAM Von Textanalyse zu Aktionsanalyse Zum finden von Strukturen, Regeln, Mustern in Aktionen Danach Abstraktion auf Aktivitäten höherer Ordnung Sprache ist regelbasiert Grammatik einer Sprache (Regeln + Lexikon) macht Bewertung der Richtigkeit eines Satzes für die gegebene Sprache möglich CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

32 Analyse von CAM mit CL-Methoden Ziel: partielle Grammatik für Aktionen Linguistische Konzepte müssen auf Teile der CAM- Instanzen übertragen werden Wort und Aktion kann man analog sehen Satz und Session nicht so einfach Satz ist feststehende Kategorie, Anfang und Ende klar Session ist ein Zeitkonzept, Anfang und Ende variabel Session kann auch analog zu Text gesehen werden CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

33 Von Schlüsselwörtern zu Schlüsselaktionen Schlüsselwörter als Repräsentant eines Textes Schlüsselaktionen als Repräsentant einer Session Erster Ansatz: Finden von sich wiederholenden Zeichenfolgen mit n-grammen Vereinigung von n-grammen, wenn Häufigkeit des neuen Schlüsselwortes über dem Schwellwert liegt Wenn kurze Schlüsselwortfolgen in längeren enthalten sind, fallen die kürzeren raus CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

34 Von Schlüsselwörtern zu Schlüsselaktionen 0A 1 B 2 C 3 D 4 E 5 F 6 G 7 D 8 C 9 A 10 B 11 C 12 A 13 E 14 F 15 G 16 B 17 E 18 F 19 G 20 F 21 Monogramme: A [0,1] [9,10] [12,13] B [1,2] [10,11] [16,17] C [2,3] [8,9] [11,12] D [3,4] [7,8] E [4,5] [13,14] [17,18] F [5,6] [14,15] [18,19] [20,21] G [6,7] [15,16] [19,20] Schwellwert = 2 CAPLE und CAM Computerlinguistische Methoden Psychologische Methoden

35 Von Schlüsselwörtern zu Schlüsselaktionen Bigramme: AB [0,2] [9,11] AE [12,14] BC [1,3] [10,12] BE [16,18] CD [2,4] CA [8,10] [11,13] DE [3,5] DC [7,9] EF [4,6] [13,15] [17,19] FG [5,7] [14,16] [18,20] GD [6,8] GB [15,17] GF [19,21] Trigramme ABC [0,3] [9,12] BCA [10,13] CAB [8,11] EFG [4,7] [13,16] [17,20] Schlüsselaktionen D CA ABC EFG

36 Von Schlüsselwörtern zu Schlüsselaktionen Aufgabe: 0A 1 B 2 C 3 A 4 B 5 D 6 B 7 C 8 A 9 B 10 A 11 A 12 C 13 D 14 Schwellwert = 2 Monogramme: A [0,1] [3,4] [8,9] [10,11] [11,12] B [1,2] [4,5] [6,7] [9,10] C [2,3] [7,8] [12,13] D [5,6] [13,14]

37 Von Schlüsselwörtern zu Schlüsselaktionen Bigramme: AA [10,12] AB [0,2] [3,5] [8,10] AC [11,13] BC [1,3] [6,8] BD [4,6] BA [9,11] CA [2,4] [7,9] CD [12,14] DB [5,7] Trigramme: ABC [0,3] BCA [1,4] [6,9] CAB [2,5] [7,10] Quadrogramme: BCAB [1,5] [6,10] Schlüsselaktionen: D BCAB

38 Von Schlüsselwörtern zu Schlüsselaktionen

39 Keyword Extraction aus s Probleme s sind meistens kurz Schlüsselwörter werden häufig nur einmal genutzt Verbesserungsmöglichkeiten: Betreff gibt Aussage über Thema der Threads Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel

40 Keyword Extraction aus s Kombination aus TFxIDF und first occurence Archiv / Teile des Archives dienen als Referenzkorpus Bei eingehender Antwort auf eine werden die Schlüsselwortkandidaten dieser neu gewichtet Schlüsselwort in Antwort enthalten Schlüsselwort in Zitat enthalten Mail A Mail B Antwort auf Mail A Mail A Neubewertung Strand, baden, Sonne, Vortrag, Meeting Vortrag, Meeting, Abgabetermin Dienstreise, Abrechnung Vortrag, Meeting Strand baden, Sonne Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel

41 Themen eines Intervalls / einer Beziehung Ermittlung der Vorkommenshäufigkeit von Schlüsselwörtern in einem Intervall / einer Beziehung Zusätzliche Gewichtung der Schlüsselwörter durch die Betrachtung der Nutzung der s (gelesen, gedruckt, weitergeleitet, beantwortet) Einleitung Vorverarbeitung SW-Bildung SW-Bewertung SW-Evaluierung Beispiel

42 Kontakt Katja Niemann Maren Scheffel Fraunhofer-Institut für Angewandte Informationstechnik FIT Schloss Birlinghoven Sankt Augustin