Sprachtechnologie in Suchmaschinen

Transkript

1 Sprachtechnologie in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer

2 Suchmaschinen Architektur und Anforderungen

3 3

4 4

5 5

6 6

7 7

8 8

9 9

10 10

11 Suchmaschinen - Beispiel Nicht zuletzt: Enterprise search d.h. Suche im Intranet von Firmen und anderen Organisationen 11

12 Anforderungen an Suchmaschinen: Recall und Präzision Suchmaschinen Suchmaschinen reichen nicht? Fragen Sie die Menschen des Meta-re-SearchTeams in Wien. Förderung der Suchmaschinen- Technologie und des freien Wissenszugangs Die blinde Kuh Die erste deutschsprachige Suchmaschine für Kinder - gefördert vom Bundesministerium für Familie, Senioren, Frauen und Jugend. Heilige Kuh Wikipedia 1. in der Ethnologie eine aus religiösen sowie aus ökonomischen Gründen als unantastbar erklärte Kuh. In vielen weidewirtschaftlich oder nomadisch geprägten... 12

13 Anforderungen an Suchmaschinen: Ergebnissortierung nach Relevanz Suchmaschinen 1 2 Alle Informationen über Suchmaschinen Mit zahlreichen Illustrationen und Verweisen Das Thema Suchmaschinen interessiert und hier nur am Rande 13

14 Anforderungen an Suchmaschinen: Ergebnisverfeinerung Suchmaschinen Treffer 1 von Enzyklopädische Einträge Alle Informationen über Suchmaschinen Mit zahlreichen Illustrationen und Verweisen Wissenschaftliche Artikel Zeitungsmeldungen 14

15 Übung 1 Wozu verwenden Sie Suchmaschinen? Welche Zusatzfunktionen neben der eigentlichen Suche verwenden Sie? Welche Eigenschaften/Zusatzfunktionen würden Sie sich wünschen? Wo gibt es Ihrer Meinung nach Verbesserungsmöglichkeiten? 15

16 Ergebnisse Übung 1 Wozu verwenden Sie Suchmaschinen? Einkaufen Hotelbuchung, Reiseplanung Preisvergleich Eventsuche Personensuche Routenplanung Medizinische Ratschläge Beantwortung von Fragen (Wolfram Alpha) Bildersuche Rechtschreibprüfung 16

17 Ergebnisse Übung 1 (Teil II) Welche Zusatzfunktionen neben der eigentlichen Suche verwenden Sie? Präfixsuche ( *) Übersetzung Rechtschreibkorrektur Welche Eigenschaften/Zusatzfunktionen würden Sie sich wünschen und wo gibt es Ihrer Meinung nach Verbesserungsmöglichkeiten Mehr Navigatoren Sprache, Disambiguierung Bildsuche (nach Bildinhalten) Reguläre Ausdrücke 17

18 Grobe schematische Architektur einer Suchmaschine Dokument Dokument Dokumente INDEX Dokumentenverarbeitung Anfrageverarbeitung Anfragen 18

19 Anfrageverarbeitung Erkennung von Anfrageeigenschaften (z.b. Sprache) Parsen der Anfrage Linguistische Normalisierung Tokenisierung Buchstaben(sequenzen)normalisierung Rechtschreibkorrektur Morphologische Analyse Stopwortentfernung Hinzufügen von Information (z.b. Synonyme) 19

20 Dokumentenverarbeitung Erkennung von Dokumenteneigenschaften (z.b. Sprachenidentifizierung, Dokumentformat) Konversion in intern verwendetes Dokumentenformat (z.b. XML mit Unicode) Linguistische Normalisierung Tokenisierung Buchstaben(sequenzen)normalisierung Morphologische Analyse Informationsextraktion (z.b. Personennamen) Hinzufügen von Information (z.b. Synonyme) 20

21 Ziel computerlinguistischer Module in Suchmaschinen Verbesserung der Ergebnisqualität Vorauswahl von Ergebnissen Navigation in den Ergebnissen 21

22 Übung 2: Linguistik in Suchmaschinen Was stellen Sie sich unter linguistischen Modulen in Suchmaschinen vor? Welche Module kennen Sie, welche machen Sinn? Wie tragen linguistische Funktionalitäten zur Ergebnisverbesserung bei? Verbesserung der Ergebnisqualität Vorauswahl von Ergebnissen Navigation in den Ergebnissen 22

23 23

24 24

25 Linguistische Module in Suchmaschinen Eine Übersicht Sprachenidentifizierung Tokenisierung Morphologische Analyse Rechtschreibkorrektur Synonyme Informationsextraktion

26 Sprachenidentifizierung Automatische Erkennung der Sprache eines elektronischen Dokuments

27 Sprachenidentifizierung لسانيات من ويكيبيديا الموسوعة الحرة هي العلم الذي للسانيات أو اللغويات يهتم بدراسة اللغات اإلنسانية و دراسة خصائصها و تراكيبها و درجات التشابه و التباين فيما بينها. أما اللغوي هو الشخص الذي.يقوم بهذه الدراسة ]تحرير[ اقرأ أيضا Lingüística La Lingüística és la ciència que estudia totes les manifestacions de la parla humana, és a dir, l'estudi de la llengua en el seu vessant escrit i oral. En un sentit ampli la lingüística és l'estudi de les llengües humanes, analitzant el que tenen en comú i el que les diferencia. Un lingüista és, per tant, una persona que estudia les llengües. Yezhoniezh Ez-ledan e c'heller lâret ez eo ar yezhoniezh studi yezhoù mab-den. Deskrivañ en un doare objektivel ha dielfennañ mont-en-dro ar yezhoù dres ma vezont implijet gant an dud hep en em soursial da varnañ 27

28 Spracherkennung: Wörter oder N-Gramme? sch der ich ein che die... der und die in von den zu für... 28

29 Wörterbuchbasierte Erkennung Daten Wörterbuch mit 100 bis mehreren 1000 Wörter pro Sprache (abhängig vom zu klassifizierenden Dokumenttyp und dem morphologischen System einer Sprache) in einer Zeichensatzkodierung Konversion des Wörterbuchs in alle Zeichensatzkodierungen, die für eine Sprache relevant sind Algorithmus Vergleiche Wörter im Dokument mit Wörtern im Wörterbuch Erkennungswert eines Wortes abhängig von: Ergebnis Worthäufigkeit Eindeutigkeit Länge Erkennung der Dokumentsprache und der Zeichensatzkodierung 29

30 N-Gramm-basierter Ansatz Daten Für jedes Sprach-/Kodierungspaar N-Gramm-Liste mit Häufigkeit Algorithmus Vergleiche N-Gramm-Liste mit N-Grammen aus Dokument Berechne Ähnlichkeit zwischen Trainingsdaten und Dokument (Wahrscheinlichkeit der Zugehörigkeit zur Sprache) Ergebnis Erkennung der Dokumentsprache und der Zeichensatzkodierung 30

31 Sprachenerkennung: Vergleich der Ansätze Wortbasiert Trainingskorpus muss nicht ganz sauber sein, da manuelle Überprüfung möglich N-Gramm-Ansatz Sauberes Trainingskorpus Aufwändiges Training, wenn manuell überprüft Training einfach Nachträgliche Überprüfung und Korrektur unproblematisch Nachträgliche Überprüfung / Revision kaum möglich, außer über Trainingskorpus relative große Datenbasis zur Erkennung kleine Datenbasis Neue Kodierungen einfach zu ergänzen Konversion des Trainingskorpus nötig zur Ergänzung von neuen Kodierungen Nicht für Sprachen ohne durch Leerzeichen markierte Wortgrenzen (Japanisch, Chinesisch... Alle Sprachen 31

32 Recall & Präzision von Modulen zur Sprachenidentifikation Sprache F-Maß en (English) 93,72 es (Spanish) 96,73 de (German) 96,39 fr (French) 95,65 it (Italian) 99,38 ja (Japanese) 98,91 ko (Korean) 100,00 nl (Dutch) 98,01 ru (Russian) 92,16 zh (Chinese) 99,42 32

33 Tokenisierung & Normalisierung

34 Tokenisierung Aufteilen eines Textes in indizierbare Token Recht trivial für westliche Sprachen; schwierig für Chinesisch, Japanisch, Thai

35 Normalisierung Groß- Kleinschreibung Akzente é e Umlaute ä a / ae (asiatische) Schriftzeichen in voller Breite/halber Breite ロロ Entsprechend auch lateinische Schriftzeichen im asiatischen Kontext Andere Zeichen Scharfes ß u.ä. Ohm-Zeichen, Angström-Zeichen 35

36 Morphologische Analyse Grundformenreduzierung Kompositasegmentierung

37 Grundformenreduzierung & Verwandtes shop shops kauppa NOM SG kauppa-ko NOM SG KO kauppa-kin NOM SG KIN kauppa-kaan NOM SG KAAN kauppa-han NOM SG HAN kauppa-pa NOM SG PA kauppa-ko-han NOM SG KO HAN kauppa-pa-han NOM SG PA HAN kauppa-pa-s NOM SG PA S kauppa-ko-s NOM SG KO S kauppa-kin-ko NOM SG KIN KO kauppa-kaan-ko NOM SG KAAN KO kauppa-kin-ko-han NOM SG KIN KO HAN kauppa-ni NOM SG SG1 kauppa-ni-ko NOM SG SG1 KO kauppa-ni-kin NOM SG SG1 KIN kauppa-ni-kaan NOM SG SG1 KAAN kauppa-ni-han NOM SG SG1 HAN kauppa-ni-pa NOM SG SG1 PA kauppa-ni-ko-han NOM SG SG1 KO HAN kauppa-ni-pa-han NOM SG SG1 PA HAN kauppa-ni-pa-s NOM SG SG1 PA S kauppa-ni-ko-s NOM SG SG1 KO S kauppa-ni-kin-ko NOM SG SG1 KIN KO kauppa-ni-kaan-ko NOM SG SG1 KAAN KO kauppa-ni-kin-ko-han NOM SG SG1 KIN KO HAN ETC ETC 37

38 Yandex 38

39 Grundformenreduzierung Stemming Wörterbuchbasiert Wörterbuch + Regeln Dokumenten Suchmaschinen Rahmen Dokumenten:Dokument Suchmaschinen: Suchmaschine Rahmen:Rahmen Dokumenten:Dokument+en Suchmaschinen: Suchmaschine+n Rahmen:Rahmen+ Computers Merkels Computers:Computer Merkels:? Computers:Computer+s Merkels:Merkel+s 39

40 Lemmatisierung durch Expansion von Dokumententermen mit Lemmatisierung Document haus Lemmatizer haus Index Lemmas field: haus hauses häuser häusern Query häuser haus, hauses, häuser, häusern Normal field: haus ohne Alle Wortformen der Wörter im Dokument werden in den Index geschrieben. Die Sprache der Anfrage muss nicht bekannt sein 40

41 Lemmatisierung durch Reduktion Document maisons Lemmatizer (French) maisons maison Index Lemmas field: maison - Normal field: maisons Mit Lemmatisierung Lemmatizer maison maison Query maison ohne Wörter in Anfrage und Dokument werden auf die Grundform(en) reduziert. Dazu muss die Sprache der Anfrage bekannt sein 41

42 Lemmatisierung durch Anfrageexpansion Index Mit Lemmatisierung Document maisons Lemmatizer (French) NO ACTION maisons (lemma field not set) Lemmatizer maison maisons, maison Query maison ohne Lemmatisierung 42

43 Nominalkompositanalyse Blumen versand Internet such maschine Fuchs schwanz Bahn hof Tisch fuß ball 43

44 Synonyme

45 Übung 3 Was sind Synonyme? Was für Typen von bedeutungsähnlichen sprachlichen Einheiten, die in Suchmaschinen relevant sein könnten, gibt es außerdem? Welche Optionen gibt es, um Synonyme in die Suche einzubeziehen?

46 Synonyme und Verwandtes: Ergebnisse der Übung I Synonyme sind sprachliche Ausdrücke, die ohne Bedeutungsveränderung austauschbar sind. Z.B. Zündholz/Streichholz Synonyme in Suchmaschinen: sollten gleichbedeutende Ausdrücke zu gleichen Suchergebnissen führen 46

47 Synonyme und Verwandtes: Ergebnisse der Übung II Andere Bedeutungsähnlichkeiten: - Alle Sinnrelationen: Hyponymie, Hyperonymie, Meronymie/Holonymie - Abkürzungen und Akronyme (z.b. UNO United Nations Organisation) - Paraphrasen - Übersetzungen - Umschreibungen - Komposita Kompositatteile - Technische Umsetzung von Synonymexpansion: - Expansion der Anfrage - Expansion der Terme im Dokument ( Synonyme im Index) - Andere Einsatzmöglichkeiten: Zur Disambiguierung von Anfragen 47

48 Rechtschreibkorrektur

49 Rechtschreibkorrektur Vergleiche Anfrageterme mit bekannten Termen: Mauresegler Mauersegler Merkel Mergel Voraussetzung: Abstandsmaß zwischen Termen Algorithmus zum schnellen Abgleich zwischen Lexikon und Anfrageterm Zusätzlich: Erstellung des Lexikons auf Basis der indizierten Terme Phrasen-Rechtschreibkorrektur Britnay Speers Britney Spears

50 Rechtschreibkorrektur: Verwandtes Phonetische Korrektur Phonetische Suche 50

51 Stopwörter

52 Stoppwörter und Stoppphrasen Wo finde ich Informationen über Eric Rohmer Eric Rohmer und Godard 52

53 Informationsextraktion Extraktion von Eigennamen und weitergehende Ansätze

54 Informationsextraktion 54

55 Henrik Johan Ibsen (* 20. März 1828 in Skien/Norwegen; 23. Mai 1906 in Kristiania, damaliger Name von Oslo) war ein norwegischer Schriftsteller, der für den Naturalismus in Deutschland und Norwegen bedeutend war... 55

56 SUUCH.DE Ibsen Geburtstag Suuchen 1024 Treffer Zusammenfassung Henrik Ibsen wurde am 20. März 1828 in Skien/Norwegen geboren. Quellen: wikipedia.de ; lexikon.meyers.de; Treffer 1: Wikipedia... Auch ausgereifte Suchmaschinen wie Google setzen Computerlinguistik ein (ein Sprachtechnologieprodukt der Firma Canoo, Basel)

57 Maschinelle Übersetzung

58 Maschinelle Übersetzung in Suchmaschinen Mögliche Strategien Übersetzung der Originaldokumente und Indizierung der übersetzten Dokumente Langsame Dokumentenverarbeitung Übersetzung des Index Ambiguität, wenn Kontext nicht berücksichtigt Übersetzung der angezeigten Dokumenteninhalte, evt. kombiniert mit der Übersetzung des gesamten Dokuments wenn ausgewählt verlangsamte Ergebnisverarbeitung Übersetzung der Anfragen Hier zeigt sich besonders stark das Problem der Ambiguität 58

59 Klassifikation und Clustering 59

60 Klassifizierung Zuweisung zu vordefinierten Kategorien Dokumentenklassifizierung Erfordert vordefinierte, saubere Kategorien und Trainingsdokumente oder Auswahl exemplarischer Dokumente durch den Benutzer Mögliche Dimensionen: Inhaltliche Themenbereiche Disziplinen Dokumententypen (z.b. wiss. Artikel, Zeitungsartikel, Adresssammlung) Anfrageklassifizierung 60

61 Clustering Bildung von ad-hoc-klassen durch Zusammenfassung ähnlicher Dokumente Meist Ergebnisclustering auf Basis des Dokumentenvektors 61

62 Nächstes Thema: An Introduction to Information Retrieval, Kapitel 1 Ganz lesen bis nächste Woche, bitte. 62

63 Übung (Gruppenarbeit, min.) Sie haben ein Korpus mit 5 Millionen Nur-Text-Dokumenten und einer Gesamtgröße von ca 10 GB (auf einer lokal zugänglichen Maschine). Sie haben mit einem Team von 3 Leuten 3 Tage Zeit eine Anwendung zu entwickeln die es erlaubt: 1. möglichst schnell alle Dokumente zu finden, in denen ein bestimmter Term auftaucht 2. Alle Dokumente zu finden, in denen ein Term nicht auftaucht 3. Alle möglichen Kombinationen aus mehreren Termen die im Dokument enthalten sind bzw. nicht enthalten sind Machen Sie einen Plan. 63

64 IR - Grundlagen Texte durchsuchen: mit grep dies stößt bei größeren Textmengen schnell an die Grenzen des Machbaren Mithilfe eines Indizes: Invertierte Dateien (inverted index) Grundidee der Implementierung: Hash oder Trie (aber Indizes von großen Suchmaschinen sind noch wesentlich optimierter) 64

65 Invertierter Index Zerlegung des Dokuments in Terme Zuordnung von Termen zu Dokument-Ids Dokument 1 Schöne Frauen gehören nach Cannes wie die Aschewolke an den isländischen Himmel Dokument 2 Index schöne.d1 frauen.d1. himmel.d1/d2 wasser.d2 Fliegen.d2 Getrocknetes Wasser, das vom Himmel fällt und Tiere ohne Flügel, die trotzdem fliegen können? 65

66 Implementierung eines invertierten Indexes Zu Übungszwecken: - Verwenden Sie eine in Ihrer Programmiersprache verfügbare Datenstruktur, die schnelles Nachschlagen von Termen (und Zuordnung zu Werten erlaubt) - Z.B. Hash, Trie, (Dictionary) 66

67 Retrieval mit boolschen Ausdrücken Verknüpfung von Suchtermen mit UND/ODER/NICHT Dokumenten-Ids für jede Teilquery Bilde Schnittmengen (UND) /Differenzmengen (NICHT) / bzw. Vereinigungsmengen (ODER) Effiziente Algorithmen verfügbar S. Abschnitt 1.3 im IR-Buch 67

68 Wie misst man die Qualität einer Suchmaschine: Trefferquote (Recall) und Genauigkeit (Precision) F A A F D 68

69 F-measure Fmeasure = 2xprecisionxrecall / precision+recall (Harmonisches Mittel zwischen Precision und Recall) 69

70 Übung (10 min) Welche IR-Szenarien kann mit einfachen boolschen Ausdrücken (UND/ODER/NICHT) auf einfachen Termen nicht ohne weiteres lösen? Wie sehen Lösungsmöglichkeiten aus? 70

71 Ergebnisse der Übung Welche IR-Szenarien lassen sich mit einfacher boolscher Suche nicht lösen: Ranking Termnähe (Phrasen, Terme die nahe beieinander stehen) Berücksichtung der Dokumentengröße und Termhäufigkeit Wichtigkeit eines Dokuments Dokumentenstrukur/Position des Suchterms im Dokument Vektor-Ähnlichkeitsmaße 71

72 Suche von Termfolgen und Nähe im durchsuchten Dokument AND(Rot,Grün) SEQUENZ(Rot,Grün) NAH(Rot,Grün) 72

73 Ranking 73