Kapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216

Größe: px

Ab Seite anzeigen:

Download "Kapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216"

Horst Koch
vor 6 Jahren
Abrufe

1 Kapitel 14 Worte HHU Düsseldorf, WS 2008/09 Information Retrieval 216

2 Schriftsystemerkennung Zeichensätze erkennen: falls Unicode eingesetzt wird, kein Problem wenn nicht: automatische Schriftsystemerkennung Vergleich der Zeichenverteilung eines Textes mit (bekannten) Zeichenverteilungen von Schriftsystemen Feststellung der Leserichtung (von links nach rechts und umgekehrt; Umkehr der Leserichtung im Text) 2 1 HHU Düsseldorf, WS 2008/09 Information Retrieval 217

3 Spracherkennung Ansatz 1: Mustertypen typische Buchstabenkombinationen, typische Sonderzeichen ery_ : englisch eux_ : französisch _der_ : deutsch lj : serbo-kroatisch cchi : italienisch : spanisch Å : schwedisch wenig sicher HHU Düsseldorf, WS 2008/09 Information Retrieval 218

summieren gewonnen hat die Sprache mit dem höchsten Wert HHU McNamee, Düsseldorf, P.

4 Ansatz 2: Wortverteilungen Spracherkennung auf Satzebene Erstellung von Wortlisten nebst Auftretenswahrscheinlichkeiten für Sprachen Satz: Zählen der Auftretenshäufigkeit der Worte im Satz; Multiplikation mit Auftretenswahrscheinlichkeiten aller Sprachen, Werte summieren gewonnen hat die Sprache mit dem höchsten Wert HHU McNamee, Düsseldorf, P. (2005): WS 2008/09 Language identification: Information A solved problem Retrieval suitable for undergraduate instruction. 219 In: Journal of Computing Sciences in Colleges 20(3), S

5 Ansatz 3: n-gramme Acquaintance 14. Worte erstellen: Zentroiden für Sprachen Dokument in n-gramme parsen (diesmal Zentroiden nicht abziehen), Cosinus zwischen Dokumentvektor und Sprachzentroiden errechnen auf Rang 1 liegt die wahrscheinlichste Sprache HHU Damashek, Düsseldorf, M. (1995): WS 2008/09 Gauging similarity with Information N-grams: Retrieval Language-independent categorization of text. 220 In: Science 267, S

6 Exkurs: Automatisches Gruppieren von Sprachen nach dem Cosinus der Sprachzentroiden (von Marc Damashek) HHU Düsseldorf, WS 2008/09 Information Retrieval 221

7 Stoppworte: 14. Worte Wort, das die gleiche Wahrscheinlichkeit hat, in einem relevanten sowie in einem nicht-relevanten Dokument vorzukommen, non-content word Elimination von Stoppworten ist wenig sinnvoll: bei gewissen Phrasen werden sie benötigt: to be or not to be u.u. wird gezielt nach Stoppworten gesucht: Studien zum englischen Hilfsverb to be Pronomina sind eigentlich Stoppworte. Sie werden aber (theoretisch) bei der Informationsstatistik benötigt. deshalb: Stoppworte markieren und von normaler Suche ausschließen. Wenn Nutzer will, jedoch berücksichtigen (Google: +-Funktor) HHU Düsseldorf, WS 2008/09 Information Retrieval 222

8 Stoppwortliste als Negativliste: 1. Allgemeine Stoppworte häufig in einer Sprache vorkommende Worte (Fox: mehr als 300mal im Brown-Corpus enthalten) Worte intellektuell aus Liste entfernen (z.b. business, family) weitere Worte intellektuell in Liste einfügen: extra fluff words (z.b. above [296mal im Brown-Corpus]) Zusatzliste nearly free words : Flexionsformen bereits in der Liste enthaltener Worte überlegenswert (nicht von Fox): gewisse Wortarten (Substantive, Adjektive, substantivierte Verben) bevorzugen; alle anderen in allgemeine Stoppwortliste Fox, C. (1989): A stop list for general text. In: ACM SIGIR Forum 24(1-2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 223

9 2. Domänspezifische Stoppworte spezielle Stoppworte in bestimmten fachlichen Zusammenhängen nur solche Worte zulassen, die facheinschlägig sind; alle anderen in Stoppwortliste 3. Dokumentspezifische Stoppworte beim Suchen nach bestpassenden Stellen innerhalb eines Dokuments manche Terme sind durchaus geeignet, einen Artikel als Ganzes zu finden, aber nicht, die beste Stelle zu markieren Methode: Terme, die im Dokument häufig auftreten und die im Text gleichmäßig verteilt sind, sind (für genau dieses Dokument) Stoppworte HHU Düsseldorf, WS 2008/09 Information Retrieval 224

10 Conflation (Verschmelzung von Wortformen) Reduktionsformen 1. Wortstamm 2. Grundform Stemming Lemmatisierung Ausgangswort: RETRIEVED RETRIEV RETRIEVAL Wortstammbildung durch Grundformbildung durch Abtrennen (oder Zufügen) Vergleich mit Wörterbuch von Buchstaben (ggf. alternativ: nach nach gewissen Regeln gewissen Regeln) HHU Düsseldorf, WS 2008/09 Information Retrieval 225

11 Grundformbildung / Lemmatisierung Variante 1: regelgeleitet. Der S-Lemmatisierer für das Englische Wortform hat 3 Buchstaben oder weniger: Verfahren beenden Wortform endet auf IES (aber nicht EIES oder AIES): ersetze IES durch Y Wortform endet auf ES (aber nicht AES, EES oder OES): ersetze ES durch E Wortform endet auf S (aber nicht US oder SS): lösche S Harman, D. (1991): How effective is suffixing? In: Journal of the American Society for Information Science 42, S HHU Düsseldorf, WS 2008/09 Information Retrieval 226

12 Grundformbildung / Lemmatisierung Variante 2: wörterbuchbasiert Voraussetzung: Lexikon der jeweiligen Sprache ist vorhanden Oberfläche: Wortform (Bsp.: BÜCHERN) Kategorisierung: Wortart und morphosyntaktische Eigenschaft (Bsp.: Substantiv Dativ Plural) Grundform nachschlagen (Bsp.: BUCH) Hausser, R. (1998): Drei prinzipielle Methoden der automatischen Wortformerkennung. In: Sprache und Datenverarbeitung 22(2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 227

13 Beispiel: Morphologische Analyse bei IDX IDX (Fa. Softex) baut auf PRIMUS auf (Rechtschreibwörterbuch) eingesetzt bei MILOS / KASCADE (ULB Düsseldorf) dpa ursprünglich entwickelt von Harald H. Zimmermann (Universität des Saarlandes) H.H.Zimmermann Lepsky, K. (1994): Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in Online-Publikumskatalogen. Köln: Greven. (Kölner Arbeiten zum Bibliotheks- und Dokumentationswesen; 18) HHU Düsseldorf, WS 2008/09 Information Retrieval 228

14 Funktionalität von IDX Grundformbildung 14. Worte Elimination von (gewissen) Funktionsworten als Stoppworte Kompositazerlegung Derivation Zusammenfügen diskontinuierlicher Verbalgruppenteile ( ging... weg weggehen ) Erkennung fester Wendungen steht... zur Verfügung zur Verfügung stehen ) Auflösen von Auslassungstilden ( Haus- und Hofwirtschaft Hauswirtschaft ) Synonyme ( Samstag Sonnabend ) HHU Düsseldorf, WS 2008/09 Information Retrieval 229

15 <10> Grundform Adjektiv < 6> Grundform Substantiv falsch :23: Dekomposition :23t: hinterer Wortteil :4: Derivation von <6> auf <5> (Verb) <0> Stoppwort :4: Derivation von <7> auf <10> :103: unzulässige Dekomposition (bleibt unberücksichtigt) Quelle: Lepsky 1994, 69 HHU Düsseldorf, WS 2008/09 Information Retrieval 230

16 Wortstammbildung / Stemming Befreien der Wortformen von ihren Suffixen (nicht von den Präfixen). Variante 1: Longest-Match-Stemmer (Lovins-Stemmer) Abtrennen der jeweils längsten zutreffenden Endung (Voraussetzung: Liste aller Endungen) Folgen spezifischer Regeln zur Abtrennung Folgen von Regeln zur Re-Kodierung Lovins, J.B. (1968): Development of a stemming algorithm. In: Mechanical Translation and Computational Linguistics 11(1-2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 231

17 Longest-Match-Stemmer (Lovins-Stemmer) Regeln (Bsp.): B : Stamm muss mind. 3 Zeichen haben C : Stamm muss mind. 4 Zeichen haben E : nach E nicht abschneiden HHU Düsseldorf, WS 2008/09 Information Retrieval 232

18 Longest-Match-Stemmer (Lovins-Stemmer) Re-Kodierung Regeln (Bsp.): doppelte Konsonanten auf einen reduzieren RPT durch RB ersetzen Input Longest-Match-Stamm re-kodierter Stamm metal metal metal metallic metall metal absorbing absorb absorb absorption absorpt absorb HHU Düsseldorf, WS 2008/09 Information Retrieval 233

19 Wortstammbildung (stemming) 14. Worte Variante 2: iterativer Stemmer (Porter-Algorithmus) Abk.: C V CCC,... VVV,... [C]VCVC...[V] (VC){m}(V) Bsp.: Konsonant: alles außer A, E, I, O, U; Y nur dann, wenn nicht nach Konsonant (wie in Toy) Vokal sei C sei V (allgemeine Form) Anzahl der VC = m in einem Wort m=0 : tree, by m=1 : trouble, trees m=2 : troubles, private Porter, M.E. (1980): An algorithm for suffix stripping.- In: Program 14(39, HHU Düsseldorf, WS 2008/09 Information Retrieval 234

20 Regel: Bsp.: 14. Worte Porter-Algorithmus (Bedingung) S1 S2: falls ein Wort mit dem Suffix S1 endet und der Stamm vor S1 die Bedingung erfüllt, dann wird S1 durch S2 ersetzt die Bedingung wird durch m definiert; etwa: (m > 1) (m>1) EMENT _ S1 = EMENT; S2 = Null REPLACEMENT REPLAC *S der Stamm endet mit S *V* der Stamm enthält einen Vokal *d der Stamm endet mit einem Doppelkonsonant (etwa: -TT, -SS) and, or, not : Kombinationen von Bedingungen bei mehreren Regeln in einem Schritt: nur eine anwenden, und zwar die mit dem longest match HHU Düsseldorf, WS 2008/09 Information Retrieval 235

21 Porter- Algorithmus Beispiel: Schritt 1 (insgesamt 5 Iterationsrunden) HHU Düsseldorf, WS 2008/09 Information Retrieval 236

22 Wortbearbeitung bei Handy-Eingaben Nutzerseitiger Einsatz bei QWERTZ (QWERTY)- Tastaturen: mehr als 27 Zeichen bei Nutzung eines Mobiltelefons: 9 Zeichen IR mittels Handy: 1. Übersetzung der Ziffern 2 bis 9 in Worte (O: Leertaste) 1. mit Mehrfachanschlägen 2. mit Worterkennungssoftware (z.b. T9 von Tegic; Wörterbuch mit Wortstämmen und Nutzungshäufigkeiten der Wortfragmente) 2. Arbeiten mit den Ziffern selbst (dabei: invertierte Datei ebenfalls in Ziffern ausdrücken; Google-Methode) King, M.T.; Grover, D.L.; Kushler, C.A.; Grunbock, C.A. (1997): System zur Reduzierung der Vieldeutigkeit einer eingeschränkten Tastatur. Patent-Nr. DE T2. Patentinhaber: Tegic Communications. Priorität: Smith, B.T.; Brin, S.; Ghemawat, S.; Manning, C.D. (2000): Method and apparatus for using a modified index to provide search results in response to an ambiguous search query. Patent-Nr. US HHU Düsseldorf, WS 2008/09 Information Retrieval 237 Patentinhaber: Google, Inc. Erteilt am: (Eingereicht am ).

Ähnliche Dokumente

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation