Künstliche Intelligenz Text Mining

Größe: px

Ab Seite anzeigen:

Download "Künstliche Intelligenz Text Mining"

Kasimir Giese
vor 6 Jahren
Abrufe

1 Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

2 Data Mining Sammelbegriff für die Extraktion von Mustern aus strukturiert vorliegenden Daten, bspw. durch Klassifikation Clustering Anwendungsgebiete des Data Minings sind u.a.: Customer Relationship Management Überwachung DNA Analyse

3 Textmining Kombiniert Ansätze aus u.a. Data Mining, maschinellem Lernen, Sprachverarbeitung und Wissensmanagement. Mit [ ] Text Mining werden computergestützte Verfahren für die semantische Analyse von Texten bezeichnet, welche die automatische bzw. semiautomatische Strukturierung von Texten, insbesondere sehr großen Mengen von Texten, unterstützen. (Heyer et al., 2006, S. 3)

4 Text Mining: Anwendungen Filterung und Verteilung von Mails Erstellung firmen- oder fachspezifischer Glossare Automatisches Zusammenfassen von Texten Web Data Mining, bspw. Markt- und Produktanalyse Sentiment Analyse ( Gefühlserkennung )

5 Text Mining: Voraussetzungen geeignete Korpora Heterogen bzgl. Art, Herkunft, oder Thematik der Texte (je nach Anwendungsfall) Vorverarbeitung, bspw. Tokenisierung Stemming

6 Kollokationen

7 Kollokationen A collocation is an expression consisting of two or more words that correspond to some conventional way of saying things. (Manning/Schuetze, S.151) Collocations of a given word are statements of the habitual or customary places of that word (Firth 1957:181) Within the area of corpus linguistics, collocation is defined as a sequence of words or terms which cooccur more often than would be expected by chance. (Wikipedia:Collocation)

8 Kollokationen: Beispiele Eigennamen: Angela Merkel, Universität zu Köln Idiome: ins Gras beißen, vor die Hunde gehen Assoziative Kollokationen (N+N): Haus & Tür, Tatort & Mörder Prädikative Kollokationen (V+N): Medaille gewinnen, Fahrrad fahren Attributive Kollokationen (A+N): schwarzer Tag, harte Drogen

9 Kollokationen: Eigenschaften Kompositionalität Kollokationen sind (eher) nicht kompositionell. schwarzer Tag vs. schwarzer Vogel Substituierbarkeit Bestandteile von Kollokationen lassen sich nicht austauschen. schwarzer Tag vs. gelber Tag Modifizierbarkeit Modifizierung/Ergänzung um weiteres lexikalisches Material ist schwer bzw. unmöglich. schwarzer Tag vs. langweiliger schwarzer Tag

10 Kollokationen: Anwendungsfälle Sprachgenerierung und Parsing (z.b. maschinelle Übersetzung) ins Gras beißen to bite the dust Lexikographie Automatische Identifizierung erwähnenswerter Kollokationen Generierung von Stichwort-Listen

11 Heutiges Beispiel Korpus: ca unstrukturiert vorliegende Zeitungstexte, insgesamt etwa 1,4 Millionen Wörter. Vorverarbeitung: Tokenisierung mit Java's build-in- Werkzeugen (sehr primitiv) Ziele: Extraktion möglicher benachbarter 2-Wort- Kollokationen (Bigramme) Möglichst gute Bewertung der Kollokationen Zuweisen der Kollokationen zu den einzelnen Dokumenten.

12 Vorgehensweise Wie ließe sich eine einfache Suche nach Kollokationen implementieren?

13 Vorgehensweise Wie ließe sich eine einfache Suche nach Kollokationen implementieren? 1. Erstellen einer Liste aller Bigramme: Hans Müller liest Zeitung. Hans Müller schläft wird zu [Hans, Müller] [Müller, liest] [liest, Zeitung] [Zeitung, Hans] [Hans, Müller] [Müller, schläft] 2. Sortieren der Liste nach Häufigkeit Beispiel 1

14 Ergebnis Die ermittelten Kollokationen sind leider etwas inhaltsleer... Spontane Lösungsvorschläge? [in der] 3996 [in den] 2165 [für die] 2146 [und die] 1319 [mit dem] 1306 [auf die] 1252 [an der] 1201 [in die] 1192 [mit der] 1171 [von der] 1146 [bei der] 999 [über die] 972 [sich die] 964 [aus dem] 914 [dass die] 901 [auf den] 857

15 1. Verbesserung Wie vorher, aber unter Verwendung einer Liste, die unerwünschte Wörter enthält ( Stopword-Liste ). Beispiel 2

16 Ergebnis Deutlich besser, aber... Manchmal sind Stoppwörter relevant ( auf Schalke ) Stoppwörter sind sprachoder domänenspezifisch Die Ergebnisse könnten grundsätzlich noch besser sein [Millionen Mark] 381 [vergangenen Jahr] 296 [Milliarden Euro] 258 [Millionen DM] 247 [Milliarden DM] 223 [New York] 201 [Millionen Euro] 178 [Milliarden Dollar] 122 [Millionen Dollar] 111 [Milliarden Mark] 109 [Gerhard Schröder] 108 [vergangenen Jahres] 107 [FC Bayern] 95 [Foto dpa] 94

17 Häufigkeit Mittelwert - Abweichung Sinnvoller als eine reine Häufigkeitsanalyse wäre es, nur die Bigramme zu berücksichtigen, die auffällig häufig vorkommen. Was aber ist auffällig häufig, und was ist unauffällig häufig?

18 Testverfahren für Hypothesen Hypothesentest zur Ermittlung der Nichtzufälligkeit: 1) Aufstellen einer Nullhypothese (H0) 2) Postulieren des Signifikanzniveaus 3) Ermitteln der Wahrscheinlichkeit, dass H0 zutrifft. 4) Bestätigen/Verwerfen von H0 H0 in unserem Fall: Es besteht keine Abhängigkeit zwischen den Wortauftritten (Unabhängigkeitsannahme) P(w 1 w 2 )= P(w 1 )P(w 2 )

19 T-Test Maß für den Unterschied zwischen beobachteten und vorhergesagten Werten H0: Sample stammt aus einer Grundgesamtheit mit Normalverteilung und Mittelwert μ: Je höher der Wert für t, desto unwahrscheinlicher ist H0.

20 T-Test : Ermittelte Vorkommen eines Bigrams Erwartete Vorkommen eines Bigrams σ: Standardabweichung Ν: Anzahl aller Bigramme

21 T-Test: Vereinfachung Die Standardabweichung ist unbekannt, kann aber durch s 2 = (1- ) ersetzt werden. s 2 = (1- ) Beispiel 3

22 Chi-Square-Test (χ2) Idee: Vergleich von beobachteten Vorkommen mit beobachteten Nicht-Vorkommen. Sollte eine große Abweichung auftreten, handelt es sich um eine Kollokation.

23 Chi-Square-Test (χ2): Beispiel Jede Hypothese (wie bspw. new Companies ) lässt sich zu anderen Hypothesen in Bezug setzen. w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines)

24 Chi-Square-Test (χ2): Beispiel Jede Hypothese (wie bspw. new Companies ) lässt sich zu anderen Hypothesen in Bezug setzen. w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines) Die Werte der einzelnen Zellen lassen sich einfach berechnen: C(new) = , C(companies) = 4.675, C(new companies) = 8, Anzahl der Tokens = C(? companies) = C(companies) C(new companies) =

25 Chi-Square-Test (χ2): Formel O: Beobachteter Wert E: Erwarteter Wert (Nullhypothese) Wie wird E berechnet?, 2 =, ij (O ij - E ij ) 2 E ij

26 Chi-Square-Test (χ2): Formel O: Beobachteter Wert E: Erwarteter Wert (Nullhypothese) Wie wird E berechnet? 2 = ij (O ij - E ij ) 2 E ij w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines) E 11 = O 11 + O 12 * O 11 + O 21 * N = ca. 5.2 N N

27 Chi-Square-Test (χ2): Formel Für 2x2-Tabellen etwas einfacher : 2 = N(O 11 * O 22 - O 12 * O 21 ) 2 (O 11 + O 12 )*(O 11 + O 21 )*(O 12 + O 22 )*(O 21 + O 22 ) w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines) Beispiel

Ähnliche Dokumente

Anpassungstests VORGEHENSWEISE

Anpassungstests VORGEHENSWEISE Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel