9. Dezember 2015 TEXT MINING. Sebastian Wack

Größe: px

Ab Seite anzeigen:

Download "9. Dezember 2015 TEXT MINING. Sebastian Wack"

Imke Abel
vor 5 Jahren
Abrufe

1 9. Dezember TEXT MINING Sebastian Wack

2 2 GLIEDERUNG Was ist Text Mining? Primitive Algorithmen Vorbereitungen Vektormodell Latent Semantic Indexing Clustering Nichtnegative Matrix Faktorisierung LGK Bidiagonalisierung Zusammenfassung

3 3 WAS IST TEXT MINING? Methoden zur Extrahierung von Informationen aus Texten (oft unstrukturiert) Anwendungen Datenbanksysteme Automatisierte Textzusammenfassung

4 4 PRIMITIVE ALGORITHMEN Gegeben: Index mit allen vorhandenen Büchern (inkl. Autor, Titel, ISBN, Inhalt) Jedes Buch im Index besitzt einen Relevanzwert Gesucht: Funktion search() Eingabe: Suchwort / Suchwörter Ausgabe: nach Relevanz aufsteigend sortierte Liste von Büchern

5 5 VERSUCH 1 Search(String query) { foreach book in index do { if(book.isbn.contains(query) ) { book.relevance++; } } sort(book.relevance); return index; }

6 6 GEGENBEISPIEL Search(Matrix methods pattern recognition) 0 Ergebnisse ID Title ISBN 4865 Matrix methods in data mining and pattern recognition

7 7 VERSUCH 2 Search(String query) { } queries = split(query, ); foreach word in queries do { foreach book in index do { if(book.isbn.contains(query) ) { book.relevance++; } } } sort(book.relevance); return index;

8 8 GEGENBEISPIEL Search(Matrix Methods Pattern Recognition) 0 Ergebnisse ID Title ISBN 4865 Matrix methods in data mining and pattern recognition

9 9 VERSUCH 3 Search(String query) { } queries = split(query, ); foreach word in queries do { foreach book in index do { if(book.isbn.tolowercase().contains(query.tolowercase()) ) { book.relevance++; } } } sort(book.relevance); return index;

10 10 GEGENBEISPIEL Search(Matrix Methods Pattern Recognition) mind. 1 Ergebnis ABER: Search(computing science engineering) ungenaue Ergebnisse ID Title ISBN 4865 Matrix methods in data mining and pattern recognition Computer science engineering

11 12 VORBEREITUNGEN Für jeden Suchbegriff: Liste von Dokumenten (invertierter Index) Schritt 1: Stopp Wörter herausfiltern Beispiele: a, a s, able, about, above, according, accordingly, across, actually, after, afterwards, again, against, ain t, all, allow, allows, almost, alone, along, already, also, although, always, am, among, amongst, an, and, another, any, anybody, anyhow, anyone, anything, anyway, anyways, anywhere, apart, appear, appreciate, appropriate, are, aren t, around, as, aside, ask,....

12 13 VORBEREITUNGEN Schritt 2: Wortstämme extrahieren: computable comput computational comput walked walk thrown throw adaptive adapt

13 14 TYPISCHE SUCHANFRAGE the use of induced hypothermia in heart surgery, neurosurgery, headinjuries, and infectious diseases. (Q1) Bildquelle:

14 15 VEKTORMODELL Suchbegriff Dokument Matrix Dokumente: Spalten Begriffe: Zeilen Text Parser Gewichtungsfunktion: a ij = f ij log n n i Dokument a j ist relevant, wenn der Winkel zwischen q und a j klein genug ist: cos θ q, a j = qt a j q 2 a j 2 > ε

15 16 VEKTORMODELL: BEISPIEL Ersten 500 Zeilen und Spalten der Q1 Matrix

16 17 VEKTORMODELL: GENAUIGKEIT Exaktheit: P = D r D t Abrufgenauigkeit: R = D r N r D r # der erhaltenen Dokumente, die relevant sind D t # der erhaltenen Dokumente N r # der Dokumente, die relevant sind

17 Exaktheit 18 VEKTORMODELL: GENAUIGKEIT Abrufgenauigkeit

18 19 LATENT SEMANTIC INDEXING Basiert auf Singulärwertzerlegung A k U k H k a j U k h j q T A k = q T U k H k = U k T q T H k cos θ j = q k T h j q k 2 h j 2 q k = U k T q

19 Exaktheit LATENT SEMANTIC INDEXING: BEISPIEL Rang: 100 Latent Semantic Indexing: Vektormodell: In diesem Fall: LSI erheblich besser Abrufgenauigkeit

20 Gut konditionierte Matrix Keine Lücke bei den Singulärwerten Näherungsfehler hoch A A k F 0,8 (k = 100) Bessere ODER schlechtere Performance LATENT SEMANTIC INDEXING: ABSCHÄTZUNGEN A F 21

21 22 CLUSTERING Dokumentengruppen mit ähnlichem Inhalt Jede Gruppe wird durch ihren Durchschnittswert repräsentiert Matrix C k R m k als Näherung

22 Exaktheit 23 CLUSTERING: BEISPIEL Clustering: Normierte Spalten (euklidisch) Rang: 50 Vektormodell: --- Abrufgenauigkeit

23 24 CLUSTERING: ABSCHÄTZUNGEN Abschätzungsfehler: A P kg k F A F 0,9 Aber: Bei unterschiedlichen Anfragen haben LSI (k = 100) und Clustering (k = 50) ungefähr gleiche Performance

24 NICHTNEGATIVE MATRIX FAKTORISIERUNG 25 A WH W = QR q = R 1 Q T q

25 Exaktheit 26 NMF: BEISPIEL & ABSCHÄTZUNGEN Nichtnegative Matrix Faktorisierung: A WH F 0,89 A F Vektormodell: --- Abrufgenauigkeit

26 27 LGK BIDIAGONALISIERUNG Updates sind bei den bisher vorgestellten Algorithmen teuer Basiert auf der LGK Bidiagonalisierung (Kapitel 7) Einzelner Aufruf teurer Aber deutlich geringere Updatekosten

27 Exaktheit Abrufgenauigkeit LGK BIDIAGONALISIERUNG: BEISPIEL 28 Relatives Residuum der LGK Bidiagonalisierung Vektormodell: --- Bidiagonalisierung (2 Schritte): Bidiagonalisierung (8 Schritte):

28 29 ZUSAMMENFASSUNG Perfomanzaussagen: immer unterschiedliche Testdurchläufe mit unterschiedlichen Anfragen Ergebnisse abhängig von der Beschaffenheit der Daten Neuberechnung notwendig Vektormodell Latent Semantic Indexing Clustering Nichtnegative Matrix Faktorisierung In Place Updates möglich LGK Bidiagonalisierung

29 VIELEN DANK FÜR IHRE AUFMERKSAMKEIT! 30

30 31 LITERATURVERZEICHNIS L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, Martin Porter: The Porter Stemming Algorithm online abrufbar unter: (zuletzt überprüft am ) Dr. René Witte, Jutta Mülle u.a.: Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten (2006) online abrufbar unter: (zuletzt überprüft am ) Dr. Steffen Weißer: Praktische Mathematik: Vorlesungsmitschrift SS 2015

Ähnliche Dokumente

Reduced-Rank Least Squares Modelle

Reduced-Rank Least Squares Modelle 16.12.2008 Wiederholung Gegeben: Matrix A m n Paar Rechter Eigenvektor x, Eigenwert λ: A x = λ x mit x R n \ 0, λ N Paar Linker Eigenvektor y, Eigenwert λ: y T A = λ y T Singulärwertzerlegung (SVD): A