McCallum et al Vorgestellte Techniken. Reinforcement Learning Naive Bayes Classification Hidden Markov Models. Viterbi

Transkript

1 Einstieg Building Domain Specific Search Engines with Machine Learning Techniques McCallum et al Vorgestellte Techniken Reinforcement Learning Naive Bayes Classification Hidden Markov Models Viterbi

2 Beispiele für Suchmaschinen Suche nach Sommercamps Firmen suche Video Kritiken Mathematische Inhalte Urlaubsangebote

3 Aufbau einer Suchmaschine 3 Verschiedene Aufgaben Collecting Extracting Presenting

4 Cora gibt es leider nicht mehr

5 Methoden (Cora) Collecting durch spidering Mögliche Ziele Alle (bzw. möglichst viele) Dokumente finden (Google, Yahoo,...) Mittels Breitensuche Bestimmte Dokumente finden (Cora) Möglichst schnell (kurzer Pfad zum richtigen Dokument) Möglichst genau Methode?

6 Reihenfolge Breitensuche S

7 Optimale Reihenfolge(n) ?? S? 1 3??? 1? 2

8 Spidering Ziel: Suche die am günstigsten Links aus Lernen durch Belohnung / Bestrafung Allerdings: Keine Antwort über korrektes Verhalten Sondern: skalare Belohnung!

9 Reinforcement Learning (Formal) S : Menge der Zustände A : Menge der Aktionen T : Transitionen T : S A S R : Belohungsfunktion R :S A R Gesucht wird ein optimaler Pfad : s... s x Der Wert eines Zustandes für einen Pfad kann angegeben werden als: V s= t= t r t (t ist dabei der t te Schritt, ist Dämpfung < < 1 ) Ein optimaler Pfad kann angegeben werden als: Q opt s,a=r s,av opt T s,a Erfüllt Bellmansche Optimalitätsgleichung Dynamische Prog.

10 RL & Spidering S = Dokumente (gesuchte Dokumente) A = Links (repräsentiert durch bow *1) R = Belohnung durch richtige Klassifikation (*1 bag of words / Vektor aus Anzahl der Worte) der, die, das,1 lernen.1...

11 Idee Reinforcement Learning 1,7 2,8 3,9 4,6,9 S,6,6,7,8,7,6,6,7

12 RL & Spidering Und was wird jetzt gelernt? welche Art Links erfolgversprechend sind Wie wird gelernt? Durch Bewertung von Wort Vektoren

13 RL & Spidering Test Basisdaten (Webspace 4 Universitäten) Brown University / Cornell University / University of Pitsburgh / University of Texas Jeweils 3 Zum Trainieren 1 zum Ausprobieren (Also 4 Durchgänge) jeweils noch mal mit =

14 RL & Spidering (ergebnisse) ( Building Domain Specific Search Engines with Machine Leaning Techniques, 1999 McCallum et al,, S. 5 (3.4 Figure 3))

15 RL & Spidering (ergebnisse) One Measure of Performance is the number of hyperlinks followed by before 75% of the research papers are found. Reinforcement learning performance is significantly more efficient, requiring exploration of only 11% of the hyperlinks, in comparison to the breath first searchs 3%. This is nearly a factor of three increase in spidering efficiency ( Building Domain Specific Search Engines with Machine Leaning Techniques, 1999 McCallum et al,, S. 5 (3.4))

16 Klassifikation Wie kann man ein Dokument einem Thema zuordnen? Thema ??? Thema 2 Thema 3

17 Klassifikation Cora ( Building Domain Specific Search Engines with Machine Leaning Techniques, 1999 McCallum et al,, S. 6 (3.5 Figure 4))

18 Klassifikation Schlüsselwörter Geschichte (Name einer Person) Iris Anatomie (Teil des Auges) Botanik (Art einer Schwertlilie)

19 Klassifikation Kombination von Schlüsselwörtern Geschichte (Name einer Person) Iris Sehnerv Gehirn...?!?? Anatomie (Teil des Auges) Botanik (Art einer Schwertlilie) Mögliches Problem: Welche Schlüsselwörter nehme ich? (Vollständigkeit)

20 Klassifikation mögliche Probleme Auswahl der Schlüsselwörter Fehlende / Neue Schlüsselwörter Ausweg Klassifizierte Trainingsmenge generiere daraus bag of words Biologie Gehirn, 5 Botanik Gehirn, Bayes Iris, 1 Sehnerv. 5 Iris, 5 Sehnerv, gießen, gießen,

21 Stochastik (Bayes) Bayes P A B= P B A P A P B Beispiel (grobe Schätzungen, und stark vereinfacht) S: Schwedin B: Blond P S= 9M 6625M.14 P B=.5 P B S =.7 P S B= P B S P S P B =

22 Stochastik (Bayes) Geht das überhaupt? Keine Ahnung wie die Welt wirklich ist!!!! Wäre aber notwendig um Wahrscheinlichkeiten anzugeben... (zumindest streng genommen) Macht man trotzdem (K)einer weiß wie die Welt wirklich ist!!!! Je besser die Trainingsdaten desto näher an der Welt Praktikabel

23 Annahmen Jedes Thema erzeugt bestimmte Wörter in einer bestimmten Frequenz. (kommen in einer bestimmten Frequenz in einem Text vor) Durch Bayes kann man dann bestimmen welches Thema die Daten am wahrscheinlichsten erzeugt hat. Die Naive Annahme dabei ist, dass die Worte unabhängig von ihrer Position und den übrigen Worten sind.

24 Naive Bayes (Formal) C : Menge der Dokumente (Klassen/Topics) W : Menge der Wörter D : Menge der Dokumente Wahrscheinlichket des Vorkommens der Klasse j Wahrscheinlichkeit das ein Wort i in Klasse j vorkommt Wahrscheinlichkeit Der Klasse j bei Dokument i P c j P w t c j P c j d i d i P c j d i P c j P d i c j P c j k=1 P w dik c j

25 Naive Bayes (Formal 2) P w t c j = 1 {w t w t in d i } P c j d i d i D W W s=1 {w s w s in d i } P c j d i d i D P c j = 1 P c j d i d i D C D

26 kleines Problem Instabil wenn: Qualität der Trainingsdaten nicht gut ist Sie also das Vorkommen der Wörter in der realen Welt nicht gut genug widerspiegeln Verbesserung: Shrinkage

27 Klassifikation Cora ( Building Domain Specific Search Engines with Machine Leaning Techniques, 1999 McCallum et al,, S. 6 (3.5 Figure 4))

28 Naive Bayes (Shrinkage) Ziel: Verbesserung der Genauigkeit der Klassifikation. Wie kommt man jetzt dahin ohne die Wörter und ihre Verteilung genau zu kennen? IDEE: Ziehe alle Elternklassen mit in Betracht Damit landet ein Dokument in dem wahrscheinlichsten Bereich. (Dadurch das auch das überige Vokabular auch am wahrscheinlischsten aus dem übergerordneten Themenbereich stammt)

29 Naive Bayes (Shrinkage vorgehen) P w t c j = j 1 P 1 w t c j j k P k w t c j K=1 root K= Wie die für den Pfad bestimmen? Bestimme für jedes Wort die WK das es vom i ten Elterndokument erzeugt wurde i j = w t d i D j 1 P i w t c j P c j d i K=2 K=3 Normalisiere mit i j = i j k i=1 i j

30 Naive Bayes (erg.) Hierarchy mit 51 Blättern 25( 4)/33. Dokumente als Trainingsmenge Keywords = 66% (allerdings besondere Kenntnisse) Bayes = 62% Bayes + shrinkage = 7% Lässt sich mit unklassifizierter Trainingsmenge und Clustering noch steigern

31 Information Extraction Automatisches Auffinden besonderer Informationen in einem Text. z.b. Wortarten hier Auffinden von Referenzen Identifikation anhand des Aufbaus HMM

32 Hidden Markov Models (Beispiel),25 Hidden Layer Hidden states Emission Propabilities S.1,75,25 Titel,5 Prof.:,1 Dr.:,5... Harry: Peter:... Müller:...,25 Vorname,75 Prof.: Dr.:... Harry:.1 Werner:.1... Müller:...,15 Nachname,24 Prof.: Dr.:... Harry: Werner:.1... Müller:.2...,85 S4 Beobachtungen Lieschen Müller Lüdenscheid

33 Hidden Markov Models (Formal) Q : Menge der Zustände (hidden) X : Menge der beobachtbaren Zustände P x M = l1 q 1,,q l Q l k=l P q k 1 q k P q k x k Wahrscheinlichkeit das x von dem HMM M erzeugt wurde l1 V x M = argmax q 1,,q l Q l k=1 P q k 1 q k P q k x k Wahrscheinlichkeit des wahrscheinlichsten Pfades im HMM M der die Ausgabe x erzeugt hat Ziel: Ausgabe des Wahrscheinlichsten Pfades... > Viterbi Algorithmus<

34 Hidden Markov Models (VITERBI) für alle beobachteten Zustände x: für alle hidden Zustände (k) für aller hidden Zustände (j) result = P(k >j)*p_summepfade(k)*p(x j) (merke den Pfad und Maximum)

35 Hidden Markov Models (VITERBI) Lieschen Müller Lüdenscheid Titel Titel Titel Vorname,2*,75 =,15 Nachname,1*,24 =,24 Vorname Nachname,1 Vorname Nachname,1

36 Hidden Markov Models (VITERBI) Lieschen Müller Lüdenscheid Titel Vorname,2*,75 =,15 Nachname,1*,24 =,24 Titel Vorname *,25 = Nachname,1*,75,75 Titel Vorname Nachname,1

37 Hidden Markov Models (VITERBI) Lieschen Müller Lüdenscheid Titel Titel Titel Vorname,2*,75 =,15 Vorname Vorname Nachname,1*,24 =,24 Nachname,1*,15,15 Nachname,1*,75,75 Nachname,1

38 Hidden Markov Models (VITERBI) Lieschen Müller Lüdenscheid Titel Vorname,2*,75 =,15 Nachname,1*,24 =,24 Titel Vorname Nachname,1*,75,75 Titel Vorname Nachname,1*,15,15

39 Hidden Markov Models (VITERBI) Lieschen Müller Lüdenscheid Titel Vorname,2*,75 =,15 Nachname,1*,24 =,24 Titel Vorname Nachname,1*,75,75 Titel Vorname Nachname,1*,15,15 V LieschenMüller Lüdenscheid M =,15,75,15=1,

40 Hidden Markov Models (erg.) Basis 5 Referenzen aus 5 Dokumenten 13 Klassen Titel / Autor / Gesellschaft / Ort / Bemerkung / Editor / Verleger / Datum / Seitenzahl / Nummer / Zeitschrift / Buchtitel / Bericht

41 Hidden Markov Models (erg.) HMMs HMM Jede Klasse mit jeder anderen mit gleicher WK HMM 1 Jede Klasse mit jeder anderen mit Häufigkeiten aus realen Daten HMM 2 HMMs aus Dokumenten (Real) Ein Startzustand mit gleicher WK für alle HMMs Zusammenfassung gleicher Nachbarzustände

42 Hidden Markov Models (erg.) HMM 3 HMM 2 Klassen die gleiche eingehende / ausgehende Transitionen + gleiches Label haben werden zusammengefügt ( Building Domain Specific Search Engines with Machine Leaning Techniques, 1999 McCallum et al,, S. 1 (5.2 Figure 5))

43 Hidden Markov Models (erg.) ( Building Domain Specific Search Engines with Machine Leaning Techniques, 1999 McCallum et al,, S. 11 (5.2 Table 1))

44 Literaturtips / Links ReinforcementLearning freiburg.de/~ml/teaching/ws4/lm/25118_focussedcrawling_fischer.ppt Bayes darmstadt.de/lehre/ss5/web mining.html darmstadt.de/lehre/ss5/web mining/wm tm.pdf HMM / Viterbi