Fragen aus dem Wissensquiz

Transkript

1 und Data-Mining Prof. Dr. Tobias Scheffer SS 2004 Fragen aus dem Wissensquiz Marko Pilop pilop (v Juli 2004) Humboldt-Universität zu Berlin Institut für Informatik Zusammenstellung der Fragen aus den beiden Wissensquiz (wie ist der Plural von Quiz?) der Vorlesung und Data-Mining von Prof. Dr. Tobias Scheffer im SS 2004 zur Prüfungsvorbereitung in Form von Beantwortungsversuchen. Ergänzt von einigen Fragen aus der Probeklausur. 1

2 I. Wissensquiz vom Was ist der Vorteil von ID3 gegenüber Candidate Elimination? Hypothesenraum größer (Der induktive Bias von Candidate Elimination reduziert schließt Disjunktionen von Hypothesen aus, mit ID3 können solche Hypothesen jedoch formuliert werden) Candidate Elimination: Workspace ID3: 1 Hypothese 2. Was ist der Induktive Bias von Candidate Elimination, was der von ID3? Candidate Elimination: Language Bias ( viel nicht darstellbar) ID3: einfache Hypothese (Entscheidungsbaum von geringer, aber nicht notwendigerweise minimaler Größe) 3. Warum ist die Annahme, dass einfachere Hypothesen besser sind, problematisch? Was heißt einfach? Codierungsabhängig nicht eindeutig definiert 4. Bei welchem einfachen Beispiel versagt der Roccio-Klassifikator? senkrecht bzw. parallel zu den Attributachsen 5. Unter welchen Umständen ist ein Rocchio-Klassifikator besser geeignet als ein linearer Perzeptron? Wenn Klassen gut seperierbar sind und Roccio richtig klassifiziert, dann ist der Roccio- Klassifikator einfacher zu berechnen. 6. Wie sieht die Entscheidungsgrenze von C4.5 grafisch aus? Merkmalsraum wird in Teilräume rekursiv gesplittet und die Entscheidunggrenze ist die Grenze zwischen den Teilräumen. Die jeweiligen Trennfunktionen sind Geraden. 7. Welchen Vorteil hat SLIQ gegenüber dem einfachen C4.5 Algorithmus? expandiert in einem Schritt alle Knoten einer Ebene weniger über Beispiele (???) Durch das Aufbauen von Histogrammen in jedem Knoten muss weniger oft über die Datenbank mit den Trainingsinstanzen iteriert werden. ADD Prof. Dr. Tobias Scheffer SS 2004 Seite 2 von 12

3 8. Wie viel unterschiedliche Entscheidungsbäume gibt es, wenn unsere Zielklasse binär ist und wir k binäre Eingabeattribute haben? 2 2k 9. Was ist die Entropie eines Münzwurfs, wenn die Münze nicht verbogen ist? Was verbirgt sich hinter dem Begriff GainRatio beim Entscheidungsbaumlernen? InformationGain SplitRatio Entropie des neuen aufgesplitteten Attibuts korrigiert InformationGain (über die Anzahl) (hohe Anzahl ist schlecht (z.b. ID s)) 11. Welche Idee steht hinter dem Reduced Error Pruning? Generalisierungsfähigkeit des Baumes erhöhen ( Pruning) Generalisierungsfehler vermindern 12. Warum ist eine Fehlerschätzung mit einmaligem Aufteilen in Trainings- und Testdaten pessimistisch und ungenau? Gibt es Alternativen? Welche? Fehler ist gar nicht so groß, wie angegeben (da Fehlerschätzung über Testdaten) Durch das Aufteilen der bekannten Instanzen verringert sich die Trainingsmenge, und der Klassifikator kann weniger genau gelernt werden. Insgesamt zählt es aber über Trainings- und Testdaten 13. Welche zwei Verfahren gibt es, um mit binären Klassifikatoren ein Mehrklassenproblem zu lösen? All against all - Es wird ein Klassifikator für jedes Paar von Klassen gelernt, der jeweils genau diese zwei Klassen gegeneinander abgrenzt. One against all - Es wird ein Klassifikator für jede Klasse gelernt, der sie von allen anderen Klassen abgrenzt. Prof. Dr. Tobias Scheffer SS 2004 Seite 3 von 12

4 14. Was ist der Unterschied zwischen einem primalen und dualen Perzeptron? primal / dual bezieht sich auf die Repräsentation der Perzeptrons!!! Perceptron findet nur eine Trennebene, wenn Beispiele linear trennbar sind Bei der dualen Repräsentation kann der linearer Kernel durch einen anderen (z.b. rbfkernel) ersetzt werden. D.h. das es nicht mehr eine lineare Trennebene gibt, sondern eine Trennebene, welche an vielen Stellen durch den Kernel verbogen, bzw. ausgebeult ist. 15. Was ist ein Large-margin Klassifikator? Welchen Vorteil hat ein Large-margin Klassifikator gegenüber dem Perzeptron-Algorithmus? Ziel eines Large-margin Klassifikators ist es, die Trennebene zwischen Klassen so zu drehen, dass der Abstand aller Instanzen zur Trennebene maximal wird. Der Perzeptron- Algorithmus findet nur eine Trennlinie, die beide Klassen trennt. 16. Was versteht man unter einer Soft-Margin-Maschine? manchmal kann man nicht alles linear separieren dann gehen auch die negativen Abstände (der Falschklassifizierten Beispiele) mit in die Bewertung (Optimierung) ein ( Minimierung) Insgesamt wird nach zwei Kriterien optimiert: 1. (positive) Margin maximieren 2. negative Abstände minimieren (zusätzlich bei Soft-Margin-Maschine) 17. Welche Idee steht hinter dem Backpropagation-Algorithmus? 18. Welchen Nachteil haben Neuronale-Netze im Vergleich zu Support-Vektor-Maschinen-Klassifikatoren? Prof. Dr. Tobias Scheffer SS 2004 Seite 4 von 12

5 19. Wie kann ich das Bayes-Theorem einsetzen, wenn ich eine bedingte Wahrscheinlichkeit wissen möchte, diese aber nicht direkt bestimmen kann? 20. Was ist der Unterschied zwischen einer Hypothese und einer Zielklasse? Eine Hypothese ist ein Konstrukt in der verwendeten Hypothesensprache (eine Funktion in der Hypothesensprache), die jeder Instanz eine Zielklasse zuordnen kann. Eine Zielklasse ist das Ergebnis des Anwendens einer Hypothese auf eine Instanz. Die Zielklasse ist das Ergebnis der Klassifikation, die mit Hilfe der Hypothese durchgeführt wird. 21. Warum minimiert die MAP-Hypothese nicht die Fehlerwahrscheinlichkeit, auch wenn es die Hypothese ist mit dem maximalen P(h D)? 22. Was versteht man unter der Gibbs-Hypothese? Welchen Vorteil hat sie gegenüber der MAP-Hypothese? 23. Was ist die naive Annahme beim Naive-Bayes Klassifikator? 24. Beschreiben Sie informell den EM-Algorithmus! Prof. Dr. Tobias Scheffer SS 2004 Seite 5 von 12

6 25. Was ist der Unterschied zwischen Assoziationsregel-Entdeckung und Klassifikation bezüglich der gegebenen Daten und dem Lernergebnis? Prof. Dr. Tobias Scheffer SS 2004 Seite 6 von 12

7 II. Wissensquiz vom Wie groß sind Support und Confidence (genau, höchstens oder mindestes) von AB CD wenn s(ab) = 2, s(bc) = 3 und s(cd) = 4 ist? Support: kann höchstens 2 sein Confidence: kann höchstens 1 sein, da von den 2 Transaktionen, die die Attribute der rechten Seite (AB) beinhalten, max. die beiden Transaktionen auch die Attribute der linken Seite (CD) beinhalten können. Nicht mehr - höchstens für weniger Transaktionen trifft das zu, da die beiden nicht unbedingt zwangsläufig auch CD supporten müssen. 27. Wieviel Verzweigungen kann ein Dendrogramm maximal haben, wenn es durch ein agglomeratives Clusterverfahren über N Datenpunkte erzeugt wurde? N 1 (sooft wird gemerged) 28. Was ist der Vorteil von k-medoids gegenüber k-means? keine Vektorrepräsentation notwendig Abstandsmaß reicht Mittelwert nicht benötigt (@Torsten: Ein Median ist auch ein Mittelwert auch wenn es in den Folien anders behauptet wird. Aber in Prinzip wissen wir ja was gemeint ist. ;-)) Bei komplexen Gebilden im Merkmalsraum kann es schwierig oder unmöglich sein, ein Durchschnittsobjekt zu berechnen. (Was wäre der Durchschnitt aus einem Cluster von Fahrzeugen?) 29. Warum ist der Matrix-Update-Algorithmus für große Datenmengen weniger gut geeignet? Welches Clusterverfahren würden Sie stattdessen verwenden? Quadratisch große Matrix paßt für große Daten nicht in Speicher Laufzeit (um Matrix zu füllen) ist quadratisch besser: partitionierendes Verfahren (k-means / k-medoids) 30. Welches Clusterverfahren hat eine niedrigere Laufzeitkomplexität, k-means oder BIRCH? k-means: O(n k) (???) Birch hat Verzweigungsfaktor, statt k ( nicht direkt vergleichbar) Birch muß aber nur einmal über die Daten ( schneller) Prof. Dr. Tobias Scheffer SS 2004 Seite 7 von 12

8 31. Beschreiben Sie informell den EM-Algorithmus! 1. Modell raten 2. Erwartungswert für verdeckte Variablen berechnen 3. welches ist bestes Modell? (Schleife zu mein Vorschlag 1. mit zufälligen Modell beginnen 2. Wahrscheinlichkeiten für alle Samples dafür berechnen, dass sie zu einem Cluster j gehören 3. Neue Modellparameter aufgrund von 2. berechen, fertig falls sich nichts mehr ändert, ansonsten weiter mit 2. Man rät ja nicht in jeden Schritt ein neues Modell, sondern bestimmt nur die Parameter aufgrund der erwarteten Zugehörigkeiten. 32. Wie sehen der E- und M-Schritt bei k-means aus? 1. k Zentren zufällig verteilt initialisieren 2. unsichtbare Variablen sind Erwartungswerte für Clusterzugehörigkeiten 33. Wenn man zwei Knoten im BIRCH-Baum zusammenfasst, wie kann man dann die Cluster-Features des zusammengefassten Knotens aus den beiden einzelnen Knoten bestimmen? durch Adition zusammenfassen 34. Was können Sie über die Form der Cluster aussagen, die k-means und die GDBSCAN findet? k-means: bienenwabenförmig (potentiell Kreisförmig) GdbScan: alle möglichen Clusterformen 35. Geben Sie eine intuitive Beschreibung für Precision und Recall! 1. Precision: wieviele von positiven Vorhersagen sind wirklich positiv? 2. Recall: wieviele wirklich positive Beispiele waren richtig? 36. Kann man Precision und Recall auch verwenden, wenn man zwischen zwei gleichwertigen Klassen unterscheiden möchte? ja, aber Precision/Recall für eine Kategorie angeben Prof. Dr. Tobias Scheffer SS 2004 Seite 8 von 12

9 37. Welche intuitive Bedeutung hat der AUC-Wert eines Klassifikators? Wahrscheinlichkeit dafür, daß positives einen höheren Entscheidungswert hat, als negatives (???) 38. Was ist der F-Measure und welche intuitive Bedeutung hat er? harmonisches Mittel zwischen Precision und Recall 39. Was ist der Unterschied zwischen einer Entscheidungsfunktion und einem Klassifikator? Entscheidungsfunktion ist Skalar vom Klassifikator braucht noch Schwellwert, zum einteilen ( Klassifikator) 40. Warum ist die Fehlerschätzung bei Training-and-Test pessimistisch und warum ungenau? Was kann man verbessern? nur auf Testmenge genau Pessimistisch Weniger Samples für das Training werden genutzt, dementsprechend wurde schlechter Klassifiziert als eigentlich möglich Ungenau Zu wenige Testbeispiele stehen zur Verfügung Verbessern N-Fold Cross Validation nutzen 41. Wie groß ist die Wahrscheinlichkeit höchstens, dass sich unter den Hypothesen, die auf m Trainingsbeispielen keinen Fehler machen mindestens eine befindet, die einen wirklichen Fehler größer als e hat? H e ǫ m 42. Was ist die Aussage des 2. No-Free-Lunch-Theorems? 43. Warum sollten die Einzelklassifikatoren beim Bagging unabhängig sein? damit Abstimmung etwas richtiges ergibt und nicht verfälscht wird Prof. Dr. Tobias Scheffer SS 2004 Seite 9 von 12

10 44. Wir haben für eine Hypothese einen Fehler geschätzt und möchten nun mit Konfidenzintervallen Fehlerschranken festlegen. Der wirkliche Fehler soll mit einer Wahrscheinlichkeit von 95% unterhalb (einseitig) bzw. innerhalb (zweiseitig) dieser Schranken liegen. Ist dann die Schranke des einseitigen Konfidenzintervalls größer/kleiner/gleich der höheren Schranke des zweiseitigen Intervalls? kleiner gleich (???) 45. Was sind die Bestandteile einer TFIDF-Vektorraumrepräsentation? Wie werden sie üblicherweise kombiniert? 46. Wozu gibt es in der Zeitreihenanalyse das Konzept der Stationarität? Prof. Dr. Tobias Scheffer SS 2004 Seite 10 von 12

11 III. Probeklausur Aufgabe 1: Anmerkung: einige Fragen sind redundant mit dem Wissensquiz und wurden entfernt. 47. Was ist die Entropie eines 6-seitigen Würfels? 6 1 H = 6 log 2( 1 6 ) = 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) 1 6 log 2( 1 6 ) = Was hat der Version Space mit dem Inductive Bias zu tun? 49. Welche Wirkung hat eine Veranderung des γ-parameters eines RBF-Kernels? Breite der Kernel-Funktion ändert sich. Somit werden breitere Peaks aus der Klassifikatorfläche gezupft. 50. Welche Eigenschaft sollte ein guter Schätzer aufweisen? Ein Schätzer sollte erwartungstreu sein, das heißt: Der Bias (E( ˆp) p, Differenz zwischen dem erwarteten, geschätzten Parameter und theoretischen Parameter) sollte so klein wie möglich sein. 51. Welche intuitive Bedeutung hat der AUC-Wert eines Klassifikators? Der AUC-Wert (Fläche unter der Kurve, normiert auf 0...1) einer ROC-Kurve gibt an, wieviele der positiven Instanzen vom Klassifikator tatsächlich als positiv eingeordnet werden, und ist damit ein Gütemaß des Klassifikators. Der AUC-Wert, die Fläche unter der ROC-Kurve, gibt die Wahrscheinlichkeit dafür an, dass ein positives Beispiel einen höheren Wert als ein negatives Beispiel von der Zugehörigkeitsfunktion f zugeordnet bekommt. Idealerweise erhalten alle positiven Instanzen einen hohen Funktionswert, und alle negativen einen niedrigen, dann können positive und negative Instanzen optimal getrennt werden. 52. Was ist die naive Annahme beim Naive-Bayes Klassifikator und welches Problem tritt auf, wenn man verschieden lange Texte klassifizieren mochte? Prof. Dr. Tobias Scheffer SS 2004 Seite 11 von 12

12 53. Wie gros ist die Wahrscheinlichkeit höchstens, dass sich unter den Hypothesen, die auf m Trainingsbeispielen keinen Fehler machen mindestens eine befindet, die einen wirklichen Fehler groser als ǫ hat? 54. Wie lautet die allgemeine Formel eines ARMA(2,3)-Prozesses? X t = β 1 X t 1 + β 2 X t 2 α 1 ǫ t 1 α 2 ǫ t 2 α 3 ǫ t 3 Prof. Dr. Tobias Scheffer SS 2004 Seite 12 von 12