Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Größe: px
Ab Seite anzeigen:

Download "Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr"

Transkript

1 Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr

2 5 Zuverlässigkeit: Evaluierung des Gelernten Aspekte: Training, Testen, Tuning Vorhersage der Qualität: Vertrauensintervalle Holdout, Kreuzvalidierung, Bootstrap Vergleich von Verfahren: der t-test Schätzung von Wahrscheinlichkeiten: Kostenfunktionen Kosten-basierte Maße Evaluierung nummerischer Vorhersagen Das Prinzip der minimalen Beschreibungslänge 2

3 Evaluierung: der Schlüssel zum Erfolg Wie gut sind die Vorhersagen des Gelernten? Fehler in den Trainingsdaten ist kein guter Indikator für die Qualität bei neuen Daten Sonst wäre 1-NN der optimale Klassifikator! Einfache Lösung, wenn ausreichend viele Lerndaten (mit Klassenzugehörigkeit) verfügbar: Aufteilung der Daten in Trainings- und Testmenge Aber: meist nur begrenzte Lerndatenmenge verfügbar Ausgefeiltere Techniken müssen angewendet werden 3

4 Aspekte der Evaluierung Statistische Zuverlässigkeit von beobachteten Qualitätsunterschieden ( Signifikanztests) Wahl des Qualitätsmaßes: Anzahl korrekter Klassifikationen Genauigkeit der Wahrscheinlichkeitsschätzungen Fehler in nummerischen Vorhersagen Kosten für verschiedene Arten von Fehlern Für viele praktische Anwendungen sind die Kosten relevant 4

5 Training und Testen I Naheliegendes Qualitätsmaß für Klassifikationsprobleme: Fehlerrate Erfolg: Die Klasse einer Instanz wird korrekt vorhergesagt Fehler: Die Klasse wird falsch vorhergesagt Fehlerrate: Anteil der Fehler an den Entscheidungen für eine Menge von Instanzen Resubstitutions-Fehler: Fehlerrate auf den Trainingsdaten Resubstitutions-Fehler ist extrem optimistisch! 5

6 Training und Testen II Testmenge: unabhängige Instanzen, die nicht zum Erlernen des Klassifikators benutzt wurden Annahme: Sowohl Trainings- als auch Testmenge sind repräsentative Stichproben für das zugrundeliegende Problem Test- und Trainingsmenge können sich grundsätzlich unterscheiden Beispiel: Klassifikator, der mit Kundendaten von zwei verschiedenen Städten A und B entwickelt wurde Um die Qualität eines Klassifikators aus A für eine neue Stadt zu schätzen, teste ihn mit Daten aus B 6

7 Anmerkung zum Parameter- Tuning Die Testdaten dürfen in keiner Weise zum Lernen des Klassifikators benutzt werden! Einige Lernverfahren arbeiten mit 2 Stufen: Stufe 1: Aufbau der grundlegenden Struktur Stufe 2: Optimierung der Parameter Die Testdaten dürfen nicht zum Parameter- Tuning benutzt werden! Ordentliches Vorgehen arbeitet mit drei Mengen: Trainingsdaten, Validierungsdaten, Testdaten Validierungsdaten werden zur Parameteroptimierung benutzt 7

8 Optimale Ausnutzung der Daten Nach der Evaluierung können alle Daten zum Lernen des endgültigen Klassifikators benutzt werden Allgemein: je mehr Trainingsdaten, desto besser der Klassifikator (aber der Qualitätszuwachs nimmt ab) Je umfangreicher die Testdaten, desto genauer die Schätzung der Fehlerrate Holdout-Prozedur: Methode zum Aufteilen der Originaldaten in Lern- und Testdaten Dilemma: idealerweise sollten sowohl Trainings- als auch Testmenge möglichst groß sein! 8

9 Vorhersage der Qualität Angenommen, die Fehlerrate beträgt 25%. Wie nahe ist dieser Wert an der wahren Fehlerrate? Hängt von der Größe der Testmenge ab Vorhersage ist wie der Wurf einer (unfairen!) Münze Kopf ist ein Erfolg, Zahl ist ein Fehler In der Statistik wird eine Folge solcher unabhängiger Ereignisse als Bernoulli-Prozess bezeichnet Statistik-Theorie liefert Vertrauensintervalle für den wahren zugrundeliegenden Fehleranteil 9

10 Vertrauensintervalle Man kann sagen: p liegt innerhalb eines bestimmten Intervalls mit einer gewissen vorgegebenen Konfidenz Beispiel: S=750 Erfolge bei N=1000 Versuchen Geschätzte Erfolgsquote: 75% Wie nahe ist dies an der wahren Erfolgswahrscheinlichkeit p? Antwort: mit 80%iger Wahrscheinlichkeit ist p [73.2,76.7] Anderes Beispiel: S=75 und N=100 Geschätzte Erfolgsquote: 75% Mit 80%iger Konfidenz p [69.1,80.1] 10

11 Mittelwert und Varianz Mittelwert und Varianz für einen Bernoulli-Prozess: p, p(1 p) Erwartete Erfolgsquote f=s/n Mittelwert und Varianz für f : p, p(1 p)/n Für ausreichend große N folgt f einer Normalverteilung c%-vertrauensintervall [ z X z] für Zufallsvariable mit Mittelwert 0: Pr[ z X z]=c Mit einer symmetrischen Verteilung: Pr[ z X z]=1-2*pr[x z] 11

12 Vertrauensintervalle Vertrauensintervalle für die Normalverteilung mit Mittelwert 0 und Varianz 1: Pr[X z] 0.1% 0.5% z Also gilt z.b.: Pr[ 1.65 X 1.65]=90% 10% 20% 40% Um diese Beziehung anzuwenden, müssen wir die Zufallsvariable f so transformieren, dass sie Mittelwert 0 und Varianz 1 hat 1% 5%

13 Transformation von f Transformierter Wert von f : f p p 1 p / N (d.h. subtrahiere den Mittelwert und dividiere durch die Standardabweichung) Resultierende Gleichung: Auflösen nach p : Pr[ z f p p 1 p / N z ] =c p= f z2 2N ±z f N f 2 N z2 4N 2 / z2 1 N 13

14 Beispiele f = 75%, N = 1000, c = 80% (so dass z = 1.28): f = 75%, N = 100, c = 80% (so dass z = 1.28): Anm.: Die Annahme einer Normalverteilung gilt nur für große N (d.h. N > 100) f = 75%, N = 10, c = 80% (so dass z = 1.28): (nur grobe Näherung) p [0.732, ] p [0.691, ] p [0.549, ] 14

15 Holdout-Schätzung Was tun, wenn nur wenige Lerndaten zur Verfügung stehen? Die holdout-methode reserviert eine Teilmenge zum Testen und nutzt den Rest zum Trainieren Meist: ein Drittel zum Testen, der Rest für das Training Problem: die Stichproben sind evtl. nicht repräsentativ Beispiel: eine Klasse kommt in den Testdaten nicht vor Fortgeschrittene Version nutzt Stratifikation Stellt sicher, dass jede Klasse mit annähernd gleicher relativer Häufigkeit in beiden Teilmengen vorkommt 15

16 Wiederholte holdout-methode Holdout-Schätzung kann zuverlässiger gemacht werden, indem der Prozess mit verschiedenen Teilstichproben wiederholt wird In jeder Iteration wird ein bestimmter Anteil der Daten zufällig zum Trainieren ausgewählt (evtl. mit Stratifikation) Die Fehlerquoten der verschiedenen Iterationen werden gemittelt, um eine Gesamt-Fehlerquote zu berechnen Dies wird repeated holdout-methode genannt Immer noch nicht optimal: die verschiedenen Testmengen überlappen sich Können Überlappungen ganz vermieden werden? 16

17 Kreuzvalidierung Kreuzvalidierung vermeidet überlappende Testmengen Teile Daten in k Teilmengen gleicher Größe auf Benutze reihum jede Teilmenge zum Testen, den Rest jeweils zum Trainieren Wird k-fache Kreuzvalidierung genannt Oft sind die Teilmengen stratifiziert, bevor die Kreuzvalidierung durchgeführt wird Die Fehlerquoten werden gemittelt, um die Gesamt-Fehlerrate zu berechnen 17

18 Mehr zu Kreuzvalidierung Standard-Methode zur Evaluierung: stratifizierte 10- fache Kreuzvalidierung Warum 10? Umfangreiche Experimente haben gezeigt, dass dies die beste Wahl ist, um zuverlässige Schätzungen zu bekommen Ferner gibt es theoretische Begründungen hierzu Stratifikation reduziert die Varianz der Schätzungen Noch besser: wiederholte stratifizierte Kreuzvalidierung Z.B.: 10-fache Kreuzvalidierung wird 10-mal wiederholt und die Ergebnisse gemittelt (reduziert die Varianz) 18

19 Leave-One-Out Kreuzvalidierung Leave-One-Out: spezielle Form der Kreuzvalidierung: Anzahl der Durchführungen = Anzahl der Trainingsinstanzen D.h., für n Trainingsinstanzen wird der Klassifikator n-mal gelernt Nutzt die Daten optimal aus Keine zufällige Stichprobenauswahl! Aber: großer Rechenaufwand (Ausnahmen: NN, Support Vector Machine) 19

20 Leave-One-Out-KV und Stratifikation Nachteil von Leave-One-Out-KV: Stratifikation ist nicht möglich Verfahren garantiert eine nicht-stratifizierte Stichprobe, da die Testmenge nur eine einzige Instanz enthält! Extrembeispiel: Datenmenge, in der zwei Klassen gleich häufig auftreten Einfacher Lerner sagt jeweils die Mehrheitsklasse voraus 50% Genauigkeit auf frischen Daten Leave-One-Out-KV würde aber 100% Fehlerquote liefern 20

21 Die Bootstrap-Methode KV zieht Stichproben ohne Ersetzung Eine Instanz, die einmal ausgewählt wurde, kann nicht nochmals für eine spezielle Trainings- oder Testmenge ausgewählt werden Bootstrap zieht Stichproben mit Ersetzen, um die Trainingsmenge zu bilden Ziehe n-mal mit Ersetzung aus einer Datenmenge mit n Instanzen, um eine Stichprobe mit n Instanzen zu bilden Benutze diese Daten als Trainingsmenge Die Instanzen aus der ursprünglichen Datenmenge, die nicht in der Trainingsmenge vorkommen, werden als Testmenge verwendet 21

22 Der Bootstrap Verfahren wird auch Bootstrap genannt Die Wahrscheinlichkeit, dass eine bestimmte Instanz beim einmaligen Ziehen nicht ausgewählt wird, ist 1 1/n Daraus ergibt sich die Wahrscheinlichkeit, dass die Instanz in den Testdaten landet: n 1 1 e 1 =0.368 n Somit wird die Trainingsmenge ungefähr 63.2% aller Instanzen enthalten 22

23 Schätzung der Fehlerquote beim Bootstrap Die Fehlerschätzung aus den Testdaten ist sehr pessimistisch Trainiert wurde auf nur ~63% aller Instanzen Daher wird die Fehlerquote mit dem Resubstitutions-Fehler verrechnet: err=0.632 e test instances e training instances Der Resubstitutions-Fehler bekommt ein geringeres Gewicht als der Fehler auf den Testdaten Der Vorgang wird mehrfach wiederholt und der Mittelwert der Fehlerraten berechnet 23

24 Mehr zu Bootstrap Wahrscheinlich die beste Methode, um die Qualität bei sehr kleinen Datenmengen zu schätzen Allerdings gibt es einige Probleme Betrachte die zufällige Datenmenge von vorhin Ein perfekter Lerner erzielt 0% Resubstitutionsfehler und ~50% Fehler auf den Testdaten Bootstrap-Schätzung für diesen Klassifikator: err= =31.6 Tatsächlich erwarteter Fehler: 50% 24

25 Vergleich von Data- Mining-Verfahren Häufige Frage: Welches von zwei Lernverfahren ist besser? Anm.: Dies ist anwendungsabhängig! Naheliegende Methode: Vergleich der 10fach- KV-Schätzungen Problem: Varianz in der Schätzung Varianz kann durch wiederholte KV reduziert werden Aber: Wir wissen immer noch nicht, ob die Ergebnisse statistisch signifikant sind 25

26 Signifikanztests Signifikanztests sagen uns, wie sicher wir sein können, dass ein Unterschied wirklich existiert Nullhypothese: es gibt keinen wirklichen Unterschied Alternative Hypothese: Es gibt einen Unterschied Ein Signifikanztest misst, wieviel Evidenz es dafür gibt, die Nullhypothese zu verwerfen Beispiel: Wir benutzen 10fache KV Frage: ist die Differenz bei den Mittelwerten der zwei 10KV-Schätzer signifikant? 26

27 Paarweiser t-test Der Student- oder t-test sagt aus, ob die Mittelwerte zweier Stichproben signifikant differieren Nehme individuelle Stichproben bei der Kreuzvalidierung Benutzung von paarweisem t-test, da die einzelnen Stichprobenelemente paarweise auftreten Dieselbe KV wird zweimal angewendet William Gosset Born: 1876 in Canterbury; Died: 1937 in Beaconsfield, England Obtained a post as a chemist in the Guinness brewery in Dublin in Invented the t-test to handle small samples for quality control in brewing. Wrote under the name "Student". 27

28 Verteilung der Mittelwerte x 1 x 2 x k und y 1 y 2 y k sind die 2k Stichprobenwerte für k-fache KV m x und m y sind die Mittelwerte Mit ausreichend vielen Werten ist der Mittelwert der unabhängigen Stichprobenwerte normalverteilt Schätzungen für die Varianzen der Mittelwerte sind σ x2 /k und σ y2 /k Wenn µ x und µ y die wahren Mittelwerte sind, dann sind m x μ x m y μ y σ x 2 /k σ y 2 /k annähernd normalverteilt mit Mittelwert 0 und Varianz 1 28

29 Die Student-Verteilung Bei kleinen Stichproben (k < 100) folgt der Mittelwert der Student-Verteilung mit k 1 Freiheitsgraden Vertrauensintervalle: 9 Freiheitsgrade Normalverteilung Pr[X z] z Pr[X z] z 0.1% % % % % % % % % % % %

30 Verteilung der Differenzen Sei m d = m x m y Die Differenzen der Mittelwerte (m d ) folgen ebenfalls der Student-Verteilung mit k 1 Freiheitsgraden Sei σ d 2 die Varianz der Differenzen Die standardisierte Version von m d wird t-statistik genannt: t= m d σ 2 d /k Wir benutzen t zur Durchführung des t-tests 30

31 Test-Durchführung Lege ein Signifikanzniveau α fest Wenn die Differenz signifikant ist auf dem α% Niveau, dann beträgt die Wahrscheinlichkeit, dass tatsächlich ein Unterschied vorliegt (100-α)% Dividiere das Signifikanz-Niveau durch zwei, da der Test zweiseitig ist D.h. Die wahre Differenz ist entweder +ve oder ve Schlage den Wert für z nach, der zu α/2 gehört Falls t z oder t z, dann ist der Unterschied signifikant D.h., die Nullhypothese kann verworfen werden 31

32 Unabhängige Stichproben Falls die KV-Schätzungen zu verschiedenen Randomisierungen gehören, sind sie nicht verbunden, sondern unabhängig (oder wir benutzen k -fache KV für ein Verfahren und j -fache KV für das andere) Dann müssen wir den t-test für unabhängige Stichproben mit min(k, j ) 1 Freiheitsgraden anwenden Die t -Statistik wird dann zu: t= m d t= m x m y σ 2 d /k σ 2 x k σ 2 y j 32

33 Interpretation des Ergebnisses All unsere KV-Schätzer basieren auf der gleichen Datenmenge Die Stichproben sind nicht unabhängig Besser wäre es, für jeden der k Schätzwerte eine andere Datenmenge zu benutzen, um die Qualität für andere Datenbestände vorhersagen zu können Oder: Benutze heuristischen Test, z.b. korrigierten t-test mit neu gebildeten Stichproben 33

34 Vorhersage von Wahrscheinlichkeiten Bisheriges Qualitätsmaß: Erfolgsquote Wird auch als 0-1 loss function bezeichnet : i { 0 if prediction is correct 1 if prediction is incorrect Die meisten Klassifikatoren liefern Klassen- Wahrscheinlichkeiten Bei manchen Anwendungen möchte man die Genauigkeit der Wahrscheinlichkeitsschätzungen messen 0-1 loss ist nicht das passende Maß hierfür 34

35 Quadratische Verlustfunktion p 1 p k sind die Wahrscheinlichkeitsschätzungen für eine Instanz c ist der Klassenindex der aktuellen Instanz a c =1, sonst a 1 a k = 0 Quadratischer Fehler ist: Wir wollen minimieren: j E [ j p j a j 2 = j c p j a j 2 ] p j 2 1 p c 2 Man kann zeigen, dass dies minimal ist wenn jeweils p j = p j*, der wahren Wahrscheinlichkeit 35

36 Informationelle Verlustfunktion Die informationelle Verlustfunktion ist log(p c ), wobei c den Index der aktuellen Klasse bezeichnet Anzahl der erforderlichen Bits, um die aktuelle Klasse mitzuteilen Seien p 1 * p k * die wahren Klassenwahrscheinlichkeiten Dann ist der Erwartungswert der Verlustfunktion: Rechtfertigung: minimal wenn p j = p j * Problem: Klassen mit Häufigkeit 0 p 1 log 2 p 1... p k log 2 p k 36

37 Diskussion Welche Verlustfunktion wählen? Beide belohnen gute Schätzungen Quadratische Verlustfunktion berücksichtigt alle Schätzungen von Klassenwahrscheinlichkeiten für eine Instanz Informationelle Verlustfunktion betrachtet nur die Wahrscheinlichkeitsschätzung für die tatsächliche Klasse Quadratischer Verlust ist beschränkt: er kann nicht größer als 2 werden 2 1 p j Informationeller Verlust kann beliebig groß werdenj Informationeller Verlust ist verwandt mit dem MDL- Prinzip [später] 37

38 Berücksichtigung der Kosten Bei praktischen Anwendungen führen verschiedene Arten von Fehlern oft zu unterschiedlichen Kosten Beispiele: Aufspüren von Terroristen Kein Terrorist korrekt bei 99.99% aller Fälle Kredit-Entscheidungen Erkennen von Ölflecken Fehlerdiagnosen Werbesendungen Spam-Filter 38

39 Berücksichtigung der Kosten Die Fall-Matrix: Predicted class Yes No Actual class Yes True positive False negative No False positive True negative Es kann noch weitere Arten von Kosten geben! Z.B.: Kosten zum Sammeln der Trainingsdaten 39

40 Steigerungsdiagramm In der Praxis sind die Kosten oft unbekannt Entscheidungen werden gefällt, indem verschiedene mögliche Szenarien verglichen werden Beispiel: Werbesendung an Haushalte Versand an alle: 0.1% antworten (1000) Data mining Tool identifiziert Teilmenge von 100,000 Aussichtsreichen, 0.4% davon antworten (400) 40% der Antworten für 10% der Kosten kann sich lohnen Identifiziere Teilmenge von 400,000 Aussichtsreichen, 0.2% davon antworten (800) Ein Steigerungsdiagramm erlaubt den visuellen Vergleich 40

41 Generierung eines Steigerungsdiagramms Sortiere Instanzen nach der geschätzten Erfolgswahrscheinlichkeit : Predicted probability x-achse: Stichprobengröße y-achse: Anzahl Erfolgsfälle Actual class Yes Yes No Yes 41

42 Eine hypothetisches Steigerungsdiagramm 40% der Antworten für 10% der Kosten 80% der Antworten für 40% der Kosten 42

43 ROC-Kurven ROC-Kurven sind ähnlich zu Steigerungsdiagrammen Steht für receiver operating characteristic Wird in der Signaltheorie benutzt, um den Tradeoff zwischen Erfolgsquote und Fehlerrate in einem verrauschten Übertragungskanal darzustellen Unterschiede zu Steigerungsdiagramm: y-achse zeigt den Prozentsatz positiver Elemente in der Stichprobe im Gegensatz zur deren absoluter Anzahl x Achse zeigt den Prozentsatz von falschen positiven in der Stichprobe im Gegensatz zur Stichprobengröße 43

44 Beispiel einer ROC-Kurve Gezackte Kurve: eine Testdatenmenge Gestrichelte Kurve: Resultat von Kreuzvalidierung 44

45 Kreuzvalidierung und ROC-Kurven Einfache Methode zur Erstellung einer ROC-Kurve mittels Kreuzvalidierung: Sammle Wahrscheinlichkeiten für die Instanzen in den Testmengen Sortiere Instanzen nach Wahrscheinlichkeiten Methode ist in WEKA implementiert Es gibt aber noch andere Möglichkeiten Die im Buch beschriebene Methode generiert eine ROC-Kurve für jede Testmenge und mittelt dann 45

46 ROC-Kurven für zwei Verfahren Für eine kleine, ausgewählte Menge, benutze Methode A Für größere Mengen, benutze Methode B Dazwischen: wähle zwischen A und B mit geeigneten Wahrscheinlichkeiten 46

47 Die konvexe Hülle Für zwei Verfahren kann man jeden Punkt auf der konvexen Hülle errreichen! TP und FP-Quoten für Verfahren 1: t 1 und f 1 TP und FP-Quoten für Verfahren 2: t 2 und f 2 Wenn Methode 1 für 100 q % der Fälle benutzt wird und Methode 2 für den Rest, dann TP-Rate für das kombinierte Verfahren: q t 1 +(1-q) t 2 FP-Rate für das kombinierte Verfahren: q f 2 +(1-q) f 2 47

48 Kosten-sensitives Lernen Die meisten Lernverfahren unterstützen kein Kosten-sensitives Lernen Sie generieren denselben Klassifikator unabhängig davon, welche Kosten den einzelnen Klassen zugeordnet werden Beispiel: Standard-Lerner für Entscheidungsbäume Einfache Methoden für Kosten-sensitives Lernen: Resampling der Instanzen entsprechend den Kosten Gewichtung der Instanzen entsprechend den Kosten Einige Verfahren können Kosten berücksichtigen, indem sie bestimmte Parameter variieren, z.b. naiver Bayes 48

49 Maße im Information Retrieval Anteil der gefundenen Dokumente, die relevant sind: Precision=TP/(TP+FP) Anteil der relevanten Dokumente, die gefunden wurden: Recall =TP/(TP+FN) Precision/Recall-Kurven sind meist ähnlich zu hyperbolischen Kurven Globale Maße: Mittelwert der Precision bei 20%, 50% und 80% Recall (three-point average recall) F-Maß=(2 Recall Precision)/(Recall+Precision) 49

50 Zusammenfassung der Maße Domäne Achsen Erklärung Steigerungs diagramm Marketing TP Größe d. Teilm. TP (TP+FP)/(TP+FP+TN+FN) ROC-Kurve Signaltheorie TP-Quote TP/(TP+FN) FP-Quote FP/(FP+TN) Recall- Precision- Kurve Information retrieval Recall Precision TP/(TP+FN) TP/(TP+FP) 50

51 Evaluierung nummerischer Vorhersagen Gleiche Strategien: unabhängige Testmenge, Kreuzvalidierung, Signifikanztests, usw. Unterschied: Fehlermaße Tatsächliche Werte: a 1 a 2 a n Vorhergesagte Werte: p 1 p 2 p n Populärstes Maß: mittlerer quadratischer Fehler p 1 a p n a n 2 n Einfache mathematische Manipulation 51

52 Andere Maße Die Wurzel aus dem mittleren quadratischen Fehler : p a p 1 n a n 2 Der mittlere absolute Fehler ist weniger sensitiv gegenüber Ausreißern als der mittlere quadratische Fehler: n p 1 a 1... p n a n n Manchmal ist der relative Fehler angemessener (z.b. 10% für einen Fehler von 50 beim Vorhersagewert 500) 52

53 Verbesserung des Mittelwerts Wie stark verbessert sich ein Verfahren, wenn es den Mittelwert korrekt vorhersagt? Der relative quadratische Fehler ist ( a ist der Mittelwert): p 1 a p n a n 2 a a a a n 2 Der relative absolute Fehler ist: p 1 a 1... p n a n a a 1... a a n 53

54 Korrelationskoeffizient Misst die statistische Korrelation zwischen den Vorhersagewerten und den tatsächlichen Werten S PA S P S A p i p a i a i S PA = n 1 p i p 2 i S P = n 1 S A = i a i a 2 n 1 Skalierungs-unabhängig, zwischen 1 und +1 Gute Qualität drückt sich in größeren Werten aus! 54

55 Welches Maß verwenden? Am besten alle betrachten Oft ist es egal Beispiel: A B C D Wurzel d. quadr. Fehlers Mittlere absoluter Fehler Wurzel d. rel. quadr. Fehlers 42.2% 57.2% 39.4% 35.8% Relativer absoluter Fehler 43.1% 40.1% 34.8% 30.4% Korrelationskoeffizient D am besten C zweiter A, B hängt vom Standpunkt ab 55

56 Das MDL-Prinzip MDL steht für minimum description length Die Beschreibungslänge ist definiert als: Speicherplatz zur Beschreibung einer Theorie + Speicherplatz zur Beschreibung der Fehler der Theorie In unserem Fall ist die Theorie der Klassifikator und die Fehler die auf den Trainingsdaten Gesucht: Klassifikator mit minimaler MDL MDL-Prinzip ist ein Kriterium zur Modellauswahl 56

57 Modellauswahl-Kriterien Modellauswahl-Kriterien versuchen, einen guten Kompromiss zu finden zwischen: Der Komplexität eines Modells Seiner Vorhersagequalität auf den Trainingsdaten Idee: Ein gutes Modell ist ein einfaches Modell, das eine hohe Genauigkeit auf den vorhandenen Daten erzielt Auch bekannt als Occam s Razor : die beste Theorie ist die kleinste, die alle Fakten beschreibt William of Ockham, born in the village of Ockham in Surrey (England) about 1285, was the most influential philosopher of the 14th century and a controversial theologian. 57

58 Eleganz vs. Fehler Theorie 1: sehr einfache, elegante Theorie die die Daten beinahe perfekt beschreibt Theorie 2: deutlich komplexere Theorie, die die Daten fehlerfrei reproduziert Theorie 1 ist zu bevorzugen Klassisches Beispiel: Keplers drei Gesetze zu der Planetenbewegung Weniger genau als Kopernikus letzte Verfeinerung der Ptolemäischen Theorie der Epizyklen 58

59 MDL und Komprimierung Das MDL-Prinzip hängt mit der Datenkomprimierung zusammen: Die beste Theorie ist diejenige, die die Daten am stärksten komprimiert D.h. um eine Datenmenge zu komprimieren, generieren wir ein Modell und speichern dann das Modell und seine Fehler Dazu müssen wir berechnen (a) die Größe des Modells, und (b) den Speicherplatz für die Fehler (b) einfach: benutze den Informationsverlust (a) erfordert eine Methode zur Codierung des Modells 59

60 MDL und Bayes Theorem L[T]= Länge einer Theorie L[E T]=Codierung der Trainingsmenge in Bezug auf die Theorie Beschreibungslänge= L[T] + L[E T] Bayes Theorem schätzt die a-posteriori Wahrscheinlichkeit einer Theorie bei gegebenen Daten: Pr [ E T ]Pr [T ] Pr[ T E ]= Pr [ E ] Äquivalent zu: log Pr[T E]= log Pr[ E T ] log Pr[T ] log Pr[ E ] konstant 60

61 MDL und MAP MAP steht für maximum a posteriori probability Finden der MAP-Theorie korrespondiert zum Finden der MDL Theorie Schwierigkeit bei der Anwendung des MAP-Prinzips: Bestimmung der a-priori-wahrscheinlichkeit Pr[T] der Theorie Korrespondiert zum schwierigen Teil bei der Anwendung des MDL-Prinzips: Codierungsschema für die Theorie D.h. wenn wir vorher wissen, dass eine bestimmte Theorie wahrscheinlicher ist, dann benötigen wir weniger Bits, um sie zu codieren 61

62 Diskussion des MDL-Prinzips Vorteil: nutzt die Trainigsdaten voll aus bei der Auswahl eines Modells Nachteil 1: passendes Codierungsschema/a-priori- Wahrscheinlichkeiten sind entscheidend Nachteil 2: es gibt keine Garantie, dass die MDL- Theorie den erwarteten Fehler minimiert Anmerkung: Occam s Razor ist ein Axiom! Epicurus Prinzip der multiplen Erklärungen: behalte alle Theorien, die konsistent mit den Daten sind 62

63 Bayes sche Modell-Mittelung Basiert auf Epicurus Prinzip: alle Theorien werden zur Vorhersage genutzt, entsprechend P[T E] Sei I eine neue Instanz, deren Klasse vorhergesagt werden soll Sei C die Zufallsvariable für die Klasse Dann schätzt BMM die Wahrscheinlichkeit von C unter Berücksichtigung von I den Trainingsdaten E den möglichen Theorien T j Pr[ C I, E ]= j Pr [C I, T j ]Pr [T j E ] 63

64 MDL und Clustering Beschreibungslänge einer Theorie: Benötigte Bits zur Codierung der Cluster z.b. Zentroiden Beschreibungslänge der Daten bei gegebener Theorie: codiere Clusterzugehörigkeit und relative Position im Cluster z.b. Distanz zum Zentroiden Funktioniert, wenn das Codierungsschema für kleine Zahlen weniger Bits benötigt als für große Bei nominalen Attributen müssen die Wahrscheinlichkeitsverteilungen für jedes Cluster codiert werden 64

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort: Tangentengleichung Wie Sie wissen, gibt die erste Ableitung einer Funktion deren Steigung an. Betrachtet man eine fest vorgegebene Stelle, gibt f ( ) also die Steigung der Kurve und somit auch die Steigung

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero? Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero? Manche sagen: Ja, manche sagen: Nein Wie soll man das objektiv feststellen? Kann man Geschmack objektiv messen? - Geschmack ist subjektiv

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt. Klausur Nr. 1 2014-02-06 Wahrscheinlichkeitsrechnung Pflichtteil Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt. Name: 0. Für Pflicht- und Wahlteil gilt: saubere und übersichtliche Darstellung,

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test 1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen 1. Quadratische Gleichungen Quadratische Gleichungen lassen sich immer auf die sog. normierte Form x 2 + px + = 0 bringen, in

Mehr

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Quantilsschätzung als Werkzeug zur VaR-Berechnung Quantilsschätzung als Werkzeug zur VaR-Berechnung Ralf Lister, Aktuar, lister@actuarial-files.com Zusammenfassung: Zwei Fälle werden betrachtet und die jeweiligen VaR-Werte errechnet. Im ersten Fall wird

Mehr

Repetitionsaufgaben Wurzelgleichungen

Repetitionsaufgaben Wurzelgleichungen Repetitionsaufgaben Wurzelgleichungen Inhaltsverzeichnis A) Vorbemerkungen B) Lernziele C) Theorie mit Aufgaben D) Aufgaben mit Musterlösungen 4 A) Vorbemerkungen Bitte beachten Sie: Bei Wurzelgleichungen

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Die Optimalität von Randomisationstests

Die Optimalität von Randomisationstests Die Optimalität von Randomisationstests Diplomarbeit Elena Regourd Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2001 Betreuung: Prof. Dr. A. Janssen Inhaltsverzeichnis

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!. 040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl

Mehr

Ein möglicher Unterrichtsgang

Ein möglicher Unterrichtsgang Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige

Mehr

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678 Lösungsvorschläge zu Blatt 8 X binomialverteilt mit p = 0. und n = 10: a PX = = 10 q = 1 p = 0.8 0. 0.8 10 = 0, 1,..., 10 PX = PX = 0 + PX = 1 + PX = 10 10 = 0. 0 0.8 10 + 0. 1 0.8 9 + 0 1 10 = 0.8 8 [

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

7 Rechnen mit Polynomen

7 Rechnen mit Polynomen 7 Rechnen mit Polynomen Zu Polynomfunktionen Satz. Zwei Polynomfunktionen und f : R R, x a n x n + a n 1 x n 1 + a 1 x + a 0 g : R R, x b n x n + b n 1 x n 1 + b 1 x + b 0 sind genau dann gleich, wenn

Mehr

Name:... Matrikel-Nr.:... 3 Aufgabe Handyklingeln in der Vorlesung (9 Punkte) Angenommen, ein Student führt ein Handy mit sich, das mit einer Wahrscheinlichkeit von p während einer Vorlesung zumindest

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Statistik für Studenten der Sportwissenschaften SS 2008

Statistik für Studenten der Sportwissenschaften SS 2008 Statistik für Studenten der Sportwissenschaften SS 008 Aufgabe 1 Man weiß von Rehabilitanden, die sich einer bestimmten Gymnastik unterziehen, dass sie im Mittel µ=54 Jahre (σ=3 Jahre) alt sind. a) Welcher

Mehr

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1 B 1.0 B 1.1 L: Wir wissen von, dass sie den Scheitel hat und durch den Punkt läuft. Was nichts bringt, ist beide Punkte in die allgemeine Parabelgleichung einzusetzen und das Gleichungssystem zu lösen,

Mehr

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit 5.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit Einführendes Beispiel ( Erhöhung der Sicherheit bei Flugreisen ) Die statistische Wahrscheinlichkeit, dass während eines Fluges ein Sprengsatz an Bord

Mehr

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen Gleichungen Lösen Was bedeutet es, eine Gleichung zu lösen? Was ist überhaupt eine Gleichung? Eine Gleichung ist, grundsätzlich eine Aussage über zwei mathematische Terme, dass sie gleich sind. Ein Term

Mehr

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten Kugel-Fächer-Modell n Kugeln (Rosinen) sollen auf m Fächer (Brötchen) verteilt werden, zunächst 3 Kugeln auf 3 Fächer. 1fach 3fach Für die Einzelkugel gibt es 3 Möglichkeiten } 6fach 3! Möglichkeiten Es

Mehr

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3 Übersicht Teil 2 Kaitel 7 und Kaitel 8: Gleichgewichte in gemischten Strategien Übersicht Teil 2 2 Übersicht Einleitung Was ist eine gemischte Strategie? Nutzen aus gemischten Strategien Reaktionsfunktionen

Mehr

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers Ist Excel das richtige Tool für FMEA? Einleitung Wenn in einem Unternehmen FMEA eingeführt wird, fangen die meisten sofort damit an,

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

Mathematischer Vorbereitungskurs für Ökonomen

Mathematischer Vorbereitungskurs für Ökonomen Mathematischer Vorbereitungskurs für Ökonomen Dr. Thomas Zehrt Wirtschaftswissenschaftliches Zentrum Universität Basel Gleichungen Inhalt: 1. Grundlegendes 2. Lineare Gleichungen 3. Gleichungen mit Brüchen

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Statistische Auswertung:

Statistische Auswertung: Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Statuten in leichter Sprache

Statuten in leichter Sprache Statuten in leichter Sprache Zweck vom Verein Artikel 1: Zivil-Gesetz-Buch Es gibt einen Verein der selbstbestimmung.ch heisst. Der Verein ist so aufgebaut, wie es im Zivil-Gesetz-Buch steht. Im Zivil-Gesetz-Buch

Mehr

Das Black-Scholes Marktmodell

Das Black-Scholes Marktmodell Das Black-Scholes Marktmodell Andreas Eichler Institut für Finanzmathematik Johannes Kepler Universität Linz 8. April 2011 1 / 14 Gliederung 1 Einleitung Fortgeschrittene Finanzmathematik einfach erklärt

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

Plotten von Linien ( nach Jack Bresenham, 1962 )

Plotten von Linien ( nach Jack Bresenham, 1962 ) Plotten von Linien ( nach Jack Bresenham, 1962 ) Ac Eine auf dem Bildschirm darzustellende Linie sieht treppenförmig aus, weil der Computer Linien aus einzelnen (meist quadratischen) Bildpunkten, Pixels

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist Frage Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist k a F (x) =1 k>0,x k x Finden Sie den Erwartungswert und den Median der Dichte für a>1. (Bei

Mehr

R ist freie Software und kann von der Website. www.r-project.org

R ist freie Software und kann von der Website. www.r-project.org R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom 21.10.2013b

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom 21.10.2013b AGROPLUS Buchhaltung Daten-Server und Sicherheitskopie Version vom 21.10.2013b 3a) Der Daten-Server Modus und der Tresor Der Daten-Server ist eine Betriebsart welche dem Nutzer eine grosse Flexibilität

Mehr

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II 1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße

Mehr

Abiturprüfung Mathematik 2008 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe 1

Abiturprüfung Mathematik 2008 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe 1 Abiturprüfung Mathematik (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe Für jedes t f t () + t R ist die Funktion f t gegeben durch = mit R. Das Schaubild von f t heißt K t.. (6 Punkte)

Mehr

Multicheck Schülerumfrage 2013

Multicheck Schülerumfrage 2013 Multicheck Schülerumfrage 2013 Die gemeinsame Studie von Multicheck und Forschungsinstitut gfs-zürich Sonderauswertung ICT Berufsbildung Schweiz Auswertung der Fragen der ICT Berufsbildung Schweiz Wir

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben

Mehr

einfache Rendite 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110

einfache Rendite 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110 Übungsbeispiele 1/6 1) Vervollständigen Sie folgende Tabelle: Nr. Aktie A Aktie B Schlusskurs in Schlusskurs in 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110 Arithmetisches Mittel Standardabweichung

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

Selbsttest Prozessmanagement

Selbsttest Prozessmanagement Selbsttest Prozessmanagement Zur Feststellung des aktuellen Status des Prozessmanagements in Ihrem Unternehmen steht Ihnen dieser kurze Test mit zehn Fragen zur Verfügung. Der Test dient Ihrer persönlichen

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen? Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen können zwei Ebenen (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen? Wie heiÿt

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt. Stock, Nordflügel R. 0-49 (Persike) R. 0- (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 008/009 Fachbereich

Mehr

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009) Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009) Probleme unseres Alltags E-Mails lesen: Niemand außer mir soll meine Mails lesen! Geld abheben mit der EC-Karte: Niemand außer mir soll

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Informationsblatt Induktionsbeweis

Informationsblatt Induktionsbeweis Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

6.2 Scan-Konvertierung (Scan Conversion)

6.2 Scan-Konvertierung (Scan Conversion) 6.2 Scan-Konvertierung (Scan Conversion) Scan-Konvertierung ist die Rasterung von einfachen Objekten (Geraden, Kreisen, Kurven). Als Ausgabemedium dient meist der Bildschirm, der aus einem Pixelraster

Mehr

Zahlen auf einen Blick

Zahlen auf einen Blick Zahlen auf einen Blick Nicht ohne Grund heißt es: Ein Bild sagt mehr als 1000 Worte. Die meisten Menschen nehmen Informationen schneller auf und behalten diese eher, wenn sie als Schaubild dargeboten werden.

Mehr

15 Optimales Kodieren

15 Optimales Kodieren 15 Optimales Kodieren Es soll ein optimaler Kodierer C(T ) entworfen werden, welcher eine Information (z.b. Text T ) mit möglichst geringer Bitanzahl eindeutig überträgt. Die Anforderungen an den optimalen

Mehr

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Eine Firma stellt USB-Sticks her. Sie werden in der Fabrik ungeprüft in Packungen zu je 20 Stück verpackt und an Händler ausgeliefert. 1 Ein Händler

Mehr

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3 Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen

Mehr

Prüfung eines Datenbestandes

Prüfung eines Datenbestandes Prüfung eines Datenbestandes auf Abweichungen einzelner Zahlen vom erwarteten mathematisch-statistischen Verhalten, die nicht mit einem Zufall erklärbar sind (Prüfung auf Manipulationen des Datenbestandes)

Mehr

Dokumentation Datamining

Dokumentation Datamining Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Dokumentation Datamining Eingereicht am: 13. Mai 2012 von: Karsten Diepelt

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Physik & Musik. Stimmgabeln. 1 Auftrag

Physik & Musik. Stimmgabeln. 1 Auftrag Physik & Musik 5 Stimmgabeln 1 Auftrag Physik & Musik Stimmgabeln Seite 1 Stimmgabeln Bearbeitungszeit: 30 Minuten Sozialform: Einzel- oder Partnerarbeit Voraussetzung: Posten 1: "Wie funktioniert ein

Mehr

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit Frau Dr. Eva Douma ist Organisations-Beraterin in Frankfurt am Main Das ist eine Zusammen-Fassung des Vortrages: Busines

Mehr

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775, Aufgabenpool für angewandte Mathematik / 1. Jahrgang V B, C, D Drinks Ein gastronomischer Betrieb kauft 300 Dosen Energydrinks (0,3 l) und 400 Liter Flaschen Mineralwasser und zahlt dafür 50, Euro. Einen

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Ruinwahrscheinlichkeiten im Glücksspiel

Ruinwahrscheinlichkeiten im Glücksspiel Ruinwahrscheinlichkeiten im Glücksspiel Wilhelm Stannat Fachbereich Mathematik TU Darmstadt February 24, 2007 Stochastik = Wahrscheinlichkeitstheorie + Statistik Wahrscheinlichkeitstheorie = Mathematische

Mehr