INTELLIGENTE DATENANALYSE IN MATLAB

Größe: px
Ab Seite anzeigen:

Download "INTELLIGENTE DATENANALYSE IN MATLAB"

Transkript

1 INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen

2 Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion von Daten. Integration und Säuberung der Daten. Feature- Extraktion. Bestimmen von gegeb./gesuchten Größen. Wahl des Performanzmaß/ Zielkriteriums. Modellraum und Modellannahmen. Algorithmen für das Optimieren des Zielkriteriums finden. Implementieren der Algorithmen. Modell-Selektion & -Anpassung. Training & Evaluation des Modells auf gegebenen Daten. Vorhersage für neue Daten. 2

3 Überblick Evaluation von Lernverfahren. Selektion und Anpassung von Modellen. Evaluation von Klassifikatoren. Exploitation von Modellen. 3

4 Evaluation von Lernverfahren Ziel: Qualitätsbewertung der Modelle eines Lernverfahrens. Nachdem wir Problem analysiert haben und Verfahren identifiziert & implementiert haben. Qualität eines Modells: Wie gut sind die Vorhersagen des Modells? Was genau heißt gut? Wie berechnet/schätzt man die Genauigkeit der Vorhersagen (für zukünftige Daten)? 4

5 Evaluation von Lernverfahren Problemstellung Gegeben: Repräsentative Evaluierungsdaten E mit bekannter Zielgröße. Bewertungsmaß (Verlustfunktion) welche Qualität einer Vorhersage misst, z.b. Muss nicht identisch sein zur Verlustfunktion des Lernverfahrens Klassifikation: Anzahl falsch klassifizierter Beispiele (Fehlerrate). prediction prediction l( y, y ) y y Regression: Mittlerer quadratischer Fehler. prediction 2 l( y prediction, y) y y Ranking: Mittlerer Abstand zw. echter und vorhergesagter Position. 5

6 Evaluation von Lernverfahren Problemstellung Eingabe: Lernverfahren welches ein Modell h ausgibt. Ziel: Bewertung der mittleren Qualität des Lernverfahrens. Theoretischer Mittelwert des Verlusts auf der Testverteilung. R E l ( h ( X ), Y ) p ( x, y )( l h ( x ), y ) theo Aber: Testverteilung p( XY, ) unbekannt! Evaluierungsdaten E x1, y1,, xn, yn sind repräsentativ aus p( XY, ) gezogen theoretischen Mittelwert durch empirischen Mittelwert (empirisches Risiko) schätzen: xy, n 1 emp i i n i 1 R l( h( x ), y ) 6

7 Evaluation von Lernverfahren Problemstellung Wlh Welche Daten für Evaluation verwenden: Daten auf welchen das Modell trainiert wurde? Nein! Empirischer i Verlust auf diesen Daten meist 0. Daten auf welche das Modell angewendet werden soll? Idee: Nein! Zielgröße für diese Daten unbekannt. Gelabelte Trainingsdaten aufteilen in Lerndaten zum Lernen eines Modells, und Evaluierungsdaten zum Evaluieren des Modells. 7

8 Evaluation von Lernverfahren Aufteilung der Trainingsdaten: Holdout Validation Gegeben: Trainingsdaten i D x, y,, x, y. Aufteilen der Daten in Lerndaten L x1, y1,, xk, yk und Evaluierungsdaten E x, y,, x, y. Lerne Modell h auf Daten L und bestimme empirisches n 1 Risiko auf Daten E E: R ( h ) l ( h ( x ), y ) Lerne Modell h auf Daten D. 1 1 k1 k1 n n emp i i n k i k 1 Ausgabe: Modell h mit Risiko-Schätzer Rˆ ( h) R ( h). n emp n emp Pessimistische Schätzung 8

9 Evaluation von Lernverfahren Aufteilung der Trainingsdaten: Cross Validation Gegeben: Trainingsdaten i D x, y,, x, y. Aufteilen der Daten in p Blöcke Di xi, y 1 i,, x, 1 i y k ik mit D D und D D für 2 verschiedene Blöcke. i j i i Wiederhole für i = 1 p Trainiere i Modell h i auf Daten D\D i. Berechne empirisches Risiko auf D i : Lerne Modell h auf Daten D. 1 1 n n k 1 R ( h) l( h( x ), y ) emp i i i j i k j 1 Ausgabe: Modell h mit mittlerem Risiko Rˆ ( h) R ( h). 1 emp emp i p i 1 p j 9

10 Evaluation von Lernverfahren Aufteilung der Trainingsdaten: Leave-One-Out Validation Gegeben: Trainingsdaten i D x, y,, x, y. Spezialfall von Cross Validation mit D x, y. Wiederhole für i = 1 n 1 1 Trainiere Modell h i auf Daten D\ x, y. Berechne empirisches i Risiko ik für x, y : Lerne Modell h auf Daten D. i i i i n n i i i R ( h) l( h( x ), y ) emp i i i i Ausgabe: Modell h mit Loo-Fehler Rˆ ( h) R ( h). I.d.R. aufwendig zu berechnen. 1 emp emp i n i 1 Für einige Probleme existiert analytische Lösung für Loo-Fehler. n 10

11 Evaluation von Lernverfahren Signifikanz des empirischen Risikos Wie gut ist der Schätzer Rˆ ( emp h ) für das echte Risiko R h? theo ( ) Idee: m-malige Validation ergibt m Shät Schätzwerte t für empirisches Risiko mit Mittelwert R. Standardfehler (Standardabw. des Schätzers): Test der Hypothese R ( h) R ( h) : theo ˆ emp R R 1 m 1 ( ) ˆ ( ) 1 ( ) ˆ ( ) ˆ ( ) ( ) theo emp theo emp emp theo p R h R h p R h R h p R h R h 12 2 R Dichtefunktion der Normalverteilung R 11

12 Evaluation von Lernverfahren Signifikanz des empirischen Risikos Test der Hypothese R ˆ theo ( h) Remp ( h) mit Signifikanz- ifik niverau 5% (signifikantes Ereignis). Beispiel: 10-malige Wiederholung einer Leave-One- Out-Validation (auf 10 verschiedenen Datensätzen). 10 Schätzwerte mit Mittelwert R = 8% R = 0,09. Gesucht ist mit Konfidenzintervall 1 und = 5%: 0,975 p R ˆ theo( h) Remp ( h) 0,950 z 2 z 0, ,09 0,950 z 123,33 0,975 0,68%, 123,33 R 8, 0 0,68% 12

13 Selektion und Anpassung von Modellen Ziel: Hohe Qualität des Modells durch Selektion/ Anpassung des Modells bzw. Lernverfahrens. Anpassen von Modellkomponenten (z.b. Verlustfunktion/Regularisierung, Splitting-Kriterium). Parameter des Lernverfahrens (z.b. maximale Anzahl Iterationen). Parameter der Verlustfunktion (z.b. Klassen-Kosten). Kosten) Parameter des Regularisierers (z.b. des 2 -Regularsierers). Parameter der Daten-Transformation bzw. des Kernels (z.b. des RBF-Kernels). 13

14 Selektion und Anpassung von Modellen Grid-Suche Idee: Stichprobenartig aus der Menge aller möglichen Parameter bzw. Parameterkombinationen ziehen. Für jede gezogene Kombination mittels Cross-Validation (CV) Schätzer für R ( ) theo h bestimmen. Parameter wählen mit minimalem Risiko. Beispiel für Parameter-Auswahl: Grid-Suche Für jeden Grid-Punkt Schätzer für das Risiko berechnen mittels CV

15 Selektion und Anpassung von Modellen Aufteilung der Lerndaten Wlh Welche Daten für MdllA Modell-Anpassung verwenden: Daten auf welchen das Modell evaluiert wird? Idee: Nein! Evaluierung des Modells wäre zu optimistisch. i Lerndaten aufteilen in Daten für Learning: zum Lernen eines Modells mit festen Parametern und Tuning: zum Anpassen der Modellparameter. Art der Aufteilung: Holdout-Validation. Cross-Validation. Loo-Validation. 15

16 Selektion und Anpassung von Modellen Aufteilung der Lerndaten Beispiel: i Geschachtelte h Cross-Validation. i Aufteilen der Trainingsdaten D in p Blöcke D i. Wiederhole für i =1 1 pp Aufteilen der Lerndaten L=D\D i in q Blöcke L j. Wiederhole für alle Modell-Parameterkombinationen Wiederhole für j = 1 q Trainiere für aktuelle Parameterkombination ein Modell auf L\L j. Berechne empirisches Risiko auf L j. j Bestimme mittleres empirisches Risiko für aktuelle Parameterkombination. Trainiere für beste Parameterkombination Modell h i auf D\D i. Berechne empirisches Risiko auf D i. Trainiere für beste Parameterkombination Modell h auf D. 16

17 Evaluation von Klassifikatoren Ziel: Bewertung eines konkreten k Modells für binäre Klassifikation. Nachdem wir Problem analysiert haben, Verfahren identifiziert & implementiert haben, und Klassifikations- Modell (Klassifikator) trainiert haben. Qualität eines Klassifikators: Precision/Recall-Analyse. ROC-Analyse. 17

18 Evaluation von Klassifikatoren Definitionen (für binäre Klassifikation) Entscheidungsfunktion: i Ordnet einer Eingabe x einen m numerischen Wert zu, f :. Beispiel: T f ( x ) x w Klassifikationsfunktion: Ordnet einem Entscheidungs- funktionswert f ( x ) ein Klassenlabel zu, g : Y. Beispiel: Kontingenztafel: g( f( x)) sign( f( x) ) Klassifikations-Schwellwert Tatsächlich positiv Tatsächlich negativ Positiv vorhergesagt TP (true positives) FP (false positives) Negativ vorhergesagt FN (false negatives) TN (true negatives) 18

19 Evaluation von Klassifikatoren Definitionen (für binäre Klassifikation) Beispiel i HIV-Erkrankungen k in Deutschland (2008): In Deutschland leben Menschen. Davon sind Menschen an HIV erkrankt. kt Ein HIV-Test ergab (hochgerechnet auf alle Menschen): Tatsächlich h positiv i Tatsächlich h negativ Summe Positiv vorhergesagt Negativ vorhergesagt Summe False Negatives: fälschlicherweise h i als HIV-negativ klassifiziert False Positives: fälschlicherweise h i als HIV-positiv klassifiziert 19

20 Evaluation von Klassifikatoren Qualität eines Klassifikators Gegeben: Repräsentative Evaluierungsdaten E mit bekannter Zielgröße. Et Entscheidungs- hid und Klassifikationsfunktion. f kti Gesucht: Bewertung der Entscheidungsfunktion. Beispiele: Precision/Recall-Kurve, ROC-Kurve. Bewertung der Klassifikationsfunktion (Entscheidungsfunktion für einen konkreten Schwellwert). Beispiele: Fehlerrate, F-Maß. 20

21 Evaluation von Klassifikatoren Qualität eines Klassifikators Für jeden Klassifikations-Schwellwert i ll ergibt sich eine Kontigenztafel, d.h. Werte für TP, FP, TN und FN. Ut Unterschiedliche hidlih Bewertungsmaße für einen Klassifikator (für einen konkreten Schwellwert): Trefferquote (Recall): Genauigkeit (Precision): Ausfallquote (Fallout): TP ,89% TP FN TP , 71% TP FP FP ,14% TN FP

22 Evaluation von Klassifikatoren Qualität eines Klassifikators Tatsächlich positiv Tatsächlich negativ Summe Positiv vorhergesagt Negativ vorhergesagt Summe Trefferquote (Recall): Genauigkeit (Precision): Ausfallquote (Fallout): TP ,89% TP FN TP , 71% TP FP FP ,14% TN FP

23 Evaluation von Klassifikatoren Recall versus Precision Kombinierte i Bewertungsmaße aus Recall und Precision: i Sensitivität (Sensitivity): Recall bzgl. positiver Beispiele. Spezifität (Specificity): Recall bzgl. negativer Beispiele. F-Maß (F-score): Harmonisches Mittel aus Precision & Recall. Precision Recall 35, 71% 99,89% F-score , 61% Precision Recall 35, 71% 99,89% Spezielle Schwellwerte : Gewinnschwelle (Break-Even-Point): Schwellwert für welchen Precision = Recall. F-Schwellwert (Maximal F-score): Schwellwert für welchen F-score maximal ist. 23

24 Evaluation von Klassifikatoren Recall versus Precision Precision/Recall-Kurve: i Precision i vs. Recall für unterschiedliche Schwellwerte. 1,00 BEP Break-Even-Point 0,75 Maximal F-score F Precision 0,50 0,25 AUC PR (Area Under Curve: Precision/Recall) 0 Vorheriges Beispiel Recall = 99,89% Precision = 35,71% 24 0,00 0,25 0,50 0,75 1,00 Recall

25 Evaluation von Klassifikatoren Recall versus Fallout Receiver-Operating-Characteristic i i i (ROC): Bewertung der Entscheidungsfunktion unabhängig vom Schwellwert durch Fallout statt Precision. Großer Schwellwert: Mehr positive Beispiel falsch klassifiziert. Kleiner Schwellwert: Mehr negative Beispiel falsch klassifiziert. Fläche unter der ROC-Kurve (AUC ROC ) bewertet Entscheidungsfunktion. Analog zur Fläche unter Precision/Recall-Kurve. 25

26 Evaluation von Klassifikatoren Recall versus Fallout ROC-Kurve bzw. Recall/Fallout-Kurve: Recall (True Positives Rate) vs. Fallout (False Positives Rate). 1,00 0 Vorheriges Beispiel 0,75 Recall = 99,89% Fallout = 0,14% Recall 0,50 0,25 AUC ROC (Area Under Curve: ROC) 26 0,00 0,25 0,50 0,75 1,00 Fallout

27 Evaluation von Klassifikatoren Recall versus Fallout Algorithmus zur Bestimmung des AUC ROC -Wertes. AUC_ROC(f, y) Sortiere Paare (f i, y i ) f Vektor mit n Entscheidungsfunktionswerten aufsteigend nach f y Vektor mit zugehörigen Klassenlabels i Setze TN = 0, FN = 0, AUC = 0 FOR i = 1 n IF y i > 0 THEN ELSE FN = FN + 1 AUC = AUC + TN TN = TN + 1 AUC = AUC/(FN * TN) RETURN AUC 27

28 Exploitation von Modellen Anwenden von Modellen in der Praxis: Einstellen von Modellparametern nach dem Lernen (z.b. Schwellwerte, Default-Klasse). Kombination mehrerer gelernter Modelle (z.b. Verwendung mehrerer Spam-Filter). Integration des Modells in bestehende Softwarearchitektur. Monitoren der Qualität (Verteilung der Eingabedaten ändert sich oft über die Zeit Qualität verringert sich). 28

29 Zusammenfassung Qualität von Lernverfahren/Modellen messen Auf Evaluierungsdaten; nicht auf Trainingsdaten! Signifikanz des Ergebnisses prüfen. Modell-Seleketion/-Anpassung Auf Tuningdaten; nicht auf Evaluierungsdaten! Modellparameter z.b. durch Grid-Suche + Cross-Validation. Bewertung eines Klassifikators durch Recall, Precision, Fallout, F-Maß usw. Bewertung einer Entscheidungsfunktion durch (Fläche unter der) Precision/Recall-Kurve i oder ROC-Kurve. 29

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011 Evaluation Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 26.05.2011 Caroline Sporleder Evaluation (1) Datensets Caroline Sporleder Evaluation (2) Warum evaluieren?

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Diagnostische Verfahren

Diagnostische Verfahren 6. Diagnostische s Jede Registrierung oder Auswertung einer Information mit dem Ziel der Erkennung einer Erung oder eines speziellen Zustandes wird diagnostischer genannt. Beispiele Reaktion auf Ansprechen

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25 Mathematische Grundlagen III Evaluation 16 Juli 2011 1/25 Training Set und Test Set Ein fairer Test gibt an, wie gut das Modell im Einsatz ist Resubstitution: Evaluation auf den Trainingsdaten Resubstitution

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Medizinische Biometrie (L5)

Medizinische Biometrie (L5) Medizinische Biometrie (L5) Vorlesung V Der diagnostische Test Prof. Dr. Ulrich Mansmann Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie mansmann@ibe.med.uni-muenchen.de

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Einführung in Support Vector Machines (SVMs)

Einführung in Support Vector Machines (SVMs) Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation

Mehr

Objekterkennung am Beispiel des Viola-Jones-Objektdetektors

Objekterkennung am Beispiel des Viola-Jones-Objektdetektors Objekterkennung am Beispiel des Viola-Jones-Objektdetektors Medieninformatik IL Andreas Unterweger Vertiefung Medieninformatik Studiengang ITS FH Salzburg Wintersemester 2014/15 Andreas Unterweger (FH

Mehr

Algorithmen zur Analyse historischer Landkarten. Benedikt Budig Universität Würzburg

Algorithmen zur Analyse historischer Landkarten. Benedikt Budig Universität Würzburg Algorithmen zur Analyse historischer Landkarten Benedikt Budig Universität Würzburg Einführung Einführung Algorithmen zur Analyse historischer Landkarten Einführung Algorithmen zur Analyse historischer

Mehr

Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under the Curve (AUC, pauc).

Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under the Curve (AUC, pauc). Skriptname: ROC_pAUC7.jsl JMP-Version: JMP 7 Datum: 10.09.2007 Download: ROC.zip Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Algorithmen & Programmierung. Steuerstrukturen im Detail Selektion und Iteration

Algorithmen & Programmierung. Steuerstrukturen im Detail Selektion und Iteration Algorithmen & Programmierung Steuerstrukturen im Detail Selektion und Iteration Selektion Selektion Vollständige einfache Selektion Wir kennen schon eine Möglichkeit, Selektionen in C zu formulieren: if

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Lineare Klassifikatoren. Volker Tresp

Lineare Klassifikatoren. Volker Tresp Lineare Klassifikatoren Volker Tresp 1 Klassifikatoren Klassifikation ist die zentrale Aufgabe in der Mustererkennung Sensoren liefern mir Informationen über ein Objekt Zu welcher Klasse gehört das Objekt:

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

3.3.1 Referenzwerte für Fruchtwasser-Schätzvolumina ( SSW)

3.3.1 Referenzwerte für Fruchtwasser-Schätzvolumina ( SSW) 50 3.3 Das Fruchtwasser-Schätzvolumen in der 21.-24.SSW und seine Bedeutung für das fetale Schätzgewicht in der 21.-24.SSW und für das Geburtsgewicht bei Geburt in der 36.-43.SSW 3.3.1 Referenzwerte für

Mehr

3 Grundlagen statistischer Tests (Kap. 8 IS)

3 Grundlagen statistischer Tests (Kap. 8 IS) 3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung

Mehr

Klausur zur Mathematik für Biologen

Klausur zur Mathematik für Biologen Mathematisches Institut der Heinrich-Heine-Universität DÜSSELDORF WS 2002/2003 12.02.2003 (1) Prof. Dr. A. Janssen / Dr. H. Weisshaupt Klausur zur Mathematik für Biologen Bitte füllen Sie das Deckblatt

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

Analyse von Querschnittsdaten. Signifikanztests I Basics

Analyse von Querschnittsdaten. Signifikanztests I Basics Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004

Mehr

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform. kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer

Mehr

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei

Mehr

Themenblock. Diagnose und Prognose. Querschnittsbereich Epidemiologie, Med. Biometrie und Med. Informatik. Themen im Block Diagnose und Prognose

Themenblock. Diagnose und Prognose. Querschnittsbereich Epidemiologie, Med. Biometrie und Med. Informatik. Themen im Block Diagnose und Prognose Themenblock Diagnose und Prognose Querschnittsbereich Epidemiologie, Med. Biometrie und Med. Informatik Themen im Block Diagnose und Prognose Diagnose Prävalenz und prädiktive Werte Güte von diagnostischen

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

Vorbereitung auf 3. Übungsblatt (Präsenzübungen) - Lösungen

Vorbereitung auf 3. Übungsblatt (Präsenzübungen) - Lösungen Prof Dr Rainer Dahlhaus Statistik 1 Wintersemester 2016/2017 Vorbereitung auf Übungsblatt (Präsenzübungen) - Lösungen Aufgabe P9 (Prognosen und Konfidenzellipsoide in der linearen Regression) Wir rekapitulieren

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Statistische Tests für unbekannte Parameter

Statistische Tests für unbekannte Parameter Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung

Mehr

6. Schätzverfahren für Parameter

6. Schätzverfahren für Parameter 6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale

Mehr

Auswertung und Lösung

Auswertung und Lösung Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Klausur zur Vorlesung Maschinelles Lernen: Symbolische nsätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2006/07 Termin: 14. 2. 2007 Name: Vorname: Matrikelnummer:

Mehr

Klassifikation im Bereich Musik

Klassifikation im Bereich Musik Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Datenselektion und Datenaufbereitung Literatur I. H. Witten, E. Frank: Data Mining i Practical Machine Learning Tools and Techniques. J. Han, M. Kamber: Data Mining

Mehr

Vergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN)

Vergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN) Exposé zur Bachelorarbeit: Vergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN) Fakultät: Informatik, Humboldt-Universität zu Berlin Lijuan Shi 09.05.2013 Betreuer: Prof. Dr.

Mehr

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung Heute Die Binomialverteilung Poissonverteilung Approximation der Binomialverteilung durch die Normalverteilung Arbeiten mit Wahrscheinlichkeitsverteilungen Die Binomialverteilung Man werfe eine Münze n

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Bootstrap: Punktschätzung

Bootstrap: Punktschätzung Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 1 Bootstrap: Punktschätzung 1. Die Grundidee 2. Plug-in Schätzer 3. Schätzung des Standardfehlers 4. Schätzung und Korrektur der Verzerrung 5. Konsistenz

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Mathematik III - Statistik für MT(Master)

Mathematik III - Statistik für MT(Master) 3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator

Mehr

Gütemaße. T... true F... false P... positive N... negative CP... Computerdiagnose GS... Gold-Standard-Diagnose D GS D GS D CP TP FP _ D CP FN TN

Gütemaße. T... true F... false P... positive N... negative CP... Computerdiagnose GS... Gold-Standard-Diagnose D GS D GS D CP TP FP _ D CP FN TN Gütemaße D GS D GS D CP TP FP D CP FN TN T... true F... false P... positive N... negative CP... Computerdiagnose GS... GoldStandardDiagnose TP TN Sensitivität = Spezifität = TP + FN TN + FP TP + TN Genauigkeit

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird. Stichprobenumfang Für die Fragestellung auf Gleichheit von ein oder zwei Stichproben wird auf Basis von Hypothesentests der notwendige Stichprobenumfang bestimmt. Deshalb werden zunächst die Grundlagen

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Klausur zu Statistik II

Klausur zu Statistik II GOETHE-UNIVERSITÄT FRANKFURT FB Wirtschaftswissenschaften Statistik und Methoden der Ökonometrie Prof. Dr. Uwe Hassler Wintersemester 03/04 Klausur zu Statistik II Matrikelnummer: Hinweise Hilfsmittel

Mehr

Inhalt. 3. Spezielle Algorithmen

Inhalt. 3. Spezielle Algorithmen Inhalt 0. Rechner und Programmierung für Kommunikationstechniker und Mechatroniker 1. Algorithmen - Wesen, Eigenschaften, Entwurf 2. Darstellung von Algorithmen mit Struktogrammen und Programmablaufplänen

Mehr

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden. Normalverteilung und Standardnormalverteilung als Beispiel einer theoretischen Verteilung - Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden. - Stetige (kontinuierliche),

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. Lineare Regression Einfache Regression Beispieldatensatz: trinkgeld.sav Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. H0: Y lässt sich nicht durch X erklären, das heißt

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004

Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004 Theoretical Analysis of Protein-Protein Interactions Proseminar Virtual Screening: Predicting Pairs from Sequence Übersicht Einleitung 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und

Mehr

Tests einzelner linearer Hypothesen I

Tests einzelner linearer Hypothesen I 4 Multiple lineare Regression Tests einzelner linearer Hypothesen 4.5 Tests einzelner linearer Hypothesen I Neben Tests für einzelne Regressionsparameter sind auch Tests (und Konfidenzintervalle) für Linearkombinationen

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Einführung in die medizinische Bildverarbeitung WS 12/13

Einführung in die medizinische Bildverarbeitung WS 12/13 Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel Kurze Wiederholung Landmarkenbasierte anhand anatomischer Punkte interaktiv algorithmisch z.b. zur Navigation im OP Markierung von

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Algorithmen mit konstantem Platzbedarf: Die Klasse REG

Algorithmen mit konstantem Platzbedarf: Die Klasse REG Algorithmen mit konstantem Platzbedarf: Die Klasse REG Sommerakademie Rot an der Rot AG 1 Wieviel Platz brauchen Algorithmen wirklich? Daniel Alm Institut für Numerische Simulation Universität Bonn August

Mehr

Epidemiologie / Biometrie

Epidemiologie / Biometrie Wintersemester 2004 / 2005 Epidemiologie / Biometrie Robert Hochstrat 14. März 2005 Zusammenschrift der Übung zur Vorlesung aus dem WS 04/05 Rückfragen, Ergänzungen und Korrekturen an robert hochstrat@web.de

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If you torture your data long enough, they will tell you whatever you want to hear. James L. Mills Warum Biostatistik?

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Noémie Becker & Dirk Metzler 31. Mai 2016 Inhaltsverzeichnis 1 Binomialverteilung 1 2 Normalverteilung 2 3 T-Verteilung

Mehr

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

THEMA: STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN TORSTEN SCHOLZ WEBINAR@LUNCHTIME THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ EINLEITENDES BEISPIEL SAT: Standardisierter Test, der von Studienplatzbewerbern an amerikanischen Unis gefordert

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Übungsscheinklausur,

Übungsscheinklausur, Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 27 Prof. Dr. F. Liese Übungsscheinklausur, 3.7.27 Dipl.-Math. M. Helwich Name:...

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling Versuchsplanung Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling Gliederung Grundlagen der Varianzanalyse Streuungszerlegung und Modellschätzer Modellannahmen und Transformationen

Mehr

EbM-Splitter 10 Sensitivität und Spezifität: Auswirkung der Wahl des Trennpunktes

EbM-Splitter 10 Sensitivität und Spezifität: Auswirkung der Wahl des Trennpunktes Sensitivität und Spezifität: Auswirkung der Wahl des Trennpunktes Seite - 1 - EbM-Splitter 10 Sensitivität und Spezifität: Auswirkung der Wahl des Trennpunktes Im vorigen EbM-Splitter [4] wurde auf die

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Informationen zur KLAUSUR am

Informationen zur KLAUSUR am Wiederholung und Fragen 1 Informationen zur KLAUSUR am 24.07.2009 Raum: 032, Zeit : 8:00 9:30 Uhr Bitte Lichtbildausweis mitbringen! (wird vor der Klausur kontrolliert) Erlaubte Hilfsmittel: Alle Unterlagen,

Mehr

I. Deskriptive Statistik 1

I. Deskriptive Statistik 1 I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................

Mehr

Anpassungstests VORGEHENSWEISE

Anpassungstests VORGEHENSWEISE Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel

Mehr

MATHEMATISCHE STATISTIK

MATHEMATISCHE STATISTIK EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK UND IHRE ANWENDUNG VON MARTIN HENGST a. o. Professor an der PH Berlin BIBLIOGRAPHISCHES INSTITUT MANNHEIM HOCHSCHULTASCHENBÜCHER-VERLAG INHALTSVERZEICHNIS Vorwort

Mehr

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013 Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie () WiSe /3 Univariate und bivariate Verfahren Univariate

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Naive Bayes. Naive Bayes

Naive Bayes. Naive Bayes Naive Bayes Ein einfacher Klassifikator Wolfgang Konen Fachhochschule Köln November 007 W. Konen DMC WS007 Seite - 1 informatikö Inhalt Naive Bayes Der Ansatz Beispiel Wetterdaten Bayes sche Regel Das

Mehr

Graphische Verfahren in der Statistik: Q-Q- und P-P-Plots

Graphische Verfahren in der Statistik: Q-Q- und P-P-Plots Prof. Dr. Dietmar Pfeifer Institut für Mathemati Graphische Verfahren in der Statisti: Q-Q- und P-P-Plots Bei den üblichen parametrischen Testverfahren in der Statisti wird in der Regel eine Annahme über

Mehr

Wissensbasierte Suche

Wissensbasierte Suche Wissensbasierte Suche Jürgen Dorn Inhalt uninformierte Suche wissensbasierte Suche A* und IDA* Algorithmus Suche in Und/Oder-Graphen Jürgen Dorn 2003 Wissensbasierte Suche 1 Suche Suche in (expliziten

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Statistik, Geostatistik

Statistik, Geostatistik Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr