INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

Größe: px
Ab Seite anzeigen:

Download "INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen"

Transkript

1 INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen

2 Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion von Daten. Integration und Säuberung der Daten. Feature- Extraktion. Bestimmen von gegeb./gesuchten Größen. Wahl des Performanzmaß/ Zielkriteriums. Modellraum und Modellannahmen. Algorithmen für das Optimieren des Zielkriteriums finden. Implementieren der Algorithmen. Modell-Selektion & -Anpassung. Training & Evaluation des Modells auf gegebenen Daten. Vorhersage für neue Daten. 2

3 Überblick Evaluation von Lernverfahren. Selektion und Anpassung von Modellen. Evaluation von Klassifikatoren. Exploitation von Modellen. 3

4 Evaluation von Lernverfahren Ziel: Qualitätsbewertung der Modelle eines Lernverfahrens. Nachdem wir Problem analysiert haben und Verfahren identifiziert & implementiert haben. Qualität eines Modells: Wie gut sind die Vorhersagen des Modells? Was genau heißt gut? Wie berechnet/schätzt man die Genauigkeit der Vorhersagen auf zukünftigen Daten? 4

5 Evaluation von Lernverfahren Problemstellung Gegeben: Repräsentative Evaluierungsdaten E mit bekannter Zielgröße. Bewertungsmaß (Verlustfunktion) welche Qualität einer Vorhersage misst, z.b. Klassifikation: Anzahl falsch klassifizierter Beispiele (Fehlerrate). ( prediction prediction l y, y) y y Regression: Mittlerer quadratischer Fehler. prediction prediction l( y, y) ( y y) Muss nicht identisch sein zur Verlustfunktion des Lernverfahrens Ranking: Mittlerer Abstand zw. echter und vorhergesagter Position. 2 5

6 Evaluation von Lernverfahren Problemstellung Eingabe: Lernverfahren welches ein Modell h ausgibt. Ziel: Bewertung der mittleren Qualität des Lernverfahrens. Theoretischer Mittelwert des Verlusts auf der Testverteilung: Aber: Testverteilung R E[ l( h( X ), Y)] p( x, y) l( h( x), y)d( x, y) theo p( X, Y) unbekannt! Evaluierungsdaten E {( x sind repräsentativ 1, y1),,( xn, yn)} aus p( X, Y) gezogen theoretischen Mittelwert durch empirischen Mittelwert (empirisches Risiko) schätzen: n 1 R l( h( x ), y ) emp i i n i 1 6

7 Evaluation von Lernverfahren Problemstellung Welche Daten für Evaluation verwenden: Daten auf welchen das Modell trainiert wurde? Nein! Empirischer Verlust auf diesen Daten meist 0. Daten auf welche das Modell angewendet werden soll? Nein! Zielgröße für diese Daten unbekannt. Idee: Gelabelte Trainingsdaten aufteilen in Lerndaten zum Lernen eines Modells, und Evaluierungsdaten zum Evaluieren des Modells. 7

8 Evaluation von Lernverfahren Aufteilung der Trainingsdaten: Holdout Validation Gegeben: Trainingsdaten D {( x, y ),,( x, y )}. Aufteilen der Daten in Lerndaten 1 1 und Evaluierungsdaten E {( x, y ),,( x, y )}. Lerne Modell h auf Daten L und bestimme empirisches n 1 Risiko auf Daten E: R ( h) l( h( x ), y ) Lerne Modell h auf Daten D. 1 1 Ausgabe: Modell h mit Risiko-Schätzer Rˆ ( h) R ( h). n n L {( x, y ),,( x, y )} k1 k1 n n emp i i n k i k 1 emp k k emp Pessimistische Schätzung 8

9 Evaluation von Lernverfahren Aufteilung der Trainingsdaten: Cross Validation Gegeben: Trainingsdaten D {( x, y ),,( x, y )}. Aufteilen der Daten in p Blöcke D {(, ),,(, )} i xi y 1 i x 1 i y k ik mit D D und D D für 2 verschiedene Blöcke. i i i j Wiederhole für i = 1 p Trainiere Modell h i auf Daten D\D i. Berechne empirisches Risiko auf D i : Lerne Modell h auf Daten D. 1 1 Ausgabe: Modell h mit mittlerem Risiko p ˆ 1 R ( h) R ( h ). emp emp i p i 1 n n k 1 R ( h ) l( h ( x ), y ) emp i i i j i k j 1 j 9

10 Evaluation von Lernverfahren Aufteilung der Trainingsdaten: Leave-One-Out Validation Gegeben: Trainingsdaten D {( x, y ),,( x, y )}. Spezialfall von Cross Validation mit D ( x, y ). Wiederhole für i = 1 n Trainiere Modell h i auf Daten D\( x, y ). Berechne empirisches Risiko für ( x, y ) : Lerne Modell h auf Daten D. Ausgabe: Modell h mit Loo-Fehler Rˆ ( h) R ( h ). I.d.R. aufwendig zu berechnen. 1 1 Für einige Probleme existiert analyt. Lösung für Loo-Fehler. i i i i n n i i i R ( h ) l( h ( x ), y ) emp i i i i 1 emp emp i n i 1 n 10

11 Evaluation von Lernverfahren Signifikanz des empirischen Risikos Wie gut ist der Schätzer Risiko R h? theo ( ) Rˆ ( h) für das echte Idee: m-malige Validation ergibt m Schätzwerte für empirisches Risiko mit Mittelwert R. Standardfehler (Standardabw. des Schätzers): Test der Hypothese R ( h) R ( h) : theo emp ˆ emp 2 R R R 1 m 1 p R ( h) Rˆ ( h) 1 ( p( R ( h) Rˆ ( h) ) p( Rˆ ( h) R ( h) )) theo emp theo emp emp theo 1 2 R Dichtefunktion der Normalverteilung 11

12 Evaluation von Lernverfahren Signifikanz des empirischen Risikos mit Signifikanz- Test der Hypothese ˆ theo ( ) emp ( ) niverau 5% (signifikantes Ereignis). R h R h Beispiel: 10-malige Wiederholung einer Leave-One- Out-Validation (auf 10 verschiedenen Datensätzen). 10 Schätzwerte mit Mittelwert R = 8% R = 0,09. Gesucht ist mit Konfidenzintervall 1 und = 5%: p R ( h) Rˆ ( h) 0,950 theo emp ( 0, 09 ) 0,950 (123,3 ) 0,975 ( z) 0,975 z 0,835 z 0,68% 123,3 R 8,0 0,68% 12

13 Selektion und Anpassung von Modellen Ziel: Hohe Qualität des Modells durch Selektion/ Anpassung des Modells bzw. Lernverfahrens. Anpassen von Modellkomponenten (z.b. Verlustfunktion/Regularisierung, Splitting-Kriterium). Parameter des Lernverfahrens (z.b. maximale Anzahl Iterationen). Parameter der Verlustfunktion (z.b. Klassen-Kosten). Parameter des Regularisierers (z.b. des 2 -Regularsierers). Parameter der Daten-Transformation bzw. des Kernels (z.b. des RBF-Kernels). 13

14 Selektion und Anpassung von Modellen Grid-Suche Idee: Stichprobenartig aus der Menge aller möglichen Parameter bzw. Parameterkombinationen ziehen. Für jede gezogene Kombination mittels Cross-Validation (CV) Schätzer für bestimmen. R ( ) theo h Parameter wählen mit minimalem Risiko. Beispiel für Parameter-Auswahl: Grid-Suche Für jeden Grid-Punkt Schätzer für das Risiko berechnen mittels CV

15 Selektion und Anpassung von Modellen Aufteilung der Lerndaten Welche Daten für Modell-Anpassung verwenden: Daten auf welchen das Modell evaluiert wird? Nein! Evaluierung des Modells wäre zu optimistisch. Idee: Lerndaten aufteilen in Daten für Learning: zum Lernen eines Modells mit festen Parametern und Tuning: zum Anpassen der Modellparameter. Art der Aufteilung: Holdout-Validation. Cross-Validation. Loo-Validation. 15

16 Selektion und Anpassung von Modellen Aufteilung der Lerndaten Beispiel: Geschachtelte Cross-Validation. Aufteilen der Trainingsdaten D in p Blöcke D i. Wiederhole für i = 1 p Aufteilen der Lerndaten L=D\D i in q Blöcke L j. Wiederhole für alle Modell-Parameterkombinationen Wiederhole für j = 1 q Trainiere für aktuelle Parameterkombination ein Modell auf L\L j. Berechne empirisches Risiko auf L j. Bestimme mittleres empirisches Risiko für aktuelle Parameterkombination. Trainiere für beste Parameterkombination Modell h i auf D\D i. Berechne empirisches Risiko auf D i. Trainiere für beste Parameterkombination Modell h auf D. 16

17 Evaluation von Klassifikatoren Ziel: Bewertung eines konkreten Modells für binäre Klassifikation. Nachdem wir Problem analysiert haben, Verfahren identifiziert & implementiert haben, und Klassifikations- Modell (Klassifikator) trainiert haben. Qualität eines Klassifikators: Precision/Recall-Analyse. ROC-Analyse. 17

18 Evaluation von Klassifikatoren Definitionen (für binäre Klassifikation) Entscheidungsfunktion: Ordnet einer Eingabe x einen m numerischen Wert zu, f :. Beispiel: Klassifikationsfunktion: Ordnet einem Entscheidungsfunktionswert f ( x ) ein Klassenlabel zu, g: Y. Beispiel: f ( x) T x w Kontingenztabelle: g( f ( x)) sign( f ( x) ) Tatsächlich positiv Klassifikations-Schwellwert Tatsächlich negativ Positiv vorhergesagt TP (true positives) FP (false positives) Negativ vorhergesagt FN (false negatives) TN (true negatives) 18

19 Evaluation von Klassifikatoren Definitionen (für binäre Klassifikation) Beispiel HIV-Erkrankungen in Deutschland: In Deutschland leben Menschen. Davon sind Menschen an HIV erkrankt. Ein HIV-Test ergab (hochgerechnet auf alle Menschen): Tatsächlich positiv Tatsächlich negativ Summe Positiv vorhergesagt Negativ vorhergesagt Summe False Negatives: fälschlicherweise als HIV-negativ klassifiziert False Positives: fälschlicherweise als HIV-positiv klassifiziert 19

20 Evaluation von Klassifikatoren Qualität eines Klassifikators Gegeben: Repräsentative Evaluierungsdaten E mit bekannter Zielgröße. Entscheidungs- und Klassifikationsfunktion. Gesucht: Bewertung der Entscheidungsfunktion. Beispiele: Precision/Recall-Kurve, ROC-Kurve. Bewertung der Klassifikationsfunktion (Entscheidungsfunktion für einen konkreten Schwellwert). Beispiele: Fehlerrate, F-Maß. 20

21 Evaluation von Klassifikatoren Qualität eines Klassifikators Für jeden Klassifikations-Schwellwert ergibt sich eine Kontigenztabelle, d.h. Werte für TP, FP, TN und FN. Unterschiedliche Bewertungsmaße für einen Klassifikator (für einen konkreten Schwellwert): Trefferquote (Recall): Genauigkeit (Precision): Ausfallquote (Fallout): TP ,89% TP FN TP , 71% TP FP FP ,14% TN FP

22 Evaluation von Klassifikatoren Qualität eines Klassifikators Tatsächlich positiv Tatsächlich negativ Summe Positiv vorhergesagt Negativ vorhergesagt Summe Trefferquote (Recall): Genauigkeit (Precision): Ausfallquote (Fallout): TP ,89% TP FN TP , 71% TP FP FP ,14% TN FP

23 Evaluation von Klassifikatoren Recall versus Precision Kombinierte Bewertungsmaße aus Recall und Precision: Sensitivität (Sensitivity): Recall bzgl. positiver Beispiele. Spezifität (Specificity): Recall bzgl. negativer Beispiele. F-Maß (F-score): Harmonisches Mittel aus Precision & Recall. Precision Recall 35, 71% 99,89% F-score , 61% Precision Recall 35, 71% 99,89% Spezielle Schwellwerte : Gewinnschwelle (Break-Even-Point): Schwellwert für welchen Precision = Recall. F-Schwellwert (Maximal F-score): Schwellwert für welchen F-score maximal ist. 23

24 Precision Evaluation von Klassifikatoren Recall versus Precision Precision/Recall-Kurve: Precision vs. Recall für unterschiedliche Schwellwerte. 1,00 Break-Even-Point 0,75 BEP F Maximal F-score 0,50 Vorheriges Beispiel 0,25 AUC PR (Area Under Curve: Precision/Recall) 0,00 0,25 0,50 0,75 1,00 Recall 0 Recall = 99,89% Precision = 35,71% wenig aussagekräftig 24

25 Evaluation von Klassifikatoren Recall versus Fallout Receiver-Operating-Characteristic (ROC): Bewertung der Entscheidungsfunktion unabhängig vom Schwellwert durch Fallout statt Precision. Großer Schwellwert: Mehr positive Beispiel falsch klassifiziert. Kleiner Schwellwert: Mehr negative Beispiel falsch klassifiziert. Fläche unter der ROC-Kurve (AUC ROC ) bewertet Entscheidungsfunktion. Analog zur Fläche unter Precision/Recall-Kurve. 25

26 Recall Evaluation von Klassifikatoren Recall versus Fallout ROC-Kurve bzw. Recall/Fallout-Kurve: Recall (True Positives Rate) vs. Fallout (False Positives Rate). 1,00 0 Vorheriges Beispiel Recall = 99,89% Fallout = 0,14% 0,75 0,50 0,25 AUC ROC (Area Under Curve: ROC) 0,00 0,25 0,50 0,75 1,00 Fallout 26

27 Evaluation von Klassifikatoren Recall versus Fallout Algorithmus zur Bestimmung des AUC ROC -Wertes. AUC_ROC(f, y) Sortiere Paare (f i, y i ) aufsteigend nach f i Setze TN = 0, FN = 0, AUC = 0 FOR i = 1 n IF y i > 0 THEN ELSE FN = FN + 1 AUC = AUC + TN TN = TN + 1 AUC = AUC/(FN * TN) RETURN AUC f Vektor mit n Entscheidungsfunktionswerten y Vektor mit zugehörigen Klassenlabels 27

28 Exploitation von Modellen Anwenden von Modellen in der Praxis: Einstellen von Modellparametern nach dem Lernen (z.b. Schwellwerte, Default-Klasse). Kombination mehrerer gelernter Modelle (z.b. Verwendung mehrerer Spam-Filter). Integration des Modells in bestehende Softwarearchitektur. Monitoren der Qualität (Verteilung der Eingabedaten ändert sich oft über die Zeit Qualität verringert sich). Sammeln neuer Trainingsdaten zur Verbesserung des Modells. 28

29 Zusammenfassung Qualität von Lernverfahren/Modellen messen Auf Evaluierungsdaten; nicht auf Trainingsdaten! Signifikanz des Ergebnisses prüfen. Modell-Seleketion/-Anpassung Auf Tuningdaten; nicht auf Evaluierungsdaten! Modellparameter z.b. durch Grid-Suche + Cross-Validation. Bewertung eines Klassifikators durch Recall, Precision, Fallout, F-Maß usw. Bewertung einer Entscheidungsfunktion durch Fläche unter der ROC-Kurve. 29

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011 Evaluation Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 26.05.2011 Caroline Sporleder Evaluation (1) Datensets Caroline Sporleder Evaluation (2) Warum evaluieren?

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25 Mathematische Grundlagen III Evaluation 16 Juli 2011 1/25 Training Set und Test Set Ein fairer Test gibt an, wie gut das Modell im Einsatz ist Resubstitution: Evaluation auf den Trainingsdaten Resubstitution

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under the Curve (AUC, pauc).

Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under the Curve (AUC, pauc). Skriptname: ROC_pAUC7.jsl JMP-Version: JMP 7 Datum: 10.09.2007 Download: ROC.zip Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Algorithmen zur Analyse historischer Landkarten. Benedikt Budig Universität Würzburg

Algorithmen zur Analyse historischer Landkarten. Benedikt Budig Universität Würzburg Algorithmen zur Analyse historischer Landkarten Benedikt Budig Universität Würzburg Einführung Einführung Algorithmen zur Analyse historischer Landkarten Einführung Algorithmen zur Analyse historischer

Mehr

Algorithmen & Programmierung. Steuerstrukturen im Detail Selektion und Iteration

Algorithmen & Programmierung. Steuerstrukturen im Detail Selektion und Iteration Algorithmen & Programmierung Steuerstrukturen im Detail Selektion und Iteration Selektion Selektion Vollständige einfache Selektion Wir kennen schon eine Möglichkeit, Selektionen in C zu formulieren: if

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

3.3.1 Referenzwerte für Fruchtwasser-Schätzvolumina ( SSW)

3.3.1 Referenzwerte für Fruchtwasser-Schätzvolumina ( SSW) 50 3.3 Das Fruchtwasser-Schätzvolumen in der 21.-24.SSW und seine Bedeutung für das fetale Schätzgewicht in der 21.-24.SSW und für das Geburtsgewicht bei Geburt in der 36.-43.SSW 3.3.1 Referenzwerte für

Mehr

Klausur zur Mathematik für Biologen

Klausur zur Mathematik für Biologen Mathematisches Institut der Heinrich-Heine-Universität DÜSSELDORF WS 2002/2003 12.02.2003 (1) Prof. Dr. A. Janssen / Dr. H. Weisshaupt Klausur zur Mathematik für Biologen Bitte füllen Sie das Deckblatt

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Analyse von Querschnittsdaten. Signifikanztests I Basics

Analyse von Querschnittsdaten. Signifikanztests I Basics Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Statistische Tests für unbekannte Parameter

Statistische Tests für unbekannte Parameter Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung

Mehr

Vorbereitung auf 3. Übungsblatt (Präsenzübungen) - Lösungen

Vorbereitung auf 3. Übungsblatt (Präsenzübungen) - Lösungen Prof Dr Rainer Dahlhaus Statistik 1 Wintersemester 2016/2017 Vorbereitung auf Übungsblatt (Präsenzübungen) - Lösungen Aufgabe P9 (Prognosen und Konfidenzellipsoide in der linearen Regression) Wir rekapitulieren

Mehr

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator

Mehr

Klassifikation im Bereich Musik

Klassifikation im Bereich Musik Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................

Mehr

Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004

Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004 Theoretical Analysis of Protein-Protein Interactions Proseminar Virtual Screening: Predicting Pairs from Sequence Übersicht Einleitung 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und

Mehr

Vergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN)

Vergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN) Exposé zur Bachelorarbeit: Vergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN) Fakultät: Informatik, Humboldt-Universität zu Berlin Lijuan Shi 09.05.2013 Betreuer: Prof. Dr.

Mehr

Tests einzelner linearer Hypothesen I

Tests einzelner linearer Hypothesen I 4 Multiple lineare Regression Tests einzelner linearer Hypothesen 4.5 Tests einzelner linearer Hypothesen I Neben Tests für einzelne Regressionsparameter sind auch Tests (und Konfidenzintervalle) für Linearkombinationen

Mehr

Gütemaße. T... true F... false P... positive N... negative CP... Computerdiagnose GS... Gold-Standard-Diagnose D GS D GS D CP TP FP _ D CP FN TN

Gütemaße. T... true F... false P... positive N... negative CP... Computerdiagnose GS... Gold-Standard-Diagnose D GS D GS D CP TP FP _ D CP FN TN Gütemaße D GS D GS D CP TP FP D CP FN TN T... true F... false P... positive N... negative CP... Computerdiagnose GS... GoldStandardDiagnose TP TN Sensitivität = Spezifität = TP + FN TN + FP TP + TN Genauigkeit

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte

Mehr

Auswahl von Schätzfunktionen

Auswahl von Schätzfunktionen Auswahl von Schätzfunktionen Worum geht es in diesem Modul? Überblick zur Punktschätzung Vorüberlegung zur Effizienz Vergleich unserer Schätzer für My unter Normalverteilung Relative Effizienz Einführung

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Auswertung und Lösung

Auswertung und Lösung Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1

Mehr

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

THEMA: STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN TORSTEN SCHOLZ WEBINAR@LUNCHTIME THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ EINLEITENDES BEISPIEL SAT: Standardisierter Test, der von Studienplatzbewerbern an amerikanischen Unis gefordert

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Algorithmen mit konstantem Platzbedarf: Die Klasse REG

Algorithmen mit konstantem Platzbedarf: Die Klasse REG Algorithmen mit konstantem Platzbedarf: Die Klasse REG Sommerakademie Rot an der Rot AG 1 Wieviel Platz brauchen Algorithmen wirklich? Daniel Alm Institut für Numerische Simulation Universität Bonn August

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If you torture your data long enough, they will tell you whatever you want to hear. James L. Mills Warum Biostatistik?

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling Versuchsplanung Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling Gliederung Grundlagen der Varianzanalyse Streuungszerlegung und Modellschätzer Modellannahmen und Transformationen

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Inhaltsverzeichnis. Vorwort

Inhaltsverzeichnis. Vorwort V Vorwort XI 1 Zum Gebrauch dieses Buches 1 1.1 Einführung 1 1.2 Der Text in den Kapiteln 1 1.3 Was Sie bei auftretenden Problemen tun sollten 2 1.4 Wichtig zu wissen 3 1.5 Zahlenbeispiele im Text 3 1.6

Mehr

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird. Stichprobenumfang Für die Fragestellung auf Gleichheit von ein oder zwei Stichproben wird auf Basis von Hypothesentests der notwendige Stichprobenumfang bestimmt. Deshalb werden zunächst die Grundlagen

Mehr

I. Deskriptive Statistik 1

I. Deskriptive Statistik 1 I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Randomisierte Algorithmen 2. Erste Beispiele

Randomisierte Algorithmen 2. Erste Beispiele Randomisierte Algorithmen Randomisierte Algorithmen 2. Erste Beispiele Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2016/2017 1 / 35 Randomisierter Identitätstest

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Bildanalyse Literatur David A. Forsyth: Computer Vision i A Modern Approach. Mark S. Nixon und Alberto S. Aguado: Feature Extraction and Image Processing. Ulrich Schwanecke:

Mehr

8. Konfidenzintervalle und Hypothesentests

8. Konfidenzintervalle und Hypothesentests 8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose.

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose. Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose.com 13.06.20 15 SQLSaturday Rheinland 2015 1. Zu komplex: Man kann

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

Naive Bayes. Naive Bayes

Naive Bayes. Naive Bayes Naive Bayes Ein einfacher Klassifikator Wolfgang Konen Fachhochschule Köln November 007 W. Konen DMC WS007 Seite - 1 informatikö Inhalt Naive Bayes Der Ansatz Beispiel Wetterdaten Bayes sche Regel Das

Mehr

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g: TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 2 Prof. Dr. Helmut Seidl, S. Pott,

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Diagnostikstudien. Dr. Dirk Hasenclever IMISE, Leipzig.

Diagnostikstudien. Dr. Dirk Hasenclever IMISE, Leipzig. Diagnostikstudien Dr. Dirk Hasenclever IMISE, Leipzig Hasenclever@IMISE.uni-Leipzig.de Diagnostische Tests Krankheit ja Krankheit nein Test positiv TrueP FP Test negativ FN TrueN Test- Positive Test- Negative

Mehr

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Induktive Statistik Prof. Dr. W.-D.

Mehr

Mathematik III - Statistik für MT(Master)

Mathematik III - Statistik für MT(Master) 3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Anpassungstests VORGEHENSWEISE

Anpassungstests VORGEHENSWEISE Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel

Mehr

Klausur zu Statistik II

Klausur zu Statistik II GOETHE-UNIVERSITÄT FRANKFURT FB Wirtschaftswissenschaften Statistik und Methoden der Ökonometrie Prof. Dr. Uwe Hassler Wintersemester 03/04 Klausur zu Statistik II Matrikelnummer: Hinweise Hilfsmittel

Mehr

Graphische Verfahren in der Statistik: Q-Q- und P-P-Plots

Graphische Verfahren in der Statistik: Q-Q- und P-P-Plots Prof. Dr. Dietmar Pfeifer Institut für Mathemati Graphische Verfahren in der Statisti: Q-Q- und P-P-Plots Bei den üblichen parametrischen Testverfahren in der Statisti wird in der Regel eine Annahme über

Mehr

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen Kapitel ML: I I. Einführung Beispiele für Lernaufgaben Spezifikation von Lernproblemen ML: I-8 Introduction c STEIN/LETTMANN 2005-2010 Beispiele für Lernaufgaben Autoeinkaufsberater Welche Kriterien liegen

Mehr

Statistik, Geostatistik

Statistik, Geostatistik Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.

Mehr

Kapitel 5: Abstrakte Algorithmen und Sprachkonzepte. Elementare Schritte

Kapitel 5: Abstrakte Algorithmen und Sprachkonzepte. Elementare Schritte Elementare Schritte Ein elementarer Berechnungsschritt eines Algorithmus ändert im Allgemeinen den Wert von Variablen Zuweisungsoperation von fundamentaler Bedeutung Zuweisungsoperator In Pascal := In

Mehr

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge)

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 Methoden der Modellbildung statischer Systeme Teil 2 (für ausgewählte Masterstudiengänge) FACHGEBIET Systemanalyse PRAKTIKUM Experimentelle Prozeßanalyse 2 VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge) Verantw. Hochschullehrer: Prof.

Mehr

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Poster Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Timm Euler Tobias Otte viadee GmbH viadee GmbH Anton-Bruchausen-Str. 8 Anton-Bruchausen-Str. 8 48147 Münster 48147 Münster Timm.Euler@viadee.de

Mehr

Kreuzvalidierung. 1. Schritt: Aufteilung der Stichprobe in ungefähr gleiche Hälften nach dem Zufall. SPSS:

Kreuzvalidierung. 1. Schritt: Aufteilung der Stichprobe in ungefähr gleiche Hälften nach dem Zufall. SPSS: Kreuzvalidierung. Schritt: Aufteilung der Stichprobe in ungefähr gleiche Hälften nach dem Zufall. SPSS: SPSS erzeugt eine neue Variable Filter_$. Die herausgefilterten Fälle werden im Datenfenster angezeigt

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Strukturelle Modelle SVMstruct Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik 16.12.2008 1 von 35 Gliederung LS 8 Künstliche Intelligenz Fakultät für

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 5 Prof. Peter F. Stadler & Dr. Christian Höner zu Siederdissen Bioinformatik/IZBI Institut für Informatik & Interdisziplinäres Zentrum für Bioinformatik Universität

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

Mehr

Praktikum Ingenieurinformatik. Termin 4. Funktionen, numerische Integration

Praktikum Ingenieurinformatik. Termin 4. Funktionen, numerische Integration Praktikum Ingenieurinformatik Termin 4 Funktionen, numerische Integration 1 Praktikum Ingenieurinformatik Termin 4 1. Funktionen. Numerische Integration, Trapezverfahren 1.1. Funktionen Eine Funktion ist

Mehr

Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3

Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3 Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3 Geschlecht + Anfangsgehalt 14000 399 403 7000 12000 335 Anfangsgehalt 10000 8000 6000 4000 2000 N = 28 63 185 291 227 52 215 158 88 284 193

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Wie viele Produkte müssen zerstörend in der Qualitätskontrolle geprüft werden? DRK-Blutspendedienst West

Wie viele Produkte müssen zerstörend in der Qualitätskontrolle geprüft werden? DRK-Blutspendedienst West Wie viele Produkte müssen zerstörend in der Qualitätskontrolle geprüft werden? Einschlägige Regelungen Es sind regelmäßig Qualitätskontrollen an Stichproben aus der laufenden Herstellung durchzuführen.

Mehr

Zufallsgrößen. Vorlesung Statistik für KW 29.04.2008 Helmut Küchenhoff

Zufallsgrößen. Vorlesung Statistik für KW 29.04.2008 Helmut Küchenhoff Zufallsgrößen 2.5 Zufallsgrößen 2.5.1 Verteilungsfunktion einer Zufallsgröße 2.5.2 Wahrscheinlichkeits- und Dichtefunktion Wahrscheinlichkeitsfunktion einer diskreten Zufallsgröße Dichtefunktion einer

Mehr

Chi-Quadrat Verfahren

Chi-Quadrat Verfahren Chi-Quadrat Verfahren Chi-Quadrat Verfahren werden bei nominalskalierten Daten verwendet. Die einzige Information, die wir bei Nominalskalenniveau zur Verfügung haben, sind Häufigkeiten. Die Quintessenz

Mehr

Flussdiagramm / Programmablaufplan (PAP)

Flussdiagramm / Programmablaufplan (PAP) Flussdiagramm / Programmablaufplan (PAP) Basissysmbole Grenzstelle (Anfang, Zwischenhalt oder Ende des Programms/Algorithmus) Verbindung Zur Verdeutlichung der Ablaufrichtung werden Linien mit einer Pfeilspitze

Mehr

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Hypothesentesten, Fehlerarten und Güte 2 Literatur Kreyszig: Statistische Methoden und ihre Anwendungen, 7.

Mehr

Java 8. Elmar Fuchs Grundlagen Programmierung. 1. Ausgabe, Oktober 2014 JAV8

Java 8. Elmar Fuchs Grundlagen Programmierung. 1. Ausgabe, Oktober 2014 JAV8 Java 8 Elmar Fuchs Grundlagen Programmierung 1. Ausgabe, Oktober 2014 JAV8 5 Java 8 - Grundlagen Programmierung 5 Kontrollstrukturen In diesem Kapitel erfahren Sie wie Sie die Ausführung von von Bedingungen

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Ü b u n g s b l a t t 4

Ü b u n g s b l a t t 4 Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 30. 4. 2007 Ü b u n g s b l a t t 4 Mit und gekennzeichnete Aufgaben können zum Sammeln von Bonuspunkten verwendet werden. Lösungen von -Aufgaben

Mehr

Vorlesung Wirtschaftsstatistik 2 (FK ) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren. Dipl.-Ing.

Vorlesung Wirtschaftsstatistik 2 (FK ) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren. Dipl.-Ing. Vorlesung Wirtschaftsstatistik 2 (FK 040637) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren Dipl.-Ing. Robin Ristl Wintersemester 2012/13 1 Vorlesungsinhalte Wiederholung:

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 4.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Mining the Network Value of Customers

Mining the Network Value of Customers Mining the Network Value of Customers Seminar in Datamining bei Prof. Fürnkranz Benjamin Herbert Technische Universität Darmstadt Sommersemester 2007 1 / 34 1 2 Werbung Netzwerkwert 3 Bezeichnungen Ansatz

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

4 Diskrete Wahrscheinlichkeitsverteilungen

4 Diskrete Wahrscheinlichkeitsverteilungen 4 Diskrete Wahrscheinlichkeitsverteilungen 4.1 Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, Pr), wobei Ω eine endliche oder

Mehr

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97. Aufgabenblock 4 Aufgabe ) Da s = 8. cm nur eine Schätzung für die Streuung der Population ist, müssen wir den geschätzten Standardfehler verwenden. Dieser berechnet sich als n s s 8. ˆ = = =.88. ( n )

Mehr