2.4 Gradientenabstiegsverfahren

Größe: px
Ab Seite anzeigen:

Download "2.4 Gradientenabstiegsverfahren"

Transkript

1 2.4 Gradientenabstiegsverfahren Optimale Parameter lassen sich bei linearer Regression analytisch bestimmen, dennoch verwendet man in der Regel das sogenannte Gradientenabstiegsverfahren, um diese (näherungsweise) zu bestimmen Gradientenabstiegsverfahren ist meist effizienter als das Invertieren der Matrix (X T X) -1 und findet auch dann Parameter, wenn diese nicht invertierbar ist Gradientenabstiegsverfahren auch für andere Probleme einsetzbar, deren optimale Parameter nicht analytisch bestimmt werden können 45

2 Gradient Gradient verallgemeinert das Konzept der Ableitung für Funktionen in mehreren Veränderlichen Gradient ist eine Funktion in mehreren Veränderlichen und gibt die Richtung des steilsten Anstiegs an 2 3 rf (x) = 6 4 F x 1. F x n

3 Gradient Beispiel: Betrachte die Funktion F(x 0, x 1 ) = 4x 02 + x 1 2 F F x 0 =8x 0 x 1 =2x 1 rf apple = apple rf apple = apple

4 Gradientenabstiegsverfahren Gradientenabstiegsverfahren (gradient descent) beruht auf folgender Idee: starte mit zufälliger Wahl der Parameter w wiederhole für bestimmte Rundenzahl oder bis Konvergenz berechne den Gradienten L(w) an dieser Stelle, als die Richtung des steilsten Aufstiegs aktualisiere die Parameter als w = w η L(w), mit Lernrate η > 0.0, d.h. laufe ein Stück entgegen der Richtung des steilsten Aufstiegs 48

5 Ein einfaches Beispiel Betrachten wir folgende einfache Funktion in x f(x) =x 2 +2x f 0 (x) =2x +2 Wir können analytisch bestimmen, dass diese Funktion ihr Minimum an der Stelle -1 annimmt 49

6 Ein weiteres Beispiel Betrachten wir folgende Funktion in x f(x) =x 2 +2sin(4x) f 0 (x) =2x + 8 cos(4 x) Für die gewählte Lernrate wird nur ein lokales Minimum, nicht jedoch das global Minimum gefunden 50

7 Multiple Lineare Regression Gradient für multiple lineare Regression ist definiert als ÒL(w) = 2X T y +2X T Xw = 2X T (y Xw) S 2 q n i=1 x i,0 = W U 2 q n i=1 x i,m 1 y i q m j=0 x i,j w j 2 T 1. X y i q 2V m j=0 x i,j w j 51

8 Stochastisches Gradientenabstiegsverfahren Berechnung des Gradienten über alle Datenpunkte ist zu teuer bei sehr großen Datenmengen Stochastisches Gradientenabstiegsverfahren (stochastic gradient descent, SGD) betrachtet in jedem Schritt nur einen einzelnen zufällig gewählten Datenpunkt, um den Gradienten anzunähern Als Mittelweg kann eine kleine Anzahl zufällig gewählter Datenpunkte betrachtet werden 52

9 Adaptive Lernrate Zudem wird häufig eine adaptive Lernrate verwendet, welche vom Fortschritt des Verfahrens abhängt, z.b. (r) = c 1 r + c 2 in Runde r {1, 2, } mit Konstanten c 1 c 2 Die Idee hierbei ist, dass das Verfahren zunehmend vorsichtig wird und kleinere Schritte macht und so z.b. ein gefundenes (lokales) Minimum in späteren Iterationen nicht mehr verlässt 53

10 2.5 Polynomiale Regression Polynomiale Regression nimmt an, dass das abhängige Merkmal sich als Polynom vom Grad d in den abhängigen Merkmalen beschreiben lässt, z.b. bei einem abhängigen Merkmal als ŷ = w 0 + w 1 x + w 2 x w d x d Die Werte x 2,, x d werden vorberechnet und wie zusätzliche unabhängige Merkmale bei einer multiplen linearen Regression behandelt Grad des Polynoms d ist ein sog. Hyperparameter, der die Gestalt des Modells beeinflusst 54

11 Polynomiale Regression Auch bei mehreren ursprünglichen unabhängigen Merkmalen können wir ein Polynom vom Grad d anpassen, um das abhängige Merkmal vorherzusagen, z.b. ŷ = w 0,0 + w 1,0 x 0 + w 0,1 x 1 + w 1,1 x 0 x 1 + w 2,0 x w 0,2 x w d,d x d 0 x d 1 Bei m ursprünglichen unabhängigen Merkmal und einem Polynom vom Grad d erhalten wir somit (d + 1) m unabhängige Merkmale insgesamt 55

12 Polynomiale Regression in Python import pandas as pd import numpy as np from sklearn import linear_model, preprocessing, metrics import matplotlib.pyplot as plt # Autodaten lesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Verbrauchswerte extrahieren y = cars.iloc[:,0].values # Leistungswerte extrahieren X = cars.iloc[:,[3]].values X = X.reshape(X.size, 1) # Polynomiale Merkmale (d.h. Leistung^2) berechnen poly = preprocessing.polynomialfeatures(2) Xp = poly.fit_transform(x) # Lineare Regression reg = linear_model.linearregression() reg.fit(xp,y) 56

13 Polynomiale Regression in Python # Polynom plotten Xs = np.array(sorted(x)) Xs = Xs.reshape(Xs.size,1) Xsp = poly.fit_transform(xs) plt.scatter(x, y, color='blue', marker='x') plt.plot(xs, reg.predict(xsp), color='red', lw=2) plt.xlabel('leistung [hp]') plt.ylabel('verbrauch [mpg]') plt.show() # Parameter ausgeben print('parameter:') print('w0: %f'%reg.intercept_) print('w1: %f'%reg.coef_[0]) print('w2: %f'%reg.coef_[1]) print('bestimmtheitsmaß') print('r2: %f'%metrics.r2_score(y,reg.predict(xp))) Vollständiges Jupyter-Notebook unter: [HTML] [IPYNB] 57

14 Polynomiale Regression in Python 58

15 2.6 Merkmalstransformation Besteht zwischen dem zu erklärenden abhängigen Merkmal und den unabhängigen Merkmalen ein nicht-linearer Zusammenhang, so lässt sich dieser häufig durch eine Transformation der Merkmale auf einen linearen Zusammenhang zurückführen 59

16 Potenzgesetze (power laws) Zahlreiche Phänomene in der Natur folgen einem sogenannten Potenzgesetz (power law), d.h. die Größe y verhält sich zur Größe x als y = f(x) = 0 x 1 Skaleninvarianz (scale invariance) ist eine Eigenschaft solcher Phänomene, d.h. multiplizieren wir den Wert von x mit einem Faktor c, ändert sich der Wert von y immer um einen Faktor c β 1 f(cx) = 0 (cx) 1 = 0 c 1 x 1 = c 1 f(x) 60

17 Zipf sches Gesetz (Zipf s law) George K. Zipf ( ) beobachtete, dass für natürlichsprachliche Text gilt, dass die Häufigkeit eines Wortes f(w) umgekehrt proportional zu seinem Häufigkeitsrang r(w) ist, d.h.: f(w) Ã 1 r(w) mit 1 Quelle: Das häufigste Wort kommt somit doppelt so oft vor wie das zweithäufigste Wort zehnmal so oft vor wie das Wort auf Rang 10 hundertmal so oft vor wie das Wort auf Rang

18 Lotka sches Gesetz (Lotka s law) Alfred J. Lotka ( ) beobachtete, dass sich die Anzahl f(n) der Autoren mit n Veröffentlichungen beschreiben lässt als f(n) = C n a mit Parametern C und a, die von der Gesamtzahl der Autoren und dem Fachgebiet abhängen 62

19 Wachstumsmodelle Wachstumsmodelle beschreiben Populationsgröße, z.b. einer Bakterienkultur, nach Ablauf von t Zeiteinheiten Einfaches Modell unter der Annahme geometrischen Wachstums mit Wachstumsrate r und Anfangsgröße der Population P(0) als Parameter P (t) =P (0) r t mit r Ø 1 Komplexere Modelle berücksichtigen zeitabhängige Wachstumsraten und Kapazitätsbeschränkungen 63

20 Merkmalstransformation Gesetze von Zipf und Lotka und das einfache Wachstumsmodell beschreiben nicht-lineare Zusammenhänge zwischen Merkmalen Wie können wir ihre Parameter (z.b. Wachstumsrate r) anhand von beobachteten Daten schätzen? Idee: Transformiere das abhängige und die unabhängigen Merkmale so, dass ein linearer Zusammenhang zwischen ihnen entsteht; dann können wir lineare Regression verwenden 64

21 Merkmalstransformation für Zipf sches Gesetz Worthäufigkeit f(w) verhält sich zum Häufigkeitsrang r als f(w) Ã 1 r(w) mit 1 Logarithmische Transformation der Merkmale log f(w) Ã log 1 r(w) log f(w) Ã log r(w) Parameter α kann also anhand der logarithmisch transformierten Merkmale geschätzt werden 65

22 Merkmalstransformation für Zipf sches Gesetz Beispiel: Worthäufigkeit und Häufigkeitsrang in The New York Times zwischen 1987 und 2007 log(häufigkeit) log(häufigkeitsrang) 66

23 2.7 Evaluation Bisher haben wir die Güte unserer Modelle immer auf den gleichen Daten gemessen, auf denen auch das Modell selbst trainiert wurde Dies ist eine sehr schlechte Idee (und verpönt), da wir nicht wissen, wie gut unser Modell auf zuvor unbekannten Daten Vorhersagen treffen kann (z.b. neue Autos in unseren Autodaten) eine Überanpassung des Modells an unsere Daten stattfinden kann, wenn es sehr viele Merkmale, aber nur vergleichsweise wenige Datenpunkte gibt 67

24 Überanpassung Verwendet man sehr viele unabhängige Merkmale (z.b. bei polynomialer Regression mit hohem Grad d) kann es zu einer Überanpassung (overfitting) des Modells an die Daten kommen Das gelernte Modell beschreibt dann die vorhandenen Daten nahezu perfekt, kann aber auf bisher unbekannten Daten keine verlässlichen Vorhersagen treffen 68

25 Überanpassung 69

26 Modellauswahl Um eine Überanpassung zu vermeiden, müssen wir zuerst ein Modell geeigneter Komplexität auswählen, indem wir seine Hyperparameter abstimmen Hyperparameter sind solche Parameter, welche die Gestalt des Modells beeinflussen, also z.b. der Grad des Polynoms d oder die berücksichtigten Merkmale Dies bezeichnet man als Modellauswahl (model selection) 70

27 2-Fache Kreuzvalidierung Eine einfache Möglichkeit zur Modellauswahl und zur Einschätzung der Vorhersagekraft bietet die 2-fache Kreuzvalidierung (2-fold cross validation) Die vorhandenen Daten werden zufällig aufgeteilt in Trainingsdaten (z.b. 60%) Validierungsdaten (z.b. 20%) Testdaten (z.b. 20%) 71

28 2-Fache Kreuzvalidierung Daten Training Validierung Test Modellauswahl Einschätzung der Vorhersagekraft Trainingsdaten zum Bestimmen der Parameter Validierungsdaten zur Modellauswahl Testdaten zur Einschätzung der Vorhersagekraft des gewählten Modells 72

29 2-Fache Kreuzvalidierung Beispiel: Polynomiale Regression mit Grad d bestimme den Grad d, so dass ein auf den entsprechendes auf den Trainingsdaten trainiertes Modell die beste Vorhersagekraft auf den Validierungsdaten erreicht schätze die Vorhersagekraft des gewählten Modells durch Anwendung auf die Testdaten 73

30 k-fache Kreuzvalidierung Bei der k-fachen Kreuzvalidierung (k-fold cross validation) werden die Daten zufällig in k gleich große Teilmengen aufgeteilt Es werden k Iterationen durchgeführt, wobei jede Teilmenge einmal zum Testen verwendet wird Dies führt zu einer robusteren Einschätzung der Vorhersagekraft, insbesondere wenn die ursprüngliche Datenmenge klein ist 74

31 k-fache Kreuzvalidierung M 1 (e.g., MSE 1 ) M 2 (e.g., MSE 2 ) M 3 (e.g., MSE 3 ) M 4 (e.g., MSE 4 ) M 5 (e.g., MSE 5 ) 75

32 k-fache Kreuzvalidierung Jede Iteration liefert eine Schätzung der Vorhersagekraft, aus denen wir Mittelwert und Varianz bestimmen können Da die Vorhersagekraft auf den Testdaten, die in anderen Iterationen Trainingsdaten sind, geschätzt wird, kann es zu einer Überanpassung kommen Bei der geschachtelten k-fachen Kreuzvalidierung wird dieses Problem durch eine Aufteilung der Trainingsdaten in Trainingsdaten und Testdaten vermieden 76

33 k-fache Kreuzvalidierung in Python import pandas as pd import numpy as np from sklearn import linear_model, preprocessing, metrics, model_selection import matplotlib.pyplot as plt # Autodaten lesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Verbrauchswerte extrahieren y = cars.iloc[:,0].values # Leistungswerte extrahieren X = cars.iloc[:,[3]].values X = X.reshape(X.size, 1) # Polynomiale Merkmale (d.h. Leistung^2) berechnen poly = preprocessing.polynomialfeatures(2) X = poly.fit_transform(x) 77

34 k-fache Kreuzvalidierung in Python # 5-Fache Kreuzvalidierung durchführen kf = model_selection.kfold(n_splits=5, shuffle=true) mses = [] for train_index, test_index in kf.split(x): # Aufteilung in Trainings- und Testdaten X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] # Lineare Regression reg = linear_model.linearregression() reg.fit(x_train, y_train) # Parameter ausgeben print('parameter:') print('w0: %f'%reg.intercept_) print('w1: %f'%reg.coef_[0]) print('w2: %f'%reg.coef_[1]) # MSE berechnen mse = sum((y_test - reg.predict(x_test))**2) / len(y_test) print('mse: %f' % mse) mses.append(mse) print('mse (Mittelwert): %f' % (sum(mses) / len(mses))) 78

35 2.8 Regularisierung Regularisierung (regularization oder shrinkage) bietet eine Möglichkeit, die Komplexität des Modells in der Straffunktion zu berücksichtigen Beim Trainieren, d.h. Bestimmen der Parameter, können dann bessere Vorhersagekraft und Modellkomplexität gegeneinander abgewogen werden Ridge Regression und LASSO sind gängige regularisierte Varianten der linearen Regression 79

36 Ridge Regression Ridge Regression verwendet folgende Straffunktion L(w) =(y Xw) T (y Xw)+ w T w mit w T w = und λ > 0 als Hyperparameter mÿ i=1 w 2 i Komplexe Modelle, die viele Parameter verwenden, werden damit durch die Straffunktion benachteiligt 80

37 LASSO LASSO verwendet folgende Straffunktion L(w) =(y Xw) T (y Xw)+ ÎwÎ 1 mit mÿ ÎwÎ 1 = w i und λ > 0 als Hyperparameter i=1 LASSO weist, im Vergleich zu Ridge Regression, vielen Parametern den Wert 0 zu und verwendet damit nur eine Teilmenge der Merkmale 81

38 Ridge Regression 82

39 Ridge Regression in Python import pandas as pd import numpy as np from sklearn import linear_model, preprocessing import matplotlib.pyplot as plt # Autodaten lesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Stichprobe von 10 Autos sample = random.sample(range(0,len(cars)), 10) out_of_sample = list(set(range(0,len(cars))) - set(sample)) # Leistungs- und Verbrauchswerte extrahieren y = cars.iloc[sample, 0].values y_oos = cars.iloc[out_of_sample, 0].values # Leistungswerte für Stichprobe auswählen X = cars.iloc[sample, [3]].values X.reshape(X.size, 1) # Polynomiale Merkmale berechnen poly = preprocessing.polynomialfeatures(5) Xp = poly.fit_transform(x) 83

40 Ridge Regression in Python for lmbd in [0.0, , , 0.001, 0.01, 0.1, 1.0, 10.0, 100.0]: # Ridge Regression reg = linear_model.ridge(alpha=lmbd, normalize=true) reg.fit(xp,y) # Plot erstellen hp = cars.iloc[:,3].values mpg = cars.iloc[:,0].values hps = np.array(sorted(hp)) hps = hps.reshape(hps.size, 1) hpsp = poly.fit_transform(hps) plt.title("lambda: " + str(lmbd)) plt.scatter(hp, mpg, color='gray', marker='x') plt.scatter(x, y, color='blue', marker='o') plt.plot(hps, reg.predict(hpsp), color='red', lw=2) plt.xlabel('leistung [hp]') plt.ylabel('verbrauch [mpg]') plt.xlim([min(hp), max(hp)]) plt.ylim([min(mpg), max(mpg)]) plt.show() 84

41 Zusammenfassung Gradientenabstiegsverfahren zum Bestimmen (nahezu) optimaler Parameter für multiple lineare Regression Polynomiale Regression und Merkmalstransformation zum Anpassen polynomialer bzw. nicht-linearer Modelle Kreuzvalidierung zum Vermeiden von einer Überanpassung des Modells an die Daten Regularisierung zum Abwägen zwischen Modellkomplexität und Vorhersagekraft 85

42 Literatur [1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz: Statistik Der Weg zur Datenanalyse, Springer, 2017 (Kapitel 12) [2] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 6 und 10) 86

Optimaler Parametervektor β lässt sich durch Lösen eines linearen Gleichungssystems bestimmen

Optimaler Parametervektor β lässt sich durch Lösen eines linearen Gleichungssystems bestimmen Rückblick Optimaler Parametervektor β lässt sich durch Lösen eines linearen Gleichungssystems bestimmen Datenpunkte werden durch eine Hyperebene im (m+1)-dimensionalen Raum angenähert Verbrauch 5 10 15

Mehr

Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären?

Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären? 2. Regression Motivation Regressionsanalysen modellieren den Zusammenhang zwischen einem oder mehreren unabhängigen Merkmalen (z.b. Gewicht und PS) und einem abhängigen Merkmal (z.b. Verbrauch) Intuition:

Mehr

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit

Mehr

4.3 Hierarchisches Clustering

4.3 Hierarchisches Clustering 4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,

Mehr

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist 4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in

Mehr

3.5 Entscheidungsbäume

3.5 Entscheidungsbäume 3.5 Entscheidungsbäume Entscheidungsbäume (decision trees) sind diskriminative Verfahren zur Klassifikation in zwei oder mehr Klassen; unabhängige Merkmale der Datenpunkte können nominal, ordinal oder

Mehr

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation

Mehr

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta Multivariate Lineare Regression Christian Herta Oktober, 2013 1 von 34 Christian Herta Multivariate Lineare Regression Lernziele Multivariate Lineare Regression Konzepte des Maschinellen Lernens: Kostenfunktion

Mehr

6.2 Feed-Forward Netze

6.2 Feed-Forward Netze 6.2 Feed-Forward Netze Wir haben gesehen, dass wir mit neuronalen Netzen bestehend aus einer oder mehreren Schichten von Perzeptren beispielsweise logische Funktionen darstellen können Nun betrachten wir

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Rückblick Klassifikationsverfahren haben viele Anwendungen Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Konfusionsmatrix stellt Vorhersagen und Daten gegenüber

Mehr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) 6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung

Mehr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) 6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Least Absolute Shrinkage And Seletion Operator (LASSO)

Least Absolute Shrinkage And Seletion Operator (LASSO) Least Absolute Shrinkage And Seletion Operator (LASSO) Peter von Rohr 20 März 2017 Lineare Modell und Least Squares Als Ausgangspunkt haben wir das Lineare Modell und Least Squares y = Xβ + ɛ (1) ˆβ =

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Deskriptive Beschreibung linearer Zusammenhänge

Deskriptive Beschreibung linearer Zusammenhänge 9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017 10.1 Sommersemester 2017 Problemstellung Welche Gerade? Gegeben sind folgende Messungen: Masse (kg) 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Kraft (N) 1.6 2.2 3.2 3.0 4.9 5.7 7.1 7.3 8.1 Annahme: Es gibt eine Funktion

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap

Mehr

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion

Mehr

Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären?

Intuition: Wie lässt sich das abhängige Merkmal durch die unabhängigen Merkmale erklären? 3. Regression Motivation Regressionsanalysen modellieren den Zusammenhang zwischen einem oder mehreren unabhängigen Merkmalen (z.b. Gewicht und PS) und einem abhängigen Merkmal (z.b. Verbrauch) Intuition:

Mehr

Regularisierung (Shrinkage Methoden) Steve Finger

Regularisierung (Shrinkage Methoden) Steve Finger Regularisierung (Shrinkage Methoden) Steve Finger Inhalt 1. Motivation 2. Regularisierung 3. Vergleich der Shrinkage Methoden 4. Zusammenfassung 1. Motivation 1. Kleinste Quadrate Methode Lineare Regression:

Mehr

Modell Komplexität und Generalisierung

Modell Komplexität und Generalisierung Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung

Mehr

Statistisches Lernen

Statistisches Lernen Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Nichtlineare Klassifikatoren

Nichtlineare Klassifikatoren Nichtlineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 11 1 M. O. Franz 12.01.2008 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken, Häufige Mengen Nico Piatkowski und Uwe Ligges 09.05.2017 1 von 15 Überblick Was bisher geschah... Heute Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Vorlesung: Lineare Modelle

Vorlesung: Lineare Modelle Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen

Mehr

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2 Tom Schelthoff 30.11.2018 Inhaltsverzeichnis Deep Learning Seed-Stabilität Regularisierung Early Stopping Dropout Batch Normalization

Mehr

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Übersicht. Definition Daten Problemklassen Fehlerfunktionen Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Prof. Dr. Marc Gürtler WS 015/016 Prof. Dr. Marc Gürtler Klausur zur 10/1 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Lösungsskizze Prof. Dr. Marc Gürtler WS 015/016 Aufgabe 1: (11+5+1+8=56

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II Statistik II Regressionsrechnung+ Regressionsanalyse Statistik II - 16.06.2006 1 Regressionsrechnung Nichtlineare Ansätze In einigen Situation könnte man einen nichtlinearen Zusammenhang vermuten. Bekannte

Mehr

Marina Sedinkina Folien von Benjamin Roth Planen (CIS LMU andmünchen) Evaluieren von Machine Learning Experimenten 1 / 38

Marina Sedinkina Folien von Benjamin Roth Planen (CIS LMU andmünchen) Evaluieren von Machine Learning Experimenten 1 / 38 Planen and Evaluieren von Machine Learning Eperimenten Marina Sedinkina Folien von Benjamin Roth CIS LMU München Evaluieren von Machine Learning Eperimenten 1 / 38 Übersicht 1 Entwickeln von maschinellen

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Lineare Regression 2: Gute Vorhersagen

Lineare Regression 2: Gute Vorhersagen Lineare Regression 2: Gute Vorhersagen Markus Kalisch 23.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2,

Mehr

Grundlagen zu neuronalen Netzen. Kristina Tesch

Grundlagen zu neuronalen Netzen. Kristina Tesch Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 10. Vorlesung - 2018 Grundbegriffe der Statistik statistische Einheiten = Objekte an denen interessierende Größen erfaßt werden z.b. Bevölkerung einer Stadt; Schüler einer bestimmten Schule; Patienten

Mehr

Partialbruchzerlegung

Partialbruchzerlegung Partialbruchzerlegung Lucas Kunz 27. Januar 207 Inhaltsverzeichnis Theorie 2. Definition.................................... 2.2 Nullstellen höheren Grades........................... 2.3 Residuen-Formel................................

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Frequentisten und Bayesianer. Volker Tresp

Frequentisten und Bayesianer. Volker Tresp Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben

Mehr

x t2 y t = 160, y = 8, y y = 3400 t=1

x t2 y t = 160, y = 8, y y = 3400 t=1 Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =

Mehr

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit

Mehr

Lösungen zu Mathematik I/II

Lösungen zu Mathematik I/II Dr. A. Caspar ETH Zürich, Januar D BIOL, D CHAB Lösungen zu Mathematik I/II. ( Punkte) a) Wir benutzen L Hôpital lim x ln(x) L Hôpital x 3 = lim 3x + x L Hôpital = lim x ln(x) x 3x 3 = lim ln(x) x 3 x

Mehr

Musterlösung der Klausur vom 29. Juli 2003

Musterlösung der Klausur vom 29. Juli 2003 Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.

Mehr

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung Kernel, Perceptron, Regression Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-07-20 KDD Übung Kernel-Fukctionen Kernel kann mehrdeutig sein! Unterscheidet zwischen: Kernel function

Mehr

Optimierung. Optimierung. Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 1 Newton Verfahren Taylor Approximation 1. Ordnung von Newton Verfahren! 0 Setze 0und berechne Löse lineares Gleichungssystem für : 2

Mehr

A linear-regression analysis resulted in the following coefficients for the available training data

A linear-regression analysis resulted in the following coefficients for the available training data Machine Learning Name: Vorname: Prof. Dr.-Ing. Klaus Berberich Matrikel: Aufgabe 1 2 3 4 Punkte % % (Bonus) % (Gesamt) Problem 1 (5 Points) A linear-regression analysis resulted in the following coefficients

Mehr

Varianzkomponentenschätzung

Varianzkomponentenschätzung Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler

Mehr

Statistical Learning

Statistical Learning Statistical Learning M. Gruber KW 42 Rev.1 1 Neuronale Netze Wir folgen [1], Lec 10. Beginnen wir mit einem Beispiel. Beispiel 1 Wir konstruieren einen Klassifikator auf der Menge, dessen Wirkung man in

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode? Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2

Mehr

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr. Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;

Mehr

Einführung in die Induktive Statistik: Regressionsanalyse

Einführung in die Induktive Statistik: Regressionsanalyse Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse

Mehr

Inferenz im multiplen Regressionsmodell

Inferenz im multiplen Regressionsmodell 1 / 29 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 1 Ökonometrie I Michael Hauser 2 / 29 Inhalt Annahme normalverteilter Fehler Stichprobenverteilung des OLS Schätzers t-test und Konfidenzintervall

Mehr

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp Optimal-trennende Hyperebenen und die Support Vector Machine Volker Tresp 1 (Vapnik s) Optimal-trennende Hyperebenen (Optimal Separating Hyperplanes) Wir betrachten wieder einen linearen Klassifikator

Mehr

Nichtlineare Ausgleichsrechnung

Nichtlineare Ausgleichsrechnung 10. Großübung Nichtlineare Ausgleichsrechnung Allgemeines Problem: Wir betrachten ein nichtlineares System F : R n R m mit (m > n, d.h. das System ist überbestimmt und F i (x g(t i ; x g i! 0 i 1,.., m.

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression Drittvariablenkontrolle in der linearen Regression: Trivariate Regression 14. Januar 2002 In der Tabellenanalyse wird bei der Drittvariablenkontrolle für jede Ausprägung der Kontrollvariablen eine Partialtabelle

Mehr

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014 Universität des Saarlandes Lehrstab Statistik Dr. Martin Becker Dipl.-Kfm. Andreas Recktenwald 11. Übungsblatt zur Vorlesung Ökonometrie SS 2014 Aufgabe 45 Die in Aufgabe 43 getroffene Annahme heteroskedastischer

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

4.6 Berechnung von Eigenwerten

4.6 Berechnung von Eigenwerten 4.6 Berechnung von Eigenwerten Neben der Festlegung auf den betragsgrößten Eigenwert hat die Potenzmethode den Nachteil sehr langsamer Konvergenz, falls die Eigenwerte nicht hinreichend separiert sind.

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Informationen zur KLAUSUR am

Informationen zur KLAUSUR am Wiederholung und Fragen 1 Informationen zur KLAUSUR am 24.07.2009 Raum: 032, Zeit : 8:00 9:30 Uhr Bitte Lichtbildausweis mitbringen! (wird vor der Klausur kontrolliert) Erlaubte Hilfsmittel: Alle Unterlagen,

Mehr

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff. Vorlesung: Lineare Modelle Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München SoSe 205 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen.

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:

Mehr

y hom (x) = C e p(x) dx

y hom (x) = C e p(x) dx Gewöhnliche Differentialgleichungen F (x, y, y,..., y n ) = 0 Gleichung, die die Veränderliche x sowie die Funktion y = y(x) und ihre Ableitungen y,..., y n beinhaltet. Klassifiaktion: implizit F (...)

Mehr

Inhalt. Einleitung... XIII

Inhalt. Einleitung... XIII Inhalt Einleitung................................................. XIII 1 Vektoren, Matrizen und Arrays.................................. 1 1.0 Einführung.......................................... 1 1.1

Mehr

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h. Konvexe Menge Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, dh Kapitel Extrema konvex: h x + h y D für alle h [0, ], und x,

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern Biometrieübung 10 (lineare Regression) - Aufgabe Biometrieübung 10 Lineare Regression Aufgabe 1. Düngungsversuch In einem Düngeversuch mit k=9 Düngungsstufen x i erhielt man Erträge y i. Im (X, Y)- Koordinatensystem

Mehr

Zusammenfassung 11. Sara dos Reis.

Zusammenfassung 11. Sara dos Reis. Zusammenfassung 11 Sara dos Reis sdosreis@student.ethz.ch Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst mit dem R Commander A Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist

Mehr

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression. Woche 11: Multiple lineare Regression Patric Müller Teil XIII Multiple lineare Regression ETHZ WBL 17/19, 10.07.017 Wahrscheinlichkeit und Statistik Patric Müller WBL

Mehr

LUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN. 13. Übung/Lösung Mathematik für Studierende der Biologie

LUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN. 13. Übung/Lösung Mathematik für Studierende der Biologie LUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR BIOLOGIE Prof. Andreas Herz, Dr. Stefan Häusler email: haeusler@biologie.uni-muenchen.de Department Biologie II Telefon: 89-8-748 Großhadernerstr. Fax:

Mehr

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Übungen zur Analysis II Blatt 27 - Lösungen

Übungen zur Analysis II Blatt 27 - Lösungen Prof. Dr. Torsten Wedhorn SoSe 22 Daniel Wortmann Übungen zur Analysis II Blatt 27 - Lösungen Aufgabe 5: 6+6+6* Punkte Bestimme alle lokalen Extrema der folgenden Funktionen: a b c* f : R 3 R g : R 2 R

Mehr

Übungen zur Ingenieur-Mathematik III WS 2011/12 Blatt Aufgabe 25: Berechnen Sie den kritischen Punkt der Funktion

Übungen zur Ingenieur-Mathematik III WS 2011/12 Blatt Aufgabe 25: Berechnen Sie den kritischen Punkt der Funktion Übungen zur Ingenieur-Mathematik III WS 11/1 Blatt 8 3.11.11 Aufgabe 5: Berechnen Sie den kritischen Punkt der Funktion fx, y 3x 5xy y + 3 und entscheiden Sie, ob ein Maximum, Minimum oder Sattelpunkt

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/

Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/ Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/2018 06.12.2018 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN Nachname:...................................................................

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr