5.1 Einführung in die Klassifikation

Größe: px
Ab Seite anzeigen:

Download "5.1 Einführung in die Klassifikation"

Transkript

1 5.0 Einführung in Klassifikationsverfahren 5.1 Einführung In dieser Vorlesung werden wir zunächst Vertreter des überwachten Lernens kennen lernen. Warum interessiert man sich für eine Klassifikationsregel? Impliziert nicht die Existenz einer korrekten Klassenzuordnung, dass es irgendjemand, den sog. Supervisor, geben muss, der zu solch einer fehlerfreien Klassifizierung in der Lage ist? Die Folien sind hier ein Kompromiss zwischen Präsentationsfolien und ausführlichem Skript... Warum sollte man diese perfekte Klassifizierung durch eine Regel ersetzen, die möglicherweise noch nicht einmal vollständig fehlerfrei ist? Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Einführung 5.1 Einführung 5.1 Einführung Begriffe: Der Begriff der Klassifikation wird in der Literatur auf mindestens zwei unterschiedliche Weisen verwendet: 1 Für eine gegebene Menge von Beobachtungen ist es das Ziel, Klassen verschiedenartiger Objekte zu identifizieren. Man spricht in diesem Fall auch von unüberwachtem (unsupervised) Lernen oder Cluster-Analyse. 2 Auf der Grundlage einer bekannten Klasseneinteilung möchte man eine Klassifikationsregel finden, mit der eine neue Beobachtung einer der Klassen zugeordnet werden kann. Diesen Fall nennt man überwachtes (supervised) Lernen oder Diskrimination. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Dafür kann es mehrere Gründe geben: Automatische Klassifikationsmethoden sind schneller. Zum Beispiel können Maschinen zur Sortierung nach Postleitzahlen die große Masse von Briefen sehr schnell abarbeiten, so dass nur noch die schwierigen Fälle für den Menschen übrig bleiben. Ein menschlicher Supervisor hat Vorurteile. Zum Beispiel könnte eine automatische Methode zur Kreditvergabe sich ausschließlich auf ein formales Kriterium stützen, Menschen würden typischerweise auch andere (irrelevante?) Informationen mit einbeziehen. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

2 5.1 Einführung Der Supervisor konnte u.u. nur deshalb zu einer zuverlässigen Diagnose kommen, weil er auf in der Entscheidungssituation sonst nicht verfügbare Extra -Informationen zurückgreifen konnte. Zum Beispiel kann auch ein Arzt oft erst dann zuverlässig entscheiden, ob ein Eingriff notwendig war, nachdem dieser durchgeführt worden ist. Klassifikation ist ein Vorhersageproblem. Damit ergibt sich immer dann ein Problem, wenn der Supervisor bei der Klassifikation von neuen Fällen nicht zur Verfügung steht, wie zum Beispiel bei Börsengeschäften oder Investitionen. 5.1 Einführung Verständlichkeit: Diese ist nicht nur wichtig bei der operativen Umsetzung der Regel, sondern auch für ihre Akzeptanz. So empfahl im Störfall des Three-Mile Island Reaktors die Automatik tatsächlich ein Herunterfahren der Anlage, aber das Bedienpersonal entschied sich gegen die Empfehlung. Lernzeit: Die Regel sollte schnell erlernbar sein, d.h. nur wenige Beobachtungen sollten zu ihrer Konstruktion ausreichen. Dieses erlaubt Anpassungen aufgrund neuer Daten in realer Zeit, besonders in einer sich schnell ändernden Umgebung. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Einführung Was kennzeichnet gute Klassifikationsregeln? Genauigkeit, d.h. ihre Zuverlässigkeit, meistens repräsentiert durch den Anteil von korrekten Klassifikationen bzw. die sog. Fehlklassifikationsrate. Allerdings sind einzelne Fehler u. U. gravierender als andere. Deshalb kann es zweckmäßig sein, Fehler unterschiedlich zu gewichten. Geschwindigkeit der Anwendung: U.U. wird man eine Regel, die zu 90% richtig ist, einer Regel, die zu 95% richtig ist, vorziehen, wenn die erste Regel wesentlich schneller ist. Entsprechende Überlegungen sind bei obigem Postleitzahlenbeispiel oder bei der automatischen Fehlererkennung während eines Produktionsprozesses wichtig. 5.1 Einführung Besonders wichtig für die Bestimmung der Klassifikationsregel ist eine sinnvolle Definition der Klassen im Lerndatensatz. Dazu sind drei Methoden gebräuchlich, von denen allerdings nur die erste ideal ist. Die Klassen entsprechen Bezeichnungen für unterschiedliche Populationen, und die Zugehörigkeit zu ihnen ist klar und eindeutig, wie zum Beispiel bei Katzen und Hunden. Die Mitgliedschaft zu einer Population wird durch eine unabhängige Autorität (den Supervisor), losgelöst von jeglichen nachprüfbaren Kriterien festgelegt. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

3 5.1 Einführung Die Klassen ergeben sich aus einem Vorhersageproblem. Eine Klasse ist im Wesentlichen ein Ergebnis, das anhand der Werte von charakteristischen Variablen vorhergesagt werden soll. Statistisch gesehen ist die Klasse dann zufallsbehaftet. Typische Beispiele sind die Probleme, ob der Zinssatz steigen (Klasse = 1) oder fallen (Klasse = 0) wird, oder ob die konjunkturelle Lage sich ändern wird oder nicht. Hier folgt zunächst eine formale Definition des Klassifikationsproblems, so wie es hier untersucht wird: Definition Klassifikationsproblem Definition: Gegeben sei ein Lerndatensatz, bestehend aus n Beobachtungen (xi, yi), i = 1,..., n, wobei xi ein Vektor von p Elementen ist, xi = (xi1,..., xip), p = Anzahl Einflussfaktoren, und yi eine Klassenzuordnung, yi {1,..., G}, G = Anzahl Klassen. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Einführung Die Klassen sind durch eine Partition des Beobachtungsraums definiert, d.h. durch die gemessenen Attribute oder Variablen selbst. Die Klasse ist also eine Funktion der Variablen. Zum Beispiel wird ein Produkt als fehlerhaft klassifiziert, wenn eine oder mehrere seiner Eigenschaften außerhalb von vorgegebenen Grenzwerten, den sog. Spezifikationsgrenzen, liegen. Damit wurden die Objekte also schon mit Hilfe einer Regel auf der Basis der Variablen klassifiziert. Das Problem der Bestimmung einer Klassifikationsregel besteht dann lediglich darin, sie auf Grund des Lerndatensatzes möglichst gut zu reproduzieren. Viele Datensätze zur Kreditvergabe sind Beispiele für diese Problemstellung. Aus diesen Beobachtungen soll eine sog. Klassifikationsregel bestimmt werden, die einem beliebigen Vektor x R p von Einflussfaktoren eine Klasse y {1,..., G} zuordnet. Das Ziel ist die Bestimmung einer insofern optimalen Klassifikationsregel, dass die Fehlerwahrscheinlichkeit dieser Regel minimal ist, d.h. P(yRegel(x) ywahr(x)) min!, im Idealfall für jede beliebige Verteilung von x. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

4 5.3 Datenunabhängige Regeln 5.3 Datenunabhängige Regeln Zunächst wird nun eine einfache Klassifikationsmethode vorgestellt: Datenunabhängige Regeln. Der Grundgedanke dieser Methode wird intuitiv eingeführt und hinsichtlich der genannten Kriterien für Klassifikationsregeln diskutiert. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Wähle die Klasse nach der Wahrscheinlichkeit ihres Auftretens im Lerndatensatz. Natürlich hängen die Regeln 1 und 2 von Daten ab, aber nur von den Daten des Lerndatensatzes und nicht von der neuen, zu klassifizierenden Beobachtung. Wähle die Klasse gleichwahrscheinlich aus allen möglichen Klassen. Die 3. Regel sollte durch jede praktisch relevante Klassifikationsregel verbessert werden. Es gilt für diese Regel, dass bei zwei a-priori gleich wahrscheinlichen Klassen die Fehlerwahrscheinlichkeit 50% beträgt, bei drei Klassen 66%, etc. Da die Anwendung solcher Methoden sehr einfach und schnell ist, werden sie häufig für einen Vergleich mit anderen, aufwändigeren Methoden als Messlatte herangezogen. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Datenunabhängige Regeln 5.3 Datenunabhängige Regeln 5.3 Datenunabhängige Regeln Datenunabhängige Regeln: Die einfachsten Klassifikationsregeln sind (mindestens) insofern datenunabhängig, dass jegliche Information der zu klassifizierenden neuen Beobachtung bei der Klassenzuordnung ignoriert wird. 5.4 Wahl von Klassifikationsregeln: Kriterien Die bisherigen heuristischen Klassifikationsregeln werden nun in einen größeren Rahmen gestellt und allgemeine Kriterien zu ihrer Auswahl werden vorgestellt (vgl. Michie et al., 1994, 12 16). Beispiele für solche Regeln: Wähle stets die im Lerndatensatz am häufigsten auftretende Klasse. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

5 5.4 Wahl von Klassifikationsregeln: Kriterien Die Problemstellung wird gegenüber dem vorangegangenen Abschnitt durch explizite Berücksichtigung der Tatsache verallgemeinert, dass sich üblicherweise die Klassen hinsichtlich der folgenden Gesichtspunkte unterscheiden werden: relative Häufigkeiten, mit denen die Klassen in der Population auftreten, formal repräsentiert durch unterschiedliche a priori-wahrscheinlichkeiten der Klassen Fehlklassifikationskosten, d.h. unterschiedliche Kosten eines Fehlers bei der Klassifikation in den verschiedenen Klassen Den Fall einer unterschiedlichen Kovarianzstruktur der Klassen werden wir später betrachten. 5.4 Wahl von Klassifikationsregeln: Kriterien Definitionen: A priori-wahrscheinlichkeiten: Für die Klassen Ai, i = 1,..., G, wird πi die a priori-wahrscheinlichkeit der Klasse Ai genannt, wenn πi die Wahrscheinlichkeit für das Auftreten der Klasse Ai in der Gesamtpopulation ist, d.h. πi := P(Ai). Fehlklassifikationskosten werden für Paare von Klassen definiert: c(i, j) := Kosten der falschen Zuordnung einer Beobachtung aus Klasse i zu Klasse j. Optimalitätskriterium: Für die Wahl einer Klassifikationsregel erscheint es sinnvoll, von den gesamten Fehlklassifikationskosten für eine neue Beobachtung auszugehen, was äquivalent zur Minimierung der erwarteten Kosten ist. Kosten-minimale Regeln heißen auch Bayes-Regeln. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Wahl von Klassifikationsregeln: Kriterien Hier sollen zunächst a priori-wahrscheinlichkeiten und Fehlklassifikationskosten definiert, Optimalitätskriterien für Klassifikationsregeln eingeführt und daraus datenunabhängige und datenabhängige Regeln abgeleitet werden. Schließlich wird der Zusammenhang dieser theoretischen Regeln mit den praktischen Klassifikationsverfahren diskutiert. 5.5 Bayes-Regeln 5.5 Datenunabhängige Bayes-Regeln 5.5 Bayes-Regeln Die datenunabhängige Klassifikationsregel Ordne jeder neuen Beobachtung die Klasse Ak zu. ergibt die erwarteten Fehlklassifikationskosten: Ck = π1 c(1, k) πg c(g, k) (1) Eine datenunabhängige Bayes-Regel wählt diejenige Klasse Ak mit den kleinsten erwarteten Kosten Ck aus. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

6 5.5 Bayes-Regeln 5.5 Datenunabhängige Bayes-Regeln Im Fall identischer Kosten für alle Fehler ergibt sich die minimale Fehler-Regel. Unter Berücksichtigung von c(i, i) = 0 und c(i, j) = c mit i j erhält man für die erwarteten Kosten: Ck = c(1 πk). (2) Die minimale Kosten (= Fehler)-Regel ordnet dann immer die Klasse mit der größten a priori-wahrscheinlichkeit zu. 5.5 Bayes-Regeln Definitionen Datenabhängige Bayes-Regeln Wenn bei der Zuordnung der Klassen die Information aus der neuen Beobachtung genutzt werden soll, kann wie folgt vorgegangen werden: Wähle diejenige Klasse mit der höchsten bedingten Wahrscheinlichkeit, d.h. mit der höchsten Wahrscheinlichkeit, gegeben die Beobachtung x. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Bayes-Regeln 5.5 Datenunabhängige Bayes-Regeln Datenunabhängig die Klasse mit der größten a priori-wahrscheinlichkeit zu wählen, ist im Allg. also höchstens dann sinnvoll, wenn identische Fehlklassifikationskosten angenommen werden können. Leider sind Fehlklassifikationskosten meist sehr schwierig zu bestimmen selbst in Situationen, in denen es klar ist, dass große Ungleichheiten bei der Höhe der Kosten einer falschen Entscheidung bestehen. Quantifizierungen sind deshalb oft subjektiv, weswegen die Kosten in der Praxis häufig als identisch angenommen werden. 5.5 Bayes-Regeln Sei P(Ai x) = a-posteriori Wahrscheinlichkeit der Klasse Ai, gegeben x, dann suchen wir nach derjenigen Klasse Ak mit der höchsten Wahrscheinlichkeit P(Ak x) = max P(Ai x). i Im Fall von unterschiedlichen Fehlspezifikationskosten wird stattdessen die folgende Kostenfunktion minimiert: Ci = c(1, i)p(a1 x) c(g, i)p(ag x). Im Fall von identischen Kosten c gilt: Ci = c(1 P(Ai x)), also ist P(Ai x) zu maximieren. Beispiele: Flugzeug, Krankheit Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

7 5.5 Bayes-Regeln Um P(Ai x) zu bestimmen, verwenden wir das Bayes Theorem. Damit gilt: πi P(x Ai) P(Ai x) = πj P(x Aj), j d.h. wir können P(Ai x) ausdrücken als Funktion der a priori-wahrscheinlichkeiten πi der Klassen Ai und der Wahrscheinlichkeiten P(x Ai) von x, gegeben eine der Klassen. Da der Nenner für alle Klassen gleich ist, ist P(Ai x) proportional zu πip(x Ai). Damit wird diejenige Klasse Ak ausgewählt, für die die folgenden Kosten minimal sind: Ck = π1 c(1, k)p(x A1) πg c(g, k)p(x Ag ). 5.5 Bayes-Regeln Problem: Leider benötigt man zur Anwendung von Bayes-Regeln nicht nur die Fehlklassifikationskosten (die wir im Folgenden als identisch unterstellen), sondern auch die a-priori-wahrscheinlichkeiten der Klassen und die Wahrscheinlichkeitsverteilungen der Beobachtungen für die einzelnen Klassen. Lösung: In der Praxis werden, wenn nur eine beschränkte Anzahl von Beobachtungen für die Klassen vorliegt, unterschiedliche Wege beschritten, um die Bayes-Regel trotzdem anwenden zu können: Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Bayes-Regeln Im Fall von stetigen Verteilungen lassen sich die Wahrscheinlichkeiten P(x Ai) als Dichten fi(x) schreiben. Dann ergibt sich als Bayes Regel zur Unterscheidung von zwei Klassen A1 und A2 (G = 2) unter Ausnutzung von c(1, 1) = c(2, 2) = 0: Wähle Klasse 1, wenn gilt: π2 c(2, 1)f2(x) < π1 c(1, 2)f1(x) f1(x) π2 c(2, 1) > f2(x) π1 c(1, 2). Im Fall von identischen a-priori-wahrscheinlichkeiten und identischen Kosten ergibt sich daraus die einfachere Regel: Wähle Klasse 1, wenn f1(x) > f2(x), d.h. wenn die Beobachtung x unter Klasse 1 die größere Wahrscheinlichkeit hat als unter Klasse Bayes-Regeln Empirische Bayes-Methode: Man verwendet die Bayes-Regel mit empirischen Häufigkeiten für die a priori-wahrscheinlichkeiten der Klassen und die Wahrscheinlichkeit der Beobachtungen in den einzelnen Klassen. Um auf diese Weise eine verlässliche Regel zu erhalten, sind aber leider sehr viele Beobachtungen notwendig. Man sammelt alle Beobachtungen im Lerndatensatz mit genau denselben Beobachtungswerten wie bei dem zu klassifizierenden Vektor und wählt diejenige Klasse mit der größten Häufigkeit, d.h. für die P(Ai x) unter diesen Beispielen am höchsten ist. Leider fehlen u.u. Lerndaten mit den gewünschten Eigenschaften. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

8 5.5 Bayes-Regeln Deshalb sucht man eine approximative Bayes Regel, indem nicht nur Beispiele mit exakt denselben Attributwerten herangezogen werden, sondern auch solche mit (in einem vorgegebenen Sinn) ähnlichen. Solche Methoden heißen auch Methoden der nächsten Nachbarn (knn-methoden). Man ersetzt die fehlende Verteilungsinformation durch parametrische oder nicht-parametrische Annahmen: Parametrische Annahmen betreffen die Verteilungsklasse (zum Beispiel Verwendung von Normalverteilungen), und das Problem wird reduziert auf das Schätzen der unbekannten Parameter der Verteilungen in der vorgegebenen Klasse. Nicht-parametrische Methoden machen keine Annahmen über die Verteilungen und werden deshalb auch, vielleicht genauer, verteilungsfreie Methoden genannt. Beispiel/Vorgriff: Bei der (linearen) Diskriminanzanalyse werden parametrische Annahmen über die Verteilungen innerhalb der Klassen gemacht. 5.6 Naive Bayes Methode 5.6 Naive Bayes Methode Eine Methode ist die empirische Bayes-Methode. Um auf diese Weise eine verlässliche Regel zu erhalten, sind aber sehr viele Beobachtungen notwendig. Die Naive Bayes-Methode verwendet deshalb eine naive Annahme, um doch noch zu einigermaßen verlässlichen Schätzungen der Wahrscheinlichkeiten P((x1,..., xp) Ai) zu kommen. Annahme: Die bedingten Wahrscheinlichkeiten der einzelnen Variablen, gegeben die Klasse Ai, sind voneinander unabhängig, d.h. P((x1,..., xp) Ai) = P(x1 Ai)... P(xp Ai). Damit können die Wahrscheinlichkeiten der einzelnen Variablen einzeln betrachtet werden, und die Häufigkeit gleicher Ausprägungen in derselben Klasse wächst. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Naive Bayes Methode 5.6 Naive Bayes Methode 5.6 Naive Bayes Methode Es werden in der Praxis unterschiedliche Wege beschritten, um die Bayes-Regel anzuwenden, wenn nur eine beschränkte Anzahl von Beobachtungen für die Klassen vorliegt, obwohl die a-priori-wahrscheinlichkeiten der Klassen und die Wahrscheinlichkeitsverteilungen der multivariaten (!) Beobachtungen P((x1,..., xp) Ai) für die einzelnen Klassen im Allg. bei der Analyse nicht vorliegen. 5.6 Naive Bayes Methode 5.6 Naive Bayes Methode Das Verfahren ist nur dann verlässlich, wenn die Annahme einigermaßen gerechtfertigt ist. Metrische Variable werden entweder diskretisiert und es wird mit den Klassen weitergearbeitet, oder es wird eine Verteilungsannahme getroffen (typischerweise Normalverteilung). Fehlende Werte stellen kein Problem dar, denn sie werden bei der Berechnung der Häufigkeiten ignoriert. Das Verfahren ist offensichtlich nicht eindeutig definiert und es gibt in der Praxis Implementierungen verschiedener abgeleiteter Algorithmen. z.b. in R: Funktion naivebayes() in Paket e1071 oder Funktion NaiveBayes() in Paket klar. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

9 5.7 Literatur 5.7 Literatur Klassifikationsverfahren 5.7 Literatur Hastie, T.J., Tibshirani, R.J. und Friedman, J. (2001): The Elements of Statistical Learning. Data Mining Inference and Prediction. Springer, New York. Michie, D., Spiegelhalter, D.J. und Taylor, C.C. (1994): Machine Learning, Neural and Statistical Classification. Ellis Horwood, New York. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

CLINICAL DECISION SUPPORT SYSTEMS

CLINICAL DECISION SUPPORT SYSTEMS CLINICAL DECISION SUPPORT SYSTEMS INHALTSVERZEICHNIS 1/2 Diagnosefindung Prävention Medikamente (Auswahl, Dosierung etc.) INHALTSVERZEICHNIS 2/2 Supervised, Unsupervised Bayes-Netzwerke Neuronale Netze

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Optimalitätskriterien

Optimalitätskriterien Kapitel 4 Optimalitätskriterien Als Optimalitätskriterien bezeichnet man notwendige oder hinreichende Bedingungen dafür, dass ein x 0 Ω R n Lösung eines Optimierungsproblems ist. Diese Kriterien besitzen

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

Extrema von Funktionen in zwei Variablen

Extrema von Funktionen in zwei Variablen Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen in zwei Variablen Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen Kapitel ML: I I. Einführung Beispiele für Lernaufgaben Spezifikation von Lernproblemen ML: I-8 Introduction c STEIN/LETTMANN 2005-2010 Beispiele für Lernaufgaben Autoeinkaufsberater Welche Kriterien liegen

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln

Mehr

Repetitorium zum Staatsexamen für Lehramtsstudenten. Informationswirtschaft & Planung und Entscheidung 30.05.2014 NB-201. Sommersemester 2014

Repetitorium zum Staatsexamen für Lehramtsstudenten. Informationswirtschaft & Planung und Entscheidung 30.05.2014 NB-201. Sommersemester 2014 Sommersemester 2014 Repetitorium zum Staatsexamen für Lehramtsstudenten Informationswirtschaft & Planung und Entscheidung 30.05.2014 NB-201 Lehrstuhl für ABWL und Wirtschaftsinformatik Prof. Dr. Alexandros

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

IV. Spieltheorie. H. Weber, FHW, OR SS07, Teil 7, Seite 1

IV. Spieltheorie. H. Weber, FHW, OR SS07, Teil 7, Seite 1 IV. Spieltheorie 1. Gegenstand der Spieltheorie 2. Einführung in Matrixspiele 3. Strategien bei Matrixspielen 4. Weitere Beispiele 5. Mögliche Erweiterungen H. Weber, FHW, OR SS07, Teil 7, Seite 1 1. Gegenstand

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Vorlesung. Funktionen/Abbildungen 1

Vorlesung. Funktionen/Abbildungen 1 Vorlesung Funktionen/Abbildungen 1 1 Grundlagen Hinweis: In dieser Vorlesung werden Funktionen und Abbildungen synonym verwendet. In der Schule wird eine Funktion häufig als eindeutige Zuordnung definiert.

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Automatische Mustererkennung

Automatische Mustererkennung Automatische Mustererkennung Eine Einführung Eine Präsentation von Valentin Kraft Im Modul Digitale Bildverarbeitung Prof. Vogel FH Düsseldorf WS 12/13 Gliederung Anwendungsgebiete / Definition Ziele Zentrales

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Beispiel 11.2. Wenn p ein Polynom vom Grad größer gleich 1 ist, ist q : C Ĉ definiert durch q (z) =

Beispiel 11.2. Wenn p ein Polynom vom Grad größer gleich 1 ist, ist q : C Ĉ definiert durch q (z) = Funktionentheorie, Woche Funktionen und Polstellen. Meromorphe Funktionen Definition.. Sei U C offen und sei f : U gilt, nennt man f meromorph auf U: Ĉ eine Funktion. Wenn folgendes. P := f hat keine Häufungspunkte;.

Mehr

PROSEMINAR ONLINE ALGORITHMEN

PROSEMINAR ONLINE ALGORITHMEN PROSEMINAR ONLINE ALGORITHMEN im Wintersemester 2000/2001 Prof. Dr. Rolf Klein, Dr. Elmar Langetepe, Dipl. Inform. Thomas Kamphans (Betreuer) Vortrag vom 15.11.2000 von Jan Schmitt Thema : Finden eines

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Algorithms for Regression and Classification

Algorithms for Regression and Classification Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Über statistische Probleme bei der Analyse von Daten aus dem Bereich der Kraftfahrzeugversicherung

Über statistische Probleme bei der Analyse von Daten aus dem Bereich der Kraftfahrzeugversicherung Statistik Über statistische Probleme bei der Analyse von Daten aus dem Bereich der Kraftfahrzeugversicherung Andreas Christmann Universität Dortmund Fachbereich Statistik 44221 Dortmund christmann@statistik.uni-dortmund.de

Mehr

Prof. Dr. H. Rommelfanger: Entscheidungstheorie, Kapitel 3 38

Prof. Dr. H. Rommelfanger: Entscheidungstheorie, Kapitel 3 38 Prof. Dr. H. Rommelfanger: Entscheidungstheorie, Kapitel 3 38 Offene Fragen Warum ist ein ET bereit, für eine Feuerversicherung mit einer Versicherungshöhe von 1 Million und einer Jahreseintrittswahrscheinlichkeit

Mehr

Computerlinguistische Textanalyse

Computerlinguistische Textanalyse Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller

Mehr

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN Karlsruhe, April 2015 Verwendung dichte-basierter Teilrouten Stellen Sie sich vor, in einem belebten Gebäude,

Mehr

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und β-fehler? Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de

Mehr

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen

Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen Referat von Guido RECKE Institut für Agrarökonomie der Georg-August-Universität Göttingen Platz der Göttinger Sieben

Mehr

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Einfaches Datenmanagement in R

Einfaches Datenmanagement in R Einfaches Datenmanagement in R Achim Zeileis 2009-02-20 1 Daten einlesen Datensätze werden in R typischerweise als Objekte der Klasse "data.frame" dargestellt. In diesen entsprechen die Zeilen den Beobachtungen

Mehr

4 Greedy-Algorithmen (gierige Algorithmen)

4 Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine

Mehr

Kapitel 4: Analyse von Petrinetzen

Kapitel 4: Analyse von Petrinetzen Kapitel 4: Analyse von Petrinetzen 1. Beispiele 2. Analyseansatz 3. Markierungsgraph 4. Beschränktheit 5. State Space Explosion: Beispiel 6. Komplementbildung 7. Zusammenhängend 8. Tot, lebendig, verklemmungsfrei

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Seminar Visual Analytics and Visual Data Mining

Seminar Visual Analytics and Visual Data Mining Seminar Visual Analytics and Visual Data Mining Dozenten:, AG Visual Computing Steffen Oeltze, AG Visualisierung Organisatorisches Seminar für Diplom und Bachelor-Studenten (max. 18) (leider nicht für

Mehr

Februar 06 Uni Basel Seminar Künstliche Intelligenz Stefan Pauwels Emotion Recognition :-)

Februar 06 Uni Basel Seminar Künstliche Intelligenz Stefan Pauwels Emotion Recognition :-) Emotion Recognition :-) Themenüberblick Emotionen Emotion Recognition Speech Facial Expression Mulitmodal Emotion Recognition Integrationsmöglichkeiten der zwei Kanäle Emotionen: Grundlagen Konsens in

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Universität Ulm Seminararbeit zum Thema Data Mining und Statistik: Gemeinsamkeiten und Unterschiede vorgelegt von: Daniel Meschenmoser betreut von: Dr. Tomas Hrycej Dr. Matthias Grabert Ulm, im Februar

Mehr

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch 1 2 - Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch Badewannenkurve. -mit der Badewannenkurve lässt

Mehr

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell:

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung 1 Einleitung 1.1 Motivation und Zielsetzung der Untersuchung Obgleich Tourenplanungsprobleme zu den am häufigsten untersuchten Problemstellungen des Operations Research zählen, konzentriert sich der Großteil

Mehr

9 Diskriminanzanalyse

9 Diskriminanzanalyse 9 Diskriminanzanalyse 9.1 Problemstellung Ziel einer Diskriminanzanalyse: Bereits bekannte Objektgruppen (Klassen/Cluster) anhand ihrer Merkmale charakterisieren und unterscheiden sowie neue Objekte in

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Medizinische Statistik Epidemiologie und χ 2 Vierfeldertest

Medizinische Statistik Epidemiologie und χ 2 Vierfeldertest Universität Wien Institut für Mathematik Wintersemester 2009/2010 Medizinische Statistik Epidemiologie und χ 2 Vierfeldertest Seminar Angewandte Mathematik Ao. Univ. Prof. Dr. Peter Schmitt von Nadja Reiterer

Mehr

Machine Learning - Maschinen besser als das menschliche Gehirn?

Machine Learning - Maschinen besser als das menschliche Gehirn? Machine Learning - Maschinen besser als das menschliche Gehirn? Seminar Big Data Science Tobias Stähle 23. Mai 2014 KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É.

Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É. Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É. Tardos Janick Martinez Esturo jmartine@techfak.uni-bielefeld.de xx.08.2007 Sommerakademie Görlitz Arbeitsgruppe 5 Gliederung

Mehr

Extremwertverteilungen

Extremwertverteilungen Seminar Statistik Institut für Stochastik 12. Februar 2009 Gliederung 1 Grenzwertwahrscheinlichkeiten 2 3 MDA Fréchet MDA Weibull MDA Gumbel 4 5 6 Darstellung von multivariaten, max-stabilen Verteilungsfunktionen

Mehr

Programmiertechnik II

Programmiertechnik II Analyse von Algorithmen Algorithmenentwurf Algorithmen sind oft Teil einer größeren Anwendung operieren auf Daten der Anwendung, sollen aber unabhängig von konkreten Typen sein Darstellung der Algorithmen

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

OPERATIONS-RESEARCH (OR)

OPERATIONS-RESEARCH (OR) OPERATIONS-RESEARCH (OR) Man versteht darunter die Anwendung mathematischer Methoden und Modelle zur Vorbereitung optimaler Entscheidungen bei einem Unternehmen. Andere deutsche und englische Bezeichnungen:

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Gibt es verschiedene Arten unendlich? Dieter Wolke

Gibt es verschiedene Arten unendlich? Dieter Wolke Gibt es verschiedene Arten unendlich? Dieter Wolke 1 Zuerst zum Gebrauch des Wortes unendlich Es wird in der Mathematik in zwei unterschiedlichen Bedeutungen benutzt Erstens im Zusammenhang mit Funktionen

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

PR Statistische Genetik und Bioinformatik

PR Statistische Genetik und Bioinformatik PR Statistische Genetik und Bioinformatik Johanna Bertl Institut für Statistik und OR, Universität Wien Oskar-Morgenstern-Platz 1/6.344, 1090 Wien, Tel.: 01-4277-38617 johanna.bertl@univie.ac.at, homepage.univie.ac.at/johanna.bertl

Mehr

Entwicklungsperspektiven für Klassifikationssysteme: Pflegebedarf im Saarland PiSaar

Entwicklungsperspektiven für Klassifikationssysteme: Pflegebedarf im Saarland PiSaar Entwicklungsperspektiven für Klassifikationssysteme: Pflegebedarf im Saarland PiSaar Univ.-Prof. Dr. Albert Brühl Anja Hagel Katarina Planer Lehrstuhl Statistik und standardisierte Methoden Philosophisch-theologische

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler

Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler Wintersemester 3/4 (.3.4). (a) Für z = + i und z = 3 4i berechne man z z und z z. Die Ergebnisse sind in kartesischer Form anzugeben.

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems GMDS-Tagung 2006 Bioinformatik 1 Assessing the stability of unsupervised learning results in small-sample-size problems Ulrich Möller Email: Ulrich.Moeller@hki-jena.de Leibniz Institute for Natural Product

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis Historische Aspekte Data Mining als Teildisziplin

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Vorlesung. Informationsökonomik und die Theorie der Firma

Vorlesung. Informationsökonomik und die Theorie der Firma Vorlesung Informationsökonomik und die Theorie der Firma Ulrich Schwalbe Universität Hohenheim 5. Vorlesung 28.11.2007 Ulrich Schwalbe (Universität Hohenheim) Informationsökonomik 5. Vorlesung 28.11.2007

Mehr

Kapitel 6. Komplexität von Algorithmen. Xiaoyi Jiang Informatik I Grundlagen der Programmierung

Kapitel 6. Komplexität von Algorithmen. Xiaoyi Jiang Informatik I Grundlagen der Programmierung Kapitel 6 Komplexität von Algorithmen 1 6.1 Beurteilung von Algorithmen I.d.R. existieren viele Algorithmen, um dieselbe Funktion zu realisieren. Welche Algorithmen sind die besseren? Betrachtung nicht-funktionaler

Mehr

Einführung. Kapitel 1. Peter Becker (H-BRS) Operations Research I Sommersemester 2015 14 / 298

Einführung. Kapitel 1. Peter Becker (H-BRS) Operations Research I Sommersemester 2015 14 / 298 Kapitel 1 Einführung Peter Becker (H-BRS) Operations Research I Sommersemester 2015 14 / 298 Inhalt Inhalt 1 Einführung Was ist Operations Research? Planungsprozess im OR Peter Becker (H-BRS) Operations

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Thema: Bootstrap-Methoden für die Regressionsanalyse. Bachelorarbeit. im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden

Thema: Bootstrap-Methoden für die Regressionsanalyse. Bachelorarbeit. im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden Westfälische Wilhelms-Universität Münster Thema: Bootstrap-Methoden für die Regressionsanalyse Bachelorarbeit im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden Themensteller: Prof.

Mehr