Moderne Methoden der Datenanalyse WS 2010/11

Ähnliche Dokumente
Data Mining: Einige Grundlagen aus der Stochastik

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Statistische Thermodynamik I Lösungen zur Serie 1

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Statistik I für Betriebswirte Vorlesung 5

Beispiel Zusammengesetzte Zufallsvariablen

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge


1.5 Folgerungen aus dem Kolmogoroff- Axiomensystem P( ) = 0.

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Informationsblatt Induktionsbeweis

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Physik 4, Übung 8, Prof. Förster

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Bauchgefühl oder kühle Berechnung Wer wird Fußball-Weltmeister 2014?

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Grammatiken. Einführung

Naive Bayes. 5. Dezember Naive Bayes 5. Dezember / 18

Das Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005

R ist freie Software und kann von der Website.

Tutorial: Homogenitätstest

Die Post hat eine Umfrage gemacht

Kapitel 3: Etwas Informationstheorie

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Algorithmische Kryptographie

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

Einführung in die Algebra

Fotios Filis. Monte-Carlo-Simulation

ALEMÃO. Text 1. Lernen, lernen, lernen

Primzahlen und RSA-Verschlüsselung

Mechanismus Design Auktionen

Ausarbeitung des Seminarvortrags zum Thema

MATHEMATIK 3 STUNDEN. DATUM: 8. Juni 2009

1 Mathematische Grundlagen

11. Rent-Seeking 117

Abituraufgabe zur Analysis, Hessen 2009, Grundkurs (TR)

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Approximation durch Taylorpolynome

Variationen Permutationen Kombinationen

Zählstatistik. Peter Appel. 31. Januar 2005

1.3 Die Beurteilung von Testleistungen

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

9. Schätzen und Testen bei unbekannter Varianz

QM: Prüfen -1- KN

Erfahrungen mit Hartz IV- Empfängern

Was meinen die Leute eigentlich mit: Grexit?

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Messung der Ausgangsspannung an einem FU

Info zum Zusammenhang von Auflösung und Genauigkeit

8.6.1 Erwartungswert eines beliebigen Operators O Beispiel: Erwartungswert des Impulses eines freien Teilchens

Monte-Carlo Simulation

7 Rechnen mit Polynomen

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Lichtbrechung an Linsen

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

IRF2000 Application Note Lösung von IP-Adresskonflikten bei zwei identischen Netzwerken

Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

Dazu gilt Folgendes: : Hier kannst du bis zum 6. Stich problemlos abwerfen und

Korrelation (II) Korrelation und Kausalität

Diana Lange. GENERATIVE GESTALTUNG Arten des Zufalls

Skalierung des Ausgangssignals

4. Versicherungsangebot

Vorkurs Mathematik Übungen zu Polynomgleichungen

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Dow Jones Future am im 1-min Chart. Mein Handelsereignis lautet: 3 tiefere Hoch s über dem 50-er GD

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Wir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden einander nicht.

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Was können Schüler anhand von Primzahltests über Mathematik lernen?

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

Wir machen neue Politik für Baden-Württemberg

Moderne Prognoseverfahren für optimiertes Disease Management

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

1 Zwei Teilchen in einem Kastenpotenzial

Berufsunfähigkeit? Da bin ich finanziell im Trockenen.

Repetitionsaufgaben Wurzelgleichungen

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Sollsaldo und Habensaldo

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

W-Rechnung und Statistik für Ingenieure Übung 11

Grundbegriffe der Informatik

Vorbemerkung. [disclaimer]

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Binäre abhängige Variablen

Physik 4, Übung 11, Prof. Förster

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Formale Methoden II. Gerhard Jäger. SS 2008 Universität Bielefeld. Teil 8, 11. Juni Formale Methoden II p.1/30

Lassen Sie den Konjunktiv zu Hause! Tipps für Gründerinnen im Finanzierungsgespräch. Prof. Dr. Heinz Klandt Dipl.-Psych.

Zeichen bei Zahlen entschlüsseln

WIE WIRKLICH IST DIE WIRKLICHKEIT WIE SCHNELL WERDEN SMART GRIDS WIRKLICH BENÖTIGT? DI Dr.techn. Thomas Karl Schuster Wien Energie Stromnetz GmbH

Catherina Lange, Heimbeiräte und Werkstatträte-Tagung, November

Transkript:

Moderne Methoden der Datenanalyse WS 2010/11 1 Übungen Moderne Methoden der Datenanalyse WS 2010/11 Dr. Anze Zupanc Tutoren: Bastian Kronenbitter, Markus Röhrken Donnerstags, 15.30 FE/6 http://www-ekp.physik.uni-karlsruhe.de/~zupanc/ws1011/ 2

Start Idee NeuroBayes Idee Hintergrund Ziele NeuroBayes f(t x) Beispiele Historie Anwendung Prinzip Funktion Beispiel Konkurrenz Projekt l Forschung Projekt ll Ablauf Spiel Summary A A B Belle-Experiment am japanische Forschungszentrum KEK: Sehr erfolgreiches Experiment, >400 Physiker aus aller Welt. >400 Veröffentlichungen. Beschleuniger hält Weltrekord an Luminosität. Ca. 1 Milliarde Ereignisse mit 2 B-Mesonen über 10 Jahre vermessen Prof. Dr. M. Feindt Stibo Systems NEXT Keynote München 7.10.2010 Daten jetzt mit neuer Software (NeuroBayes) reanalysiert (1042 Zerfallsketten mit 71 neuronalen Netzwerken, Entspricht mehreren 100 Doktorarbeiten) Effizienzsteigerung um +130% bei gleichem Untergrundlevel (entspricht ca. weiteren 10 Jahren Datennahme) Signal mit NeuroBayes Untergrund Signal (klassisches Verfahren)

Flexibilität: Arbeiten mit NeuroBayes erlaubt stufenlose Einstellung von Signalreinheit oder Effizienz. z.b. auch gleiche Signal-Effizienz: Unterdrückung des Untergrundes um ca. Faktor 10! Untergrund (klassisches Verfahren) Untergrund mit NeuroBayes Signal Erfolgreich im Wettbewerb mit anderen Data-Mining- Methoden

Ab 2009: neue Regeln: nur noch 2 Teams pro Universität und 2009 Aufgabe: Prognosen über den Buchumsatz von 8 Buchtiteln in 2500 Buchhandlungen. (Libri) Siegerteam : Uni Karlsruhe II (Studenten von Prof. Dr. M. Feindt, u.a. 2 Phi-T-Praktikanten) mit NeuroBayes -Unterstützung und 2010... Aufgabe: Optimierung von individuellen Kundenbindungsmaßnahmen in Online-Shop. (Libri) Siegerteam : KIT II (Studenten von Prof. Dr. M. Feindt, u.a. 2 Phi-T-Praktikanten) mit NeuroBayes -Unterstützung Historie Nach sehr vielen erfolgreichen Anwendungen in der Elementarteilchenphysik- Grundlagenforschung Potenzial von NeuroBayes für die Wirtschaft erkannt. High-Tech-Ausgründung aus Elite-Universität Karlsruhe nutzt und optimiert NeuroBayes für die Wirtschaft. 2000-2002 NeuroBayes -Spezialisierung für die Wirtschaft in Universität Karlsruhe 2002: Phi-T GmbH gegründet 2008: Gemeinsame Gründung der 50-50 Projektund Vertriebstochter Phi-T products&services mit dem OTTO-Konzern. Exklusivrechte an und Weiterentwicklung und Anwendungen von NeuroBayes. >35 Mitarbeiter, hauptsächlich promovierte Physiker.

Rechnernutzung in der Physik Statistische Methoden der Datenanalyse Einführung Wahrscheinlichkeit diskrete und kontinuierliche Verteilungen Beispiele 9 Statistische Methoden der Datenanalyse Literatur V. Blobel, E. Lohrmann Statistische und numerische Methoden der Datenanalyse, Teubner, Stuttgart 1998 G. Cowan Statistical Data Analysis, Clarendon, Oxford, 1998 R.J. Barlow Statistics, Wiley1989 D.S. Sivia Data Analysis A Bayesian Tutorial, Clarendon, Oxford 1996 +viele mehr, z.b. Brandt-Dahmen, Datenanaylse (recht mathematisch) 10

Statistik: Einführung Vorhersehbar Bei einfachen klassischen physikalischen Prozessen ist das Ergebnis exakt vorhersagbar (eine Ursache erzeugt eine eindeutige Wirkung, Determinismus) Beispiele hierfür sind: Pendel, Planetenbahnen, Billard, Elektromagnetismus 11 Statistik: Einführung Zufall Rein zufällige Ereignisse sind prinzipiell nicht vorhersagbar (auch bei genauer Kenntnis der Ausgangssituation!) Beispiele hierfür sind: Lottozahlen (Zu viele Einflussgrößen, deterministisches Chaos) radioaktiver Zerfall (Quantenmechanik) Elektronisches Rauschen Meßfehler 12

Statistik: Einführung Wahrscheinlichkeit Viele Systeme: Mischung aus vorhersagbarer Komponente und Zufallskomponente.! Wahrscheinlichkeitsaussage, Statistik. Extraktion der vorhersagbaren Komponente Bestimmung von Modell-Parametern aus Messdaten 13 Statistik: Einführung Quantenmechanik: Jedes Mal passiert etwas anderes! OPAL Experiment am LEP 14

Statistik: Einführung Experiment: Messe Häufigkeitsverteilungen 15 Statistik: Wahrscheinlichkeit Definition Wahrscheinlichkeit Frequentist-Wahrscheinlichkeit =,,objektive Definition für beliebig wiederholbare Ereignisse oder bei Vohandensein von Symmetrien anwendbar Bayes-Wahrscheinlichkeit =,,subjektive Definition auch für einmalige Ereignisse anwendbar Streit der Schulen zwischen Frequentisten und Bayesianern 16

Statistik: Wahrscheinlichkeit Definition Wahrscheinlichkeit 2 Frequentist-Definition von Wahrscheinlichkeit Kombinatorische Definition: Wenn ein Ereignis in n verschiedenen Arten auftreten kann, die alle gleiche Wahrscheinlichkeit haben, und wenn k Ereignisse davon die Eigenschaft A aufweisen, ist die Wahrscheinlichkeit für A: P(A) = k/n Empirische Definition: Eine Beobachtung ist unter identischen Bedingungen unabhängig voneinander n mal wiederholt. Wenn Eigenschaft A dabei k mal beobachtet wird, ist das Verhältnis k/n die empirische Wahrscheinlichkeit. Die Wahrscheinlichkeit P(A) wird definiert als der Grenzwert für unendlich viele Beobachtungen n. Beide Definitionen können kritisiert werden: Kombinatorisch: Schlange, die sich in den Schwanz beisst. Empirisch: Grenzwert kann in der Praxis nie erreicht werden. Viele Probleme: Experimente nicht wiederholbar 17 Statistik: Wahrscheinlichkeit Definition Wahrscheinlichkeit 3 Formale Definition von Wahrscheinlichkeit: Kolmogorov-Axiome (1931) Betrachte Elementarereignisse ei!" e i e j positiv additiv normiert 18

Statistik: Wahrscheinlichkeit Kombinationen von Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit, dass A wahr ist, wenn B wahr ist. A B!" 19 Statistik: Wahrscheinlichkeit Reverend Thomas Bayes (1702 1761) Wahrscheinlichkeit ist der Grad des Glaubens, dass ein Experiment ein bestimmtes Ergebnis haben wird. -Subjektive Wahrscheinlichkeit- (erfüllt Kolmogorov-Axiome!) Essay Towards Solving a Problem in the Doctrine of Chances (1763), posthum veröffentlicht in Philosophical Transactions of the Royal Society of London. 20

Statistik: Wahrscheinlichkeit Beispiele für Bayes-Wahrscheinlichkeit Frequenz-Aussagen oft nicht möglich. Dann ist Bayes- Interpretation die einzig mögliche: Wahrscheinlichkeit ist der Grad des Glaubens, dass eine Aussage zutrifft: Das Teilchen in diesem Ereignis ist ein Positron. Die Natur ist supersymmetrisch. Es wird morgen regnen. Deutschland wird 2008 Fussball-Europameister. Es hat am 8. März 1792 in Kairo geregnet. Oft kritisiert, weil,,subjektiv und,,unwissenschaftlich. Beruht jedoch auf einfacher Wahrscheinlichkeitsrechnung und ist, richtig angewendet, nicht im Widerspruch zu Frequentist-Ansatz. 21 Statistik: Wahrscheinlichkeit, Bayes' Theorem Bayes Theorem: Bedingte (conditional) Wahrscheinlichkeiten: Wegen gilt: Bayes Theorem 22

Statistik: Wahrscheinlichkeit, Bayes' Theorem (2) Besonders wichtig durch die Interpretation A=Theorie B=Daten Likelihood Prior Posterior Evidenz 23 Statistik: Wahrscheinlichkeit, Bayes' Theorem (3) Bsp: AIDS-Test Wahrscheinlichkeit in allgemeiner Bevölkerung: Ziemlich zuverlässiger AIDS-Test (Resultat + oder -): a priori-wissen Messung, Likelihoods Wie besorgt sollte man sein, wenn man ein positives Testresultat hat? d.h. wie groß ist (die a posteriori-) Wahrscheinlichkeit P(AIDS +)? 24

Statistik: Wahrscheinlichkeit, Bayes Theorem (4) Bsp.: AIDS-Test (2) Die Posterior-Wahrscheinlichkeit P(AIDS +) beträgt nur 3,2%! Warum? Wegen der kleinen Prior-Wahrscheinlichkeit von 0.01% und der nicht vernachlässigbaren Mißidentifikationswahrscheinlichkeit! Vorsicht: Prior nicht richtig, wenn man zu einer Risikogruppe gehört! 25 Statistik: Wahrscheinlichkeit, Bayes' Theorem (5) Bayes sche vs. klassische Statistik Klassische Statistik ist nur Sonderfall der Bayes-Statistik: Posterior Likelihood Prior Evidenz Maximieren der Likelihood statt der a posteriori-wahrscheinlichkeit heisst: Implizite Annahme, dass die Prior-Wahscheinlichkeit flach verteilt ist, d.h. jeder Wert ist gleich wahrscheinlich. Hört sich vernünftig an, ist aber falsch! Heisst nicht, dass man nichts weiss! 26

Statistik: Wahrscheinlichkeit, Bayes' Theorem (6) Nicht-informativer Prior 27 Statistik: Zufallsgrößen Diskrete Zufallszahlen 28

Statistik: Zufallsgrößen Wahrscheinlichkeitsdichte 29 Statistik: Zufallsgrößen Verteilungsfunktion 30

Statistik: Zufallsgrößen Erwartungswert und Varianz 31 Statistik: Zufallsgrößen Histogramme Häufigkeitsverteilung: Anzahl Ereignisse in endlichen Intervallen (Bins) PDF f(x) = Histogramm mit unendlicher Statistik, Binbreite Null, normiert auf Fläche 1 32