Data-Mining: Ausgewählte Verfahren und Werkzeuge

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Data-Mining: Ausgewählte Verfahren und Werkzeuge"

Transkript

1 Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

2 Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 2 von 29

3 Gliederung 1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur 1.2 Meine Klassifikation Statistische Verfahren Maschinelles Lernen 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 3 von 29

4 1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur a. Nach Otte, Otte und Kaiser DataMining für die industrielle Praxis : Folie 4 von 29

5 1. Einordnung der Data-Mining-Verfahren b. Nach Krahl, Windheuser und Zick Data Mining Einsatz in der Praxis : Folie 5 von 29

6 1. Einordnung der Data-Mining-Verfahren 1.2 Meine Klassifikation: Data- Mining Statistische Verfahren maschinelles Lernen Prüfende Verfahren Entdeckende Verfahren Unüberwachtes Lernen Überwachtes Lernen Regression Korrelationsanal. Entscheidungsbäume Assoziation Diskriminanzanal. Faktoranalyse k-means Clustering k-nächste-nachbarn Varianzanalyse Clusteranalyse usw. usw. Kontingenzanalyse Folie 6 von 29

7 1. Einordnung der Data-Mining-Verfahren Statistische Verfahren: a. Prüfende Analyseverfahren: -Um die genaue Regel herauszufinden -Verfahren für verschiedene Wertebereiche der unabhängigen Variablen: Regressionsanalyse und Diskriminanzanalyse: metrisch (Zahlen, Vergleiche) Varianzanalyse und Kontingenzanalyse : nominal (Aufzählungen) - hier betrachtet: lineare Regressionsanalyse b. Entdeckende Analyseverfahren: -Abhängigkeit testen (Korrelationsanalyse) -Reduzierung von Variablen (Faktoranalyse) -Gruppierung (Clusteranalyse) -hier betrachtet: lineare Korrelationsanalyse Folie 7 von 29

8 1. Einordnung der Data-Mining-Verfahren Maschinelles Lernen a. Überwachtes Lernen z.b.: Klassifikation -basiert auf einem Klassifikator Ein Klassifikator ist ein System, welches Objekte in vorgegebene Kategorie eingeordnet. (Quelle: Krahl, Windheuser und Zick Data Mining Einsatz in der Praxis ) -Verfahren: neuronale Netze, Entscheidungsbäume, Regelinduktion, k nächste Nachbarn usw. -hier betrachtet: k nächste Nachbarn b. Unüberwachtes Lernen -Entdeckung interessanter Strukturen in einem noch unstrukturierten Datenbestand -Verfahren: Assoziationen, neuronale Netze, demographisches Clustern, k-means-clustering usw. -hier betrachtet: k-means-clustering Folie 8 von 29

9 Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 2.1 Korrelationsanalyse 2.2 Regressionsanalyse 2.3 k nächste Nachbarn 2.4 k-means-clustering 2.5 Vergleich 3. Data-Mining- 4. Zusammenfassung Folie 9 von 29

10 2. Data-Mining-Verfahren 2.1 Lineare Korrelationsanalyse: a. Ziel: Untersuchung der Zusammenhänge zwischen Zufallsvariablen anhand einer Stichprobe. b. Korrelationskoeffizient r und Bestimmtheitsmaß r 2 - r und r 2 sind Parameter zum Test der linearen Abhängigkeit. - Für den Korrelationskoeffizient r der Merkmale (Zufallsvariablen) x und y gilt: Wertebreich: Ein Beispiel werde ich nach der Vorstellung der linearen Regressionsanalyse angeben. Folie 10 von 29

11 2. Data-Mining-Verfahren 2.2 Lineare Regressionsanalyse: a. Ziel: Bestimmung eines Modells für die Abhängigkeit zwischen Zufallsvariablen x und y. b. Parameter: y = a + b * x a, b : zu berechnende Parameter x, y : Zufallsvariablen c. Berechnung der Parameter a und b: 1.Testen mit der lin. Korrelationsanalyse, ob x und y linear abhängig sind. 2.Berechnung der Parameter a und b : Folie 11 von 29

12 2. Data-Mining-Verfahren Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse: Aufgabe: x y Folie 12 von 29

13 2. Data-Mining-Verfahren Folie 13 von 29

14 2. Data-Mining-Verfahren 2.3 k nächste Nachbarn: a.ziel : Klassifizieren von Daten mit Hilfe eines Modells b. Idee : Zuordnung analog der k nächsten Nachbarn. Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis c.schritte: 1. Bestimmung des Parameters k (Anzahl der zu betrachtenden Nachbarn) 2. Berechnung der Distanz zwi. zu klassifizierendem Objekt und allen Daten. 3. Sortieren dieser Distanzen. 4. Auswahl der ersten k Daten Finden der Gruppe,zu der die meisten Daten gehören. 5. Das zu klassifizierende Objekt gehört zu dieser Gruppe. Folie 14 von 29

15 2. Data-Mining-Verfahren d. Beispiel: (Quelle: Kardi Teknomo KNN Numerical Example ) -Aufgabe: Eine Fabrik produziert Papier. Mittels einer Umfrage hat sie eine Gruppierung der derzeitigen Produkte gemacht. Jetzt produziert sie ein neues Papier und möchte dieses Produkt klassifizieren. -Input: Daten (Gruppierung der alten Produkten): Zu klassifizierendes Objekt (neues Produkt) : X1 = 3, X2 = 7 (3,7) Folie 15 von 29

16 2. Data-Mining-Verfahren -Klassifizierung mit KNN: 1.wähle k = 3 2.Berechnung der Distanz zwi. zu klassifizierendes Objekt und die Daten 3. Sortieren dieser Distanzen und finden 3 nähesten Daten Folie 16 von 29

17 2. Data-Mining-Verfahren 4. Finden der Gruppe, zu der die meisten 3 nähesten Daten gehören. Das zu klassifizierendes Objekt hat 2 Nachbarn, die zu Good Gruppe gehören, und 1 Nachbar, der zu Bad Gruppe gehört. Deswegen gehört das zu klassifizierende Objekt zu der Gruppe Good. - Output: X1=3, X2=7, Y=Good (3,7,Good) Folie 17 von 29

18 2. Data-Mining-Verfahren 2.4 k-means-clustering: a. Ziel : Klassifizierung der Daten ohne vorhandenes Modell b. Idee : Vergleich des Datenbestandes mit ausgewählten Repräsentanten c. Schritte: 1.Auswahl von k Repräsentanten. Diese Repräsentanten sollten möglichst repräsentativ sein. Iter. 2.Zuordnung der Objekten. Ordnen Objekte mit großer Ähnlichkeit den Repräsentanten zu. 3.Anpassung der Repräsentanten Vergleich der Repräsentanten und Objekte, dann ggf. Auswahl besserer Repräsentanten. Folie 18 von 29

19 2. Data-Mining-Verfahren d.beispiel: Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis Folie 19 von 29

20 2. Data-Mining-Verfahren 2.5 Vergleich: a. lin. Regression und lin. Korrelation: -Häufig benutzt in vielen Bereichen (z.b.: Signalverarbeitung) -Beschränkungen ist auch deutlich (z.b.: die Kurve) -Es gibt noch Multiple Regression. b. k nächste Nachbarn: -Einfach zu implementieren -Aber man muss ein schon klassifiziertes Modell haben. -Bestimmung von k nach Erfahrungen. c. k-means-clustering: -Das am längsten eingesetzte Verfahren zur Segmentierung. (Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis ) -Viele Abwandlungen und Variationen -Problem: die Bestimmung von k ist schwer. -Um optimale k zu bekommen mehrere Durchläufe Folie 20 von 29

21 Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 3.1 Allgemein 3.2 RapidMiner 3.3 Knime 3.4 Gait-CAD 3.5 Vergleich 4. Zusammenfassung Folie 21 von 29

22 3.Data-Mining- 3.1 Allgemein: -Auswahl kommerzieller Data-Mining- (teilweise nicht weiterentwickelt): Data Cockpit (DeltaMaster) Knowledge Studio NeuroModel Enterprise 6 D-Miner IBM Intelligent Miner Polyanalyst von Metaputer DataEngine von MIT SAS Enterprise Miner SPSS Clementine -Auswahl hier betrachteter freier Data-Mining-: Rapidminer (1. Platz bei KDNuggets) Knime (4. Platz bei KDNuggets) Gait-CAD Folie 22 von 29

23 3.Data-Mining- 3.2 RapidMiner: -Ein Data-Mining-Tool von RAPID-I in Dortmund (vorher YALE genannt, Uni Dortmund) -Java-Applikation (plattformunabhängig), weka-kompatibel weka : Waikato Environment for Knowledge Analysis -Community-Version ist kostenlos -ca. 150 unterstützte Verfahren: Entscheidungsbäume und Regellerner Lazy Learners Bayes'sche Lerner Logistische Lerner Gauss'sche Prozesse Meta Learning Association Rule Mining Clustering und mehr Folie 23 von 29

24 3.Data-Mining- 3.3 KNIME: -Ein Data-Mining-Tool von der Universität Konstanz -Eine Eclipse-RCP-Anwendung, weka-kompatibel weka : Waikato Environment for Knowledge Analysis -Base Version ist kostenlos -ca. 100 bis 150 unterstützte Verfahren für data I/O, preprocessing, cleansing, modelling, analysis und data mining, various interactive views usw. - API, d.h.: Man kann eigene Programm darauf schreiben. Folie 24 von 29

25 3.Data-Mining- 3.4 Gait-CAD: -Ein Data-Mining-Tool vom Forschungszentrum Karlsruhe -Eine MATLAB-TOOLBOX -Kostenlos, open source -ca. 50 Algorithmen zur Lösung von Data-Mining-Problemen: Datentupelselektion, Merkmalsextraktion, Merkmalsbewertung und selektion, Merkmalstransformation, überwachte bzw. unüberwachte Klassifikation, Validierung -Update sehr langsam (letztes Update im Januar 2008) Folie 25 von 29

26 3.Data-Mining- 3.5 Vergleich: -RapidMiner: Die beste Graphendarstellungsfähigkeit. Vorgehensweise ist nicht bequem. Dokumentation für DM-Algorithmen ist nicht gut. Erweiterbarkeit ist gut. (API) -KNIME: Graphendarstellung ist nicht so gut, aber geht. Vorgehensweise ist sehr bequem. Gut dokumentiert. Erweiterbarkeit ist gut. (API) -Gait-CAD: Graphendarstellung ist schlecht. Vorgehensweise ist nicht bequem. weil auf MATLAB basiert, z.b.: für Elektrotechniker sehr gut. Folie 26 von 29

27 Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 27 von 29

28 4.Zusammenfassung - Data-Mining-Klassifikation vorgestellt, um eine Übersicht über alle Data- Mining-Verfahren zu geben. - 4 Verfahren aus verschiedenen Data-Mining-Verfahren beispielhaft erklärt. lin. Regression und Korrelation, k nächste Nachbarn und k-means- Clustering. - 3 kurz gezeigt, um praktische Übersicht zu geben. - 3 verglichen. Folie 28 von 29

29 Literaturverzeichnis [1] Otte, Otte, Kaiser, Data Mining für die industrielle Praxis, ISBN [2] Krahl, Windheuser, Zick, Data Mining Einsatz in der Praxis, ISBN X [3] Teknomo, KNN Numerical Example (hand computation), Stand: [4] Wikipedia, Regressionsanalyse, Stand: Folie 29 von 29

30 FRAGEN? Folie 30 von 29

31 DANKESCHÖN! Folie 31 von 29

32 Berechnung eines Korrelationskoeffizienten r = 0 : kein Zusammenhang -1<- r ->1 : stärkere lineare Abhängigkeit - Häufig wird Bestimmtheitsmaß r 2 statt r benutzt. r 2 = r * r r 2 = 0 : kein Zusammenhang r 2 -> 1 : stark linear abhängig - Berechnung von r x,y : Zufallsvariable n : Anzahl der Stichproben r : Korrelationskoeffizient Folie 32 von 29

33 Berechnung der lin. Regressionsparameter y = a + bx a,b : zu berechnende Parameter x,y : Zufallsvariablen Folie 33 von 29

34 Beispiel für Lin. Korrelation und Regression c. Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse: 1. Korrelationsanalyse: 2. Regressionsanalyse: r 2 = 0, Ergebnis: y = -0,2 + 2,1x mit r = 0,99327 oder r 2 = 0,9866 Folie 34 von 29

35 Kurze Erklärung zu Entscheidungsbäumen - Ist eine spezielle Darstellungsform von Entscheidungsregeln - Knoten : Abfrage der Attribute, Treffen der Entscheidung Blatt : Ein Knoten, an dem es keine weitere Verzweigung gibt. - Schritt : 1. An jedem Knoten wird ein Attribut abgefragt 2. Entscheidung 3. Wiederholung dieses Prozess bis dem Erreichen eines Blatt Alter - Beispiel: <35 >35 Gehalt Gehalt <40000 >40000 <50000 >50000 Bezahlung schlecht Bezahlung gut Bezahlung schlecht Bezahlung gut Folie 35 von 29

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Data Mining für die industrielle Praxis

Data Mining für die industrielle Praxis Data Mining für die industrielle Praxis von Ralf Otte, Viktor Otte, Volker Kaiser 1. Auflage Hanser München 2004 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 446 22465 0 Zu Leseprobe schnell und

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

26. GIL Jahrestagung

26. GIL Jahrestagung GeorgAugustUniversität Göttingen 26. GIL Jahrestagung Einsatz von künstlichen Neuronalen Netzen im Informationsmanagement der Land und Ernährungswirtschaft: Ein empirischer Methodenvergleich Holger Schulze,

Mehr

Data Mining im e-commerce am Beispiel der Deutschen Bahn AG

Data Mining im e-commerce am Beispiel der Deutschen Bahn AG Fellowship Data Mining im e-commerce am Beispiel der Deutschen Bahn AG Katja Steuernagel Universität Kaiserslautern Momentan: GIP AG Göttelmannstraße 17 55130 Mainz katja@katja-steuernagel.de Zusammenfassung

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick Institut für Angewandte Informatik Professur für Technische Informationssysteme Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Data-Mining und Knowledge Discovery in Databases (KDD)

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik fh management, communication & it Folie 1 Angewandte Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines einfachen Beispieles Häufigkeitsauswertungen Grafiken Datenmanipulationen

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Grundlagen Statistik Angewandte Statistik 3. Semester

Grundlagen Statistik Angewandte Statistik 3. Semester Angewandte Statistik 3. Semester Zur Person Constantin von Craushaar Consultant / Partner Innstat e.u. (www.innstat.com) info@innstat.com Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Mustererkennung und Klassifikation

Mustererkennung und Klassifikation Mustererkennung und Klassifikation WS 2007/2008 Fakultät Informatik Technische Informatik Prof. Dr. Matthias Franz mfranz@htwg-konstanz.de www-home.htwg-konstanz.de/~mfranz/heim.html Grundlagen Überblick

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016 Citizen Data Science Balázs Bárány Linuxwochen Wien 2016 29. April 2016 Inhalt Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Daten holen Daten verstehen Daten-Vorverarbeitung Prädiktive

Mehr

Data Mining Cup deck using PDA or similar devices. Wissensextraktion Multimedia Engineering

Data Mining Cup deck using PDA or similar devices. Wissensextraktion Multimedia Engineering Data Mining Cup 2012 Wissensextraktion Multimedia Engineering deck using PDA or similar devices Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de 2 Gliederung 1.

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Informationsflut bewältigen - Textmining in der Praxis

Informationsflut bewältigen - Textmining in der Praxis Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland

Mehr

Wilhelm Nüsser (Hrsg.) Carsten Weigand (Hrsg.) Raphael Fockel (Autor) Methoden des Data Mining im praktischen Einsatz

Wilhelm Nüsser (Hrsg.) Carsten Weigand (Hrsg.) Raphael Fockel (Autor) Methoden des Data Mining im praktischen Einsatz Wilhelm Nüsser (Hrsg.) Carsten Weigand (Hrsg.) Raphael Fockel (Autor) Methoden des Data Mining im praktischen Einsatz FHDW-Fachbericht Band 1/2009 Raphael Fockel Wilhelm Nüsser (Hrsg.) Carsten Weigand

Mehr

Data Mining in SAP NetWeaver BI

Data Mining in SAP NetWeaver BI Martin Kießwetter, Dirk Vahl kam p Data Mining in SAP NetWeaver BI Galileo Press Bonn Boston 2.1 Was ist Data Mining? 17 2.2 Data Mining, KDD und Business Intelligence 20 2.3 KDD-Prozessmodelle 22 2.4

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Vorbesprechung Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2015 Vorbesprechung, SS 2015 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source:

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Ermittlung dynamischer Fahrzeiten für die City-Logistik Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Inhalt Einführung Planung in der City-Logistik Erhebung dynamischer Fahrzeiten Konzeption

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Bestandskundenmanagement Wo drückt bei Ihnen der Schuh?

Bestandskundenmanagement Wo drückt bei Ihnen der Schuh? Bestandskundenmanagement Wo drückt bei Ihnen der Schuh? best-reactions GmbH Hirschberger Straße 33 D 90559 Burgthann Alle Rechte vorbehalten HRB 23679, Amtsgericht Nürnberg Geschäftsführer Alexander P.

Mehr

Synergien aus Graph-Theorie und Data-Mining für die Analyse von Netzwerkdaten

Synergien aus Graph-Theorie und Data-Mining für die Analyse von Netzwerkdaten für die Analyse von Netzwerkdaten Tanja Hartmann, Patricia Iglesias Sánchez, Andrea Kappes, Emmanuel Müller und Christopher Oßner IPD Institut für Programmstrukturen und Datenorganisation ITI Institut

Mehr

5 Zusammenhangsmaße, Korrelation und Regression

5 Zusammenhangsmaße, Korrelation und Regression 5 Zusammenhangsmaße, Korrelation und Regression 5.1 Zusammenhangsmaße und Korrelation Aufgabe 5.1 In einem Hauptstudiumsseminar des Lehrstuhls für Wirtschafts- und Sozialstatistik machten die Teilnehmer

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Evolutionäre Algorithmen Software

Evolutionäre Algorithmen Software Evolutionäre Algorithmen Software Prof. Dr. Rudolf Kruse Pascal Held {kruse,pheld}@iws.cs.uni-magdeburg.de Otto-von-Guericke-Universität Magdeburg Fakultät für Informatik Institut für Wissens- und Sprachverarbeitung

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

Master Logistik. Modultitel / Bezeichnung der Lehrveranstaltung Vertiefungsmodul Verfahren und IT-Systeme 1-3. Anzahl der SWS.

Master Logistik. Modultitel / Bezeichnung der Lehrveranstaltung Vertiefungsmodul Verfahren und IT-Systeme 1-3. Anzahl der SWS. Modulnummer 8 a 8 c Modultitel / Bezeichnung der Lehrveranstaltung Vertiefungsmodul Verfahren und IT-Systeme 1-3 Kurzbezeichnung Semeste Anzahl der SWS Häufigkeit des - r 12 Angebots 1 oder 2 jedes Semester/jedes

Mehr

Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose

Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose Informatik Philipp von der Born Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose Bachelorarbeit Universität Bremen Studiengang Informatik Regressionsanalyse zur

Mehr

fh management, communication & it Constantin von Craushaar FH-management, communication & it Statistik Angewandte Statistik

fh management, communication & it Constantin von Craushaar FH-management, communication & it Statistik Angewandte Statistik fh management, communication & it Folie 1 Angewandte Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines einfachen Beispieles Häufigkeitsauswertungen Grafiken Datenmanipulationen

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelationsanalysen Kovariation und Kovarianz Korrelation: - Interpretation

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Lazar (Lazy-Structure-Activity Relationships)

Lazar (Lazy-Structure-Activity Relationships) Lazar (Lazy-Structure-Activity Relationships) Martin Gütlein, Albert-Ludwigs-Universität Freiburg Dr. Christoph Helma, in silico toxicology gmbh, Basel Halle, 4.3.2013 Advanced Course des AK Regulatorische

Mehr

Analytisches Fundraising

Analytisches Fundraising Analytisches Fundraising Vorgehen, Verfahren, Werkzeuge DiaSys. Marketing Engineering AG, Wankdorffeldstr.102, 3014 Bern 031 922 31 50, zuercher@diasys.ch Analytisches Fundraising Inhaltsverzeichnis Datenbankgestütztes

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX Evaluierung von H2O Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 2 INDREX im Überblick In-Database

Mehr

Weka: Software-Suite mit Maschineller Lernsoftware

Weka: Software-Suite mit Maschineller Lernsoftware : Software-Suite mit Maschineller Lernsoftware Computational Linguistics Universität des Saarlandes Sommersemester 2011 21.04.2011 Erste Schritte Waikato Environment for Knowledge Analysis entwickelt von

Mehr

1 Darstellen von Daten

1 Darstellen von Daten 1 Darstellen von Daten BesucherInnenzahlen der Bühnen Graz in der Spielzeit 2010/11 1 Opernhaus 156283 Hauptbühne 65055 Probebühne 7063 Ebene 3 2422 Next Liberty 26800 Säulen- bzw. Balkendiagramm erstellen

Mehr

Data/Information Quality Management

Data/Information Quality Management Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

Vorbereitungsaufgaben

Vorbereitungsaufgaben Praktikum Bildverarbeitung / Bildinformationstechnik Versuch BV 4 / BIT 3: Mustererkennung Paddy Gadegast, CV00, 160967 Alexander Opel, CV00, 16075 Gruppe 3 Otto-von-Guericke Universität Magdeburg Fakultät

Mehr

Inhaltsverzeichnis. Vorwort 1. Kapitel 1 Einführung 3. Kapitel 2 Messtheorie und deskriptive Statistik 13

Inhaltsverzeichnis. Vorwort 1. Kapitel 1 Einführung 3. Kapitel 2 Messtheorie und deskriptive Statistik 13 Inhaltsverzeichnis Vorwort 1 Kapitel 1 Einführung 3 1.1 Ziele... 4 1.2 Messtheorie und deskriptive Statistik... 8 1.3 Grundlagen der Wahrscheinlichkeitsrechnung... 9 1.4 Inferenzstatistik... 9 1.5 Parametrische

Mehr

ChangePoint-Analysen - ein Überblick

ChangePoint-Analysen - ein Überblick ChangePoint-Analysen - ein Überblick Gliederung Motivation Anwendungsgebiete Chow Test Quandt-Andrews Test Fluktuations-Tests Binary Segmentation Recursive circular and binary segmentation algorithm Bayesscher

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Master Planning mit Advanced Planning Systems

Master Planning mit Advanced Planning Systems Horst Tempelmeier Master Planning mit Advanced Planning Systems Modelle und Beispiele Vorwort Vorwort Der vorliegende Text soll einen Einblick in die Grundstruktur der mathematischen Modelle verschaffen,

Mehr

Präsentation zur Diplomprüfung. Thema der Diplomarbeit:

Präsentation zur Diplomprüfung. Thema der Diplomarbeit: Präsentation zur Diplomprüfung Thema der Diplomarbeit: Analyse der Einsatzmöglichkeiten von Data Mining- Verfahren innerhalb einer Unternehmens - Balanced Scorecard und Entwicklung eines Empfehlungskatalogs.

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Verwendung von LS-OPT zur Generierung von Materialkarten am Beispiel von Schaumwerkstoffen

Verwendung von LS-OPT zur Generierung von Materialkarten am Beispiel von Schaumwerkstoffen Verwendung von LS-OPT zur Generierung von Materialkarten am Beispiel von Schaumwerkstoffen Katharina Witowski (DYNAmore GmbH) Peter Reithofer (4a engineering GmbH) Übersicht Problemstellung Parameteridentifikation

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger

Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger Diskriminanzanalyse am Fallbeispiel von 23 Klimastationen in Tunesien

Mehr

Statistik. Average requirement. deficiency. Sufficient supply for 97.5% of the population. 2 sd 2 sd

Statistik. Average requirement. deficiency. Sufficient supply for 97.5% of the population. 2 sd 2 sd Themenübersicht: Grundlegende statistische Verfahren: Mittelwert, Median,Standardabweichung, Standardfehler Regression mit Beispielen (Eichkurven, Korrelationskoeffizienten) t-tests, Normalverteilung,

Mehr