Data-Mining: Ausgewählte Verfahren und Werkzeuge

Größe: px
Ab Seite anzeigen:

Download "Data-Mining: Ausgewählte Verfahren und Werkzeuge"

Transkript

1 Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

2 Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 2 von 29

3 Gliederung 1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur 1.2 Meine Klassifikation Statistische Verfahren Maschinelles Lernen 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 3 von 29

4 1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur a. Nach Otte, Otte und Kaiser DataMining für die industrielle Praxis : Folie 4 von 29

5 1. Einordnung der Data-Mining-Verfahren b. Nach Krahl, Windheuser und Zick Data Mining Einsatz in der Praxis : Folie 5 von 29

6 1. Einordnung der Data-Mining-Verfahren 1.2 Meine Klassifikation: Data- Mining Statistische Verfahren maschinelles Lernen Prüfende Verfahren Entdeckende Verfahren Unüberwachtes Lernen Überwachtes Lernen Regression Korrelationsanal. Entscheidungsbäume Assoziation Diskriminanzanal. Faktoranalyse k-means Clustering k-nächste-nachbarn Varianzanalyse Clusteranalyse usw. usw. Kontingenzanalyse Folie 6 von 29

7 1. Einordnung der Data-Mining-Verfahren Statistische Verfahren: a. Prüfende Analyseverfahren: -Um die genaue Regel herauszufinden -Verfahren für verschiedene Wertebereiche der unabhängigen Variablen: Regressionsanalyse und Diskriminanzanalyse: metrisch (Zahlen, Vergleiche) Varianzanalyse und Kontingenzanalyse : nominal (Aufzählungen) - hier betrachtet: lineare Regressionsanalyse b. Entdeckende Analyseverfahren: -Abhängigkeit testen (Korrelationsanalyse) -Reduzierung von Variablen (Faktoranalyse) -Gruppierung (Clusteranalyse) -hier betrachtet: lineare Korrelationsanalyse Folie 7 von 29

8 1. Einordnung der Data-Mining-Verfahren Maschinelles Lernen a. Überwachtes Lernen z.b.: Klassifikation -basiert auf einem Klassifikator Ein Klassifikator ist ein System, welches Objekte in vorgegebene Kategorie eingeordnet. (Quelle: Krahl, Windheuser und Zick Data Mining Einsatz in der Praxis ) -Verfahren: neuronale Netze, Entscheidungsbäume, Regelinduktion, k nächste Nachbarn usw. -hier betrachtet: k nächste Nachbarn b. Unüberwachtes Lernen -Entdeckung interessanter Strukturen in einem noch unstrukturierten Datenbestand -Verfahren: Assoziationen, neuronale Netze, demographisches Clustern, k-means-clustering usw. -hier betrachtet: k-means-clustering Folie 8 von 29

9 Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 2.1 Korrelationsanalyse 2.2 Regressionsanalyse 2.3 k nächste Nachbarn 2.4 k-means-clustering 2.5 Vergleich 3. Data-Mining- 4. Zusammenfassung Folie 9 von 29

10 2. Data-Mining-Verfahren 2.1 Lineare Korrelationsanalyse: a. Ziel: Untersuchung der Zusammenhänge zwischen Zufallsvariablen anhand einer Stichprobe. b. Korrelationskoeffizient r und Bestimmtheitsmaß r 2 - r und r 2 sind Parameter zum Test der linearen Abhängigkeit. - Für den Korrelationskoeffizient r der Merkmale (Zufallsvariablen) x und y gilt: Wertebreich: Ein Beispiel werde ich nach der Vorstellung der linearen Regressionsanalyse angeben. Folie 10 von 29

11 2. Data-Mining-Verfahren 2.2 Lineare Regressionsanalyse: a. Ziel: Bestimmung eines Modells für die Abhängigkeit zwischen Zufallsvariablen x und y. b. Parameter: y = a + b * x a, b : zu berechnende Parameter x, y : Zufallsvariablen c. Berechnung der Parameter a und b: 1.Testen mit der lin. Korrelationsanalyse, ob x und y linear abhängig sind. 2.Berechnung der Parameter a und b : Folie 11 von 29

12 2. Data-Mining-Verfahren Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse: Aufgabe: x y Folie 12 von 29

13 2. Data-Mining-Verfahren Folie 13 von 29

14 2. Data-Mining-Verfahren 2.3 k nächste Nachbarn: a.ziel : Klassifizieren von Daten mit Hilfe eines Modells b. Idee : Zuordnung analog der k nächsten Nachbarn. Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis c.schritte: 1. Bestimmung des Parameters k (Anzahl der zu betrachtenden Nachbarn) 2. Berechnung der Distanz zwi. zu klassifizierendem Objekt und allen Daten. 3. Sortieren dieser Distanzen. 4. Auswahl der ersten k Daten Finden der Gruppe,zu der die meisten Daten gehören. 5. Das zu klassifizierende Objekt gehört zu dieser Gruppe. Folie 14 von 29

15 2. Data-Mining-Verfahren d. Beispiel: (Quelle: Kardi Teknomo KNN Numerical Example ) -Aufgabe: Eine Fabrik produziert Papier. Mittels einer Umfrage hat sie eine Gruppierung der derzeitigen Produkte gemacht. Jetzt produziert sie ein neues Papier und möchte dieses Produkt klassifizieren. -Input: Daten (Gruppierung der alten Produkten): Zu klassifizierendes Objekt (neues Produkt) : X1 = 3, X2 = 7 (3,7) Folie 15 von 29

16 2. Data-Mining-Verfahren -Klassifizierung mit KNN: 1.wähle k = 3 2.Berechnung der Distanz zwi. zu klassifizierendes Objekt und die Daten 3. Sortieren dieser Distanzen und finden 3 nähesten Daten Folie 16 von 29

17 2. Data-Mining-Verfahren 4. Finden der Gruppe, zu der die meisten 3 nähesten Daten gehören. Das zu klassifizierendes Objekt hat 2 Nachbarn, die zu Good Gruppe gehören, und 1 Nachbar, der zu Bad Gruppe gehört. Deswegen gehört das zu klassifizierende Objekt zu der Gruppe Good. - Output: X1=3, X2=7, Y=Good (3,7,Good) Folie 17 von 29

18 2. Data-Mining-Verfahren 2.4 k-means-clustering: a. Ziel : Klassifizierung der Daten ohne vorhandenes Modell b. Idee : Vergleich des Datenbestandes mit ausgewählten Repräsentanten c. Schritte: 1.Auswahl von k Repräsentanten. Diese Repräsentanten sollten möglichst repräsentativ sein. Iter. 2.Zuordnung der Objekten. Ordnen Objekte mit großer Ähnlichkeit den Repräsentanten zu. 3.Anpassung der Repräsentanten Vergleich der Repräsentanten und Objekte, dann ggf. Auswahl besserer Repräsentanten. Folie 18 von 29

19 2. Data-Mining-Verfahren d.beispiel: Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis Folie 19 von 29

20 2. Data-Mining-Verfahren 2.5 Vergleich: a. lin. Regression und lin. Korrelation: -Häufig benutzt in vielen Bereichen (z.b.: Signalverarbeitung) -Beschränkungen ist auch deutlich (z.b.: die Kurve) -Es gibt noch Multiple Regression. b. k nächste Nachbarn: -Einfach zu implementieren -Aber man muss ein schon klassifiziertes Modell haben. -Bestimmung von k nach Erfahrungen. c. k-means-clustering: -Das am längsten eingesetzte Verfahren zur Segmentierung. (Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis ) -Viele Abwandlungen und Variationen -Problem: die Bestimmung von k ist schwer. -Um optimale k zu bekommen mehrere Durchläufe Folie 20 von 29

21 Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 3.1 Allgemein 3.2 RapidMiner 3.3 Knime 3.4 Gait-CAD 3.5 Vergleich 4. Zusammenfassung Folie 21 von 29

22 3.Data-Mining- 3.1 Allgemein: -Auswahl kommerzieller Data-Mining- (teilweise nicht weiterentwickelt): Data Cockpit (DeltaMaster) Knowledge Studio NeuroModel Enterprise 6 D-Miner IBM Intelligent Miner Polyanalyst von Metaputer DataEngine von MIT SAS Enterprise Miner SPSS Clementine -Auswahl hier betrachteter freier Data-Mining-: Rapidminer (1. Platz bei KDNuggets) Knime (4. Platz bei KDNuggets) Gait-CAD Folie 22 von 29

23 3.Data-Mining- 3.2 RapidMiner: -Ein Data-Mining-Tool von RAPID-I in Dortmund (vorher YALE genannt, Uni Dortmund) -Java-Applikation (plattformunabhängig), weka-kompatibel weka : Waikato Environment for Knowledge Analysis -Community-Version ist kostenlos -ca. 150 unterstützte Verfahren: Entscheidungsbäume und Regellerner Lazy Learners Bayes'sche Lerner Logistische Lerner Gauss'sche Prozesse Meta Learning Association Rule Mining Clustering und mehr Folie 23 von 29

24 3.Data-Mining- 3.3 KNIME: -Ein Data-Mining-Tool von der Universität Konstanz -Eine Eclipse-RCP-Anwendung, weka-kompatibel weka : Waikato Environment for Knowledge Analysis -Base Version ist kostenlos -ca. 100 bis 150 unterstützte Verfahren für data I/O, preprocessing, cleansing, modelling, analysis und data mining, various interactive views usw. - API, d.h.: Man kann eigene Programm darauf schreiben. Folie 24 von 29

25 3.Data-Mining- 3.4 Gait-CAD: -Ein Data-Mining-Tool vom Forschungszentrum Karlsruhe -Eine MATLAB-TOOLBOX -Kostenlos, open source -ca. 50 Algorithmen zur Lösung von Data-Mining-Problemen: Datentupelselektion, Merkmalsextraktion, Merkmalsbewertung und selektion, Merkmalstransformation, überwachte bzw. unüberwachte Klassifikation, Validierung -Update sehr langsam (letztes Update im Januar 2008) Folie 25 von 29

26 3.Data-Mining- 3.5 Vergleich: -RapidMiner: Die beste Graphendarstellungsfähigkeit. Vorgehensweise ist nicht bequem. Dokumentation für DM-Algorithmen ist nicht gut. Erweiterbarkeit ist gut. (API) -KNIME: Graphendarstellung ist nicht so gut, aber geht. Vorgehensweise ist sehr bequem. Gut dokumentiert. Erweiterbarkeit ist gut. (API) -Gait-CAD: Graphendarstellung ist schlecht. Vorgehensweise ist nicht bequem. weil auf MATLAB basiert, z.b.: für Elektrotechniker sehr gut. Folie 26 von 29

27 Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 27 von 29

28 4.Zusammenfassung - Data-Mining-Klassifikation vorgestellt, um eine Übersicht über alle Data- Mining-Verfahren zu geben. - 4 Verfahren aus verschiedenen Data-Mining-Verfahren beispielhaft erklärt. lin. Regression und Korrelation, k nächste Nachbarn und k-means- Clustering. - 3 kurz gezeigt, um praktische Übersicht zu geben. - 3 verglichen. Folie 28 von 29

29 Literaturverzeichnis [1] Otte, Otte, Kaiser, Data Mining für die industrielle Praxis, ISBN [2] Krahl, Windheuser, Zick, Data Mining Einsatz in der Praxis, ISBN X [3] Teknomo, KNN Numerical Example (hand computation), Stand: [4] Wikipedia, Regressionsanalyse, Stand: Folie 29 von 29

30 FRAGEN? Folie 30 von 29

31 DANKESCHÖN! Folie 31 von 29

32 Berechnung eines Korrelationskoeffizienten r = 0 : kein Zusammenhang -1<- r ->1 : stärkere lineare Abhängigkeit - Häufig wird Bestimmtheitsmaß r 2 statt r benutzt. r 2 = r * r r 2 = 0 : kein Zusammenhang r 2 -> 1 : stark linear abhängig - Berechnung von r x,y : Zufallsvariable n : Anzahl der Stichproben r : Korrelationskoeffizient Folie 32 von 29

33 Berechnung der lin. Regressionsparameter y = a + bx a,b : zu berechnende Parameter x,y : Zufallsvariablen Folie 33 von 29

34 Beispiel für Lin. Korrelation und Regression c. Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse: 1. Korrelationsanalyse: 2. Regressionsanalyse: r 2 = 0, Ergebnis: y = -0,2 + 2,1x mit r = 0,99327 oder r 2 = 0,9866 Folie 34 von 29

35 Kurze Erklärung zu Entscheidungsbäumen - Ist eine spezielle Darstellungsform von Entscheidungsregeln - Knoten : Abfrage der Attribute, Treffen der Entscheidung Blatt : Ein Knoten, an dem es keine weitere Verzweigung gibt. - Schritt : 1. An jedem Knoten wird ein Attribut abgefragt 2. Entscheidung 3. Wiederholung dieses Prozess bis dem Erreichen eines Blatt Alter - Beispiel: <35 >35 Gehalt Gehalt <40000 >40000 <50000 >50000 Bezahlung schlecht Bezahlung gut Bezahlung schlecht Bezahlung gut Folie 35 von 29

Data Mining für die industrielle Praxis

Data Mining für die industrielle Praxis Data Mining für die industrielle Praxis von Ralf Otte, Viktor Otte, Volker Kaiser 1. Auflage Hanser München 2004 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 446 22465 0 Zu Leseprobe schnell und

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

26. GIL Jahrestagung

26. GIL Jahrestagung GeorgAugustUniversität Göttingen 26. GIL Jahrestagung Einsatz von künstlichen Neuronalen Netzen im Informationsmanagement der Land und Ernährungswirtschaft: Ein empirischer Methodenvergleich Holger Schulze,

Mehr

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik fh management, communication & it Folie 1 Angewandte Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines einfachen Beispieles Häufigkeitsauswertungen Grafiken Datenmanipulationen

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick Institut für Angewandte Informatik Professur für Technische Informationssysteme Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Data-Mining und Knowledge Discovery in Databases (KDD)

Mehr

Grundlagen Statistik Angewandte Statistik 3. Semester

Grundlagen Statistik Angewandte Statistik 3. Semester Angewandte Statistik 3. Semester Zur Person Constantin von Craushaar Consultant / Partner Innstat e.u. (www.innstat.com) info@innstat.com Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Data Mining in SAP NetWeaver BI

Data Mining in SAP NetWeaver BI Martin Kießwetter, Dirk Vahl kam p Data Mining in SAP NetWeaver BI Galileo Press Bonn Boston 2.1 Was ist Data Mining? 17 2.2 Data Mining, KDD und Business Intelligence 20 2.3 KDD-Prozessmodelle 22 2.4

Mehr

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016 Citizen Data Science Balázs Bárány Linuxwochen Wien 2016 29. April 2016 Inhalt Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Daten holen Daten verstehen Daten-Vorverarbeitung Prädiktive

Mehr

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation? 1. Konferenz der A Benutzer KFE in Forschung und Entwicklung Data Mining - Marketing-chlagwort oder ernstzunehmende Innovation? Hans-Peter Höschel,, Heidelberg 1. Konferenz der A Benutzer KFE in Forschung

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Vorbesprechung Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2015 Vorbesprechung, SS 2015 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source:

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

fh management, communication & it Constantin von Craushaar FH-management, communication & it Statistik Angewandte Statistik

fh management, communication & it Constantin von Craushaar FH-management, communication & it Statistik Angewandte Statistik fh management, communication & it Folie 1 Angewandte Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines einfachen Beispieles Häufigkeitsauswertungen Grafiken Datenmanipulationen

Mehr

Data Mining im e-commerce am Beispiel der Deutschen Bahn AG

Data Mining im e-commerce am Beispiel der Deutschen Bahn AG Fellowship Data Mining im e-commerce am Beispiel der Deutschen Bahn AG Katja Steuernagel Universität Kaiserslautern Momentan: GIP AG Göttelmannstraße 17 55130 Mainz katja@katja-steuernagel.de Zusammenfassung

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Präsentation zur Diplomprüfung. Thema der Diplomarbeit:

Präsentation zur Diplomprüfung. Thema der Diplomarbeit: Präsentation zur Diplomprüfung Thema der Diplomarbeit: Analyse der Einsatzmöglichkeiten von Data Mining- Verfahren innerhalb einer Unternehmens - Balanced Scorecard und Entwicklung eines Empfehlungskatalogs.

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Informationsflut bewältigen - Textmining in der Praxis

Informationsflut bewältigen - Textmining in der Praxis Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Data Mining SAS Mining Challenge Einführung in SAS Enterprise Miner

Data Mining SAS Mining Challenge Einführung in SAS Enterprise Miner Agenda Universitätsrechenzentrum Heidelberg Data Mining SAS Mining Challenge Einführung in 14. November 2003 Hussein Waly URZ Heidelberg Hussein.Waly@urz.uni-heidelberg.de SAS Mining Challenge Generelle

Mehr

Data/Information Quality Management

Data/Information Quality Management Data/Information Quality Management Seminar WI/Informationsmanagement im Sommersemester 2002 Markus Berberov, Roman Eder, Peter Gerstbach 11.6.2002 Inhalt! Daten und Datenqualität! Einführung und Definition!

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

Was ist Data Mining... in der Fundraising Praxis?

Was ist Data Mining... in der Fundraising Praxis? Was ist Data Mining...... in der Fundraising Praxis? Erkennen von unbekannten Mustern in sehr grossen Datenbanken (> 1000 GB) wenige und leistungsfähige Verfahren Automatisierung Erkennen von unbekannten

Mehr

Inhaltsverzeichnis. Vorwort 1. Kapitel 1 Einführung 3. Kapitel 2 Messtheorie und deskriptive Statistik 13

Inhaltsverzeichnis. Vorwort 1. Kapitel 1 Einführung 3. Kapitel 2 Messtheorie und deskriptive Statistik 13 Inhaltsverzeichnis Vorwort 1 Kapitel 1 Einführung 3 1.1 Ziele... 4 1.2 Messtheorie und deskriptive Statistik... 8 1.3 Grundlagen der Wahrscheinlichkeitsrechnung... 9 1.4 Inferenzstatistik... 9 1.5 Parametrische

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Master Logistik. Modultitel / Bezeichnung der Lehrveranstaltung Vertiefungsmodul Verfahren und IT-Systeme 1-3. Anzahl der SWS.

Master Logistik. Modultitel / Bezeichnung der Lehrveranstaltung Vertiefungsmodul Verfahren und IT-Systeme 1-3. Anzahl der SWS. Modulnummer 8 a 8 c Modultitel / Bezeichnung der Lehrveranstaltung Vertiefungsmodul Verfahren und IT-Systeme 1-3 Kurzbezeichnung Semeste Anzahl der SWS Häufigkeit des - r 12 Angebots 1 oder 2 jedes Semester/jedes

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose

Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose Informatik Philipp von der Born Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose Bachelorarbeit Universität Bremen Studiengang Informatik Regressionsanalyse zur

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Datenbanken-Themen im OS "Data Mining" SS 2010

Datenbanken-Themen im OS Data Mining SS 2010 Prof. Dr.-Ing. Thomas Kudraß HTWK Leipzig, FIMN Datenbanken-Themen im OS "Data Mining" SS 2010 Die Vorträge sollten eine Dauer von 60 Minuten (Einzelvortrag) bzw. 45 Minuten (Doppelvortrag) haben. Nachfolgend

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Inhaltsverzeichnis. a. Standorte...3 1. Data Mining... 6. b. Impressum... 23. i. Einsatzbereiche und Nutzen...6. ii. Konzepte und Techniken...

Inhaltsverzeichnis. a. Standorte...3 1. Data Mining... 6. b. Impressum... 23. i. Einsatzbereiche und Nutzen...6. ii. Konzepte und Techniken... 2 Inhaltsverzeichnis a. Standorte...3 1. Data Mining... 6 i. Einsatzbereiche und Nutzen...6 ii. Konzepte und Techniken...8 iii. Mit IBM SPSS Modeler...10 iv. Mit MS Excel 2010...12 v. Mit MS SQL Server

Mehr

Lazar (Lazy-Structure-Activity Relationships)

Lazar (Lazy-Structure-Activity Relationships) Lazar (Lazy-Structure-Activity Relationships) Martin Gütlein, Albert-Ludwigs-Universität Freiburg Dr. Christoph Helma, in silico toxicology gmbh, Basel Halle, 4.3.2013 Advanced Course des AK Regulatorische

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Synergien aus Graph-Theorie und Data-Mining für die Analyse von Netzwerkdaten

Synergien aus Graph-Theorie und Data-Mining für die Analyse von Netzwerkdaten für die Analyse von Netzwerkdaten Tanja Hartmann, Patricia Iglesias Sánchez, Andrea Kappes, Emmanuel Müller und Christopher Oßner IPD Institut für Programmstrukturen und Datenorganisation ITI Institut

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

ChangePoint-Analysen - ein Überblick

ChangePoint-Analysen - ein Überblick ChangePoint-Analysen - ein Überblick Gliederung Motivation Anwendungsgebiete Chow Test Quandt-Andrews Test Fluktuations-Tests Binary Segmentation Recursive circular and binary segmentation algorithm Bayesscher

Mehr

Computerlinguistische Textanalyse

Computerlinguistische Textanalyse Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller

Mehr

Einführung in Data-Mining mit analytischen Funktionen und R

Einführung in Data-Mining mit analytischen Funktionen und R Einführung in Data-Mining mit analytischen Funktionen und R Vladimir Poliakov Nürnberg Schlüsselworte Analytics, Statistik, OLAP, Data-Mining, R, R Software, R Commander, RStudio, Rattle Package, analytische

Mehr

Open Source Data Mining Meets Business - Rapid-I beim Open Source Meets Business Kongress 2008 in Nürnberg

Open Source Data Mining Meets Business - Rapid-I beim Open Source Meets Business Kongress 2008 in Nürnberg Open Source Data Mining Meets Business - Rapid-I beim Open Source Meets Business Kongress 2008 in Nürnberg Datum: 17.12.2007 09:41 Kategorie: IT, New Media & Software Pressemitteilung von: Rapid-I Rapid-I

Mehr

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008

Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Ermittlung dynamischer Fahrzeiten für die City-Logistik Jan Ehmke Doktorandenworkshop 2008 St. Andreasberg, 10.03.2008 Inhalt Einführung Planung in der City-Logistik Erhebung dynamischer Fahrzeiten Konzeption

Mehr

Oberseminar Data Mining. Systeme und Tools zum Data Mining: RapidMiner

Oberseminar Data Mining. Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Folie 3 von 56 Inhalt 1 Das Projekt RapidMiner 2 Funktionen 3 KDD-Prozess 4 Weitere Werkzeuge von Rapid-I 5 Zusammenfassung Folie 4 von 56 Das Projekt RapidMiner Entwicklung Entwicklung

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Analyse leicht gemacht - SAS Enterprise Guide. Gerd Hoffmann Technical Competence Center SAS Deutschland

Analyse leicht gemacht - SAS Enterprise Guide. Gerd Hoffmann Technical Competence Center SAS Deutschland Analyse leicht gemacht - SAS Enterprise Guide Gerd Hoffmann Technical Competence Center SAS Deutschland Agenda Was ist Enterprise Guide? Besonderheiten in Enterprise Guide Analysewerkzeuge Abfrage-Tool

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Schwerpunkte von SQL Server 2005

Schwerpunkte von SQL Server 2005 3K05 Business Intelligence mit SQL Server 2005 Steffen Krause Technologieberater Microsoft Deutschland GmbH http://blogs.technet.com/steffenk Schwerpunkte von SQL Server 2005 Mission Ready Developer Ready

Mehr

Data Mining Software. Funktionsvergleich und Benchmarkstudie. -Zusammenfassung-

Data Mining Software. Funktionsvergleich und Benchmarkstudie. -Zusammenfassung- Data Mining Software Funktionsvergleich und Benchmarkstudie -Zusammenfassung- mayato -Studie Data Mining Software 2009 Analyseerfolge zu überschaubaren Kosten Der Markt für Data-Mining-Software ist in

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Alles für den Kunden Analyse von Kundendaten. Katrin Plickert, Heiko Hartenstein

Alles für den Kunden Analyse von Kundendaten. Katrin Plickert, Heiko Hartenstein Alles für den Kunden Analyse von Kundendaten Katrin Plickert, Heiko Hartenstein Zum Verständnis 9. Februar 2007 Heiko Hartenstein, Katrin Plickert 2 Quelle: Heilmann, Kempner, Baars: Business and Competitive

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Analytisches Fundraising

Analytisches Fundraising Analytisches Fundraising Vorgehen, Verfahren, Werkzeuge DiaSys. Marketing Engineering AG, Wankdorffeldstr.102, 3014 Bern 031 922 31 50, zuercher@diasys.ch Analytisches Fundraising Inhaltsverzeichnis Datenbankgestütztes

Mehr

Evolutionäre Algorithmen Software

Evolutionäre Algorithmen Software Evolutionäre Algorithmen Software Prof. Dr. Rudolf Kruse Pascal Held {kruse,pheld}@iws.cs.uni-magdeburg.de Otto-von-Guericke-Universität Magdeburg Fakultät für Informatik Institut für Wissens- und Sprachverarbeitung

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

11./ 12. April 2006. Andrea Ossig andrea.ossig@web.de. Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de

11./ 12. April 2006. Andrea Ossig andrea.ossig@web.de. Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de Einführung in SPSS 11./ 12. April 2006 Andrea Ossig andrea.ossig@web.de Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de Monia Mahling monia.mahling@web.de 1 Vor /Nachteile von SPSS +/ intuitiv

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

Open Source BI Trends. 11. Dezember 2009 Wien Konstantin Böhm

Open Source BI Trends. 11. Dezember 2009 Wien Konstantin Böhm Open Source BI Trends 11. Dezember 2009 Wien Konstantin Böhm Profil Folie 2 JAX 2009 11.12.2009 Gründung 2002, Nürnberg 50 Mitarbeiter Innovative Kunden Spezialisiert auf Open Source Integration Open Source

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Event-Aggregation in Frühwarnsystemen. Till Dörges. 2009 by PRESENSE Technologies GmbH

Event-Aggregation in Frühwarnsystemen. Till Dörges. 2009 by PRESENSE Technologies GmbH Event-Aggregation in Frühwarnsystemen Till Dörges Gliederung Motivation Definitionen Aggregationsverfahren Implementierung Ergebnisse / Ausblick Folie 2 / Event-Aggregation 18. März 2009 Hamburg Motivation

Mehr

Weka: Software-Suite mit Maschineller Lernsoftware

Weka: Software-Suite mit Maschineller Lernsoftware : Software-Suite mit Maschineller Lernsoftware Computational Linguistics Universität des Saarlandes Sommersemester 2011 21.04.2011 Erste Schritte Waikato Environment for Knowledge Analysis entwickelt von

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Part I Conceptualization and Definition of Evolutions of Economies in Four General Equilibrium Frameworks

Part I Conceptualization and Definition of Evolutions of Economies in Four General Equilibrium Frameworks Contents 1 General Introduction 1 2 Notations and Mathematical Preliminaries 13 Part I Conceptualization and Definition of Evolutions of Economies in Four General Equilibrium Frameworks 3 Introduction

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Wissensentdeckung in Datenbanken / Data Mining

Wissensentdeckung in Datenbanken / Data Mining Datenflut! Immer mehr Daten werden generiert:! Banken, Telecom, Geschäftstransaktionen...! Wissenschaftliche Daten: Astronomie, Biologie,...! Web, Text, e-commerce!! Speichertechnik schneller and billiger!

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen Bildungsurlaub-Seminare: Lerninhalte und Programm Seminartitel SPSS für Psychologen/innen (BH15113) Termin Mo, den 18.05.bis Fr, den 22.05.2015 (40 UStd.) Veranstaltungsort Bildungsherberge der Studierendenschaft

Mehr