Data Mining Cup Dokumentation
|
|
- Katarina Reuter
- vor 6 Jahren
- Abrufe
Transkript
1 Data Mining Cup Dokumentation Martin Dreissig, Michael Flau May 14, Beschreibung der zu analysierenden Daten Die zu analysierenden Daten für den diesjährigen Data Mining Cup bestehen aus den Verkauszahlen von 570 Produkten über einen Zeitraum von 2 Monaten. Zu den verkauften Stückzahlen pro Tag ist der jeweilige Tagespreis angegeben. Für 6 Wochen liegen für jedes Produkt die verkauften Stückzahlen, einschlieÿlich der jeweiligen Tagespreise vor. Für einen Zeitraum von 2 Wochen sind zu den gegebenen Tages Preisen die verkauften Stückzahlen möglichst genau vorherzusagen. 1.1 Vorbetrachtungen Zu den gegebenen Datensätzen, ist sonst keine weitere Information bekannt. Daher ist es nicht möglich von der Art des Produktes auf vermeintlich wichtige Kriterien zu schliessen, die den Absatz des jeweiligen Produktes beeinussen könnten. Dennoch können aus den gegebenen Verläufen der Verkauften Stückzahlen gewisse Regeln abgeleitet werden. Zum einen unterliegen alle Verkäufe einem wöchentlichen Zyklus. Während die Verkäufe an den Wochentagen Montag - Freitag für jedes Produkt gesehen hoch sind, so fällt die verkaufte Stückzahl an den Wochenenden vergleichsweise niedrig aus. Weiterhin ist bei fast allen Produkten eine gewisse Trägheit der Verkaufszahlen gegenüber den Tagespreisen zu beobachten. Es erfolgt keine sofortige Reaktion auf niedrige Tagespreise in Form einer gesteigerten Verkaufszahl. Bei steigenden Preisen ist es ähnlich. Wird der Tagespreis erhöht, 2 Analyse Ansätze Bei der einleitenden Analyse der Trainingsdaten wurde beschlossen verschiedene Ansätze zu verfolgen. Für eine erste Analyse der Daten sowie zum durchführen von Ansätzen aud mathmatischer Grundlage sollte Matlab verwendet werden. Matlab eignet sich besonders gut für die Analyse groÿer numerischer Datenmengen, da viele wichtige Algorithmen bereits implementiert sind und somit 1
2 nur noch angewendet werden müssen. Für die relevanten Ansätze, die während der Wissensextraktions Vorlesung behandelt wurden, sollte KNIME verwendet werden. KNIME umfasst bereits eine breite Palette an Algorithmen des maschinellen Lernens und Data Mining und kann somit sehr gut für den Data Mining Cup genutzt werden. Die Ansätze die mit Matlab umgesetzt wurden, beschäftigen sich mit statistischen Versuchen und Approximation. 3 Beschreibung und Ergebniss der einzelnen Änsätze 3.1 Matlab Ansätze Grundlegende Untersuchungen Grundlegend wurden ersteinmal Untersuchungen zum über die einzelnen Produkte angestellt. Hierbei wurde untersucht ob es Ähnlichkeiten bei der Preisentwicklung oder der Anzahl verkaufter Stückzahlen gibt. Hierbei wurde festgestellt, das der Preis und die jeweils verkauften Stückzahlen über einen groÿen zeitlichen Rahmen voneinander abhängen, es aber durchaus auch zu Verkäufen kommt, die völlig gegen den allgemeinen Trend gehen. Weiterhin wurde die bereits erwähnte Trägheit des Systems durch die Analyse deutlich. Es kommt zu keiner spontanen Änderung des Kaufverhaltens bedingt durch eine Preisänderung. Vielmehr passt sich das Kaufverhalten langsam, manchmal über mehrere Tage hinweg dem neuen Preis an. Es ist auch zu beobachten, dass Die Verkäufe aller Produkte einem wöchentlichen Zyklus unterliegen. An den Arbeitstagen ist grundsätzlich ein höherer Absatz zu verzeichnen, als an den Wochenenden. Auf diesen ersten Beobachtungen aufbauend, wurden verschiedene Ansätze in Matlab getestet. Um zu überprüfen, wie genau die gewählten Ansätze an eine optimale Lösung heranreichen, wird die bekannte Datenmenge von 6 Wochen in 4 Wochen Trainingsdatenmenge und 2 Wochen Testdatenmenge aufgeteilt. Jeder Ansatz prognostiziert basierend auf den Daten der Trainingsdatenmenge und den Preisen der Testdatenmenge die Verkaufszahlen der Traningsdatenmenge. Um nun festzustellen inwiefern die vorhergesagten Verkaufszahlen mit den realen Werten übereinstimmen, wird ein Distanzmaÿ über alle Produkte verwendet. In diesem Fall wird die Euklidische Distanz verwendet Abhängigkeit der Verkaufsmenge vom jeweiligen Preis Bei diesem Ansatz wird überprüft, ob die Verkaufszahlen mit dem jeweiligen Preis direkt in Verbindung stehen. Hierfür werden für jedes Produkt alle vorkommenden Preise entnommen und die Verkaufszahlen für die entsprechenden Preise aufsummiert um darüber die mittlere Verkaufszahl pro Preis zu errechnen. 2
3 In den vorherzusagenden 2 Wochen wird zuerst nach Preisen gesucht, die auch in der Trainingsdatenmenge vorkommen. Diesen Preisen wird dann die errechnete mittlere Verkaufszahl des jeweiligen Preises zugewiesen. Alle Preise die so nicht bestimmt werden konnten, werden auf den Abstand zum nächst bekannten vorkommenden Preis hin untersucht. Es wird die mittlere Stückzahl des nächst bekannten Preises als Ausgangswert festgelegt und mit einem Faktor verrechnet der sich aus dem Abstand zum nächst bekannten Preis ergibt. Hierbei wird unterschieden ob der nächstliegende Preis kleiner oder gröÿer dem aktuell zu bestimmenden Preis ist, und dem enstprechend der Faktor angepasst. Das Ergebnis dieses Ansatzes war ein Distanzwert von 494. Hierbei gab es Figure 1: Echte und prognostizierte Verkäufe für Produkt 1, Ansatz 1 teils groÿe Abweichungen, aber auch 15% totale Übereinstimmung. Dies ist auch in Abbildung 1 zu erkennen. Die Vorhersage ist für manche Tage durchaus akzeptabel, während für andere Tage der Wert überhaupt nicht stimmt Abhängigkeit der Verkaufsmenge vom Wochentag und Preis Im nächsten Ansatz wurde untersucht ob die Verkaufsmenge abhängig vom jeweiligen Wochentag ist. Hierfür würde die mittlere Verkaufsmenge für jeden Tag über 4 Wochen errechnet. Für die zu bestimmenden Tage der 2 unbekannten Wochen wird jeweils die mittlere Verkaufszahl als Ausgangspunkt festgelegt. Dazu wird der Preis am jeweiligen Tag mit den Preisen aus den vorangegangenen 4 Wochen verglichen. Ist der Preistrend steigend wird der mittleren Verkaufszahl ein positiver Faktor hinzugefügt. Entsprechend wird das selbe für einen negativen Preistrend gemacht. Das Ergebnis ist in diesem Fall schlechter als 3
4 aus dem vorangegangenem Versuch. Es wurde hier ein Distanzwert von 788 erreicht. Figure 2: Echte und prognostizierte Verkäufe für Produkt 1, Ansatz 2 Die Abweichungen hier sind sehr deutlich es wird kaum eine Übereinstimmung zwischen realen und prognostizierten Daten ausgemacht Bestimmung der Verkaufsmenge durch Approximation verschiedener Ordnung Der nächste Versuch setzte sich mit der Polynomapproximation der Verkaufszahlen auseinander. Es wurde hier versucht, anhand der bekannten Preise und Verkaufszahlen der bekannten 4 Wochen ein Polynom zu bestimmen, das dem Kurvenverlauf am nächsten kommt. Hierfür wurden zuerst wieder die 4 Wochen nach Wochentagen aufgeteilt um so Einzelpolynome für jeden Wochentag bestimmen zu können. Hierbei wurden Polynome verschiedener Ordnung getestet um eine möglichst optimale Anpassung an die Kurven zu erreichen. Die so errechneten Polynome wurden dann auf die jeweiligen Wochentage in der Testmenge angewandt. 4
5 Figure 3: Echte und prognostizierte Verkäufe für Produkt 1, Ansatz 3 Die prognostizierten Werte passen je nach gewähltem Polynom teilweise sehr gut zum Kurvenverlauf der Realdaten. Die besten Ergebnisse wurden hier mit Polynomen zweiter und dritter Ordnung erreicht. Dennoch gibt es auch Produkte bei denen der prognostizierte Kurvenverlauf absolut nicht den Realdaten entspricht somit das Gesamtergebnis dieses Ansatzes schmälert. Figure 4: Echte und prognostizierte Verkäufe für Produkt 400, Ansatz 3 Das Ergebnis fällt dementsprechend hier mittelmäÿig aus. diesem Lösungsansatz ein Distanzwert von 543 erreicht. Es wurde bei 5
6 3.2 KNIME Ansätze Clusterung KMeans Der erste Ansatz über die Software Knime basiert auf einer Clusterung der Datenmengen. Die Trainingsdaten sollen vor weiterführenden Schritten in bestimmte Bereiche geteilt werden. Das hat zur Folge, dass die dadurch zusammengefassten Daten dierenzierter betrachtet werden können. Berechnungsabläufe werden daher nicht auf die gesamte Datenmenge, sondern auf mehrere Teilbereiche (Cluster) angewandt. Um nun diese Clusterung durchzuführen, wird der KMeans Algorithmus verwendet, der in Knime als Baustein vorliegt. Dieser weist den Elementen der Eingangsmenge iterativ einen Cluster zu. Die Anzahl der Cluster lässt sich hierbei einstellen und ist maÿgebend für die Qualität der Ergebnisse. Durch die korrekte Wahl können sich ähnelnde Daten vorteilhaft zusammengefasst werden. Im Workow von Knime wurde die Clusterung auf die Preisspalte bezogen. Der Grund hierfür liegt darin, dass der Preis das einzige aussagekräftige Attribut ist, das ebenfalls in der Klassenmenge vorkommt. Für eben diese Menge muss zum Abschluss ebenfalls eine Clusterung durchgeführt werden Polynomiale Regression Regression über alle Produkte Die Regression ist eine mathematische Methode, um aus Messdaten unbekannte Parameter heraus zu bekommen. Das Ergebnis ermöglicht es Parameter einer vorgegebenen Funktion zu errechnen. Ziel ist es hierbei, dass sich das Regressionsmodell bestmöglich den Eingangsdaten anpasst, damit sich weitere Eingaben in die Reihe dieser Eingangsdaten einfügen können. Aus der Trainingsmenge wird nun eine Regression über die Verkaufsanzahl und zugehöriger Preise berechnet. Dies geschieht für jede Teilmenge, die aus der Clusterung entsteht. Die daraus resultierenden Regressionsvorgaben beschreiben nun für unterschiedliche Preis-Verkaufsverläufe unterschiedliche Funktionen. Im nächsten Schritt erhalten die neu entstandenen Funktionen die Testmenge als Eingabe, welche zuvor nach den bekannten Clustervorschriften aufgeteilt wurde. Im letzten Schritt ist es nun möglich, aus den Preisen der Testmenge und der Regressionsfunktionen, zugehörige Verkaufszahlen zu berechnen. Regression über Einzelprodukte Der Nachteil der zuvor beschriebenen Methode, ist ihr globales Verhalten. In der nalen Berechnung sollen nicht mehr alle Produkte auf einmal, sondern einzeln betrachtet werden. Dazu werden über einen Schleifenverlauf die Trainings-und Testmenge nach ihren Produkten aufgeteilt. Je Schleifenzyklus gelangen die gesamten Daten eines einzelnen Produktes in den beschriebenen Cluster-Regression Berechnungsablauf.Die Regression geschieht hierbei dierenzierter. Durch die genaue Produktzuordnung werden die zu berechnenden Verkaufszahlen genauer. 6
7 Figure 5: Prognostizierte und reale Verkaufszahlen durch Regression Mit diesem Verfahren konnte ein Distanzwert von 486 Punkten erreicht werden. Dies macht deutlich das Preis und Verkaufszahl nicht unbedingt so in Abhängigkeit stehen wie es wünschenswert wäre, was in der erreichten Punktzahl resultiert. 4 Fazit Die vorliegenden Ansätze beschreiben die Ergebnisse die am erfolgreichsten durchgeführt werden konnten. Andere Ansätze wie Autoregression, Entscheidungsbäume, Naive-Bayes führten zu keinem nennenswerten Ergebnis. Die Regression in Kombination hat hier gegenüber den in Matlab implmentierten Lösungen eindeutig die besseren Ergebnisse erzielt, auch wenn sie nicht die optimalen Verkäufe hinreichend prognostizieren. 7
Datamining-Cup 2012 - TeamFK i. Datamining-Cup 2012 - TeamFK
i Datamining-Cup 2012 - TeamFK ii Inhaltsverzeichnis 1 Programme und Datenvorverarbeitung 1 2 Vorbetrachtung der Daten 2 2.1 Zeitintervalle..................................................... 2 2.2 Mittelwert
MehrMotivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.
Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später
MehrData Mining Anwendungen und Techniken
Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses
MehrDokumentation Datamining
Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Dokumentation Datamining Eingereicht am: 13. Mai 2012 von: Karsten Diepelt
MehrData Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence
Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:
MehrPersonalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.
Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen
MehrÜbungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014
Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?
MehrNeuerungen Analysis Services
Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen
MehrData Mining-Modelle und -Algorithmen
Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen
MehrData Mining und maschinelles Lernen
Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:
MehrBegriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
MehrData Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih
Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard
MehrTrendlinien in Diagrammen (Excel 2010)
Trendlinien in Diagrammen (Excel 2010) Trendlinien in Diagrammen (Excel 2010)... 1 Allgemeines... 2 Informationen über Prognosen und das Anzeigen von Trends in Diagrammen... 3 AUSWÄHLEN DES PASSENDEN TRENDLINIETYPS
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens 1 Organisatorisches Freitag, 05. Mai 2006: keine Vorlesung! aber Praktikum von 08.00 11.30 Uhr (Gruppen E, F, G, H; Vortestat für Prototyp)
MehrWEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
MehrDISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374
DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne
MehrMining High-Speed Data Streams
Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:
MehrML-Werkzeuge und ihre Anwendung
Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig
MehrData Mining in KNIME
Fakultät für Wirtschaftswissenschaften Studiengang Master Digitale Logistik und Management Seminararbeit Data Mining in KNIME zur Veranstaltung Business Intelligence WS 2012/2013 Eingereicht von: Christian
MehrÖl-, Gas- und Pelletsheizungen Überprüfungsergebnisse 2007 bis 2009
Öl-, Gas- und Pelletsheizungen Überprüfungsergebnisse 27 bis 29 1. Einleitung Im Anschluss an die letzte umfangreiche Auswertung, die in der Arbeit Heizungsüberwachung in Vorarlberg 1997-27 (Internet:
MehrData-Mining: Ausgewählte Verfahren und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den
MehrExploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
MehrHOCHSCHULE KONSTANZ TECHNIK, WIRTSCHAFT UND GESTALTUNG. Das Luzifer-Rätsel. Prof. Dr. Hartmut Plesske Wintersemester 2008/09. von.
HOCHSCHULE KONSTANZ TECHNIK, WIRTSCHAFT UND GESTALTUNG Fakultät Informatik Das Luzifer-Rätsel Prof. Dr. Hartmut Plesske Wintersemester 2008/09 von Max Nagl nagl@fh-konstanz.de Inhaltsverzeichnis Inhaltsverzeichnis
Mehr4.2.5 Wie berücksichtigt man den Einsatz und die Abnutzung der Anlagen?
Seite 1 4.2.5 4.2.5 den Einsatz und die Bei der Erzeugung von Produkten bzw. der Erbringung von Leistungen sind in der Regel Anlagen (wie zum Beispiel Gebäude, Maschinen, Betriebs- und Geschäftsausstattung)
MehrProtokoll Physikalisch-Chemisches Praktikum für Fortgeschrittene
K. B. Datum des Praktikumstags: 4.12.2007 Matthias Ernst Protokoll-Datum: 8.12.2007 Gruppe 11 Assistent: T. Bentz Testat: AK-Versuch: Modellierung von verbrennungsrelevanten Prozessen Aufgabenstellung
MehrData Mining als Arbeitsprozess
Data Mining als Arbeitsprozess Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 31. Dezember 2015 In Unternehmen werden umfangreichere Aktivitäten oder Projekte im Bereich des Data Mining
MehrImputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im Mikrozensus 2008
Statistisches Bundesamt Methodeninformation Imputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im 2009 Erschienen am 24.07.2009 Ihr Kontakt zu uns: www.destatis.de/kontakt
MehrMythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011
Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ
MehrSortierverfahren für Felder (Listen)
Sortierverfahren für Felder (Listen) Generell geht es um die Sortierung von Daten nach einem bestimmten Sortierschlüssel. Es ist auch möglich, daß verschiedene Daten denselben Sortierschlüssel haben. Es
Mehrriskkv Scorenalyse riskkv Scoring Seite 1 von 9
riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene
Mehr1 Arbeiten mit Szenarien
1 Arbeiten mit Szenarien Was wäre wenn? - Zu der Beantwortung dieser Fragestellung stellt Ihnen Office Calc, unter anderem, so genannte Szenarien zur Verfügung. Mit deren Hilfe führen Sie eine Art Planspiel
Mehr3.4 Histogramm, WENN-Funktion
3.4 Histogramm, WENN-Funktion 3.4.1 Aufgabe Ausgehend von den Lösungen der zum Aufgabenkomplex 3.3, Absenkung (s. S. 106), aufgestellten Tabellen sollen weitere Elemente der MS-Excel-Programmierung genutzt
Mehr3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)
3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrMotivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi
Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data
MehrAlgorithms for Regression and Classification
Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrIn konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.
Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht
Mehr3.2 Ruhespirografie Die Ergebnisse der Ruhespirografie waren unauffällig (s. Anhang I, Tabelle 14).
22 3 Ergebnisse 3.1 Gesundheitliche Vorgeschichte und körperliche Untersuchungsbefunde der Probanden Alle Probanden erfüllten die in Tabelle 1 geforderten Kriterien und waren ohne Vorerkrankungen. Die
MehrData Mining Software. Funktionsvergleich und Benchmarkstudie. -Probekapitel-
Data Mining Software Funktionsvergleich und Benchmarkstudie -Probekapitel- mayato -Studie Data Mining Software 2009 4.3 KXEN Analytic Framework 4.04 Im Folgenden wird das Self-Acting Data Mining-Werkzeug
MehrEXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:
MehrData Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML
Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,
MehrThe integration of business intelligence and knowledge management
The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
MehrInformationstheorethisches Theorem nach Shannon
Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,
MehrFakultät für Wirtschaftswissenschaften. Data Mining
Fakultät für Wirtschaftswissenschaften Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-Source Software Knime Zur Veranstaltung Business
Mehr2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrSimulation und Verfahren des Data Mining
Simulation und Verfahren des Data Mining Approximation des Verhaltens von Materialflussmodellen durch ein Künstliches Neuronales Netz PPI - Informatik Dr. Prautsch & Partner Curiestr. 4 70563 Stuttgart
MehrSeminar Text- und Datamining Datamining-Grundlagen
Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation
MehrProseminar - Data Mining
Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen
MehrREGIONENCHECK VC Ravensburg
REGIONENCHECK VC Ravensburg Eine Untersuchung der Creditreform Ulm/Neu-Ulm Müller, Schott & Co. KG in Zusammenarbeit mit der Creditreform Rating AG Informationstableau Bodenseekreis Ravensburg Sigmaringen
MehrVersuchsauswertung mit Polynom-Regression in Excel
Versuchsauswertung mit Polynom-Regression in Excel Aufgabenstellung: Gegeben sei die in Bild 1 gezeigte Excel-Tabelle mit Messwertepaaren y i und x i. Aufgrund bekannter physikalischer Zusammenhänge wird
MehrEntscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen
Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen Referat von Guido RECKE Institut für Agrarökonomie der Georg-August-Universität Göttingen Platz der Göttinger Sieben
MehrBusiness Intelligence mit Microsoft SQL Server 2005
Business Intelligence mit Microsoft SQL Server 2005 Holger Schrödl ISBN 3-446-40463-5 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/3-446-40463-5 sowie im Buchhandel 4.6
MehrTeile ohne Bestand mit bestimmtem Alter (löschen) 9.8.1
Teile ohne Bestand mit bestimmtem Alter (löschen) 9.8.1 9.8.1-Teile ohne Bestand mit bestimmtem Alter Dieses Programm kann nur mit Mastercode aufgerufen werden. Mit Hilfe dieses Programmes lassen sich
MehrKnowledge Discovery. Lösungsblatt 1
Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.
MehrTaschenbuch Versuchsplanung Produkte und Prozesse optimieren
Wilhelm Kleppmann Taschenbuch Versuchsplanung Produkte und Prozesse optimieren ISBN-10: 3-446-41595-5 ISBN-13: 978-3-446-41595-9 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/978-3-446-41595-9
MehrBericht zum Neubeginn der CLM- Konsortialrechnungen infolge
BugReport: CO2 Modellversion: CLM2.4. Datum: 25.9.2006 Bericht zum Neubeginn der CLM Konsortialrechnungen infolge einer notwendigen Korrektur der CO 2 Konzentrationen im CLM Zusammenfassung Andreas Will,
MehrZeichnen von Graphen. graph drawing
Zeichnen von Graphen graph drawing WS 2006 / 2007 Gruppe: D_rot_Ala0607 Christian Becker 11042315 Eugen Plischke 11042351 Vadim Filippov 11042026 Gegeben sei ein Graph G = (V; E) Problemstellung V E =
Mehr14. Minimale Schichtdicken von PEEK und PPS im Schlauchreckprozeß und im Rheotensversuch
14. Minimale Schichtdicken von PEEK und PPS im Schlauchreckprozeß und im Rheotensversuch Analog zu den Untersuchungen an LDPE in Kap. 6 war zu untersuchen, ob auch für die Hochtemperatur-Thermoplaste aus
MehrReaktorvergleich mittels Verweilzeitverteilung
Reaktorvergleich mittels Verweilzeitverteilung Bericht für das Praktikum Chemieingenieurwesen I WS06/07 Studenten: Francisco José Guerra Millán fguerram@student.ethz.ch Andrea Michel michela@student.ethz.ch
MehrApproximationsalgorithmen
Ausarbeitung zum Thema Approximationsalgorithmen im Rahmen des Fachseminars 24. Juli 2009 Robert Bahmann robert.bahmann@gmail.com FH Wiesbaden Erstellt von: Robert Bahmann Zuletzt berarbeitet von: Robert
MehrVergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN)
Exposé zur Bachelorarbeit: Vergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN) Fakultät: Informatik, Humboldt-Universität zu Berlin Lijuan Shi 09.05.2013 Betreuer: Prof. Dr.
MehrAlgorithmische Modelle als neues Paradigma
Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN
MehrOrderarten im Wertpapierhandel
Orderarten im Wertpapierhandel Varianten bei einer Wertpapierkauforder 1. Billigst Sie möchten Ihre Order so schnell wie möglich durchführen. Damit kaufen Sie das Wertpapier zum nächstmöglichen Kurs. Kurs
Mehr6614-22 Seite 1 Abschlussprüfung Realschule
Seite 1 Verordnung des Kultusministeriums über die Abschlussprüfung an Realschulen (Realschulabschlussprüfungsordnung) Zuletzt geändert durch die Verordnung vom 2006 (Gesetzblatt K.u.U. ) Auf Grund von
MehrKurs 00091: Finanzierungs- und entscheidungstheoretische Grundlagen der Betriebswirtschaftslehre
Grundlagen der Betriebswirtschaftslehre, Kurs 00091, KE 4, 5 und 6, WS 2009/2010 1 Kurs 00091: Finanzierungs- und entscheidungstheoretische Grundlagen der Betriebswirtschaftslehre Lösungshinweise zur Einsendearbeit
MehrJahresabschluss- rechnung und Rückstände
ACS Data Systems AG Jahresabschluss- rechnung und Rückstände (Version 10.08.2009) Buchhaltung für Schulen ACS Data Systems AG Bozen / Brixen / Trient Tel +39 0472 27 27 27 obu@acs.it 2 Inhaltsverzeichnis
MehrAufgabenstellung und Zielsetzung
Aufgabenstellung und Zielsetzung In diesem Szenario werden Sie eine Bestellung, vorliegend im XML-Format, über einen Web-Client per HTTP zum XI- System senden. Dort wird die XML-Datei mittels eines HTTP-Interfaces
MehrFuzzy-Systeme zur Unterstützung von Entscheidungen in land- und forstwirtschaftlichen Logistik-Prozessen
Fuzzy-Systeme zur Unterstützung von Entscheidungen in land- und forstwirtschaftlichen Logistik-Prozessen Steve Schneider Logistik- und Fabriksysteme Fraunhofer Institut für Fabrikbetrieb und -automatisierung
MehrNumerische Optionsbepreisung durch Monte-Carlo-Simulation und Vergleich mit dem Black-Scholes-Modell
Numerische Optionsbepreisung durch Monte-Carlo-Simulation und Vergleich mit dem Black-Scholes-Modell Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft
MehrFragebogenauswertung zum Informatiklehrertag Bayern 2009 (ILTB 2009)
Fragebogenauswertung zum Informatiklehrertag Bayern 2009 (ILTB 2009) 1. Auswertung der personenbezogenen Daten Insgesamt besuchten 271 Lehrerinnen und Lehrer aus ganz Bayern und Oberösterreich die Universität
MehrErmittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung
Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.
MehrAutomatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung
Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten
MehrData Mining in SAP NetWeaver BI
Martin Kießwetter, Dirk Vahl kam p Data Mining in SAP NetWeaver BI Galileo Press Bonn Boston 2.1 Was ist Data Mining? 17 2.2 Data Mining, KDD und Business Intelligence 20 2.3 KDD-Prozessmodelle 22 2.4
MehrProseminar - Data Mining
Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,
MehrEin Scan basierter Seitenangriff auf DES
Ein Scan basierter Seitenangriff auf DES Seminar Codes & Kryptographie SS04 Tobias Witteler 29.06.2004 Struktur des Vortrags 1. Einführung / Motivation 2. Struktur von DES 3. Die Attacke Begriffsklärung:
MehrHow- to. E- Mail- Marketing How- to. Anrede personalisieren. Ihr Kontakt zur Inxmail Academy
E- Mail- Marketing How- to How- to Anrede personalisieren Personalisierung ist ein wichtiges Kundenbindungsinstrument, durch das die Aufmerksamkeit des Empfängers erheblich gesteigert werden kann. Dieser
MehrWelche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?
Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Auch wenn die Messungsmethoden ähnlich sind, ist das Ziel beider Systeme jedoch ein anderes. Gwenolé NEXER g.nexer@hearin gp
MehrDer Nachweis der Wirksamkeit des EMF-protection-Anhängers in der Herzratenvariabilität (HRV)
Der Nachweis der Wirksamkeit des EMF-protection-Anhängers in der Herzratenvariabilität (HRV) Hintergründe der Herzratenvariabilität (HRV) HRV steht für Herzvariabilität und bietet in starker Anlehnung
Mehr4 Greedy-Algorithmen (gierige Algorithmen)
Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine
MehrLivestatements Was Mitarbeiter und Chefs dazu sagen
Wie Sie mit Struktur mehr erreichen Nur weil die Führungsliteratur diese Art der Mitarbeitergespräche in den Himmel heben, heißt das noch lange nicht, dass alle Beteiligten das ebenso empfinden. Ganz im
MehrEinführung in die Informatik I
Einführung in die Informatik I Algorithmen und deren Programmierung Prof. Dr. Nikolaus Wulff Definition Algorithmus Ein Algorithmus ist eine präzise formulierte Handlungsanweisung zur Lösung einer gleichartigen
MehrData Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG
Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information
MehrHinweise zur. Auswertung. Markus Scholz Michael Wagner Version 1.0
Hinweise zur Auswertung Markus Scholz Michael Wagner Version 1.0 Struktur der Auswertung Die Auswertung der Ergebnisse und somit der Vergleich der Einschätzungen verschiedener Personen erfolgt mittels
MehrAuswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0
Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0??? Curt Ronniger 2007 Bei Neueinstieg in das Programm, sollte zunächst die Dokumentation XSelDoE10.pdf gelesen werden.
MehrIntegration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern
Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern Björn Burow SE Mustererkennung in Bildern und 3D-Daten Lehrstuhl Graphische Systeme BTU Cottbus Inhaltsübersicht
Mehr(1) Problemstellung. (2) Kalman Filter
Inhaltsverzeichnis (1) Problemstellung...2 (2) Kalman Filter...2 Funktionsweise... 2 Gleichungen im mehrdimensionalen Fall...3 Schätzung des Systemzustands...3 Vermuteter Schätzfehler... 3 Aktualisierung
MehrGünstige und resiliente Umsetzung von Smart Grid Funktionalitäten auf Basis der Rundsteuertechnik
Günstige und resiliente Umsetzung von Smart Grid Funktionalitäten auf Basis der Rundsteuertechnik Oliver Lutz Fraunhofer Institut für Solare Energiesysteme Abteilung Intelligente Energiesysteme Heidenhofstraße
Mehr6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)
6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden
MehrPräsentation vom 13.10.2011 im Rahmen der Fachberatertagung der Unfallkasse NRW in Haltern.
Präsentation vom 13.10.2011 im Rahmen der Fachberatertagung der Unfallkasse NRW in Haltern. Martin Kraft, VMS, Deutsche Verkehrswacht. Kontakt: mk@dvw-ev.de 1 Entgegen dem allgemeinen Trend beim Unfallgeschehen
MehrIris Treppner. astro. Wie Trader mit Astrologie die Börse schlagen FBV
Iris Treppner astro trading Wie Trader mit Astrologie die Börse schlagen FBV TEIL I Grundzüge des Astro-Tradings 17 KAPITEL 1: ZUM UMGANG MIT DIESEM BUCH Damit Sie in diesem Buch nicht unnötig suchen
MehrEMOTIONALE PERFORMANCE DEUTSCHER BANKENMARKEN
BANKEN-STUDIE 2015 EMOTIONALE PERFORMANCE DEUTSCHER BANKENMARKEN ERFOLGSFAKTOR MARKENEMOTION BANKEN-STUDIE by CHANGING MINDS the PSYCHOLOGICAL BRAND CONSULTANCY Auch Banken wecken Gefühle. Leidenschaft
MehrVerteilungsmodelle. Verteilungsfunktion und Dichte von T
Verteilungsmodelle Verteilungsfunktion und Dichte von T Survivalfunktion von T Hazardrate von T Beziehungen zwischen F(t), S(t), f(t) und h(t) Vorüberlegung zu Lebensdauerverteilungen Die Exponentialverteilung
MehrWas ist eine Clusteranalyse, wann und wie wird sie angewendet?
Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser
MehrEinsatz der Mehrkörpersimulation in Verbindung mit Computertomographie in der Produktentwicklung
Einsatz der Mehrkörpersimulation in Verbindung mit Computertomographie in der Produktentwicklung Hintergrund Bei komplexen Baugruppen ergeben sich sehr hohe Anforderungen an die Tolerierung der einzelnen
Mehr