DATA-MINING DIE SUCHE NACH WERTVOLLEN INFORMATIONEN IM DATEN-NIRVANA EINE UNTERRICHTSEINHEIT VON KASPAR JOST & PATRICK ASCHWANDEN

Größe: px
Ab Seite anzeigen:

Download "DATA-MINING DIE SUCHE NACH WERTVOLLEN INFORMATIONEN IM DATEN-NIRVANA EINE UNTERRICHTSEINHEIT VON KASPAR JOST & PATRICK ASCHWANDEN"

Transkript

1 DATA-MINING DIE SUCHE NACH WERTVOLLEN INFORMATIONEN IM DATEN-NIRVANA EINE UNTERRICHTSEINHEIT VON KASPAR JOST & PATRICK ASCHWANDEN

2

3 Inhaltsverzeichnis 1 Einführung Big-Data Von Daten zur Information zum Wissen Welchen Wert hat Information? Kreuztabellen (Contingency Tables) Was ist Data-Mining? Data Mining im Überblick Überwachtes Lernen: Unüberwachtes Lernen: Trainings-Set und Test-Set Klassifizierung 1R Das Wetter-Problem Erstellen von Regel-Sets mit 1R Testen des Regel-Sets Overfitting (Überanpassung) Crossvalidation (Kreuzvalidierung) Numerische Attribute Data-Mining mit Weka Wahrheitsmatrix (Confusion Matrix) Kappa Statistik (Kappa Statistics) Weitere Übungen zum 1R-Algorithmus Klassifizierung Naïve Bayes Statistische Betrachtung des «Wetter-Problems» Das Bayes-Theorem Spamerkennung mit Naïve Bayes Numerische Werte Weitere Übungen zu Naïve Bayes... 46

4 4 Klassifizierung Der Entscheidungsbaum Informationsgewinn (Information Gain) Die Entropie H(X) Die Bedingte EntropiE H(Y X) Der Informationsgewinn IG(Y X) Weitere Übungen zum Entscheidungsbaum Cluster-Analyse Ueberblick Typen von Clusterings Typen von Clustern K means (K medoid) Grundlegender K means (k medoid) Algorithmus Probleme mit K means bei verschiedenen Clustertypen Nicht globulare Cluster Hierarchisches Clustering Hierarchischer Clustering Grund-Algorithmus Assoziations-Analyse Suche nach Assoziations-Regeln effektive erzeugung von itemsets, a priori-prinzip Big Privacy: Datenschutz in Big Data Vertraulichkeitsrisiken: Definition und Massnahmen Methoden zum Schutz oeffentlicher Daten Aggregation Suppression Data Swapping Zufügen von zufälligem Rauschen Hinzufügen künstlicher Daten Herausforderungen für die Forschung Quellen Lösungen zu den Aufgaben Kapitel 1: Einführung Kapitel 2: Klassifizierung 1R Kapitel 3: Klassifizierung NaÏve Bayes Kapitel 4: Klassifizierung Entscheidungsbaum... 96

5 Big-Data 1 EINFÜHRUNG 1.1 BIG-DATA Willkommen im Big Data Zeitalter! Google und Facebook, die neuen Megareichen vom Silicon Valley sind Meister im Ausnutzen von Webdaten. Dabei verwenden sie Ergebnisse aus Online Suchen, Posts und Meldungen, um Werbungen entsprechend zu platzieren. Im Januar 2012 am World Economic Forum in Davos war Big Data ein zentrales Thema. In einem Report mit der Überschrift Big Data, Big Impact 1 werden Daten als neues Wirtschaftsgut, wie Devisen oder Gold erwähnt. In unterschiedlichen Bereichen, wie z.b. in der Wissenschaft, dem Sport, der Werbung und dem öffentlichen Gesundheitswesen, können wir Ähnliches beobachten. Ein Trend zu datengesteuerten Entdeckungen und Entscheidungsfindungen. So wurden seit Jahrzenten die Werfer (Pitcher) im US- Baseball nach folgender Formel bewertet: E. R. A. = earned runs innings pitched x 9 Der E.R.A.-Wert (earned runs avereage) beschreibt, wie viele Läufe (Runs) einem Team gelangen, während dem ein Werfer in einem Spiel insgesamt am Werfen war. Ein Baseballspiel geht über 9 Spielphasen (innings), während denen jedes Team einmal am Werfen ist. Heutzutage werden viel mehr Daten zur Auswertung eines Pitchers gesammelt und komplexere Formeln werden verwendet. Als Beispiel dazu die Siera-Formel (Skill-Interactive Earned Run Average): SIERA = SO GB FB PU) BB PA PA PA SO 2 2 PA GB FB PU) ± SO PA PA (GB FB PU) BB FB PU) (GB PA PA PA Worum geht es eigentlich bei Big Data? Einerseits handelt es sich bei diesem Begriff sicher um einen Marketingbegriff. Andererseits handelt es sich um eine Kurzschrift für einen Technologietrend, welcher die Tür zu einem neuen Approach eines besseren Verständnisses der Welt und zur Entscheidungsfindung darstellt. Gemäss IDC, einem Technologie Marktforschungsunternehmen, verdoppelt sich die Datenmenge jährlich! Es ist nicht nur so, dass es immer mehr Datenströme gibt, es kommen immer gänzlich neue Datenströme dazu. Zum Beispiel sind unzählig viele digitale Sensoren in Industrieanlagen, Fahrzeugen, Stromzählern und Schiffcontainern integriert. Diese messen und kommunizieren die Position, Bewegung, Vibration, Temperatur, Feuchtigkeit und sogar chemische Veränderungen der Luftzusammensetzung. Werden Kommunikationssensoren mit Computerterminals verbunden, um die Daten auszuwerten, dann bezeichnet man dies als das Internet der Dinge oder auch als industrielles Internet. Der verbesserte Zugang zu Informationen unterstützt zudem den Trend hin zu Big Data. Zum Beispiel wandern Regierungsdaten Beschäftigungszahlen und andere Informationen mehr und mehr aufs Internet ( ) 2 ( ) 1

6 Kapitel 1 Einführung Mit der Eröffnung der Website 3, öffnete Washington im Jahr 2009 die Datentüre noch weiter. Diese stellt eine Unmenge von Regierungsdaten der Öffentlichkeit zur Verfügung. Daten werden nicht nur verfügbarer, sie werden für Computer und somit auch für Menschen verständlicher. Der Datenschwall von Bildern, Wörtern, Videodokumenten und den oben genannten Datenströmen von Sensoren kommt ungeordnet daher. Man spricht in diesem Fall von unstrukturierten Daten. Ein spannender Einstieg und Einblick in die Thematik Big Data bietet eine Aufzeichnung von Input, einer Radiosendung von DRS3, die als Podcast erhältlich ist VON DATEN ZUR INFORMATION ZUM WISSEN Die im obigen Kapitel erwähnten unstrukturierten Daten stellen nicht gezwungenermassen Müll für Datenbanken dar. Anwendungen, welche vom Schatz an unstrukturierten Daten aus dem Internet Profit ziehen, sind enorm im Vormarsch. An vorderster Front sind die rasch voranschreitenden Techniken der Künstlichen Intelligenz, die Spracherkennung, Mustererkennung und das Maschinenlernen. Werkzeuge der Künstlichen Intelligenz können in vielen Bereichen eingesetzt werden. Als Beispiele können hier die Websuche, das Werbegeschäft und die experimentellen Roboterpersonenwagen von Google herbeigezogen werden, welche tausende von Kilometern auf Kaliforniens Strassen bereits zurücklegten. In beiden Fällen wird ein Bündel von Tricks aus dem Bereich der Künstlichen Intelligenz genutzt. Beides sind gewaltige Big-Data-Anwendungen, die Unmengen von Daten verarbeiten, um unmittelbare Entscheidungen zu treffen. Bevor in der Folge spezifisch auf die Begriffe Daten und Information eingegangen wird, gilt es zu klären, was ein Informationssystem (IS) und was eine Informationstechnologie (IT) ist. Ein IS ist eine Kombination von Hardware, Software und Netzwerken, die den Menschen beim Sammeln, Kreieren und Verteilen wichtiger Daten hilft. IT ist ein Werkzeug, das zum Sammeln, Übertragen, Speichern und Verarbeiten von Daten verwendet wird. Daten sind rohe Fakten, Abbildungen und Details. Information ist eine organisierte, bedeutungsvolle und brauchbare Interpretation von Daten. Wissen ist ein Verständnis, wie eine Menge von Informationen am besten verwendet werden kann. Anders formuliert: Daten sind aufgezeichnete Fakten. Informationen sind den Daten zugrundeliegende Muster. Abbildung 1-1: Information vs. Daten = 13 oder B? 3 ( ) 4 ( ) 2

7 Welchen Wert hat Information? 1.3 WELCHEN WERT HAT INFORMATION? Der Mathematiker und Elektrotechniker Claude Shannon ( ) gilt als Gründer der Informationstheorie. Er widmete sich im Besonderen den folgenden Fragestellungen: Was ist Information? Wie können wir Information messen? Was ist der Unterschied zwischen Information und Daten? Wie können wir Daten speichern und übertragen? In unserem Alltag begegnen wir einer Unmenge von Signalen. Das kann z.b. ein Stoppsignal auf der Strasse sein. Dieses enthält eine Nachricht, welche wir als Information interpretieren. Abbildung 1-2: Stoppsignal Information vermittelt einen Unterschied. Dabei ist sie ausnahmslos, bei jeder Übertragung von Materie, in Form von Energien oder Impulsen ausgeprägt. Sie erreicht den Menschen über die Sinnesorgane bzw. im chemisch-biologischen Sinn über Rezeptoren und Nerven. Bewusst kann sie als Nachricht über einen Kanal (Sehen eines Stoppsignals) oder einen Träger von einem Sender an einen Empfänger übermittelt oder unbewusst durch eine Form und Eigenschaft eines Objektes ausgesandt werden. Durch die Digitalisierung beliebiger Informationen, kann digitale Information erzeugt werden. Die nachfolgende Grafik zeigt die Aufzeichnung eines analogen Signals. Es zeichnet sich durch einen kontinuierlichen Verlauf aus. Die Nachricht kann in diesem Fall beliebig genau aufgezeichnet werden. Eine Interpretation eines solch genauen Signals, kann sehr aufwändig sein. Abbildung 1-3: Beschleunigungsverlauf über die Zeit in analoger Darstellung 3

8 Kapitel 1 Einführung In der folgenden Abbildung wird sichtbar wie analoge in digitale Daten umgesetzt werden und umgekehrt. Es ist ersichtlich, dass digitale Signale sich durch einen diskreten Verlauf auszeichnen. Allerdings lassen sie nur eine begrenzte Genauigkeit zu. Andererseits ist die Verarbeitung und Interpretation digitaler Daten mit einem viel geringeren Aufwand verbunden. Abbildung 1-4: Digitalisierung eines analogen Signals Nachrichten werden durch eine Sprache, Syntax und eine Semantik gekennzeichnet. Definitionen: Syntax ist die Menge aller Regeln nach denen ein Text aufgebaut ist. Die Syntax eines natürlich sprachlichen Textes ist die Grammatik. Unter Semantik versteht man die Bedeutung eines syntaktisch richtig aufgebauten Textes. Eine Sprache ist durch Syntax und Semantik ihrer Texte definiert. Beispiele künstlicher Sprachen: H 2 SO 4 (x + 7) / (x 7) c3 x d7! for (int i = 0; i < n; i ++) Beispiele für eine Syntax: Alphabet (chinesisch, griechisch, etc.) Code (Morsecode, Binärcode, etc.) 4

9 Welchen Wert hat Information? Binärcodes werden aufgrund ihrer einfachen Darstellung in der Regel für die Verarbeitung digitaler Informationen verwendet. Technisch lassen sie sich sehr einfach abbilden und verarbeiten, z.b. durch Spannungen. Wenn eine Spannung vorhanden ist, dann entspricht das dem Zustand 1 oder logisch wahr, ist keine Spannung vorhanden, entspricht das 0 oder logisch falsch. Diese Informationseinheit aus 0 od. 1 bzw. wahr od. falsch wird in der Informatik als Bit bezeichnet. Höherwertige Informationen lassen sich durch die logische Verknüpfung oder technische Verschaltung mehrerer dieser einfachen Werte realisieren. Die Übertragung von Informationen mittels Binärcodes kann medienunabhängig überall dort durchgeführt werden, wo ein Wechsel zwischen zwei Zuständen erzeugt und gemessen werden kann. Digitale Informationen liessen sich somit, wenn auch mit geringer Datenübertragungsrate per Rauchzeichen übermitteln! Dezimal Dualsystem Aiken-Code Wertigkeit Tabelle 1-1: Dualsystem vs. Aiken-Code Um den Entscheidungswertes von IT quantifizieren zu können, müssen wir den Informationswert kennen. Dazu wird die folgende Formel angewendet: Informationswert = Wert eines Entscheidungsresultates mit Information Wert des Entscheidungsresultates ohne Information In der Praxis interessiert vor allem, wie viel für eine Information bezahlt werden sollte. Dies ist maximal deren Wert. Bei der Bestimmung des Wertes eines Entscheidungsresultates, stellen sich folgende Probleme: Wird der Wert des Entscheidungsresultates ex ante (vorher) oder ex post (nach) der Einschätzung ermittelt? Der Wert variiert über die Zeit bzw. über Situationen. Es muss auch der Wert von Entscheidungsalternativen eingeschätzt werden, die man nicht genommen hat. Perfekte Information (PI) spezifiziert genau, welches Ereignis, von einer Menge künftiger Ereignisse eintritt. Dabei handelt es sich beim PI-Wert um ein theoretisches Extrem. PI wird als bestmögliche 5

10 Kapitel 1 Einführung Information bezeichnet. Imperfekte Information schränkt einzig die Erwartung möglicher zukünftiger Ereignisse ein. Imperfekte Information ist ausnahmslos weniger wert als perfekte Information. Dabei ist der Wert der perfekten Information die Obergrenze des Informationswertes. Imperfekte Information ist besser als keine Information. Ist sie nun mehr wert als ihre Beschaffungskosten? Wahrscheinlichkeit und Erwartungswert Um für diese beiden Begriffe ein Gefühl zu entwickeln, betrachten wir exemplarisch den Durchführungsentscheid für ein Rockkonzert: Per Wetterprognose soll bestimmt werden, in welchem Stadion das Konzert durchgeführt werden soll (ex ante Bestimmung des Wertes) Wir möchten den Erwartungswert (EW) kennen. Stadion 1 kostet Fr. 20'000 und bietet 20'000 überdachte Sitzplätze. Stadion 2 kostet Fr. 15'000 und bietet 25'000 open air Sitzplätze. Ein Ticket kostet Fr. 10 und es können beide Stadien gefüllt werden. Band und Crew kosten Fr. 50'000, auch wenn das Konzert wegen Regen im Open Air Stadion abgesagt werden muss. Im Falle einer Absage müssen die Ticketpreise zurückerstattet werden! Es besteht die Wahrscheinlichkeit von 67% für Regen. Was tun? Aufgabe 1-1: Berechnen Sie den Erwartungswert (EW) mit perfekter Information (PI) über den Regen. Wie viel sollten Sie bereit sein, für diese Information (PI) zu bezahlen? 6

11 Kreuztabellen (Contingency Tables) 1.4 KREUZTABELLEN (CONTINGENCY TABLES) Eine Kreuztabelle ist eine Tabellenart in Matrixformat, die die absoluten oder relativen Häufigkeiten von bestimmten Merkmalsausprägungen enthalten. Kontingenz bedeutet in diesem Fall, das zwei Merkmale gemeinsam auftreten. Das heisst, dass Häufigkeiten für mehrere, miteinander durch und oder sowie (Konjunktion) verknüpfte Merkmale, dargestellt werden. Diese Häufigkeiten werden durch deren Randsummen ergänzt, welche die sogenannten Randhäufigkeiten bilden. Ein häufig auftretender Spezialfall einer Kontingenztabelle mit zwei Merkmalen ist eine Konfusionsmatrix. 5 Das Klassifizieren ist eine wichtige Operation im Data-Mining-Prozess. Für ein Attribut (z.b. den Wohlstand), versucht man den Reichtum künftiger Menschen über Mittelwerte anderer verfügbarer Attribute vorauszusagen. Attribute sind Messwerte einer Instanz. Dabei sind Instanzen individuelle, unabhängige Beispiele eines Konzepts. In der Folge sehen Sie dazu einen Teil der Datensätze, die aus einer im Jahr 1990 in den USA durchgeführten Volksumfrage (US Census), stammen. Diese Daten sind über das UCI Machine Learning Datasets Repository 6 online verfügbar. age employment education marital job relation race gender country wealth 39 State_gov Bachelors Nev- Adm_cleri Not_in_fam White Male United_Sta poor 51 Self_emp_ Bachelors Married Exec_man Husband White Male United_Sta poor 39 Private HS_grad Divorced Handlers_ Not_in_fam White Male United_Sta poor 54 Private 11th Married Handlers_ Husband Black Male United_Sta poor 28 Private Bachelors Married Prof_speci W ife Black Female Cuba poor 38 Private Masters Married Exec_man W ife White Female United_Sta poor 50 Private 9th Mard Other_serv Not_in_fam Black Female Jamaica poor 52 Self_emp_ HS_grad Married Exec_man Husband White Male United_Sta rich 31 Private Masters Nev- Prof_speci Not_in_fam White Female United_Sta rich 42 Private Bachelors Married Exec_man Husband White Male United_Sta rich 37 Private Some_coll Married Exec_man Husband Black Male United_Sta rich 30 State_gov Bachelors Married Prof_speci Husband Asian Male India rich 24 Private Bachelors Nev- Adm_cleri Own_child White Female United_Sta poor 33 Private Assoc_ac Nev- Sales Not_in_fam Black Male United_Sta poor 41 Private Assoc_voc Married Craft_repai Husband Asian Male *MissingV rich 34 Private 7th_8th Married Transport_ Husband Amer_I Male Mexico poor 26 Self_emp_ HS_grad Nev- Farming_fi Own_child d White Male United_Sta poor 33 Private HS_grad Nev- Machine_o Unmarried White Male United_Sta poor 38 Private 11th Married Sales Husband White Male United_Sta poor 44 Self_emp_ Masters Divorced Exec_man Unmarried White Female United_Sta rich 41 Private Doctorate Married Prof_speci Husband White Male United_Sta rich : : : : : : : : : : : Tabelle 1-2: 48'842 Datensätze mit 16 Attributen 5 ( ) 6 ( ) 7

12 Kapitel 1 Einführung Die verwendeten 16 Attribute sind in diesem Fall: age edunum race hours_worked employment marital gender country taxweighting job capitalgain wealth education relation capitolloss agegroup Tabelle 1-3: rot = reelle Zahlen, blau = kategorische Werte (symbolische Attribute) Zur Analyse der Datensätze, können dazugehörige Histogramme betrachtet werden. Geschlecht Anzahl Female Male Tabelle 1-4: Geschlecht Geschlechtsverteilung Male Female Abbildung 1-5: Histogramm zur Geschlechtsverteilung Attribut Anzahl Divorced 6633 Married_AF_spouse Married Married_spouse_absent 628 Never_married Seperated 1530 Widowed 1518 Tabelle 1-5: Zivilstand 8

13 Kreuztabellen (Contingency Tables) Zivilstand Widowed Seperated Never_married Married_spouse_absent Married Married_AF_spouse Divorced Abbildung 1-6: Histogramm zum Zivilstand Diese Histogramme werden auch als 1-dimensionale Kreuztabelle (Contingency Table) bezeichnet. Um eine k-dimensionale Kreuztabelle zu erzeugen, wird das folgende Rezept verwendet: 1. Wählen Sie k Attribute aus Ihrem Datensatz aus. Benennen Sie sie a 1, a 2, a k. 2. Für jede mögliche Kombination von Werten, a 1 =x 1, a 2 =x 2, a k =x k, zeichnen Sie auf, wie häufig die Kombination vorkommt. Ein Datenbankspezialist würde dies als einen k-dimensionalen Datenkubus bezeichnen. Nun betrachten wir eine 2-dimensionale Kreuztabelle. Für jedes Wertepaar der Attribute Altersgruppe und Wohlstand sehen wir, wie viele Datensätze in welchem Bereich zu liegen kommen. wealth values poor rich agegroup 10s s s s s s s s s Tabelle 1-6: Wohlstandsverteilung nach Altersgruppen 9

14 Kapitel 1 Einführung Wohlstand verschiedener Altersgruppen in USA 90s 80s 70s 60s 50s 40s poor rich 30s 20s 10s 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Abbildung 1-7: Histogramm zu Wohlstandsverhältnisse in Abhängigkeit von Altersgruppen Im Fall dieser Kreuztabelle sehen wir, dass eine entsprechend gewählte Darstellungsform einen Erkenntnisgewinn vereinfachen kann. Aufgabe 1-2: Betrachten Sie die Tabelle 1-6 bzw. Abbildung 1-7 genau. Welche Schlüsse können für die verschiedenen Altersbereiche gezogen werden? Zur Erinnerung: Die Datensätze stammen aus den USA. 10

15 Kreuztabellen (Contingency Tables) Eine umfassendere 2-dimensionale Kohärenztabelle ist in der folgenden Tabelle dargestellt. Job: *MissingValue* Adm_clerical Armed_Forces Craft_repair Exec_managerial Farming_fishing Handlers_cleaners Machine_op_inspct marital Divorced Married_AF_spouse Married Married_spouse_absent Never_married Seperated Widowed Tabelle 1-7: Grössere 2-dimensionale Kohärenztabelle Priv_house_serv Prof_speciality Protective_serv Sales Tech_support Transport_moving Widowed Seperated Never_married Married_spouse_absent Married Married_AF_spouse Divorced 0% 20% 40% 60% 80% 100% *MissingValue* Adm_clerical Armed_Forces Craft_repair Exec_managerial Farming_fishing Handlers_cleaners Machine_op_inspct Priv_house_serv Prof_speciality Protective_serv Sales Abbildung 1-8: Histogramm zu Zivilstand und beruflichem Hintergrund 11

16 Kapitel 1 Einführung Wenn wir noch einen Schritt weiter gehen, erhalten wir 3-dimensionale Kohärenztabellen. Diese werden zusehends schwieriger zu interpretieren. Abbildung 1-9: 3-dimensionale fiktive Kohärenztabelle Aufgabe 1-3: Wir haben 16 Attribute, a) wie viele 1-dimensionale Kohärenztabellen erhalten wir damit? b) Wie viele 2-dimensionale Kohärenztabellen? c) Wie viele 3-dimensionale Kohärenztabellen? d) Falls wir 100 Attribute hätten, wie viele 3-dimensionale Kohärenztabellen hätten wir? e) Welchen Schluss ziehen Sie in für grössere Kontingenztabellen? 12

17 Was ist Data-Mining? 1.5 WAS IST DATA-MINING? Aufgabe von lernenden Maschinen ist es, Wissen aus Trainingsdaten zu extrahieren. Häufig möchten Programmierer oder Nutzer von lernenden Maschinen das extrahierte Wissen für Menschen zugänglich bzw. verständlich gestalten. Noch interessanter wird es, wenn der Entwickler dieses Wissen sogar verändern kann. Die Anforderungen aus der Wirtschaftsinformatik und dem Wissensmanagement sind sehr ähnlich. Eine typische Frage aus diesem Bereich ist z.b. in folgender Problematik umschrieben: Ein Betreiber eines Internetshops möchte aus der Nutzungsstatistik seines Shops den Zusammenhang zwischen den Kunden und der für ihn interessanten Klasse von Produkten kennen. Mit diesem Wissen könnte der Anbieter, eine kundenspezifische Werbung anbieten. Ein Paradebeispiel dafür ist der Internetshop von Amazon. Abbildung 1-10: Personalisierte Kundenwerbung bei Amazon In Abbildung 1-9 ist erkennbar, wie einem Kunden Produkte vorgeschlagen werden. Diese gleichen jenen Produkten, die er kürzlich auf Amazon betrachtete oder einkaufte. Diverse Bereiche der Werbung, des Marketings und des Customer Relationship Management (CRM) nutzen heutzutage Data Mining. Wann immer grosse Datenmengen zur Verfügung stehen, kann versucht werden, diese zur Analyse der Kundenwünsche zu verwenden, um kundenspezifisch werben zu können. Der Prozess Wissensgewinns aus Daten sowie dessen Darstellung und Anwendung wird als Data Mining bezeichnet. Die verwendeten Methoden kommen meist aus der Statistik oder der Künstlichen Intelligenz (KI) und sollten auch auf sehr grosse Datenmengen mit vertretbarem Aufwand anwendbar sein. 7 Bei Internet- bzw. Intranetrecherchen spielt das Text Mining eine immer wichtigere Rolle. Es geht dabei häufig um das Auffinden ähnlicher Texte in Suchmaschinen oder die Klassifikation von Texten, wie sie beispielsweise in Spam-Filtern für zum Einsatz kommen. Die kommerzielle Bedeutung von Data Mining Techniken bringt eine grosse Menge potenter Data Mining-Systeme mit sich. Diese bieten Anwendern diverse Instrumente zur Extraktion des Wissens aus Daten. Ein solches Instrument werden Sie im Rahmen dieser Unterrichtssequenz kennen lernen! 7 Grundkurs Künstliche Intelligenz (2009), Wolfgang Ertel, S

18 Kapitel 1 Einführung 1.6 DATA MINING IM ÜBERBLICK Ausgehend von einer Sammlung von Datensätzen wird mittels eines Data Mining Algorithmus versucht, ein Modell zu entwickeln. Falls kein Zielattribut vorkommt, wird unüberwachtes Lernen zum Einsatz kommen. Im Fall, dass ein Zielattribut gegeben ist (es ist bekannt, welches Auto umweltfreundlich ist) kommt das überwachte Lernen zum Einsatz. Abbildung 1-11: Data Mining ÜBERWACHTES LERNEN: Man gibt ein Zielattribut vor wie, der Kunde ist gut oder schlecht, d.h. wir geben die Qualität vor. Methoden des Überwachten Lernens sind die Klassifikation (Entscheidungsbaum, Bayes Classifier), die Regression und die Klassenwahrscheinlichkeitsschätzung (Bayes) UNÜBERWACHTES LERNEN: Es gibt keine Zielattribute. Das heisst, wir benötigen vorhergehende Werte. Methoden des Unüberwachten Lernen sind die Segmentation (Clustering) und die Assoziationsanalyse (Association Rule Mining). Mit der Segmentation werden Zusammenhänge zwischen den Zeilen, d.h. zwischen den Einkaufskörben, gesucht. Bei der Assoziationsanalyse wird nach Zusammenhängen zwischen den Attributen (Kolonnen) gesucht. Das heisst, man möchte z.b. herausfinden, was gemeinsam gekauft wird. Bei der Datenaufbereitung werden Objekte Gruppen zugeordnet. Diese Gruppen werden als Klassen bezeichnet. 14

19 Data Mining im Überblick TRAININGS-SET UND TEST-SET Beim Data Mining werden grosse Datenbestände in ein Training-, ein Validations- und ein Test-Set unterteilt. Mit dem Trainings-Set wird versucht ein Model zu entwickeln. Das Validations-Set wird verwendet, um zu überprüfen, wie gut das entwickelte Modell funktioniert. Das Validations-Set besteht aus Daten deren Resultate bereits bekannt sind. So können die mit dem Model erhaltenen Resultate mit den bereits bekannten des Validations-Sets verglichen werden. Ein Test-Set wird verwendet, um herauszufinden, wie gut ein Modell in der Praxis funktioniert, wenn es mit reellen Datenbeständen konfrontiert würde. Abbildung 1-12: Training Set und Test Set 15

20 Kapitel 2 Klassifizierung 1R 2 KLASSIFIZIERUNG 1R Eine simple aber effektive Methode um aus Daten Information zu gewinnen stellt das 1-Regel- Verfahren (engl. 1-Rule) dar, welches üblicherweise einfach als 1R bezeichnet wird. Trotz der Einfachheit von 1R, liefert die Methode in vielen Fällen gut funktionierende Regeln um die Struktur von Daten zu beschreiben. Es ist übrigens gar nicht so selten, dass die einfachen Methoden beim Data Mining oft erstaunlich gute Resultate liefern. Dieser Umstand beruht wohl darauf, dass die Struktur realer Datensätzen häufig so einfach ist, dass ein einziges Attribut ausreicht, um einzelne Instanzen (= Eintrag im Datensatz) mit guter Genauigkeit einer Klasse zuordnen zu können. Es lohnt sich also auf jeden Fall, das Einfache zuerst zu probieren! 2.1 DAS WETTER-PROBLEM Die Funktionsweise von 1R soll im Folgenden an einem konkreten Beispiel, dem «Wetter-Problem» erläutert werden. Dabei handelt es sich um einen kleinen Datensatz, welcher Auskunft darüber gibt, ob unter bestimmten Wetterbedingungen ein Anlass durchgeführt werden kann oder nicht. Da das Wetter-Problem über nur gerade 14 Instanzen (Einträge) verfügt und damit gut überschaubar ist, wird es gerne dazu verwendet, die Funktionsweise verschiedener Data-Mining-Verfahren zu untersuchen und miteinander zu vergleichen. Der Datensatz für das Wetter-Problem hat folgenden Inhalt: Wetter Temperatur Luftfeuchtigkeit Wind Anlass 1 sonnig heiss hoch schwach 2 sonnig heiss hoch stark 3 bewoelkt heiss hoch schwach 4 regnerisch mild hoch schwach 5 regnerisch kalt normal schwach 6 regnerisch kalt normal stark 7 bewoelkt kalt normal stark 8 sonnig mild hoch schwach 9 sonnig kalt normal schwach 10 regnerisch mild normal schwach 11 sonnig mild normal stark 12 bewoelkt mild hoch stark 13 bewoelkt heiss normal schwach 14 regnerisch mild hoch stark Tabelle 2-1: Datensatz zum Wetter-Problem Alle 14 INSTANZEN des Wetter-Problems verfügen über die vier ATTRIBUTE Wetter, Temperatur, Luftfeuchtigkeit und Wind. Die letzte Spalte jeder Instanz ist mit Anlass bezeichnet und enthält die Information, ob der Anlass unter den beschriebenen Bedingungen stattfinden kann oder nicht. In dieser Spalte wird also die Zuweisung zu den beiden KLASSEN (der Anlass findet statt) respektive (der Anlass findet nicht statt) vollzogen. 16

21 Erstellen von Regel-Sets mit 1R 2.2 ERSTELLEN VON REGEL-SETS MIT 1R Beim 1R-Verfahren werden die einzelnen Attribute der Reihe nach durchgegangen. Innerhalb eines Attributs wird für jeden Attribut-Wert eine Regel erstellt, bei welcher die am häufigsten vorkommende Klasse dem Attribut-Wert zugewiesen wird. Anschliessend wird für alle Regeln die Fehlerquote bestimmt. Das Regel-Set mit der kleinsten Fehlerquote gewinnt! Das 1R-Verfahren lässt sich mit Hilfe von Pseudo-Code also wie folgt beschreiben: Für jedes Attribut, für jeden Wert dieses Attributs, erstelle eine Regel wie folgt: zähle wie oft jede Klasse vorkommt finde die häufigste Klasse erstelle eine Regel, welche diese Klasse dem aktuellen Attribut-Wert zuordnet. Berechne die Fehlerquote aller Regeln. Wähle das Regel-Set mit der kleinsten Fehlerquote. Angewendet auf den Datensatz zum «Wetter-Problem», würde 1R im ersten Schritt also das Attribut Wetter auswählen, welches über die Attribut-Werte sonnig, bewoelkt und regnerisch verfügt. Die erste Regel würde somit für den Attribut-Wert sonnig erstellt werden, welcher insgesamt 5 Mal vorkommt und dabei 2 Mal in die Klasse (der Anlass findet statt) und 3 Mal in die Klasse (der Anlass findet nicht statt) entfällt. Da der Anlass in der Mehrzahl der Fälle (3 von 5) bei sonnigem Wetter nicht stattfindet, ergibt sich die Regel: sonnig. Allerdings gibt es auch Fälle (2 von 5), in denen der Anlass trotz sonnigem Wetter, durchgeführt wird. Die Regel: sonnig weist also eine Fehlerquote von 2/5 auf. Die Tabelle 2-2 zeigt sämtliche Regeln und die zugehörigen Fehlerquoten zum «Wetter-Problem» in der Übersicht: Attribut Regel Fehlerquote Totale Fehlerquote 1 Wetter sonnig 2/5 4/14 bewoelkt 0/4 regnerisch 2/5 2 Temperatur heiss * 2/4 5/14 mild 2/6 kalt 1/4 3 Luftfeuchtigkeit hoch 3/7 4/14 normal 1/7 4 Wind stark 2/8 5/14 schwach * 3/6 Tabelle 2-2: Alle Regeln zum Wetter-Problem (* = Zufalls-Wahl zwischen zwei gleichwahrscheinlichen Regeln) Für den Attribut-Wert heiss des Attributs Temperatur wird gemäss obiger Tabelle die Regel: sonnig erstellt und zwar mit einer Fehlerquote von 2/4. Die Auswahl erfolgt in diesem Fall zufällig, da die Regel: sonnig ebenfalls die Fehlerquote 2/4 aufweisen würde. Zwei gleichwahrscheinliche Situationen ergeben sich auch für den Attribut-Wert schwach des Attributs Wind. 17

22 Kapitel 2 Klassifizierung 1R Für jedes Attribut erstellt 1R nun ein Regel-Set, indem es die Regeln mit den geringsten Fehlerquote auswählt. Für das Attribut Wetter ergibt sich damit folgendes Regel-Set: Wetter: sonnig (Totale Fehlerquote = 4/14 Genauigkeit = 10/14) bewoelkt regnerisch Wird dieses Regel-Set auf die 14 Instanzen des «Wetter-Problems» angewendet, werden 10 Instanzen korrekt ( ) und deren 4 falsch ( ) klassifiziert. Wird das Regel-Set also beispielsweise auf die Instanz 6 angewendet, müsste der Anlass gemäss der Regel: regnerisch eigentlich stattfinden, was in Realität aber nicht zutrifft. Das Regel-Set liefert in diesem Fall also eine falsche Voraussage, wie auch bei den Instanzen 9, 11 und 14. Die Fehlerquote des Regel-Sets beträgt damit 4/14, respektive es weist eine Genauigkeit (engl. accuracy) von 10/14 auf. Wetter Temperatur Luftfeuchtigkeit Wind Anlass 1 sonnig heiss hoch schwach 2 sonnig heiss hoch stark 3 bewoelkt heiss hoch schwach 4 regnerisch mild hoch schwach 5 regnerisch kalt normal schwach 6 regnerisch kalt normal stark 7 bewoelkt kalt normal stark 8 sonnig mild hoch schwach 9 sonnig kalt normal schwach 10 regnerisch mild normal schwach 11 sonnig mild normal stark 12 bewoelkt mild hoch stark 13 bewoelkt heiss normal schwach 14 regnerisch mild hoch stark Tabelle 2-3: Überprüfung des Regel-Sets für das Attribut Wetter. Für die drei Attribute Temperatur, Luftfeuchtigkeit und Wind ergeben sich folgende Regel-Sets: Temperatur: heiss (Totale Fehlerquote = 5/14 Genauigkeit = 9/14) mild kalt Luftfeuchtigkeit: hoch (Totale Fehlerquote = 4/14 Genauigkeit = 10/14) normal Wind: stark (Totale Fehlerquote = 5/14 Genauigkeit = 9/14) schwach Die 14 Instanzen des «Wetter-Problems» werden mit dem Regel-Set zum Attribut Wetter, oder mit jenem zum Attribut Luftfeuchtigkeit am genauesten klassifiziert. Beide Regel-Sets sind mit einer Genauigkeit von 10/14 äquivalent. Die beiden Regel-Sets zu den Attributen Temperatur und Luftfeuchtigkeit weisen mit 9/14 eine geringere Genauigkeit auf und können daher verworfen werden. 18

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011 Evaluation Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 26.05.2011 Caroline Sporleder Evaluation (1) Datensets Caroline Sporleder Evaluation (2) Warum evaluieren?

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Datamining Cup Lab 2005

Datamining Cup Lab 2005 Datamining Cup Lab 2005 Arnd Issler und Helga Velroyen 18. Juli 2005 Einleitung Jährlich wird der Datamining Cup 1 von der Firma Prudsys und der TU Chemnitz veranstaltet. Im Rahmen des Datamining-Cup-Praktikums

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

UI-Testing mit Microsoft Test Manager (MTM) Philip Gossweiler / 2013-04-18

UI-Testing mit Microsoft Test Manager (MTM) Philip Gossweiler / 2013-04-18 UI-Testing mit Microsoft Test Manager (MTM) Philip Gossweiler / 2013-04-18 Software Testing Automatisiert Manuell 100% 70% 1 Überwiegender Teil der Testing Tools fokusiert auf automatisiertes Testen Microsoft

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Ant in Eclipse Starthilfe

Ant in Eclipse Starthilfe IN DIESER KURSEINHEIT Einleitung o Um was geht's eigentlich? Hello World o Das Ant Skript Mehrere Targets und Properties o Hello World Ausgabe Ant Launch Configurations o Definition o Modifikation o Nutzung

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Ausarbeitung zum Thema Approximationsalgorithmen im Rahmen des Fachseminars 24. Juli 2009 Robert Bahmann robert.bahmann@gmail.com FH Wiesbaden Erstellt von: Robert Bahmann Zuletzt berarbeitet von: Robert

Mehr

Klausur Kommunikation I. Sommersemester 2003. Dipl.-Ing. T. Kloepfer

Klausur Kommunikation I. Sommersemester 2003. Dipl.-Ing. T. Kloepfer Kommunikation I 1 Klausur Kommunikation I Sommersemester 2003 Dipl.-Ing. T. Kloepfer Bearbeitungsinformationen Aufbau der Klausur Die Klausur ist wie folgt aufgebaut: Die Klausur ist in 18 Aufgaben unterteilt.

Mehr

Computerlinguistische Textanalyse

Computerlinguistische Textanalyse Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Telephone Integration für Microsoft CRM 4.0 (TI)

Telephone Integration für Microsoft CRM 4.0 (TI) Telephone Integration für Microsoft CRM 4.0 (TI) Benutzerhandbuch Der Inhalt des Dokuments ist Änderungen vorbehalten. Microsoft und Microsoft CRM sind registrierte Markenzeichen von Microsoft Inc. Alle

Mehr

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06 Business Intelligence Data Warehouse / Analyse Sven Elvers 2005-07-06 Einleitung Dieses Dokument beschreibt einen für das Verständnis relevanten Teil der Präsentation. Business Intelligence Motivation

Mehr

2 Informationstheorie

2 Informationstheorie 2 Informationstheorie Formale Grundlagen der Informatik I Herbstsemester 2012 Robert Marti Vorlesung teilweise basierend auf Unterlagen von Prof. emer. Helmut Schauer Grundbegriffe Informatik (IT: Information

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Bilder im Internet. Hans Magnus Enzensberger

Bilder im Internet. Hans Magnus Enzensberger Kapitel 4 Alle reden von Kommunikation, aber die wenigsten haben sich etwas mitzuteilen. Hans Magnus Enzensberger Bilder im Internet Nach der etwas umfangreichen vorangehenden Lektion zum Ausklang der

Mehr

http://www.jimdo.com Mit Jimdo eine Homepage erstellen Kapitel 16 Seite 1 Die eigene Homepage mit Jimdo http://benutzername.jimdo.com Der Benutzername

http://www.jimdo.com Mit Jimdo eine Homepage erstellen Kapitel 16 Seite 1 Die eigene Homepage mit Jimdo http://benutzername.jimdo.com Der Benutzername Kapitel 16 Seite 1 Die eigene Homepage mit Jimdo Mit Jimdo ist das Erstellen einer eigenen Homepage ganz besonders einfach. Auch ohne Vorkenntnisse gelingt es in kurzer Zeit, mit einer grafisch sehr ansprechenden

Mehr

PIWIN 1 Übung Blatt 5

PIWIN 1 Übung Blatt 5 Fakultät für Informatik Wintersemester 2008 André Gronemeier, LS 2, OH 14 Raum 307, andre.gronemeier@cs.uni-dortmund.de PIWIN 1 Übung Blatt 5 Ausgabedatum: 19.12.2008 Übungen: 12.1.2009-22.1.2009 Abgabe:

Mehr

Kurzanleitung für das CMS Joomla 3.x

Kurzanleitung für das CMS Joomla 3.x Kurzanleitung für das CMS Joomla 3.x 1. Login ins Backend Die Anmeldung ins sogenannte Backend (die Verwaltungsebene) der Website erfolgt über folgenden Link: www.name-der-website.de/administrator. Das

Mehr

Autor: Michael Spahn Version: 1.0 1/10 Vertraulichkeit: öffentlich Status: Final Metaways Infosystems GmbH

Autor: Michael Spahn Version: 1.0 1/10 Vertraulichkeit: öffentlich Status: Final Metaways Infosystems GmbH Java Einleitung - Handout Kurzbeschreibung: Eine kleine Einführung in die Programmierung mit Java. Dokument: Autor: Michael Spahn Version 1.0 Status: Final Datum: 23.10.2012 Vertraulichkeit: öffentlich

Mehr

MGE Datenanbindung in GeoMedia

MGE Datenanbindung in GeoMedia TIPPS & TRICKS MGE Datenanbindung in GeoMedia 10. September 2002 / AHU INTERGRAPH (Schweiz) AG Neumattstrasse 24, CH 8953 Dietikon Tel: 043 322 46 46 Fax: 043 322 46 10 HOTLINE: Telefon: 043 322 46 00

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Tabellenkalkulation / Funktionen. VBA Visual Basic for Applications VBA auf einfache Art und Weise nutzen Der Makro-Recorder von EXCEL

Tabellenkalkulation / Funktionen. VBA Visual Basic for Applications VBA auf einfache Art und Weise nutzen Der Makro-Recorder von EXCEL Tabellenkalkulation / Funktionen VBA auf einfache Art und Weise nutzen Der Makro-Recorder von EXCEL Möchte man mal eben einfache Arbeitsschritte automatisieren oder einfach nur Tastatur-eingaben und Mausklicks

Mehr

MappingTestTool. Werkzeug für automatisierte Mappingtests auf SAP PI / PO

MappingTestTool. Werkzeug für automatisierte Mappingtests auf SAP PI / PO MappingTestTool Werkzeug für automatisierte Mappingtests auf SAP PI / PO Regressionstests mit Integrationen (Non)SAP SAP PI / PO (Non)SAP Testfall erstellen Nachricht übertragen Routing Mapping Nachricht

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Zeiterfassung-Konnektor Handbuch

Zeiterfassung-Konnektor Handbuch Zeiterfassung-Konnektor Handbuch Inhalt In diesem Handbuch werden Sie den Konnektor kennen sowie verstehen lernen. Es wird beschrieben wie Sie den Konnektor einstellen und wie das System funktioniert,

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Business Intelligence mit Microsoft SQL Server 2005

Business Intelligence mit Microsoft SQL Server 2005 Business Intelligence mit Microsoft SQL Server 2005 Holger Schrödl ISBN 3-446-40463-5 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/3-446-40463-5 sowie im Buchhandel 4.6

Mehr

Spotlight - KABEL DEUTSCHLAND

Spotlight - KABEL DEUTSCHLAND Spotlight - KABEL DEUTSCHLAND GIEDRE ALEKNONYTE Kabel Deutschland (KD), der größte Kabelnetzbetreiber in Deutschland, stellt seinen Kunden digitale, HD- und analoge TV-, Pay- TV- und DVR-Angebote, Video-on-Demand,

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Data Mining Approaches for Instrusion Detection Espen Jervidalo WS05/06 KI - WS05/06 - Espen Jervidalo 1 Overview Motivation Ziel IDS (Intrusion Detection System) HIDS NIDS Data

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Test-Strategien. Grundsätzliches Blackbox-Testen Whitebox-Testen Graybox-Testen Ablauf von Tests Zusammenfassung. HS Mannheim

Test-Strategien. Grundsätzliches Blackbox-Testen Whitebox-Testen Graybox-Testen Ablauf von Tests Zusammenfassung. HS Mannheim Test- Grundsätzliches - - - Ablauf von Tests Grundsätzliche Test- -Tests Äquivalenzklassenbildung Randwertanalyse -Tests Man unterscheidet verschiedene Überdeckungsgrade: Statement Coverage Decision Coverage,

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

Info zum Junk-Mail-Filter in Thunderbird:

Info zum Junk-Mail-Filter in Thunderbird: Datenverarbeitungszentrale Datenverarbeitungszentrale dvz@fh-muenster.de www.fh-muenster.de/dvz Info zum Junk-Mail-Filter in Thunderbird: Der Grossteil der Benutzer verwendet zusätzlich zum zentralen Mail-Filter

Mehr

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie und, oder, nicht, wenn... dann zwischen atomaren und komplexen Sätzen. I. Aussagenlogik 2.1 Syntax Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen. Sätze selbst sind entweder wahr oder falsch. Ansonsten

Mehr

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter 2 Inhaltsverzeichnis 1 Web-Kürzel 4 1.1 Einführung.......................................... 4 1.2 Web-Kürzel.........................................

Mehr

GeODin Newsletter: Januar 2012

GeODin Newsletter: Januar 2012 Beyond Geology 25: Ein neues Eingabegitter macht die Datenerfassung- und pflege mit den Proben-, Ausbau- und Sondierungseditoren viel übersichtlicher. Außerdem ein wichtiger Update-Hinweis! Eingabegitter

Mehr

ekey TOCAhome pc Software Inhaltsverzeichnis 1. ZWECK DIESES DOKUMENTS... 3 2. VERWENDUNGSHINWEIS ZUR SOFTWARE... 3

ekey TOCAhome pc Software Inhaltsverzeichnis 1. ZWECK DIESES DOKUMENTS... 3 2. VERWENDUNGSHINWEIS ZUR SOFTWARE... 3 Inhaltsverzeichnis Software ekey TOCAhome pc 1. ZWECK DIESES DOKUMENTS... 3 2. VERWENDUNGSHINWEIS ZUR SOFTWARE... 3 3. MONTAGE, INSTALLATION UND ERSTINBETRIEBNAHME... 3 4. VERSION... 3 Version 1.5 5. BENUTZEROBERFLÄCHE...

Mehr

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation)

Mehr

Parallele und funktionale Programmierung Wintersemester 2013/14. 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr

Parallele und funktionale Programmierung Wintersemester 2013/14. 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr 8. Übung Abgabe bis 20.12.2013, 16:00 Uhr Aufgabe 8.1: Zeigerverdopplung Ermitteln Sie an folgendem Beispiel den Rang für jedes Listenelement sequentiell und mit dem in der Vorlesung vorgestellten parallelen

Mehr

A1.7: Entropie natürlicher Texte

A1.7: Entropie natürlicher Texte A1.7: Entropie natürlicher Texte Anfang der 1950er Jahre hat Claude E. Shannon die Entropie H der englischen Sprache mit einem bit pro Zeichen abgeschätzt. Kurz darauf kam Karl Küpfmüller bei einer empirischen

Mehr

Handbuch AP Backoffice

Handbuch AP Backoffice Handbuch AP Backoffice Verfasser: AP marketing Tony Steinmann Bahnhofstrasse 13 6130 Willisau Alle Rechte vorbehalten. Willisau, 24. August 2005 Handbuch unter www.ap-backoffice.ch/handbuch_ap-backoffice.pdf

Mehr

Praktikum Software Engineering

Praktikum Software Engineering Praktikum Software Engineering Verwendung von Enterprise Architect Pascal Weber, David Kulicke KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft

Mehr

(Download einer *.rar Datei (rund 2 GB ) die anschließend mit dem Programm Winrar zu entpacken ist.

(Download einer *.rar Datei (rund 2 GB ) die anschließend mit dem Programm Winrar zu entpacken ist. Installations-Anleitung für das HOME-Pi-Projekt inkl.statistiken: Vorraussetzungen: Raspberry-Pi 8 GB SD Karte (Empfehlung: ) Loxone Miniserver Netzwerkverbindung zwischen dem Raspberry-Pi und dem Miniserver

Mehr

Antwortzeitverhalten von Online Storage Services im Vergleich

Antwortzeitverhalten von Online Storage Services im Vergleich EPOD Encrypted Private Online Disc Antwortzeitverhalten von Online Storage Services im Vergleich Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee

Mehr

telemail 2.5 Spamfilter Benutzerhandbuch Anwendung des telemed Spamschutzes Erstellt: 28.02.10/BOL Freigabe: 28.02.10/ASU Bestimmung: Kunde

telemail 2.5 Spamfilter Benutzerhandbuch Anwendung des telemed Spamschutzes Erstellt: 28.02.10/BOL Freigabe: 28.02.10/ASU Bestimmung: Kunde telemail 2.5 Spamfilter Anwendung des telemed Spamschutzes Benutzerhandbuch Rev.: 02 Seite 1 von 12 1) Prinzip des telemed-spamfilters... 3 2) Neue Funktionen im telemail... 4 Aktivieren des Spamfilters

Mehr

Towards Automated Analysis of Business Processes for Financial Audits

Towards Automated Analysis of Business Processes for Financial Audits Towards Automated Analysis of Business Processes for Financial Audits Michael Werner Universität Hamburg michael.werner@wiso.uni hamburg.de Max Brauer Allee 60 22765 Hamburg StB Prof. Dr. Nick Gehrke Nordakademie

Mehr

Anleitung zum Online Banking

Anleitung zum Online Banking Anleitung zum Online Banking Diese Anleitung beschreibt das Vorgehen zur Installation und Konfiguration von Online Banking unter Jack. Um das Online Banking in Jack nutzen zu können, müssen Sie das entsprechende

Mehr

Kurzanleitung Profilabexperimente F.E. 3/15

Kurzanleitung Profilabexperimente F.E. 3/15 Kurzanleitung Profilabexperimente F.E. 3/15 Am Einfachsten lernt man das Programm kennen indem man Beispielprogramme aufruft, laufen lässt, analysiert und modifiziert. Hierzu Beispiele von der Webseite

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

E-Mails zuordnen. Änderungen, Irrtümer und Druckfehler vorbehalten. Bearbeitet von Harald Borges. Stand April 2015 www.cobra.de

E-Mails zuordnen. Änderungen, Irrtümer und Druckfehler vorbehalten. Bearbeitet von Harald Borges. Stand April 2015 www.cobra.de E-Mails zuordnen Copyright 2015 cobra computer s brainware GmbH cobra Adress PLUS, cobra CRM PLUS, cobra CRM PRO und cobra CRM BI sind eingetragene Warenzeichen der cobra computer s brainware GmbH. Andere

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

TURNINGPOINT PRÄSENTATION ERSTELLEN

TURNINGPOINT PRÄSENTATION ERSTELLEN TURNINGPOINT PRÄSENTATION ERSTELLEN Wie starte ich? Um eine TurningPoint-Präsentation zu erstellen müssen Sie die TurningPoint mittels des Symbols auf Ihrem Desktop oder über das Startmenü starten. Dadurch

Mehr

Internetauftritt: Hochschulpartnerschaften - Datenbank

Internetauftritt: Hochschulpartnerschaften - Datenbank Hochschule für Technik, Wirtschaft und Kultur Leipzig (FH) University of Applied Sciences Internetauftritt: Hochschulpartnerschaften - Datenbank Modul: Anleitung für Typo3 bzgl. Partnerhochschulen einpflegen

Mehr

Erste Schritte mit Eclipse

Erste Schritte mit Eclipse Erste Schritte mit Eclipse März 2008, KLK 1) Java Development Kit (JDK) und Eclipse installieren In den PC-Pools der HAW sind der JDK und Eclipse schon installiert und können mit dem Application Launcher

Mehr

Windows. Martina MÜLLER. Monika WEGERER. Zusammengestellt von. Überarbeitet von

Windows. Martina MÜLLER. Monika WEGERER. Zusammengestellt von. Überarbeitet von Windows Zusammengestellt von Martina MÜLLER Überarbeitet von Monika WEGERER April 2002 Windows Starten von Windows Wenn das System entsprechend installiert ist, erscheint Windows automatisch. (Kennwort)

Mehr

Leseprobe. Holger Schrödl. Business Intelligence mit Microsoft SQL Server 2008. BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1

Leseprobe. Holger Schrödl. Business Intelligence mit Microsoft SQL Server 2008. BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1 Leseprobe Holger Schrödl Business Intelligence mit Microsoft SQL Server 2008 BI-Projekte erfolgreich umsetzen ISBN: 978-3-446-41210-1 Weitere Informationen oder Bestellungen unter http://www.hanser.de/978-3-446-41210-1

Mehr

Bedienungsanleitung WR ConfigTool für DuoFern Handzentrale (9493) DuoFern Umweltsensor (9475)

Bedienungsanleitung WR ConfigTool für DuoFern Handzentrale (9493) DuoFern Umweltsensor (9475) Bedienungsanleitung WR ConfigTool für DuoFern Handzentrale (949) DuoFern Umweltsensor (9475) / Inhaltsverzeichnis Einleitung.... Standard Layout... 4 Handzentrale... 5. Daten laden... 5. Einstellungen

Mehr

11. Aufgabenblatt 30.06.2010

11. Aufgabenblatt 30.06.2010 Einführung in Computer Microsystems Sommersemester 2010 Wolfgang Heenes 11. Aufgabenblatt 30.06.2010 Aufgabe 1: Einführung in MatLab/Simulink/Stateflow MatLab 1 ist ein Programm zum wissenschaftlichen,

Mehr

Einführung in die Cross-Plattform Entwicklung Das Intel XDK

Einführung in die Cross-Plattform Entwicklung Das Intel XDK Einführung in die Cross-Plattform Entwicklung Das Intel XDK Einführung Dieses Hands-on-Lab (HOL) macht den Leser mit dem Intel XDK vertraut. Es wird Schritt für Schritt die erste eigene Hybrid-App entwickelt

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Finaler Testbericht. Finaler Testbericht. 1 Einführung 2. 1.1 Warum Softwaretests?... 2

Finaler Testbericht. Finaler Testbericht. 1 Einführung 2. 1.1 Warum Softwaretests?... 2 Inhaltsverzeichnis 1 Einführung 2 1.1 Warum Softwaretests?.................................... 2 2 Durchgeführte Tests 2 2.1 Test: allgemeine Funktionalität............................... 2 2.1.1 Beschreibung.....................................

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Informationssicherheit - Lösung Blatt 2

Informationssicherheit - Lösung Blatt 2 Informationssicherheit - Lösung Blatt 2 Adam Glodek adam.glodek@gmail.com 13.04.2010 1 1 Aufgabe 1: One Time Pad 1.1 Aufgabenstellung Gegeben ist der folgende Klartext 12Uhr (ASCII). Verschlüsseln Sie

Mehr

Herzlich Willkommen Bienvenue Welcome. Arbeiten mit der PC-Auswerte-Software PCA3000. Manfred Schleicher

Herzlich Willkommen Bienvenue Welcome. Arbeiten mit der PC-Auswerte-Software PCA3000. Manfred Schleicher Herzlich Willkommen Bienvenue Welcome Arbeiten mit der PC-Auswerte-Software PCA3000 Manfred Schleicher Hinweise zur Präsentation Diese Präsentation erklärt die Arbeitsweise mit der PC-Auswerte-Software

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Benutzerhandbuch für FaxClient für HylaFAX

Benutzerhandbuch für FaxClient für HylaFAX Benutzerhandbuch für FaxClient für HylaFAX Vielen Dank, daß Sie entschlossen haben, dieses kleine Handbuch zu lesen. Es wird Sie bei der Installation und Benutzung des FaxClients für HylaFAX unterstützen.

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Kapitel 3 Das Projekt Bankkonto Seite 1

Kapitel 3 Das Projekt Bankkonto Seite 1 Kapitel 3 Das Projekt Bankkonto Seite 1 3 Das Projekt Bankkonto Nun wirst du dich etwas gründlicher mit dem Quelltext einer Klasse beschäftigen. Du lernst, wie zwei Objekte eine gemeinsame Aufgabe erledigen.

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Fachhochschule Kaiserslautern Labor Datenbanken mit MySQL SS2006 Versuch 1

Fachhochschule Kaiserslautern Labor Datenbanken mit MySQL SS2006 Versuch 1 Fachhochschule Kaiserslautern Fachbereiche Elektrotechnik/Informationstechnik und Maschinenbau Labor Datenbanken Versuch 1 : Die Grundlagen von MySQL ------------------------------------------------------------------------------------------------------------

Mehr

Diese Anleitung beschreibt das Vorgehen mit dem Browser Internet Explorer. Das Herunterladen des Programms funktioniert in anderen Browsern ähnlich.

Diese Anleitung beschreibt das Vorgehen mit dem Browser Internet Explorer. Das Herunterladen des Programms funktioniert in anderen Browsern ähnlich. Die Lernsoftware Revoca Das Sekundarschulzentrum Weitsicht verfügt über eine Lizenz bei der Lernsoftware «Revoca». Damit können die Schülerinnen und Schüler auch zu Hause mit den Inhalten von Revoca arbeiten.

Mehr

1 Vom Problem zum Programm

1 Vom Problem zum Programm 1 Vom Problem zum Programm Ein Problem besteht darin, aus einer gegebenen Menge von Informationen eine weitere (bisher unbekannte) Information zu bestimmen. 1 Vom Problem zum Programm Ein Algorithmus ist

Mehr

Aufgabenstellung und Zielsetzung

Aufgabenstellung und Zielsetzung Aufgabenstellung und Zielsetzung In diesem Szenario werden Sie eine Bestellung, vorliegend im XML-Format, über einen Web-Client per HTTP zum XI- System senden. Dort wird die XML-Datei mittels eines HTTP-Interfaces

Mehr

Informationsflut bewältigen - Textmining in der Praxis

Informationsflut bewältigen - Textmining in der Praxis Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland

Mehr

Daten-Ex- und Import mit Oracle und PostgreSQL

Daten-Ex- und Import mit Oracle und PostgreSQL Daten-Ex- und Import mit Oracle und PostgreSQL Holger Jakobs bibjah@bg.bib.de 2004-09-07 Inhaltsverzeichnis 1 Grund für Daten-Im- und -Exporte 1 2 Werkzeuge 1 2.1 Export mit pg_dump von PostgreSQL.....................

Mehr