WEKA A Machine Learning Interface for Data Mining



Ähnliche Dokumente
Weka: Software-Suite mit Maschineller Lernsoftware

Exploration und Klassifikation von BigData

Data Mining-Modelle und -Algorithmen

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee Berlin Tel.:+49(0) Fax.:+49(0)

Projekt-INF Folie 1

Data Mining und maschinelles Lernen

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Funktionsbeschreibung Datenlogger DL28W

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Übung - Datensicherung und Wiederherstellung in Windows 7

E-Bilanz: Erstellen einer Excel-Datei mit Sachkontensalden für die weitere Bearbeitung

Predictive Modeling Markup Language. Thomas Morandell

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

Sicherung persönlicher Daten

MATLAB-Automatisierung von Dymola- Simulationen und Ergebnisauswertung Holger Dittus. Modelica User Group BaWü, Stuttgart,

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

1 Einleitung. Lernziele. Diagramme zur Visualisierung von Daten erstellen. Diagramme formatieren Lerndauer. 4 Minuten.

Benutzerhandbuch Brief persönlich

Robot Karol für Delphi

Anwendertage WDV2012

Kurzeinführung Moodle

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Ein PDF erstellen. aus Adobe InDesign CC. Langner Marketing Unternehmensplanung Metzgerstraße Reutlingen

Installation SQL- Server 2012 Single Node

INTERNET UND MMS MIT DEM QTEK2020 MARCO 28. MÄRZ 04

JDBC. Allgemeines ODBC. java.sql. Beispiele

Übung - Datensicherung und Wiederherstellung in Windows Vista

Mining High-Speed Data Streams

Anwendungsbeispiel: X-Tools und EIB/KNX

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.

Übung - Datenmigration in Windows 7

NTT DATA Helpdesk Benutzerhandbuch

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Installationsanleitungen

Anwendertreffen 25./26. Februar. cadwork update

1. Einführung. 2. Alternativen zu eigenen Auswertungen. 3. Erstellen eigener Tabellen-Auswertungen

Auslesen der Fahrtdaten wiederholen Schritt für Schritt erklärt (Funktion Abfrage zur Datensicherung erstellen )

Einführung in PHP. (mit Aufgaben)

White Paper. Konfiguration und Verwendung des Auditlogs Winter Release

Übung 8: Semaphore in Java (eigene Implementierung)

Bauteilattribute als Sachdaten anzeigen

Windows 8/8.1 RecImg-Manager

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Forms Composer. Document Producer 1. Document Producer

Access Datenbank an JetDBAccess

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

DAUERHAFTE ÄNDERUNG VON SCHRIFTART, SCHRIFTGRÖßE

Zunächst müssen sie die MAC-Adresse ihres Gerätes für WLAN registrieren. 2. Die MAC Adresse (physikalische Adresse des WLAN) wird mit dem Befehl:

BACHER Informatik - we do IT Alte Gasse 1, CH-6390 Engelberg Telefon info@hostdomain.ch

Verborgene Schätze heben

Look Inside: desite. modellorientiertes Arbeiten im Bauwesen. B.I.M.

Folgeanleitung für Klassenlehrer

Installation Hardlockserver-Dongle

tentoinfinity Apps 1.0 EINFÜHRUNG

Das Handbuch zu KNetAttach. Orville Bennett Übersetzung: Thomas Bögel

ICS-Addin. Benutzerhandbuch. Version: 1.0

Anleitung Lernobjekt-Depot (LOD)

Comtarsia SignOn Familie

disk2vhd Wie sichere ich meine Daten von Windows XP? Vorwort 1 Sichern der Festplatte 2

EXASOL Anwendertreffen 2012

Das Handbuch zu KAppTemplate. Anne-Marie Mahfouf Übersetzung: Burkhard Lück

Betreuung und Unterstützung Einrichten der DFÜ-Verbindung für einen KISS-Rechner mit dem Internet Explorer

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

ACDSee 2009 Tutorials: Rote-Augen-Korrektur

Leitfaden zur Installation von Bitbyters.WinShutdown

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Übung - Datensicherung und Wiederherstellung in Windows XP

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Es gibt zwei Wege die elektronischen Daten aus Navision zu exportieren.

Internet Explorer Version 6

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt.

Sie finden im Folgenden drei Anleitungen, wie Sie sich mit dem Server der Schule verbinden können:

Erstellen einer in OWA (Outlook Web App)

Umgang mit der Software ebuddy Ändern von IP Adresse, Firmware und erstellen von Backups von ewon Geräten.

Ebenenmasken Grundlagen

Windows 7 - Whoami. Whoami liefert Informationen wie z.b. die SID, Anmelde-ID eines Users, sowie Gruppenzuordnungen, Berechtigungen und Attribute.

Konfiguration Anti-Spam Outlook 2003

Industrie 4.0 in Deutschland

Neuerungen Analysis Services

Der einfache Weg zum CFX-Demokonto

Hilfe zur Dokumentenverwaltung

eduroam mit SecureW2 unter Windows 7 Stand: 27. Januar 2015

e-banking-business Edition Bestehende Lastschriftvorlagen in SEPA-Lastschriftvorlagen umwandeln

So gehts Schritt-für-Schritt-Anleitung

Zugang zum WLAN eduroam mit Windows Phone 8.1 Geräten

Anleitung für CleverReach

Inhalt. Fragestellungen. ...we make the invisible visible... Analysen und deren Anwendung Erfahrungen

1 Schritt: Auf der Seite einloggen und. ODER Zertifikat für VPN, wenn sie nur VPN nutzen möchten

Anleitung zum GUI Version 2.x

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Schritt 1: Verwenden von Excel zum Erstellen von Verbindungen zu SQL Server Analysis Services-Daten

Über die Internetseite Hier werden unter Download/aktuelle Versionen die verschiedenen Module als zip-dateien bereitgestellt.

Pro/INTRALINK Lehrplan-Handbuch

Google ist mehr als eine Suchmaschine

Transkript:

WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010 Leibniz Universität Hannover

Inhalt Einführung Haupt-GUIs Explorer, Knowledge Flow und Experimenter Arten der Methoden und Algorithmen Systemarchitektur Anwendungen Zusammenfassung 2

Einführung WEKA ist die Abkürzung für Waikato Environment for Knowledge Analysis in Java geschrieben bedient sich frei verfügbar unter der GNU Lizenz einer einzigen relationalen Tabelle aus einer Datei oder einer Datenbankanfrage 3

Einführung WEKA bietet Unterstützung für den gesamten Data- Mining-Prozess: enthält: Vorbereiten der Eingabedaten statistische Auswerten der Lernschemata Visualisierung Maschinenlernalgorithmen Datenvorverarbeitungsarbeitungstools Bedienung von WEKA: Kommandozeile, GUI 4

Explorer: Preprocess Laden von Daten aus einer Datei im CSV-Format ARFF-Format Extraktion von Daten aus einer SQL-Anfrage über JDBC Anwenden verschiedener Filter zur Datenvorverarbeitung 5

Explorer: Classify Anwendung von Klassifikations- und Regressionsalgorithmen auf die Daten Auswertung der dabei entstehenden Modelle numerisch über statistische Schätzung graphisch über die Visualisierung der Daten und die Überprüfung des Modells Laden und Speichern von Modellen 6

Explorer: Cluster Anwendung von Clustering-Algorithmen auf den Datensatz Visualisierung von Clustern Auswertung der Cluster anhand der statistischen Wahrscheinlichkeit der Daten 7

Weitere Fenster von Export Associate: Anwendung von Assoziationsregel- Algorithmen auf den Datensatz Select Attributes: Zugang zu verschiedenen Methoden, um die Nützlichkeiten von Attributen zu messen und um Attributuntermengen zu finden, die voraussagend in Bezug auf die Daten sind Visualize: Visualisierung der Daten einschließlich diverser Zoom- und Datenanzeigemöglichkeiten 8

Knowledge Flow Spezifikation von Datenströmen über die graphische Verbindung verschiedener Komponenten Datenquellen, Tools, Algorithmen (s. o.) stapelweise Verarbeitung von Daten Anwendung inkrementeller Algorithmen nützlich für sehr große Datensätze inkrementelle Verarbeitung von Filtern 9

Experimenter Automatisierung verschiedener Versuchsabläufe, um festzustellen, welcher Algorithmus am besten für ein Problem funktioniert Einstellung verschiedener Parameter Sammeln von Performancestatistiken Durchführen von Signifikanztests auf den Ergebnissen 10

Klassifikationsalgorithmen Bayes'sche Methoden, z. B. Naive Bayes Entscheidungsbaum-Lernalgorithmen, z. B. J48 regelbasierte Lernalgorithmen, z. B. JRip mehrere trennende Hyperebenen-Ansätze, z. B. Support-Vector-Maschinen Lazy-Learning-Methoden, z. B. IB1 Meta-Learning-Schemata zur Kombination von Instanzen eines oder mehrerer Algorithmen 11

Weitere Methoden und Algorithmen Regression, z. B. einfache lineare Regression Meta-Learning-Schemata für die Regression Clustering, z. B. KMeans Assoziationsregeln, z. B. Apriori Attributauswahl über Filter, z. B. Gain Ratio Suchmethoden, z. B. Vorwärtssuche 12

Filter 1. Unterteilung in supervised und unsupervised Supervised: sinnvoll im Vorhersagekontext Unsupervised: sinnvoll in allen Kontexten 2. Unterteilung in Attribut- und in Instanzfilter Attributfilter: arbeiten auf einem oder mehreren Attributen einer Instanz Instanzfilter: manipulieren Mengen von Instanzen 13

Filter Attributfilter, unsupervised: z. B. Hinzufügen eines Attributs Instanzfilter, unsupervised: z. B. Transformation zerstreuter Instanzen in nichtzerstreute und umgekehrt Attributfilter, supervised: z. B. Diskretisierung Instanzfilter, supervised: z. B. Erstellen einer Teilstichprobe von Instanzmengen, um verschiedene Klassenverteilungen zu erhalten 14

Systemarchitektur modulare, objektorientierte Architektur, um neue Klassifikatoren, Filter, Algorithmen oder neue Workbench-Komponenten leicht hinzufügen zu können je ein Package und eine abstrakte Klassen auf der obersten Ebene pro Algorithmen- oder Methodentyp Komponenten verlassen sich auf unterstützende Klassen und Interfaces im Package "core" 15

Anwendungen WEKA ursprünglich nur dazu entwickelt, um landwirtschaftliche Daten in Neuseeland zu verarbeiten Fähigkeit der Maschinenlernmethoden und Datenengineeringfähigkeiten so stark gewachsen, dass WEKA jetzt für alle Arten von Data-Mining-Anwendungen verwendet wird, z. B. Bioinformatik, Text-Mining 16

Zusammenfassung drei Hauptvorteile von WEKA Open-Source-Software sehr viele Algorithmen auf dem neusten Stand der Technik komplett in Java implementiert und auf fast jeder Plattform laufend, sogar auf PDAs Nachteile Beschränkung des Speicherplatz für die meisten Methoden Java-Implementation etwas langsamer als eine entsprechende in C/C++ 17