SEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG. Stefan Langer CIS Universität München Wintersemester 2016/17
|
|
- Thomas Winter
- vor 6 Jahren
- Abrufe
Transkript
1 SEMINAR KLASSIFIKATION & CLUSTERING EINFÜHRUNG Stefan Langer CIS Universität München Wintersemester 2016/17
2 Anmeldung Bereits erfolgt über LSF Falls alternative gewünscht oder ähnliches, bitte schicken Sie mir eine Nachricht an: An diese Adresse bitte alle seminarbezogene Kommunikation
3 Scheinvoraussetzungen Regelmäßige Teilnahme Referat Abschlussarbeit: Praktische (Implementationsarbeit) + Dokumentation + wiss. Hintergrund oder Umfangreichere theoretische Arbeit
4 Referatsthemen Vorstellung eines von Ihnen gewählten Klassifikationsoder Clusteringalgorithmus oder Teilaspekt eines Algorithmus: K-nearest-neighbour Neuronale Netze (Neural network) Entscheidungsbäume (decision trees) Support vector machines Latent semantic indexing u.a. Grundlagen der Klassifikation: z.b. Distanzmaße Implementierung und Evaluation eines einfachen Klassifikations- oder Clusteringalgorithmus, Vorstellung und Demo im Seminar
5 Lesen: (bis nächstes Mal) Manning/Schütze: Foundations of Statistical Natural Language Processing, Chapter 16: Text Categorization
6 Ziele des Kurses Grundlagen der Klassifikation und des Clustering Algorithmen und Algorithmentypen Featureauswahl für Textklassifikation, inkl. linguistische Grundlagen Vorhandene Tools und Bibliotheken (v.a. open source) Anwendungen
7 Einteilung der Tiere (angeblich chinesische Enzyklopädie, nach Borges (1942): "The Analytical Language of John Wilkins") dem Kaiser gehörige, einbalsamierte, gezähmte, Milchschweine, Sirenen, Fabeltiere, streunende Hunde, in diese Einteilung aufgenommene, die sich wie toll gebärden, unzählbare, mit feinstem Kamelhaarpinsel gezeichnete, und so weiter, die den Wasserkrug zerbrochen haben, die von weitem wie Fliegen aussehen.
8 Einstufige / flache Klassifikation 2 N Klassen Sonderfall binäre Klassifikation: nur zwei Klassen (auch interpretierbar als eine Klasse mit Entscheidung über Zugehörigkeit versus Nichtzugehörigkeit (= Zugehörigkeit zur Komplementklasse) Klassen können disjunkt sein, oder sich überlappen
9 Monohierarchie (Baum)
10 Polyhierarchie (gerichteter, azyklischer Graph)
11 Typen von Merkmalen Man unterscheidet üblicherweise zwischen folgenden Merkmalstypen Nominale Merkmalen Ausprägungen lassen haben keine festgelegte Reihenfolge Beispiel: Wörter eines Textes à Keine Mittelwertbildung o.ä. Ordinale Merkmalen Ordnung auf Ausprägungen möglich aber Abstände nicht systematisch z.b. Bewertungen (gut mittel schlecht), Relationen wie >, < (größer, kleiner) Metrische Merkmalen z.b. Wortlänge à Operationen wie Mittelwertbildung möglich
12 Verschiedene Anwendungen Spamfilter (binäre Klassifikation) Sprachenidentifizierung Sentimentanalyse Vertikale Suchmaschinen Nachrichtenklassifikation Autorenerkennung Trend-Vorhersage
13 Klassifikation in der Linguistik und Computerlinguistik Syntax: Wortarten Automatisierung: Tagging Semantik: Wortbedeutungen Automatisierung z.b. automatische Wortbedeutungsdisambiguierung Sprachenerkennung Textklassifikation (text categorization)
14 Klassifizierung: Beispiele für Algorithmen Entscheidungsbäume (decision trees) Naïve Bayes K-nearest neighbour Support vector machines Neuronale Netze/deep learning
15 Einteilung von Algorithmen Überwachte / nicht überwachte Verfahren (supervised/unsupervised) Parametrische und nicht-parametrische Verfahren Lineare vs. nichtlineare Klassifikatoren
16 Überwachte vs. nicht-überwachte Verfahren Überwacht Trainingsdaten sind vorklassifiziert/vorgeclustert Klassen sind vorgegeben v.a. Klassifikation Nicht-überwacht Rohe Trainingsdaten Klassen müssen erlernt werden v.a. Clustering
17 Parametrische und nicht-parametrische Klassifikationsverfahren Parametrisch Geht von Annahmen über die Verteilung der Daten aus (Wahrscheinlichkeitsverteilung) Modellstruktur liegt fest Ermittelt wird die Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse Bsp. Diskriminantenanalyse Nicht-parametrisch (verteilungsfrei) Annahmen werden aus den Daten ermittelt Modellstruktur wird aus den Daten ermittelt Ja/Nein Entscheidung Bsp K-Nächster-Nachbar
18 Lineare / nicht-lineare Klassifikatoren Lineare Klassifikatoren trennen Klassen durch eine Hyperebene
19 Komponenten eines Klassifikationssystems Zur Klassifikation selbst braucht man: Einen Klassifikator (trainierter Klassifikationsalgorithmus) Daten, die klassifiziert werde sollen Eine Featureauswahl für die Daten Zur Erstellung eines Klassifikators benötigt man: Einen Trainingsalgorithmus Ein Trainingsset Zur Evaluierung eines Klassifikators benötigt man: Ein Testset Trainingsset und Testset müssen disjunkt sein Der Trainingsalgorithmus muss auf den Klassifikationsalgorithmus zugeschnitten sein
20 Textklassifikation Text-/Dokumententypen Unstrukturierte Texte (nur-text-dokumente) Semistrukturierte Texte (z.b. HTML, PDF) Strukturierte Texte (Datenbanken; XML)
21 Eine einfache Klassifikationsaufgabe Sie haben ein Trainingsset von je 100 Zeitungstexten zu den Themen Sport, Politik, Kultur neue Texte (ein Testset von 100 Dokumenten) aus den drei Bereichen sollen automatisch einsortiert werden Wie gehen Sie vor? (Gruppenarbeit 15 min)
22 Naiver Ansatz, Vorschlag 1: Überblick Aus den Daten der Trainingssets, extrahiere eine Wortliste mit den relativ häufigsten N Wörtern für jede Klasse. Es entstehen die Wortlisten W1,W2 Aus jedem Dokument, das klassifiziert werden soll, extrahiere die häufigsten N Wörter Vergleiche die Wortliste W mit den Wortlisten W1 WN Die Klasse mit den meisten Übereinstimmungen wird gewählt.
23 Training Erstelle ein Repräsentation der Trainingsdokumente 1. Der gesamten Untermenge, die eine Klasse repräsentiert, als Einheit 2. Jedes einzelnen Trainingsdokuments Parameter: Einzelwörter n-gramme Frequenz Stopwörter TF-IDF Automatische Berechnung der besten Parameter
24 Referatsthemen - Übersicht Klassifikationsalgorithmen Clusteringalgorithmen Open Source Module Klassifikation / Clustering
25 Klassifizierung: Algorithmen für Referate Entscheidungsbäume (decision trees) z.b. ID3 Naïve Bayes K-nearest neighbour Support vector machines Latent semantic indexing Neural networks; deep learning
26 Clustering Algorithmen für Referate Distanzmaße Hierarchisches Clustering Single link clustering Complete link clustering K-means clustering / Centroid based clustering Distribution based clustering Density based clustering DBScan Neuronale Netze/deep learning
27 Open source - Klassifikation und Clustering Carrot2 - clustering Apache Mahout - machine learning - clustering, classification and collaborative filtering ELKI (LMU, Kriegel) Algorithms: WEKA Orange Stanford classifier (maximum entropy classifier) KNIME (Generic data processing framework) OpenNN (neural networks)
28 Literaturhinweise Manning/Schütze: Foundations of Natural Language Processing: Ausführlichere Darstellung des Vektorenmodells in der Sprachverarbeitung, 296ff, Kap f. Bis zum nächsten Mal bitte lesen: Kap : Naïve Bayes
Proseminar - Data Mining
Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrProseminar - Data Mining
Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,
MehrTEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini
TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrMotivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.
Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später
MehrText Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818
Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die
MehrKlassifikation im Bereich Musik
Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrData Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih
Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard
MehrData Mining-Modelle und -Algorithmen
Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrBachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.
München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund
MehrSeminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung
MehrPredictive Modeling Markup Language. Thomas Morandell
Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML
MehrEntwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
MehrComputerlinguistische Textanalyse
Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller
MehrML-Werkzeuge und ihre Anwendung
Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig
MehrDigitale Bildverarbeitung Einheit 11 Klassifikation
Digitale Bildverarbeitung Einheit 11 Klassifikation Lehrauftrag WS 06/07 Fachbereich M+I der FH-Offenburg Dr. Bernard Haasdonk Albert-Ludwigs-Universität Freiburg Ziele der Einheit Verstehen, dass basierend
MehrProseminar - Data Mining
Vorbesprechung Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2015 Vorbesprechung, SS 2015 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source:
MehrData Mining und maschinelles Lernen
Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:
MehrProjekt Maschinelles Lernen WS 06/07
Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb
MehrAlgorithmische Modelle als neues Paradigma
Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrExploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
MehrSentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser
Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung
MehrTheoretische Informatik 1
Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrFormalisierung und Kategorisierung natürlichsprachlicher Ortsbeschreibungen
Formalisierung und Kategorisierung natürlichsprachlicher Ortsbeschreibungen Daniela Richter, Stephan Winter FAKULTÄT FÜR BAUINGENIEUR-, GEO- UND UMWELTWISSENSCHAFTEN DEPARTMENT OF INFRASTRUCTURE ENGINEERING
MehrAusarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining
Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining Wissenschaftliches Arbeiten (2014) Aufgabe 5 Kai Kühne 798797 Beuth Hochschule für Technik Berlin Fachbereich VI Informatik und
MehrSeminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
MehrKonzepte der AI: Maschinelles Lernen
Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles
MehrText Mining 4. Seminar Klassifikation
Text Mining 4. Seminar Klassifikation Stefan Bordag 1. Klassifikation Stringklassifikation (männliche-weibliche Vornamen) Dokument klassifikation Bayesian Neuronal network (Decision tree) (Rule learner)
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin:
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: 26. 7. 2006 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrData-Mining: Ausgewählte Verfahren und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den
MehrEin Vergleich von Methoden für Multi-klassen Support Vector Maschinen
Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Einführung Auf binären Klassifikatoren beruhende Methoden One-Against-All One-Against-One DAGSVM Methoden die alle Daten zugleich betrachten
Mehrgeneriere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an
9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf
MehrWEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
MehrZum State of the Art automatischer Inhaltsanalyse
Zum State of the Art automatischer Inhaltsanalyse Michael Scharkow, M.A. Universität Hohenheim Institut für Kommunikationswissenschaft (540G) michael.scharkow@uni-hohenheim.de Typologie der Verfahren deskriptive/explorative
MehrSeminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006
Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet
MehrMethodenkurs Text Mining 01: Know Your Data
Methodenkurs Text Mining 01: Know Your Data Eva Enderichs SoSe2015 Eva EnderichsSoSe2015 01: Know Your Data 1 Eva EnderichsSoSe2015 01: Know Your Data 2 Typen von Korpora annotiert VS naturbelassen wenige
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrKapitel 5: Ensemble Techniken
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases II im Sommersemester 2009 Kapitel 5:
MehrErkennung fremdsprachiger Ausdrücke im Text
Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina
MehrData Mining @ Netezza mit IBM SPSS
Michael Ridder Senior Technical Sales Professional Predictiv Analytics Data Mining @ Netezza mit IBM SPSS Software Wir ertrinken in Informationen, aber wir hungern nach Wissen. John Naisbitt Trendforscher
MehrNaive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18
Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive
MehrKünstliche Neuronale Netze und Data Mining
Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung
MehrLehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot
Lehrangebot Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr N. Fuhr, U. Duisburg-Essen Lehrangebot 1 Lehrangebot des FG Informationssysteme Datenbanken Internet-Suchmaschinen Information Retrieval
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung
MehrPersonalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.
Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen
MehrAnwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke
Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse
Mehrx 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen
5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x
MehrSAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH
SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH GERHARD SVOLBA COMPETENCE CENTER ANALYTICS WIEN, 17. NOVEMBER 2015 SAS CONTEXTUAL ANALYSIS 14.1 EIN BLICK IN DIE PRODUKTBESCHREIBUNG
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrOpinion Mining Herausforderungen und Anwendung in der Politik
Opinion Mining Herausforderungen und Anwendung in der Politik 28.09.2011 Umut Yilmaz Inhaltsübersicht 1. Einführung 2. Grundlagen 3. Anwendung in der Politik 4. Anwendungsbeispiel 5. Fazit 2 1. Einführung
MehrWelche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?
Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte
MehrKapitel 11* Grundlagen ME. Aufbau eines ME-Systems Entwicklung eines ME-Systems. Kapitel11* Grundlagen ME p.1/12
Kapitel 11* Kapitel11* Grundlagen ME p.1/12 Grundlagen ME Aufbau eines ME-Systems Entwicklung eines ME-Systems Kapitel11* Grundlagen ME p.2/12 Aufbau eines ME-Systems (1) on line Phase digitalisiertes
MehrLanguage Identification XXL
Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva
MehrSeminar Text- und Datamining Datamining-Grundlagen
Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation
MehrWeb Data Mining. Alexander Hinneburg Sommersemester 2007
Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrProf. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2015/2016
Seminar im Modul M-GSW-09 WiSe 2015/2016 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität
MehrOne-class Support Vector Machines
One-class Support Vector Machines Seminar Wissensbasierte Systeme Dietrich Derksen 3. Januar 204 Motivation One-class Support Vector Machines: Detektion von Ausreißern (Systemfehlererkennung) Klassifikation
MehrBayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L
Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator
MehrSUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008
SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische
MehrEinführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch
Einführung: martin.loesch@kit.edu (0721) 608 45944 Übersicht Motivation & Hintergrund Naiver Bayes-Klassifikator Bayessche Netze EM-Algorithmus 2 Was ist eigentlich? MOTIVATION & HINTERGRUND 3 Warum Lernen
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online
MehrMS SQL Server 2012 (4)
MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql
MehrInhaltsverzeichnis. Kurzfassung. Abstract
Inhaltsverzeichnis Kurzfassung Abstract Inhaltsverzeichnis iii v vii 1 Einleitung 1 1.1 Problemstellung und Einordnung der Arbeit 1 1.2 Lösungsansatz 7 L3 Verwandte Arbeiten S 1.3.1 Datenbank-Suchmaschmen
MehrÜbersicht. Eclipse Foundation. Eclipse Plugins & Projects. Eclipse Ganymede Simultaneous Release. Web Tools Platform Projekt. WSDL Editor.
Eclipse WSDL-Editor Übersicht Eclipse Foundation Eclipse Plugins & Projects Eclipse Ganymede Simultaneous Release Web Tools Platform Projekt WSDL Editor Bug #237918 Eclipse Foundation Was ist Eclipse?
MehrMythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011
Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ
MehrTextklassifizierung nach Erbkrankheiten aus OMIM Exposé einer Diplomarbeit
Textklassifizierung nach Erbkrankheiten aus OMIM Exposé einer Diplomarbeit betreut von: Prof. Ulf Leser, Jörg Hakenberg bearbeitet von: Juliane Rutsch September 24 November 24 Problemstellung Medizinische
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der
MehrMorphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
MehrSeminar Visual Analytics and Visual Data Mining
Seminar Visual Analytics and Visual Data Mining Dozenten:, AG Visual Computing Steffen Oeltze, AG Visualisierung Organisatorisches Seminar für Diplom und Bachelor-Studenten (max. 18) (leider nicht für
MehrTextklassifikation mit Support Vector Machines
Köln, den 25. April 2015 Studiengang Informationsverarbeitung Wintersemester 2014/2015 Sprachliche Informationsverarbeitung Hauptseminar: Linguistic Software Engineering bei Prof. Dr. Jürgen Rolshoven
MehrSchätzen der Fehlerzahl. in Software-Dokumenten. Dr. Frank Padberg Universität Karlsruhe Mai 2003
Schätzen der Fehlerzahl in Software-Dokumenten Dr. Frank Padberg Universität Karlsruhe Mai 2003 Motivation beim Testen oder bei Inspektionen werden nicht alle Fehler gefunden Anzahl der unentdeckten Fehler
MehrGrundlegendes zur Semantik 4. Januar 2005
Linguistik Grundkurs Plenum Ruhr Universität Bochum Germanistisches Institut ********************************** Wolf Peter Klein Grundlegendes zur Semantik 4. Januar 2005 Wintersemester 04/05 Semantik
MehrIndustrie 4.0 und Smart Data
Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen
MehrKapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval
Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und
Mehr1 XML Hype oder Hoffnung? Einleitung Wie ist dieses Buch aufgebaut?... 3
1 XML Hype oder Hoffnung?...1 1.1 Einleitung... 1 1.2 Wie ist dieses Buch aufgebaut?... 3 2 Inhalte und Publishing...5 2.1 Einleitung... 5 2.2 Daten, Informationen, Assets, Content... 10 2.2.1 Daten und
MehrData Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML
Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,
MehrKapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN
Kapitel LF: I I. Einführung in das Maschinelle Lernen Bemerkungen: Dieses Kapitel orientiert sich an dem Buch Machine Learning von Tom Mitchell. http://www.cs.cmu.edu/ tom/mlbook.html 1 Autoeinkaufsberater?
MehrMaschinelles Lernen Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten
MehrProseminar: Web-Performance
Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können
MehrXML in der Praxis: Technische Dokumentation
XML in der Praxis: Technische Dokumentation Ulrike Schäfer INFOTAKT information design tekom Berlin Brandenburg Regionaltreffen 23.11.2001 Ulrike Schäfer. www.infotakt.de. Folie 1 Übersicht Problemstellung
MehrEXASOL Anwendertreffen 2012
EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag
MehrText-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
MehrSentiment Classification
Universität Duisburg-Essen, SS 2008 Seminar Soziales Retrieval im Web 2.0 Dozent: Prof. Dr.-Ing. Norbert Fuhr Betreuer: Ingo Frommholz Sentiment Classification Daniel Jansen 04. Oktober 2008 Institut für
MehrRapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik
technische universität RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik Name Autor Ort und Datum Informatik: Linguistik: Methoden + Verfahren Forschungsfragen, Anforderungen
MehrBig Data Textanalyse. Der Weg von unstrukturierten Daten zu quantifizierbaren Informationen
Der Weg von unstrukturierten Daten zu quantifizierbaren Informationen Christopher Thomsen Senior Consultant & Competence Center Big Data Lead OPITZ CONSULTING Deutschland GmbH Hamburg, 22.09.2015 OPITZ
MehrBayessches Lernen Aufgaben
Bayessches Lernen Aufgaben martin.loesch@kit.edu (0721) 608 45944 Aufgabe 1: Autodiebstahl-Beispiel Wie würde man ein NB-Klassifikator für folgenden Datensatz aufstellen? # Color Type Origin Stolen? 1
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrGrundprinzipien des Bayes schen Lernens und Der naive Bayes-Klassifikator im Vergleich zum Maximum-Likelihood-Klassifikator von Andreas Schätzle
Grundprinzipien des Bayes schen Lernens und Der naive Bayes-Klassifikator im Vergleich zum Maximum-Likelihood-Klassifikator von Andreas Schätzle Inhalt Bayes'sches Lernen Eigenschaften von Bayes'schen
Mehr