TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

Größe: px
Ab Seite anzeigen:

Download "TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini"

Transkript

1 TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

2 GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen 4. Anwendungsbereiche 5. Beispiel: Spam-Filter

3 ALLGEMEINES DEFINITION Einordnung von Zeitungsnachrichten in Rubriken Anordnung von Klassen Einordnung eines Textes in mehreren/keine Klassen Ziele: Automatisierte, inhaltliche Erschließung von großen Textmengen und leichterer Zugang zur gewünschten Information

4 AUFBAU EINES TEXTKLASSIFIKATIONSSYSTEMS Komponente zum Wissenserwerb (1) und zur Klassifikation (2) (1) Es werden erst Klassenprofile erstellt Besteht aus einer Menge von Merkmalen und deren Beziehungen Merkmale basieren auf Wörtern oder Buchstaben

5 ARTEN VON TEXTKLASSIFIKATIONSSYSTEMEN - KLASSENPROFILE Nicht-lernende Systeme: Erstellung von manuellen Klassifikationsprofilen, Regeln werden von Menschen erstellt Lernende Systeme: Automatische Berechnung von Klassifikationsprofilen anhand von Trainingsdaten Die wichtigsten Maße für die Gewichtung der Merkmale: Entropie-Maße und Korrelations- Maße

6 ARTEN VON TEXTKLASSIFIKATIONSSYSTEMEN - VERFAHREN Regelbasierte Verfahren: Regeln werden in Form von booleschen Anfragen benutzt bei denen zw. Wörtern und Klassen durch logische Operatoren (u. a AND, OR und NOT) ausgedrückt wird Beispiel: Klasse Straßenverkehr

7 ARTEN VON TEXTKLASSIFIKATIONSSYSTEMEN - VERFAHREN Statistische Verfahren Rocchio-Algorithmus: Berechnung der Distanz zu den Zentroid-Vektoren aller Klassen und die nahe liegendste wird ausgewählt K-Nearest-Neighbour-A.: Vergleich des Merkmalsvektors mit Trainingsvektor und Ermittlung der K nächsten Support-Vector-Machine: Distanzberechnung zu den Support-Vektoren Naive-Bayes-Algorithmus: Schätzung der bedingten Wahrscheinlichkeiten aus den Trainingsdaten

8 ARTEN VON TEXTKLASSIFIKATIONSSYSTEMEN VERFAHREN VOR-,UND NACHTEILE Regelbasierte Verfahren Nachteil: Trainingsphase sehr aufwendig, Overfitting Vorteile: Hohe Güte der Klassifikation, hohe Effizienz in der Anwendungsphase Statistische Verfahren Rocchio-A. Nachteile: Stark nachlassende Güte bei mehr als 100 Klassen Vorteile: Einfachheit, hohe Geschwindigkeit KNN-A. Vorteile: Geschwindigkeit des Trainings, gute Skalierbarkeit bzgl. der Anzahl der Klassen SVM-A. Nachteile: Aufwendiges Training Vorteile: Schnell, gut skalierbar, wenig anfällig gegenüber dem Overfitting, hohe Klassifikationsgüte Naive Bayes Nachteile: Keine Voraussetzung der statistischen Unabhängigkeit der Merkmale

9 OVERFITTING-PROBLEM

10 ANWENDUNGSBEREICHE (vertikale) Suchmaschine Analyse von Nachrichtenartikel Sentiment-Analyse Spam-Filter

11 BEISPIEL: SPAM-FILTER - PROBLEMDARSTELLUNG Binäre Kategorisierung Allgemein: Unterscheidung, ob man ein Dokument kategorisieren (document-pivoted categorization) oder finden möchte (categorypivoted-categorization) Fall Spam-Filter: document-pivoted categorization Harte vs. bewertete Kategorisierung Spam-Filter -> Nutzung des Bayes-Klassifizierers (bewertete Klassifizierung)

12 BEISPIEL: SPAM-FILTER WIE FUNKTIONIERT DAS? Vorhandene Datenbasis mit klassifizierten Dokumenten Aufteilung der Daten in Trainingsmenge und Validierungsmenge Klassifizierer wird mit den Dokumenten aus der Trainingsmenge trainiert Validierungsmenge wird mit Klassifizierer kategorisiert Ergebnis wird mit gewünschtem Ergebnis verglichen

13 BEISPIEL: SPAM-FILTER - PROBLEME Schwankende Anzahl von Spam-Mails Fehlerkosten false positives vs. False negatives Inhalt schwankt Klassifikation wird erschwert

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Info zum Junk-Mail-Filter in Thunderbird:

Info zum Junk-Mail-Filter in Thunderbird: Datenverarbeitungszentrale Datenverarbeitungszentrale dvz@fh-muenster.de www.fh-muenster.de/dvz Info zum Junk-Mail-Filter in Thunderbird: Der Grossteil der Benutzer verwendet zusätzlich zum zentralen Mail-Filter

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Computerlinguistische Textanalyse

Computerlinguistische Textanalyse Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und Ausgaben Aktivierungsfunktionen: Schwellwertfunktion

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

6. Künstliche Intelligenz

6. Künstliche Intelligenz 6.1. Turing-Test 6.2. Lernen In diesem Abschnitt besprechen wir wie man an Hand von Beispielen lernt, Objekte zu erkennen und verschiedene Dinge voneinander zu unterscheiden. Diese sogenannte Mustererkennung

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

INFORMATIONSLOGISTIK VERSUS SUCHE. Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen

INFORMATIONSLOGISTIK VERSUS SUCHE. Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen INFORMATIONSLOGISTIK VERSUS SUCHE Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen 2 Informationslogistik versus Suche Inhalt Seite Thema 3 Suchen 3 Grundlegende

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Thematische Abfrage mit Computerlinguistik

Thematische Abfrage mit Computerlinguistik Thematische Abfrage mit Computerlinguistik Autor: Dr. Klaus Loth (ETH-Bibliothek Zürich) Zusammenfassung Der Beitrag befasst sich mit dem Einsatz der Computerlinguistik bei der thematischen Abfrage einer

Mehr

Lohntabelle gültig ab 1. Januar 2016

Lohntabelle gültig ab 1. Januar 2016 Klasse 1 A 34'953 2'912.75 16.00 37'865.75 B 36'543 3'045.25 16.73 39'588.25 C 38'130 3'177.50 17.46 41'307.50 1 39'720 3'310.00 18.19 43'030.00 2 41'307 3'442.25 18.91 44'749.25 3 42'897 3'574.75 19.64

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Das Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005

Das Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005 Das Bayes-Theorem Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005 Ein lahmer Witz Heute im Angebot: Ein praktisches Beispiel zur Einleitung Kurze Wiederholung der Überblick über Reverend

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Universität zu Köln Seminar: Künstliche Intelligenz II Dozent: Claes Neuefeind SS 2012. Neuronale Netze. Von Deasy Sukarya & Tania Bellini

Universität zu Köln Seminar: Künstliche Intelligenz II Dozent: Claes Neuefeind SS 2012. Neuronale Netze. Von Deasy Sukarya & Tania Bellini Universität zu Köln Seminar: Künstliche Intelligenz II Dozent: Claes Neuefeind SS 2012 Neuronale Netze Von Deasy Sukarya & Tania Bellini Einführung Symbolische vs. Sub-symbolische KI Symbolische KI: Fokussierung

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

Klassifikation im Bereich Musik

Klassifikation im Bereich Musik Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Klassifikationsaufgaben mit der SENTRAX. Konkreter Fall: Automatische Detektion von SPAM. Dirk T. Frobese

Klassifikationsaufgaben mit der SENTRAX. Konkreter Fall: Automatische Detektion von SPAM. Dirk T. Frobese Proceedings des Fünften Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2006) Klassifikationsaufgaben mit der SENTRAX. Konkreter Fall: Automatische Detektion von SPAM Dirk T. Frobese Universität

Mehr

Jan Parthey, Christin Seifert. 22. Mai 2003

Jan Parthey, Christin Seifert. 22. Mai 2003 Simulation Rekursiver Auto-Assoziativer Speicher (RAAM) durch Erweiterung eines klassischen Backpropagation-Simulators Jan Parthey, Christin Seifert jpar@hrz.tu-chemnitz.de, sech@hrz.tu-chemnitz.de 22.

Mehr

Text Mining 4. Seminar Klassifikation

Text Mining 4. Seminar Klassifikation Text Mining 4. Seminar Klassifikation Stefan Bordag 1. Klassifikation Stringklassifikation (männliche-weibliche Vornamen) Dokument klassifikation Bayesian Neuronal network (Decision tree) (Rule learner)

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Internetkommunikation I WS 2004/05 Rafael Birkner

Internetkommunikation I WS 2004/05 Rafael Birkner Vortrag zum Thema: Bayes'sche Filter zur SPAM-Erkennung 1. Bayes'sche Filter: Eigenschaften - englischer Mathematiker Thomas Bayes (1702 1761) - state of the art Technologie zur Bekämpfung von Spam - adaptive

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words André Viergutz 1 Inhalt Einführung. Einordnung der Arbeit in die zugrunde liegenden Konzepte Das Modell der Fields

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Informationssystemanalyse Lebenszyklusmodelle 3 1. Lebenszyklusmodelle sollen hauptsächlich drei Aufgaben erfüllen:

Informationssystemanalyse Lebenszyklusmodelle 3 1. Lebenszyklusmodelle sollen hauptsächlich drei Aufgaben erfüllen: Informationssystemanalyse Lebenszyklusmodelle 3 1 Aufgaben von Lebenszyklusmodellen Lebenszyklusmodelle sollen hauptsächlich drei Aufgaben erfüllen: Definition der Tätigkeiten im Entwicklungsprojekt Zusicherung

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit:

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit: Vorlesung 5.5. VERBINDUNGSNETZWERKE Kommunikation zwischen den einzelnen Komponenten eines arallelrechners wird i.d.r. über ein Netzwerk organisiert. Dabei unterscheidet man zwei Klassen der Rechner: TOOLOGIE:

Mehr

KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR

KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR Retail KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR Technology Life Sciences & Healthcare Florian Hockmann Ruhr-Universität Bochum florian.hockmann@rub.de Automotive Consumer

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Analyse und Synthese von Argumentationsstrukturen durch rechnergestützte Methoden am Beispiel der Rechtswissenschaft

Analyse und Synthese von Argumentationsstrukturen durch rechnergestützte Methoden am Beispiel der Rechtswissenschaft Analyse und Synthese von Argumentationsstrukturen durch rechnergestützte Methoden am Beispiel der Rechtswissenschaft Ass. jur. Iris Speiser Institut für Rechtsinformatik Universität des Saarlandes Dipl.-Wirt.-Inf.

Mehr

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011 Evaluation Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 26.05.2011 Caroline Sporleder Evaluation (1) Datensets Caroline Sporleder Evaluation (2) Warum evaluieren?

Mehr

Auf dem Weg zu Website-Fingerprinting in der Praxis

Auf dem Weg zu Website-Fingerprinting in der Praxis Auf dem Weg zu Website-Fingerprinting in der Praxis Identifizierung von Webseiten mit dem multinomialen Naïve-Bayes-Klassifizierer Dominik Herrmann Lehrstuhl Management der Informationssicherheit Universität

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Automatisierte Expertenfindung zur Fehlerbehebung in großen Softwaresystemen

Automatisierte Expertenfindung zur Fehlerbehebung in großen Softwaresystemen Patrick Schlott Fachbereich Informatik Automatisierte Expertenfindung zur Fehlerbehebung in großen Softwaresystemen Automatisierte Expertenfindung zur Fehlerbehebung in großen Softwaresystemen 1 Gliederung

Mehr

Wirtschaftsportalverbund Sicherheitsklassen

Wirtschaftsportalverbund Sicherheitsklassen Wirtschaftsportalverbund Sicherheitsklassen Version 30.8.2014 Rainer Hörbe 1 Inhalt Inhalt... 2 Begriffe... 2 1 Einführung... 2 2 Geltungsbereich der Sicherheitsklassen... 3 3 Risikoeinstufung der Sicherheitsklassen...

Mehr

1. LPC - Lehmanns Programmier Contest - Lehmanns Logo

1. LPC - Lehmanns Programmier Contest - Lehmanns Logo Aufgabe ist die Entwicklung einer vereinfachten Variante der beliebten Programmiersprache Logo. Die Aufgabe ist in drei Stufen zu erledigen, von der wir zunächst nur die erste Stufe bekannt geben. Die

Mehr

Künstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Künstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Künstliche Intelligenz Unsicherheit Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Rückblick Agent in der Wumpuswelt konnte Entscheidungen

Mehr

Abschnittsbasierte Textklassifikation in der Wikipedia

Abschnittsbasierte Textklassifikation in der Wikipedia Abschnittsbasierte Textklassifikation in der Wikipedia Magisterarbeit im Studiengang MAGISTER ARTIUM der Friedrich-Alexander-Universität Erlangen-Nürnberg in der Philosophischen Fakultät und Fachbereich

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2009 1. Einführung: Definitionen Grundbegriffe Lernsysteme Maschinelles Lernen Lernen: Grundbegriffe

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Anfrage Erweiterung 03.11.2011 Jan Schrader

Anfrage Erweiterung 03.11.2011 Jan Schrader Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 9. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Statistische Verfahren der KI (II) Klassifizieren von Dokumenten Informationsbeschaffung

Mehr

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18 Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive

Mehr

Analyse von Diskursen in Social Media Ein Werkstattbericht

Analyse von Diskursen in Social Media Ein Werkstattbericht Analyse von Diskursen in Social Media Ein Werkstattbericht Ausgangspunkt in der Kommunikationswissenschaft Bisherige Öffentlichkeit: Journalisten als zentrale Vermittler von Themen und Meinungen ( Gatekeeper

Mehr

Sentiment Classification

Sentiment Classification Universität Duisburg-Essen, SS 2008 Seminar Soziales Retrieval im Web 2.0 Dozent: Prof. Dr.-Ing. Norbert Fuhr Betreuer: Ingo Frommholz Sentiment Classification Daniel Jansen 04. Oktober 2008 Institut für

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Event-Aggregation in Frühwarnsystemen. Till Dörges. 2009 by PRESENSE Technologies GmbH

Event-Aggregation in Frühwarnsystemen. Till Dörges. 2009 by PRESENSE Technologies GmbH Event-Aggregation in Frühwarnsystemen Till Dörges Gliederung Motivation Definitionen Aggregationsverfahren Implementierung Ergebnisse / Ausblick Folie 2 / Event-Aggregation 18. März 2009 Hamburg Motivation

Mehr

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Part-Of-Speech-Tagging mit Viterbi Algorithmus Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus

Mehr

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 Wahrscheinlichkeit und Sprache Ausgangsfrage: Nächstes Wort vorhersagen. Sprache als Zufallsprozess: Für jede

Mehr

Trouble-Ticket System. Trouble-Ticket System Sascha Günther Seite 1/16

Trouble-Ticket System. Trouble-Ticket System Sascha Günther Seite 1/16 Trouble-Ticket System Trouble-Ticket System Sascha Günther Seite 1/16 Gliederung Erklärung Trouble-Ticket Anforderungen an Trouble-Tickets Erklärung Trouble-Ticket System Fazit Trouble-Ticket System Sascha

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Data Mining im Internet

Data Mining im Internet Data Mining im Internet Dipl.-Dok. Helga Walter Bayer HealthCare, Wuppertal PH-R-EU Scientific Information and Documentation 1 Arten / Quellen wissenschaftlicher Information Strukturierte Informationen:

Mehr

Wenn Sie eine Mail haben die in Ihren Augen kein SPAM. asspnotspam@dachau.net

Wenn Sie eine Mail haben die in Ihren Augen kein SPAM. asspnotspam@dachau.net Wissenswertes über SPAM Unter dem Begriff Spam versteht man ungewünschte Werbenachrichten, die per E-Mail versendet werden. Leider ist es inzwischen so, dass auf eine gewünschte Nachricht, oft zehn oder

Mehr

Erfolgreich suchen im Internet

Erfolgreich suchen im Internet Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Modellgetriebene Entwicklungsprozesse in der Praxis - eine Bestandsaufnahme. Tillmann Schall, anaptecs GmbH

Modellgetriebene Entwicklungsprozesse in der Praxis - eine Bestandsaufnahme. Tillmann Schall, anaptecs GmbH Modellgetriebene Entwicklungsprozesse in der Praxis - eine Bestandsaufnahme Tillmann Schall, anaptecs GmbH : Agenda Grundlagen modellgetriebener Entwicklungsprozesse Schritte zur Einführung Erfahrungen

Mehr

Die Bilanzierung von Software nach IAS 38

Die Bilanzierung von Software nach IAS 38 Tobias A. Kisser Die Bilanzierung von Software nach IAS 38 Darstellung und Zweckmäßigkeitsanalyse Verlag Dr. Kovac Inhaltsübersicht 1 EINLEITUNG 1 1.1 Ziel der Arbeit 1 1.2 Aufbau der Untersuchung 3 2

Mehr

Grundlagen der Informationverarbeitung

Grundlagen der Informationverarbeitung Grundlagen der Informationverarbeitung Information wird im Computer binär repräsentiert. Die binär dargestellten Daten sollen im Computer verarbeitet werden, d.h. es müssen Rechnerschaltungen existieren,

Mehr

Standardisieren Sie die manuelle Differenzierung in Ihrem Labor

Standardisieren Sie die manuelle Differenzierung in Ihrem Labor Standardisieren Sie die manuelle Differenzierung Einleitung Die Interpretation von Ausstrichen peripheren Bluts spielt eine große Rolle bei der Diagnose hämatologischer Krankheiten und stellt daher eine

Mehr

11./ 12. April 2006. Andrea Ossig andrea.ossig@web.de. Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de

11./ 12. April 2006. Andrea Ossig andrea.ossig@web.de. Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de Einführung in SPSS 11./ 12. April 2006 Andrea Ossig andrea.ossig@web.de Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de Monia Mahling monia.mahling@web.de 1 Vor /Nachteile von SPSS +/ intuitiv

Mehr

Was bisher geschah. Aufgaben: Diagnose, Entscheidungsunterstützung Aufbau Komponenten und Funktion

Was bisher geschah. Aufgaben: Diagnose, Entscheidungsunterstützung Aufbau Komponenten und Funktion Was bisher geschah Daten, Information, Wissen explizites und implizites Wissen Wissensrepräsentation und -verarbeitung: Wissensbasis Kontextwissen Problemdarstellung fallspezifisches Wissen repräsentiert

Mehr

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen Kapitel ML: I I. Einführung Beispiele für Lernaufgaben Spezifikation von Lernproblemen ML: I-8 Introduction c STEIN/LETTMANN 2005-2010 Beispiele für Lernaufgaben Autoeinkaufsberater Welche Kriterien liegen

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Statistik I für Wirtschaftswissenschaftler Klausur am 06.07.2007, 14.00 16.00.

Statistik I für Wirtschaftswissenschaftler Klausur am 06.07.2007, 14.00 16.00. 1 Statistik I für Wirtschaftswissenschaftler Klausur am 06.07.2007, 14.00 16.00. Bitte unbedingt beachten: a) Gewertet werden alle 9 gestellten Aufgaben. b) Lösungswege sind anzugeben. Die Angabe des Endergebnisses

Mehr

One-class Support Vector Machines

One-class Support Vector Machines One-class Support Vector Machines Seminar Wissensbasierte Systeme Dietrich Derksen 3. Januar 204 Motivation One-class Support Vector Machines: Detektion von Ausreißern (Systemfehlererkennung) Klassifikation

Mehr

Digitale Bildverarbeitung Einheit 11 Klassifikation

Digitale Bildverarbeitung Einheit 11 Klassifikation Digitale Bildverarbeitung Einheit 11 Klassifikation Lehrauftrag WS 06/07 Fachbereich M+I der FH-Offenburg Dr. Bernard Haasdonk Albert-Ludwigs-Universität Freiburg Ziele der Einheit Verstehen, dass basierend

Mehr

KOMPETENZ IN LUFT. 2. PROZEUS-KongressMesse 28./29 Januar im RheinEnergieStadion, Köln KOMPETENZ IN LUFT.

KOMPETENZ IN LUFT. 2. PROZEUS-KongressMesse 28./29 Januar im RheinEnergieStadion, Köln KOMPETENZ IN LUFT. LUFT 2. PROZEUS-KongressMesse 28./29 Januar im RheinEnergieStadion, Köln Präsentationsinhalte Kurze Vorstellung von Unternehmen und Produkten/Dienstleistungen Motive für die Durchführung des ebusiness-projekts

Mehr

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff Adaptive Systeme Unüberwachtes Lernen: Adaptive Vektor Quantisierung und Kohonen Netze Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff Überwachtes Lernen Alle bis lang betrachteten Netzwerke

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

Fachhochschule Köln. Konzepte des maschinellen Lernens. Ausarbeitung. Florian Keller

Fachhochschule Köln. Konzepte des maschinellen Lernens. Ausarbeitung. Florian Keller Fachhochschule Köln 07 Fakultät für Informations-, Medien-, und Elektrotechnik Institut für Nachrichtentechnik Studiengang Master Technische Informatik Konzepte des maschinellen Lernens Ausarbeitung vorgelegt

Mehr

Dipl.-Ing. (FH) Michael Wessels. Der merkantile Minderwert nach einem Unfallschaden

Dipl.-Ing. (FH) Michael Wessels. Der merkantile Minderwert nach einem Unfallschaden Dipl.-Ing. (FH) Michael Wessels Der merkantile Minderwert nach einem Unfallschaden Der merkantile Minderwert nach einem Unfallschaden Dipl.-Ing. (FH) Michael Wessels Der merkantile Minderwert nach einem

Mehr

Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko

Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko Jan Jescow Stoehr Gliederung 1. Einführung / Grundlagen 1.1 Ziel 1.2 CreditRisk+ und CreditMetrics 2. Kreditportfolio 2.1 Konstruktion

Mehr

Automatische Gesprächsauswertung im Callcenter

Automatische Gesprächsauswertung im Callcenter Einleitung Forschungsbeitrag Automatische Gesprächsauswertung im Callcenter Projekt CoachOST Dipl.-Wirtsch.-Inf. Mathias Walther Prof. Dr. Taïeb Mellouli Lehrstuhl für Wirtschaftsinformatik und Operations

Mehr

Preise und Leistungen. Stand 22.04.2008

Preise und Leistungen. Stand 22.04.2008 Preise und Leistungen Stand 22.04.2008 Einheit Einmalig Monatlich OnlineManagementSystem Standard oder Pro WebFrontend zur Konfiguration von Aufträgen, Bereitstellung, Einsicht und Selektion Ihrer Ergebnisse,

Mehr

Den Spammern immer einen Schritt voraus

Den Spammern immer einen Schritt voraus Seite 1 von 6 Hintergrundartikel Den Spammern immer einen Schritt voraus Kombinierte Filtermethoden arbeiten zuverlässig und effizient Volker Zinser, Senior Systems Engineer Symantec (Deutschland) GmbH

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Selbstlernende Software zur Analyse von Texten

Selbstlernende Software zur Analyse von Texten HOCHSCHULE FÜR TECHNIK RAPPERSWIL BACHELORARBEIT ABTEILUNG INFORMATIK Frühlingssemester 2013 Autoren: Fabian Senn Cyrill Lam Betreuer: Rolf Schärer Projektpartner: Luware AG, ZH Experte: Michael Jakob

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns 2. Statistische Methoden in der Diagnostik Elemente des Studiendesigns Diagnosestudien in der Medizin Klassifikation in krank - nicht krank basierend auf diagnostischem Test Beispiel: Diagnose von Brustkrebs

Mehr

FirstW@ve. Finanz Buchhaltung

FirstW@ve. Finanz Buchhaltung FirstW@ve Finanz Buchhaltung SYSTEMVORAUSSETZUNG Funktioniert unter «Windows/NT» Datenbasis «SQL/Server» Entwicklungswerkzeuge «MAGIC 8.3» Funktioniert als Einplatz- oder Mehrplatzversion Notwendige Lizenzen:

Mehr