Kategorisierungsverfahren. Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle

Größe: px
Ab Seite anzeigen:

Download "Kategorisierungsverfahren. Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle"

Transkript

1 Kategorisierung deduktiver Schluss, Schema: Alle A sind X p ist ein A p ist X logisch gültig abduktiver Schluss: p ist X Alle A sind X p ist ein A logisch nicht gültig (kann ein Fehlschluss sein) z.b. Arzt: Symptom Krankheit

2 Kategorisierung Dokument d Kategorie C Kategorien: Spam Sprache (dt., engl., frz.,...) Genre, Autor Meinung ( sentiment analysis ) inhaltliche Kategorien (benutzerdefiniert): Rubrik, Abteilung, Sachbearbeiter,... Anwendungen in Wissensmanagement und Text Mining: Routing (CRM-Systeme) Web Content Filter IR-Systeme

3 Kategorisierungsverfahren Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle

4 Kategorisierung: Voraussetzungen 1. Kategorien (Kategorienmodell) z.b. binär: Spam vs. Nicht-Spam flaches Kategorienmodell: Politik, Kultur, Wirtschaft, Sport hierarchisches Kategorienmodell normalerweise benutzerdefiniert trainierbar mit Beispieldokumenten 2. Ähnlichkeitsmaß Dokument d Kategorie C aufgrund welcher Merkmale soll Ähnlichkeit gemessen werden?

5 Merkmalsauswahl Buchstaben-n-Gramme, Wörter, Phrasen, Dokumentlänge, Dokumentstruktur,... zur Festellung des Autors müssen auch Funktionswörter betrachtet werden bei inhaltlicher Kategorisierung werden sie als Stoppwörter entfernt statistische Signifikanztests

6 Ähnlichkeitsmaß Vektorähnlichkeit (z.b. Kosinus-Maß) sim(d 1, d 2 ) = cos(d 1, d 2 ) Ähnlichkeit zwischen Dokumenten aber Ähnlichkeit Dokument d Kategorie C?

7 Rocchio-Verfahren Zentroid-Methode: Kategorie C darstellen durch Durchschnittsvektor z (Zentroid) aller Dokumente d i in C Ähnlichkeitsvergleich d mit z für alle C i ein z i, Vergleich d mit allen z i Einordnung von d in ähnlichste Kategorie C i Rangliste, Schwellwert, Mehrfachzuordnung

8 knn-methode k-nearest neighbours (knn) sim(d 1, d 2 ) = cos(d 1, d 2 ) Kategorienmodell mit Trainingsdokumenten Vergleiche zu klassifizierendes Dokument d mit allen Trainingsdokumenten auf Ähnlichk. Rangfolge der ähnlichsten Doks zu d betrachte nur die ersten k Doks in der Liste zu welcher Kategorie gehören die meisten davon? ordne d der Gewinner-Kategorie zu score(c i ) = Σ 1/r * sim(d, d i )

9 knn: Parameter k

10 knn: Anzahl Trainingsdoks Korrektheit in % 92, , , , , , , , , , Anzahl Trainingsdokumente

11 Evaluierung Zwei frei verfügbare Standard-Datensätze: Reuters Newsgroups 20 Newsgroups: engl. Beiträge aus Diskussionsforen (Usenet Newsgroups) jeweils Dokumente aus 20 Kategorien Kategorien sind z.b.: talk.politics.mideast, talk.politics.misc, comp.sys.ibm.pc.hardware, comp.sys.mac.hardware, rec.autos, sci.med

12 Beispielposting aus dem 20- Newsgroups-Korpus Subject: Re: Albert Sabin I just started reading this newsgroup and haven't been following the thread. I'm just curious: How did this threat get started with Albert Sabin and changed into something else? What was it about Sabin that initiated a religious discussion? Colin Aus welcher der drei Kategorien: alt.atheism soc.religion.christian talk.religion.misc?

13 Naive Bayes Bedingte Wahrscheinlichkeit Totale Wahrscheinlichkeit Satz von Bayes P(K W) = (P(W K) P(K)) / P(W) naive Bayes-Kategorisierung: K max = argmax K P(w 1 k j )... P(w n k j ) P(k j ) naive Annahme: Vorkommen aller w i unabhängig voneinander

14 Support Vector Machines Dok d repräsentiert durch Termvektor t d eine SVM unterscheidet zwischen zwei Kategorien im Wortraum können Cluster (=Kategorien) C 1 und C 2 durch eine Hyperebene E separiert werden, so dass Abstand E d ε C 1, C 2 maximal y = f(t d ) = b 0 + Σ b j t j y entweder +1 oder -1

15 Support Vector Machines

16 Support Vector Machines d i mit Abstand δ heißen support vectors wenn C 1 und C 2 nicht durch Hyperebene separierbar: finde Ebene mit möglichst wenigen d i auf falscher Seite effizienter Algorithmus zum Lernen von f [2] Tools verfügbar:

17 n-gramm-sprachmodelle Zeichenfolge: w 1 w 2... w N Wahrscheinlichkeit von w i gegeben w 1...w i-1 : P(w i w 1...w i-1 ) Wahrscheinlichkeit der ges. Zeichenfolge: P(w 1 w 2... w N )= i=1..n P(w i w 1...w i-1 ) Markov-Annahme: nur vorangegangene n-1 Zeichen relevant für w i : P(w i w 1...w i-1 ) P(w i w i-n+1...w i-1 ) P(w i w i-n+1...w i-1 ) = H(w i-n+1...w i )/H(w i-n+1...w i-1 ) aus Korpus

18 n-gramm-sprachmodelle Perplexität einer Zeichenfolge bzgl. eines Sprachmodells: gibt an, wie sehr die Zeichenfolge das Modell überrascht Entropie = log 2 Perplexität je kleiner Perplexität u. Entropie, desto besser die Zeichenfolge

19 Sprachmodelle: Glättung n-gramme, die im Trainingskorpus nicht vorkamen, haben P = 0 Wahrscheinlichkeiten werden multipliziert ganze Zeichenfolge erhält P = 0 daher: Wahrscheinlichkeitsmasse reservieren für ungesehene n-gramme Glättung (engl. smoothing) z.b. back-off: P(z xy) = 0,95 H(xyz)/H(xy) + 0,04 H(yz)/H(y) + 0,008 H(z)/ V + 0,002

20 Kategorisierung mit Sprachmodellen c max = argmax cєc P(c D) nach Regel von Bayes: c max = argmax cєc (P(D c) P(c)) / P(D) P(c) für alle Dokumente D gleich, P(D) spielt bei Maximierung von c keine Rolle: c max = argmax cєc P(D c) c max = argmax cєc i=1..n P(w i w i-n+1...w i-1, c)

21 Kategorisierung mit Sprachmodellen Buchstaben-n-Gramme! keine Tokenisierung, Stoppwortfilterung oder sonstige Merkmalsauswahl nötig für jede Kategorie c є C ein Sprachmodell trainieren Wahrscheinlichkeit eines Dokuments D bzgl. aller Sprachmodelle berechnen wahrscheinlichstes Sprachmodell (Kategorie) gewinnt

22 [4] Kategorisierung mit Sprachmodellen Sprachidentifikat.: Bigramme 100% Acc. Autorerkennung: Trigramme 90% Acc. Genrekategoris.: Bigramme 86% Acc. Topic-Kategor.: 6-Gramme 89% Acc. (besser als SVM mit 87,5%. N-Gramme auf Wortebene erreichen 88%)

23 Kategorisierung mit Sprachmodellen Vorteile: keine Vorverarbeitung oder Merkmalsauswahl nötig gleiche Methode für verschiedene Kategorisierungsaufgaben Ergebnisse auf Stand der Technik Nachteil: für große Anzahl Kategorien sehr langsam

24 Kategorisierungsverfahren im Vergleich [3]: Rocchio F 1 = 0,781 naive Bayes F 1 = 0,795 knn F 1 = 0,856 SVM F 1 = 0,870

25 Literaturangaben [1] Hotho, A., Nürnberger, A. u. Paaß, G. (2005): A Brief Survey of Text Mining. In LDV Forum, 20(1), S [2] Joachims, T. (1998): Text categorization with support vector machines: Learning with many relevant features. In: Nedellec, C. u. Rouveirol, C. (Hg.), European Conf. on Machine Learning (ECML) [3] Sebastiani, F. (2002): Machine learning in automated text categorization. ACM Computing Surveys, 34, S [4] F. Peng, D. Schuurmans u. S. Wang (2003): Language and task independent text categorization with simple language models. In Proc. of HLT-NAACL, Edmonton, Kanada.

Text Mining. Peter Kolb 25.6.2012

Text Mining. Peter Kolb 25.6.2012 Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big

Mehr

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Statistische Verfahren in der Computerlinguistik

Statistische Verfahren in der Computerlinguistik Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende

Mehr

Opinion Mining Herausforderungen und Anwendung in der Politik

Opinion Mining Herausforderungen und Anwendung in der Politik Opinion Mining Herausforderungen und Anwendung in der Politik 28.09.2011 Umut Yilmaz Inhaltsübersicht 1. Einführung 2. Grundlagen 3. Anwendung in der Politik 4. Anwendungsbeispiel 5. Fazit 2 1. Einführung

Mehr

Moderne IR / Language Models / Page Ranking

Moderne IR / Language Models / Page Ranking Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Sentiment Analysis. Eine Einführung. Robert Remus 1 rremus@informatik.uni-leipzig.de. Fakultät für Mathematik und Informatik Universität Leipzig

Sentiment Analysis. Eine Einführung. Robert Remus 1 rremus@informatik.uni-leipzig.de. Fakultät für Mathematik und Informatik Universität Leipzig Sentiment Analysis Eine Einführung Robert Remus 1 rremus@informatik.uni-leipzig.de 1 Abteilung Automatische Sprachverarbeitung Fakultät für Mathematik und Informatik Universität Leipzig Seminar Anwendungen

Mehr

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation

Mehr

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator

Mehr

Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten

Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten Inhaltsverzeichnis 3 Hans-Christoph Hobohm (Hrsg.) Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten Information Science between Virtual Infrastructure and Material

Mehr

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund

Mehr

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18 Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive

Mehr

Gastvortrag Datamining: Twitter Sentiment Analysis

Gastvortrag Datamining: Twitter Sentiment Analysis Gastvortrag Datamining: Twitter Sentiment Analysis Datenbanksysteme Sommersemester 2015 Nils Haldenwang, M.Sc. Datamining Datamining Extraktion von nützlichen Informationen aus Daten Twitter Twitter www.twitter.com

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Praktikum Maschinelle Übersetzung Language Model

Praktikum Maschinelle Übersetzung Language Model Praktikum Maschinelle Übersetzung Language Model Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden verschiedene Sprachmodelle

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Hidden-Markov-Modelle Viterbi - Algorithmus Ulf Leser Wissensmanagement in der Bioinformatik Inhalt der Vorlesung Hidden Markov Modelle Baum, L. E. and Petrie, T. (1966). "Statistical

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

COMPUTER: Mission Berlin, August 13, 1961, six pm. You've only got 55 minutes left to save Germany.

COMPUTER: Mission Berlin, August 13, 1961, six pm. You've only got 55 minutes left to save Germany. 16 1961?? / Manuscript of the Episode INTRODUCTION, August 13, 1961, six pm. You've only got 55 minutes left to save Germany. FLASHBACK: Die Kantstraße? Mädchen, die ist im Westen, verstehen Sie? Da können

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 9. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Statistische Verfahren der KI (II) Klassifizieren von Dokumenten Informationsbeschaffung

Mehr

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH GERHARD SVOLBA COMPETENCE CENTER ANALYTICS WIEN, 17. NOVEMBER 2015 SAS CONTEXTUAL ANALYSIS 14.1 EIN BLICK IN DIE PRODUKTBESCHREIBUNG

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik technische universität RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik Name Autor Ort und Datum Informatik: Linguistik: Methoden + Verfahren Forschungsfragen, Anforderungen

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7

1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1 3 1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1 3 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1є7 1

Mehr

Language Identification XXL

Language Identification XXL Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

Kapitel ML:IV (Fortsetzung)

Kapitel ML:IV (Fortsetzung) Kapitel ML:IV (Fortsetzung) IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-18 Statistical Learning c STEIN 2005-2011 Satz 3 (Bayes)

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 Wahrscheinlichkeit und Sprache Ausgangsfrage: Nächstes Wort vorhersagen. Sprache als Zufallsprozess: Für jede

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Large-Scale Image Search

Large-Scale Image Search Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Wahrscheinlichkeitstheorie und Naive Bayes

Wahrscheinlichkeitstheorie und Naive Bayes Wahrscheinlichkeitstheorie und Naive Bayes Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 12.05.2011 Caroline Sporleder Naive Bayes (1) Elementare Wahrscheinlichkeitstheorie

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung

Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung Jan Eichhorn jan.eichhorn@tuebingen.mpg.de Max-Planck-Institut für biologische Kybernetik 72076 Tübingen Danksagung Olivier

Mehr

Klassifikation im Bereich Musik

Klassifikation im Bereich Musik Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................

Mehr

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an 9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Die AI::Categorizer-Experienz

Die AI::Categorizer-Experienz Die AI::Categorizer-Experienz Steffen Schwigon webit! Gesellschaft für neue Medien mbh Übersicht Exposition Projektkontext Textkategorisierung Durchführung AI::Categorizer Hierarchische

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

EXPERT SURVEY OF THE NEWS MEDIA

EXPERT SURVEY OF THE NEWS MEDIA EXPERT SURVEY OF THE NEWS MEDIA THE SHORENSTEIN CENTER ON THE PRESS, POLITICS & PUBLIC POLICY JOHN F. KENNEDY SCHOOL OF GOVERNMENT, HARVARD UNIVERSITY, CAMBRIDGE, MA 0238 PIPPA_NORRIS@HARVARD.EDU. FAX:

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin:

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: 26. 7. 2006 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de Topicmodelle Universität Leipzig heyer@informa tik.uni-leipzig.de jaehnichen@informatik.uni-leipzig.de Institut für Informatik Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger

Mehr

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Erich Schubert 6. Juli 2003 LMU München, Institut für Informatik, Erich Schubert Zitat von R. P. Feynman Richard P. Feynman (Nobelpreisträger

Mehr

Learning Analytics mit Webanalyse-Diensten, Moodle-Plugins und Excel

Learning Analytics mit Webanalyse-Diensten, Moodle-Plugins und Excel Learning Analytics mit Webanalyse-Diensten, Moodle-Plugins und Excel DI(FH) Jakob Hofstätter E-Learning Koordinator jakob.hofstaetter@hartlauer.at Tel.: + 43 660 1313 605 Hartlauer Akademie Teufelsgraben

Mehr

6 Mehrstufige zufällige Vorgänge Lösungshinweise

6 Mehrstufige zufällige Vorgänge Lösungshinweise 6 Mehrstufige zufällige Vorgänge Lösungshinweise Aufgabe 6.: Begründen Sie, warum die stochastische Unabhängigkeit zweier Ereignisse bzw. zufälliger Vorgänge nur ein Modell der Realität darstellen kann.

Mehr

DIE NEUORGANISATION IM BEREICH DES SGB II AUSWIRKUNGEN AUF DIE ZUSAMMENARBEIT VON BUND LNDERN UND KOMMUNEN

DIE NEUORGANISATION IM BEREICH DES SGB II AUSWIRKUNGEN AUF DIE ZUSAMMENARBEIT VON BUND LNDERN UND KOMMUNEN DIE NEUORGANISATION IM BEREICH DES SGB II AUSWIRKUNGEN AUF DIE ZUSAMMENARBEIT VON BUND LNDERN UND KOMMUNEN WWOM537-PDFDNIBDSIAADZVBLUK 106 Page File Size 4,077 KB 16 Feb, 2002 COPYRIGHT 2002, ALL RIGHT

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1 Exercise (Part II) Notes: The exercise is based on Microsoft Dynamics CRM Online. For all screenshots: Copyright Microsoft Corporation. The sign ## is you personal number to be used in all exercises. All

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Browser- gestützte Visualisierung komplexer Datensätze: Das ROAD System

Browser- gestützte Visualisierung komplexer Datensätze: Das ROAD System AG Computeranwendungen und QuanLtaLve Methoden in der Archäologie 5. Workshop Tübingen 14. 15. Februar 2014 Browser- gestützte Visualisierung komplexer Datensätze: Das ROAD System Volker Hochschild, Michael

Mehr

Automatische Morphemanalyse

Automatische Morphemanalyse Automatische Morphemanalyse Johannes Stiehler Wozu? noch immer viele europäische Sprachen ohne befriedigende Morphologie ermöglicht es, verschiedene Sprachstadien morphologisch zu vergleichen ohne Wochen

Mehr

Textklassifizierung nach Erbkrankheiten aus OMIM Exposé einer Diplomarbeit

Textklassifizierung nach Erbkrankheiten aus OMIM Exposé einer Diplomarbeit Textklassifizierung nach Erbkrankheiten aus OMIM Exposé einer Diplomarbeit betreut von: Prof. Ulf Leser, Jörg Hakenberg bearbeitet von: Juliane Rutsch September 24 November 24 Problemstellung Medizinische

Mehr

Textklassifikation mit Support Vector Machines

Textklassifikation mit Support Vector Machines Köln, den 25. April 2015 Studiengang Informationsverarbeitung Wintersemester 2014/2015 Sprachliche Informationsverarbeitung Hauptseminar: Linguistic Software Engineering bei Prof. Dr. Jürgen Rolshoven

Mehr

Sitecore und Lionbridge:

Sitecore und Lionbridge: Sitecore und Lionbridge: Mehrsprachige Seiteninhalte durch effiziente Prozesse, Technologien und Ressourcen im Griff Bert Esselink, Lionbridge Jens Schüll, Uponor Agenda Lionbridge & Sitecore The Solution

Mehr

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3. 2 Wahrscheinlichkeitstheorie Beispiel. Wie wahrscheinlich ist es, eine Zwei oder eine Drei gewürfelt zu haben, wenn wir schon wissen, dass wir eine ungerade Zahl gewürfelt haben? Dann ist Ereignis A das

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Fragenkatalog zur Vorlesung Grundlagen des Data Mining (WS 2006/07) Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene

Mehr

Clustering von Dokumenten (k-means, HCL)

Clustering von Dokumenten (k-means, HCL) Clustering von Dokumenten (k-means, HCL) Jonas Wolz Universität Ulm Zusammenfassung Ein Überblick über das Clustering von Dokumenten. Außerdem werden zwei dafür verwendete Algorithmen vorgestellt (k-means

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Sentiment Classification

Sentiment Classification Universität Duisburg-Essen, SS 2008 Seminar Soziales Retrieval im Web 2.0 Dozent: Prof. Dr.-Ing. Norbert Fuhr Betreuer: Ingo Frommholz Sentiment Classification Daniel Jansen 04. Oktober 2008 Institut für

Mehr

Students intentions to use wikis in higher education

Students intentions to use wikis in higher education Students intentions to use wikis in higher education Christian Kummer WI2013, 27.02.2013 Motivation Problem Web 2.0 changed the way that students search for, obtain, and share information Uncertainty about

Mehr

1 Part-of-Speech Tagging

1 Part-of-Speech Tagging 2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech Tagging 1.1 Grundlagen

Mehr

Englisch. Schreiben. 18. September 2015 BAKIP / BASOP. Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung.

Englisch. Schreiben. 18. September 2015 BAKIP / BASOP. Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung. Name: Klasse/Jahrgang: Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung BAKIP / BASOP 18. September 2015 Englisch (B2) Schreiben Hinweise zum Beantworten der Fragen Sehr geehrte

Mehr

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Klausurnummer Name: Vorname: Matr.Nummer: Bachelor: Master: Aufgabe 1 2 3 4 5 6 7 8 max. Punkte 10 5 6 7 5 10 9 8 tats. Punkte

Mehr

Klassenbasierte Sprachmodellierung mit neuronalen Netzen

Klassenbasierte Sprachmodellierung mit neuronalen Netzen Klassenbasierte Sprachmodellierung mit neuronalen Netzen Bachelorarbeit von Thomas Zenkel am Institut für Anthropomatik der Fakultät für Informatik Erstgutachter: Zweitgutachter: Betreuender Mitarbeiter:

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de

Mehr

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten FOM Hochschulzentrum Dortmund, Fachbereich Wirtschaftsinformatik

Mehr

4. Bayes Spiele. S i = Strategiemenge für Spieler i, S = S 1... S n. T i = Typmenge für Spieler i, T = T 1... T n

4. Bayes Spiele. S i = Strategiemenge für Spieler i, S = S 1... S n. T i = Typmenge für Spieler i, T = T 1... T n 4. Bayes Spiele Definition eines Bayes Spiels G B (n, S 1,..., S n, T 1,..., T n, p, u 1,..., u n ) n Spieler 1,..., n S i Strategiemenge für Spieler i, S S 1... S n T i Typmenge für Spieler i, T T 1...

Mehr

If you have any issue logging in, please Contact us Haben Sie Probleme bei der Anmeldung, kontaktieren Sie uns bitte 1

If you have any issue logging in, please Contact us Haben Sie Probleme bei der Anmeldung, kontaktieren Sie uns bitte 1 Existing Members Log-in Anmeldung bestehender Mitglieder Enter Email address: E-Mail-Adresse eingeben: Submit Abschicken Enter password: Kennwort eingeben: Remember me on this computer Meine Daten auf

Mehr

Technische Aspekte von Privatsphäre in der digitalen Lebenswelt

Technische Aspekte von Privatsphäre in der digitalen Lebenswelt Technische Aspekte von Privatsphäre in der digitalen Lebenswelt Herausforderungen und Lösungen Prof. Dr. Stefan Katzenbeisser Security Engineering Group Technische Universität Darmstadt & European Center

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Top Tipp. Ref. 08.05.23 DE. Verwenden externer Dateiinhalte in Disclaimern. (sowie: Verwenden von Images in RTF Disclaimern)

Top Tipp. Ref. 08.05.23 DE. Verwenden externer Dateiinhalte in Disclaimern. (sowie: Verwenden von Images in RTF Disclaimern) in Disclaimern (sowie: Verwenden von Images in RTF Disclaimern) Ref. 08.05.23 DE Exclaimer UK +44 (0) 845 050 2300 DE +49 2421 5919572 sales@exclaimer.de Das Problem Wir möchten in unseren Emails Werbung

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0

Mehr

Aktive und passive Suche

Aktive und passive Suche Aktive und passive Suche Aktive Suche per: Sie begeben sich auf die Suche. Suchmaschine im Internet (z.b. http://www.google.de/) Metasuchmaschine im Internet (z.b. http://www.metager.de/) Suchkatalog im

Mehr

Informationstheorie als quantitative Methode in der Dialektometrie

Informationstheorie als quantitative Methode in der Dialektometrie Informationstheorie als quantitative Methode in der Dialektometrie 1 Informationstheorie als quantitative Methode in der Dialektometrie Informationstheorie als quantitative Methode in der Dialektometrie

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Corporate Digital Learning, How to Get It Right. Learning Café

Corporate Digital Learning, How to Get It Right. Learning Café 0 Corporate Digital Learning, How to Get It Right Learning Café Online Educa Berlin, 3 December 2015 Key Questions 1 1. 1. What is the unique proposition of digital learning? 2. 2. What is the right digital

Mehr

Erkennung fremdsprachiger Ausdrücke im Text

Erkennung fremdsprachiger Ausdrücke im Text Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina

Mehr