Text- und Datamining

Größe: px

Ab Seite anzeigen:

Download "Text- und Datamining"

Elizabeth Hase
vor 8 Jahren
Abrufe

1 Text- und Datamining Verwaltungtechnisches und Themenübersicht Jan Schrader, Morgan Harvey, Martin Hacker

2 Organisatorisches Folien eine Woche vor Präsentation abgeben (per ) Anwesenheitspflicht Quellenverzeichnis (auch bei Bildern!) Softwaredemonstration erwünscht Nach Möglichkeit eigenständige Literaturrecherche

3 Themenübersicht Moderne IR Language Models Topic Models P(d q) Ranking Jellinek-Mercer (Dirichlet) Smoothing Lemur Toolkit (Indri)

4 Tehmenübersicht Klassische IR Vektorraummodell Boolsches Retrieval TF-IDF Skalarprodukt/Cosinusmaß/Dice/Jaccard/... Okapi (BM25) Terrier & Bose-Einstein Statistik

5 Themenübersicht - Vorverarbeitung Bag of Words / Tokenisierung N-Gramme Stopwortentfernung Stemming (Porter/Krovez) Zipfs / Heaps Law

6 Themenübersicht Auswertung von Rangfolgen Precision/Recall F-Maß (N)DCG Cranfield Modell Pooling TREC Test Sammlungen

7 Themenübersicht Anfrage Erweiterung Vocabulary Mismatch Problem Thesauri basiert (Dornseiff/WordNet) Automatische Erstellung von Thesauri Kookurenzen basiert Head Modifier basiert (Pseudo) Relevanz Feedback (Rocchio)

Automatische Erstellung von Thesauri Kookurenzen

8 Themenübersicht - Clustern Top Down / Bottom Up EM (Expectation Maximization) K-Nächste Nachtbarn K-Means DBScan, FarthestFirst, Voronoi,... Yippy, WEKA

9 Themenübersicht - Klassifikation Naive Bayes Klassifikator Logistische Regression Neuronale Netze Schutz vor Spam WEKA

10 Themenübersicht - Pagerank Hubs / Authorities HITS / Google Pagerank Suchmaschinenoptimierung Schutz vor Text / Link Spamming

11 Themenübersicht Soziale Netzwerke Tagging und Tagclouds Graph mining First Story Detection Online Communities Facebook, Twitter & Co

12 Themenübersicht - Empfehlungssysteme Content/Rating basierte Empfelungen Modell/Memory/Knowledge basierte Empfehlungssysteme Hybride Empfehlungssysteme Context aware Empfehlungssysteme Collaborative Filtering Amazon, MovieLens, Jester (Eigentaste), LastFM,...

Hybride Empfehlungssysteme Context aware Empfehlungssysteme

13 Themenübersicht - Dimensionsreduktion Fluch der Dimensionalität Anwendung von Zips Gesetz LSI/LSA (Latent Semantic Indexing/Analysis) plsi (Probabilistic LSI) LDA (Latent Dirichlet Allocation) gibbslda

(Latent Semantic Indexing/Analysis) plsi

14 Themenübersicht Teilstrukturierte Daten Meta Daten & Data Mining RDF XML OIL / OWL Ontologien / Erlangen CRM / Protege

15 Themenübersicht Question Answering Systeme Word Sense Disambiguation Question Answering Semantisches Verstehen WolframAlpha Apple Siri

16 Themenübersicht - PIM Persönliches Infomations Management Re-finding Tasks Desktop Suche Nutzerstudien (Diary/Pilot studies) Grounded Theory Apple Spotlight Gnome Zeitgeist

17 Themenübersicht Information Extraction Satzgrenzenerkennung Eigennamen Erkennung Template Filling Coreferenz Resolution LingPipe, GATE

18 Themenübersicht - automatische Textzusammenfassungen Keyphrase Extraction Generische Zusammenfassungen Anfrage Relevante Zusammenfassungen Mehr-Dokument-Zusammenfassungen ROUGE

19 Themenübersicht Spelling Correction Tolerance Searching (Wildcards) T9 Soundex / Kölner Phonetik Edit (Levenstein) Distanz Modern spelling correction (tablets)

20 Themenübersicht Semantisches Verstehen Semantisches Verstehen Grammatikalische Analyse Part-of-Speech Tagging Sentiment Analysis / Opinion Mining

21 Themenübersicht Cross Language IR Sprachenerkennung Automatische Übersetzungen Google Translate Probleme mit automatischen Übersetzungen Parallele Korpora Weitere Themen auf Anfrage

22 Themenübersicht - Überblick 1. Probability theory and application to data mining, Language Models 2. "Classic" IR models; vector-space, distance measures, boolean ranking 3. Processing data for text mining; tokenisation, bag of words, n-grams, stopword-removal, stemming, Zipf's law 4. Evaluation; precision, recall, f-measure, Cranfield model, TREC, test collections 5. Query expansion; relevance feedback, thesauri based co-occurence based 6. Clustering; discriminative vs generative, k-means, expectation maximization 7. Classification; Naive Bayes classifier, logistic regression, neuronal networks 8. Google PageRank; hubs, authorities and link spamming protection 9. Socially-generated data; tagging, social networks, graph mining, first story detection 10. Recommender systems; content-based recommenders, collaborative filtering, hybrid systems 11. Dimensionality reduction; topic models, Latent Dirichlet Allocation, Singular Value Decomposition 12. Semi-structured data and ontologies; structured data, directories, bottom-up, top-down, XML 13. Question Answering systems, semantics, word sense disambiguation 14. Personal Information Management; desktop search, user studies, re-finding 15. Information Extraction; Named Entity recognition, sentence splitting, template filling, Coreference Resolution 16. Text summarisation; generic summaries, query relevant summaries, multi-document summarisation 17. Spelling correction for tolerance searching; wildcard, soundex, t9, edit distance 18. Semantic understanding; grammatical analysis, Parts-of-Speech tagging, sentiment analysis 19. Cross-language Information Retrieval; automatic translation, parallel corpora

Ähnliche Dokumente

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die