STOCHASTISCHE GRAMMATIKMODELLE Vorlesung im Sommersemester 2015 Prof. E.G. Schukat-Talamazzini Stand: 20. Juli 2015 Lehrbereich Informatik Intelligente Systeme Vertiefung Künstliche Intelligenz und Mustererkennung Professur für Musteranalyse Lehrangebot Wintersemester & Sommersemester Inhaltliche Abhängigkeiten STOCHASTISCHE GRAMMATIK- MODELLE 2V M.Sc. WERKZEUGE ( R ) der Mustererkennung und des Maschinellen Lernens 2V/U B.Sc. MUSTERERKENNUNG 4V B.Sc. MASCHINELLES LERNEN UND DATA MINING 4V M.Sc. SPEZIELLE MUSTERANALYSE- SYSTEME 2V M.Sc. Meine Lehrveranstaltungen für... Informatiker & Bioinformatiker & Informatikerinnen & Bioinformatikerinnen SOMMERSEMESTER ASQ und Intelligente Systeme 4V EF Inf. Bachelor Mustererkennung 4V Master Werkzeuge ME/ML Gramma- 2V Stochastische tikmodelle Biometriesysteme (Seminar) 2Ü Statistische Musteranalyse 2S WINTERSEMESTER Literaturarbeit und Präsentation ASQ Strukturiertes Programmieren Maschinelles Lernen und Datamining 2S 4V+2Ü 4V Spezielle Musteranalysesysteme 2V
Wie studiere ich MUSTERANALYSE? Studiengänge: Informatik Bioinformatik Angewandte Informatik Maschinelles Lernen & Data Mining Vorlesung der Master-Studiengänge 4V 6 LP Bachelor Mustererkennung 6LP We kzeuge ME/ML 3LP Vertiefungsangebote auf Antrag beim Prüfungsamt: Maschinelles Lernen 6LP Master Maschinelles Lernen 6LP Stochast. Grammatik 3LP Musteranalysesysteme 3LP Nivellierungsmodule auf Antrag beim Prüfungsamt: Mustererkennung 6LP We kzeuge ME/ML 3LP Schwerpunkt KI/ME M.Sc. Comp.Science B.Sc. Informatik Zusatzangebot LG Informatik FS 6 9 Stochastische Grammatikmodelle Vorlesung der Master-Studiengänge 2V 3 LP Spezielle Musteranalysesysteme Vorlesung der Master-Studiengänge 2V 3 LP Schwerpunkt KI/ME M.Sc. Comp.Science Informatik
Mustererkennung Vorlesung der Bachelor/Master-Studiengänge 4V 6 LP Werkzeuge Mustererkennung & Maschinelles Lernen Vorlesung der Bachelor/Master-Studiengänge 2V/P 3 LP B.Sc. Informatik B.Sc. Bioinform. B.Sc. Ang.Inform. Pflicht im Anw.fach CNS LG Informatik FS 6 9 B.Sc. Informatik B.Sc. Ang.Inform. B.Sc. Bioinform. Zusatzmodul KI/ME & INT auf Antrag Vorlesung Nutzung der Folienpräsentation Die Folien sollen vom Mitschreiben während der Vorlesung entlasten. Das Mitschreiben wird dadurch nicht überflüssig. Die Folien sind kein Lehrbuch. Die Folien sind daher im allgemeinen nur mit den Erläuterungen während der Vorlesung und entsprechenden eigenen Notizen verständlich.
Vorlesung Mathematische Sachverhalte Vorlesung Elektronisches Folienskript Wichtige mathematische Grundlagen werden in Steilkursen wiederholt. Die entsprechenden Fakten sind (oft) im letzten Abschnitt eines Vorlesungsteils dargestellt. Schwierige mathematische Zusammenhänge werden in der Anwendung verständlicher. Umfangreiche mathematische Formeln erscheinen viel harmloser, nachdem man/frau sie einmal programmtechnisch umgesetzt hat. Die PDF-Fassung des Folienskripts enthält einige Hyperlinks: Verweise auf externe Webseiten Detaillierte Zusatzinformationen, Daten, Bilder (funktioniert nicht während der Vorlesung...) Literaturangaben Verweis auf Quellenangaben am Ende des Dokuments Programmcode R -Code zur Erstellung einer Grafik oder Tabelle dot -Code zur Erzeugung eines (gerichteten) Graphen Prüfung Was wird wann wie von wem geprüft? Prüfungsvorgang Mündliches Verhör circa 30 Minuten Prüfungsort Raum 3204 Ernst-Abbe-Platz 3 Praktische Informatik Prüfungstermine mehr Information Erstprüfung am Do 23 Juli und 6 August 2015 Wiederholung am Do 15 Oktober 2015 Prüfungsstoff Vorlesungsinhalte in Schrift und Wort
Zum Vorlesungsinhalt Form, Zweck & Lernziele Lehrveranstaltungsform Vorlesung (2V) kein Übungsanteil Zulassungsvoraussetzungen keine Themengebiet Lernende Modelle natürlicher und künstlicher Sprachen Zweck Lernziele Grundlagentechnik für NLP, IR, MÜ, DNA... Theorie und Praxis textorientierter Informationssysteme Zum Vorlesungsinhalt Strikte und stochastische Grammatikformalismen und ihre praktische Anwendung Klassisch Stochastisch Anwendung Sprachmodelle Zweck Lex/Syn/Sem Grammatiken regulär kontextfrei schwach kontextsensitiv Inferenz Goldsätze Quotient/Ableitung Treebank Grundlagen Prozess Information Diskr. Vertlg. ML/MAP GT Zipf Ristad MaxEnt N-Gramme Rückfall Interpolation Reichweite Stochast. PSG HMM SCFG MEMM/CRF Lexikonakquise Kollokation Lesart Sprache Autor POS Information Retrieval Boole/VR LSI BIR Pagerank Maschinelle Übersetzung Paradigmen Ausrichtung FST Suche
Standardwerke Natural Language Processing Formale Sprachen & Computerlinguistik Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999. Daniel Jurafsky and James H. Martin. Speech and Language Processing. Prentice Hall, 2000. Daniel Jurafsky and James H. Martin. Speech and Language Processing. Prentice Hall, 2008. 2nd edition. Barbara H. Partee, Alice ter Meulen, and Robert E. Wall. Mathematical Methods in Linguistics, volume 30 of Studies in Linguistics and Philosophy. Kluwer Academic Publishers, Dordrecht, 1993. Roland Hausser. Computation of Language. Symbolic Computation. Springer-Verlag, Berlin, 1989. Roland Hausser. Grundlagen der Computerlinguistik. Springer-Verlag, Berlin, 2000. Informationstheorie & Textkompression T.C. Bell, J.G. Cleary, and I.H. Witten. Text Compression. Prentice Hall, Englewood Cliffs, NJ, 1990. Rudolf Mathar. Informationstheorie. Teubner, Wiesbaden, 1996. Information Retrieval Reginald Ferber. Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. dpunkt.verlag, 2003. Gerald Kowalski. Information Retrieval Architecture and Algorithms. Springer, 2011. S. Ceri, A. Bozzon, M. Brambilla, E. Della Valle, P. Fraternali, and S. Quarteroni. Web Information Retrieval. Data-Centric Systems and Applications. Springer, 2013. Richard Kronland-Martinet, Solvi Ystad, and Kristoffer Jensen, editors. Computer Music Modeling and Retrieval. Sense of Sounds, volume 4969 of Lecture Notes in Computer Science. Springer, 2008. 4th International Symposium, CMMR 2007, Copenhagen, Denmark, August 2007.
Stochastische Grammatiken Text Mining Eugene Charniak. Statistical Language Learning. MIT Press, Cambridge, Massachusetts, 1993. Frederick Jelinek. Statistical Methods for Speech Recognition. MIT Press, Cambridge, MA, 1997. Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, and Raj Reddy, editors. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall, 2001. Thorsten Joachims. Learning to Classify Text Using Support Vector Machines. Kluwer Academic Publ., Boston, MA, 2002. Sholom M. Weiss, Nitin Indurkhya, and Tong Zhang. Fundamentals of Predictive Text Mining, volume 41 of Texts in Computer Science. Springer, 2010. Maschinelles Übersetzen Softwaresysteme Ingo Feinerer, Kurt Hornik, and David Meyer. Text Mining Infrastructure in R. Journal of Statistical Software, 25(5), March 2008. W.J. Hutchins and H.L. Somers. An Introduction to Machine Translation. Academic Press, London, 1992. W.N. Venables and B.D. Ripley. Modern Applied Statistics with S. Springer, 2002. Brian Everitt and Torsten Hothorn. An Introduction to Applied Multivariate Analysis with R. Use R. Springer, 2011. Graham Williams. Data Mining with Rattle and R. Use R. Springer, 2011.