Einführung in die maschinelle Sprachverarbeitung
|
|
- Rüdiger Böhme
- vor 5 Jahren
- Abrufe
Transkript
1 Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April Statistische Methoden in der Sprachverarbeitung 1 Statistik in der Computerlinguistik Allgemeines Statistik in der Syntax Statistik in der Semantik Statistik in der Morphologie Textlinguistik und Textklassifikation Lexikographie Anwendungsbereiche der Statistik in der Computerlinguistik Statistische Methoden in der Sprachverarbeitung 2
2 Teildisziplinen der Statistik Deskriptive und explorative Statistik (Datenbeschreibung) Beschreibung von Daten Darstellung von Daten Entdeckung von Strukturen und Besonderheiten in den Daten Analytische Statistik - Induktive Statistik Schlussfolgerungen aus Daten Einbeziehung der Wahrscheinlichkeitstheorie (Stochastik) Statistische Methoden in der Sprachverarbeitung 3 Statistik in der Syntax I Syntax ist die Beschreibung der Struktur natürlichsprachlicher Syntagmen (Sätze und ihrer Konstituenten). Wie sind Sätze beschaffen? Syntax, Struktur von Sprache. Um Sprache zu verstehen, müssen wir wissen, welche Sätze möglich / wahrscheinlich sind. Teilbereiche der Syntax bezogen auf die Computerlinguistik sind u.a. Tagging, Parsing, Generierung syntaktisch korrekter Sätze, Erfassung und Erkennung von Mehrwortlexemen Statistische Methoden in der Sprachverarbeitung 4
3 Statistik in der Syntax II 1. Fragestellungen in der deskriptiven Statistik Welche syntaktische Kategorien sind wie häufig in einem Text / einem Korpus zu finden? Welche Kategorienfolgen sind wie oft in einem Text vorhanden? Es könnten sich beispielsweise bei der Analyse eines Korpus mit Wörtern folgende Häufigkeiten für Folgen von zwei Kategorien ergeben: DET N: 300 ADJ N : 32 V N : 3 Ebenso können statistisch erfasst werden: Satztypen Konstruktionstypen Statistische Methoden in der Sprachverarbeitung 5 Statistik in der Syntax III 2. Fragestellungen in der induktiven Statistik Welche syntaktische Kategorie ist wahrscheinlich - sollte gewählt werden? Wortartentagging Z.B. kann irre eine Verbform sein (von irren) oder eine Adjektivform (von irr) sein. Die Folge DET V A ist in beliebigen Trainingskorpora inexistent bis selten, DET A N dagegen häufig. der irre Professor DET V/A N Welche syntaktische Analyse ist die richtige? Statistisches Parsing, Ambiguitätsresolution Z.B. Sie beobachtet den Mann mit dem Fernrohr Statistische Methoden in der Sprachverarbeitung 6
4 Statistik in der Semantik I Die Semantik befasst sich mit der Beschreibung der Bedeutung lexikalischer Einheiten (Wortsemantik/lexikalische Semantik) den Regularitäten zur Ermittlung der Bedeutung komplexer Einheiten (Satzsemantik). Wie ist der Zusammenhang zwischen einem Satz und der Welt; welche Aussage macht ein Satz über die Welt? Semantik, Bedeutung, Pragmatik. Um die Bedeutung einer Aussage zu verstehen, müssen wir wissen, in welchem Verhältnis Terme zu Objekten in der Welt stehen Statistische Methoden in der Sprachverarbeitung 7 Statistik in der Semantik II 1. Fragestellungen in der deskriptiven Statistik Welche Bedeutung eines Worts / einer Wortform ist häufiger/weniger häufig? Maus (Tier/Computerteil) Kontextspezifische Bedeutungshäufigkeit - in welchem lexikalischen oder syntagmatischen Kontext taucht welche Bedeutung häufiger auf? Er scrollt mit der Maus (Lesart Computerteil) Im Keller piepst eine Maus (Lesart Tier) Textspezifische Bedeutungshäufigkeit. Welche Bedeutungsklassen tauchen in bestimmten Textsammlungen häufig auf? Kompositaanalyse (Rosenblatt vs. Manusskriptblatt) Statistische Methoden in der Sprachverarbeitung 8
5 Statistik in der Semantik III 2. Fragestellungen in der induktiven Statistik Die Schlussfolgerungen aus semantischen Datenbeschreibung werden z.b. verwendet zur Bedeutungsdisambiguierung (etwa im Fall Maus). Disambiguierung von Wortbedeutungen ist für zahlreiche Anwendungen unverzichtbar, so etwa im Bereich der maschinellen Übersetzung. Statistische semantische Regularitäten können auch verwendet werden in der thematischen Zuordnung von Texten (Textkategorisierung) Kompositaanalyse Statistische Methoden in der Sprachverarbeitung 9 Statistik in der Morphologie I Die Morphologie beschäftigt sich mit dem Aufbau von Wortformen aus kleineren, noch bedeutungrelevanten Einheiten (Morphemen). 1. Fragestellungen in der deskriptiven Statistik Vollformen-Grundformen-Reduktion. Haus Hau Haus Haus (wahrscheinlichere Variante) Häufigkeit von Affixen und ihre morphologische Zuordnung gext = (99%) = X + Part.Perf. Kompositasegmentierung hat natürlich auch mit Morphologie zu tun Statistische Methoden in der Sprachverarbeitung 10
6 Statistik in der Morphologie II 2. Fragestellungen in der induktiven Statistik Statistiken über die Häufigkeit von Grundformen für eine Vollform können zur richtigen Grundformenreduzierung herangezogen werden Analyse unbekannter Formen gecancelt = cancel + Part.Perf. gext = (99%) = X + Part.Perf. Statistiken über Kompositaregularitäten können zur korrekten Analyse von Komposita herangezogen werden Ballkleid, Ballsaal Bücherwurm, Bücherregal, Büchersendung Kindeskinder, Kindesmissbrauch Statistische Methoden in der Sprachverarbeitung 11 Statistik in der Textlinguistik I Die Textlinguistik beschäftigt sich mit dem satzübergreifenden Regularitäten in Texten, Texteigenschaften (Wortartenverteilung) und Textklassifikation (Genre, Themengebiete). 1. Fragestellungen in der deskriptiven Statistik Vollformen-Grundformen-Reduktion. Haus Hau Haus Haus (wahrscheinlichere Variante) Häufigkeit von Affixen und ihre morphologische Zuordnung gext = (99%) = X + Part.Perf. Kompositasegmentierung hat natürlich auch mit Morphologie zu tun Statistische Methoden in der Sprachverarbeitung 12
7 Statistik in der Textlinguistik II 2. Fragestellungen in der induktiven Statistik Anaphernresolution (Bezug von Pronomina) (engl.) Anaphora Resolution Definition: Auflösung des Bezugs einer Anapher, d.h. Finden des Antezedens. Dazu kann man Informationen im linguistischen ebenso wie im nicht-linguistischen Kontext verwenden. David sah sich ein Theaterstück an. Er [David] fand es [das Spiel] sehr gut. (Pronomen als Anaphern). Er nahm die Süßigkeiten, die [die Süßigkeiten] auf dem Tisch lagen. (Anapher in einem Relativsatz) Erkennung von Textsorten, Themengebieten etc Statistische Methoden in der Sprachverarbeitung 13 Statistik in der Lexikographie I Die Lexikographie beschäftigt sich mit der Praxis der Wörterbucherstellung, d.h. mit der Erfassung von Wörtern und Mehrwortlexemen und ihren Eigenschaften. 1. Fragestellungen in der deskriptiven Statistik Für die Lexikographie lassen sich morphologische, syntaktische, semantische und textlinguistische Daten verwenden. Einige Beispiele für statistisch ermittelbare lexikalische Eigenschaften sind: Stilebenen andere textsortenspezifische Eigenschaften Häufigkeiten/Gebräuchlichkeit/historische Entwicklung Statistische Methoden in der Sprachverarbeitung 14
8 Statistik in der Lexikographie II 2. Fragestellungen in der induktiven Statistik Statistische Methoden werden in der Lexikographie v.a. verwendet um lexembezogene Daten aus Textkorpora zu ermitteln. Zum Teil werden die statistisch akquirierten Daten nur als Vorauswahl für eine weitere manuelle Klassifikation verwendet. automatische oder semiautomatische Ermittlung von textsorten-/fachgebietsspezifischen Eigenschaften von Lexemen Zur Erkennung und Extraktion von Mehrwortlexemen gehört die Analyse von Kookurrenzen - d.h. des statistisch signifikanten gemeinsamen Auftretens von Wörtern und Wortformen, und darauf aufbauende Schlussfolgerungen über die Zusammengehörigkeit von Wörtern und Wortformen Statistische Methoden in der Sprachverarbeitung 15 Rechtschreibkorrektur und Grammatikkorrektur Rechtschreib- und Grammatikkorrektur sind Anwendungen, die Textverarbeitungsprogrammen bekannt sind. Rechtschreibkorrektur wird auch in anderen Anwendungen (z.b. Internet-Suchmaschinen) eingesetzt. Verbesserung der Rechtschreib- und Grammatikkorrektur: in der schule wird gelacht... er sagte, er Schule zur Zeit Arbeitslose Computerlinguisten Statistische Methoden in der Sprachverarbeitung 16
9 Textgenerierung und Wortvorschlagssysteme Textgenerierung ist die Erzeugung von Texten aus Inhaltsdaten; z.b. aus einer semantischen Formel, einer formellen Beschreibung, einem Datensatz einer Datenbank. Überprüfung der Plausibilität einer von einer Grammatik generierten Wortfolge; Kommunikationshilfen mit Wortvorschlagssystemen - hier können einfache Wortfolgestatistiken brauchbare Fortsetzungen vorschlagen Statistische Methoden in der Sprachverarbeitung 17 Spracherkennung Spracherkennung ist die Umwandlung gesprochener Sprache in einen elektronischen Text. Die automatische Transkription gesprochener in geschriebene Sprache beruht schon seit langem in erster Linie auf statischen Methoden: Hidden-Markov-Modelle zur Laut-Phonem- Zuordnung Sprachmodelle zur Festlegung wahrscheinlicherer Wortfolgen Statistische Methoden in der Sprachverarbeitung 18
10 Textklassifikation Textklassifikation ist die Einordnung von Texten in vordefinierte Kategorien irgendwelcher Art. Sprachenidentifikation (s. die meisten Suchmaschinen) Ermittlung der Wahrscheinlichkeit mit der ein Text einer Sprache zugeordnet werden kann. Genreklassifikation (Texttyp) Filter. z.b. Pornofilter, wie in den meisten Suchmaschinen verfügbar Ermittlung des relevanten Vokabulars Zuordnungswahrscheinlichkeit zur einer Sammlung von Referenzdokumenten Inhaltliche Klassifikation wie z.b. Scirus ( - automatische Erkennung eines wissenschaftlichen Fachgebiets Statistische Methoden in der Sprachverarbeitung 19 Textretrieval Textretrieval (Information Retrieval) befasst sich mit dem Auffinden spezifischer Textdokumente in einer Dokumentensammlung. Die bekanntesten Textretrievalsysteme sind sicher die Internetsuchmaschinen. Ranking - Ermittlung der Relevanz eines Dokuments bez. der Suchanfrage, abhängig von der Häufigkeit und Position des / der Suchterme/s, von der Länge des Dokuments... Vorklassifizierung von Texten nach verschiedenen Kriterien (Sprache, Domäne, Typ) (siehe Textklassifikation) Vorverarbeitung der Anfrage (Query) Statistische Methoden in der Sprachverarbeitung 20
11 Maschinelle Übersetzung und Alignierung mehrsprachiger Korpora Statistische Algorithmen beruhen auf Zuordnungen in bilingualen Korpora Eigenschaften der Einzelsprachen Lexikalische Zuordnung: Welches Wort ist wahrscheinlich eine Übersetzung eines anderen Wortes? Disambiguierung: Welche Bedeutung eines polysemen Wortes liegt vor? Bruchstück und Satz-Zuordnung: Welche Phrase / welcher Satz ist wahrscheinlich eine Übersetzung eines anderen? Generierung: Welche Übersetzung ist ein wahrscheinlicherer Satz in der Zielsprache? Statistische Methoden in der Sprachverarbeitung 21 Literaturangaben Stefan Langer und Clemens Marschner: Statistische Methoden der Sprachverarbeitung. Vorlesungsskriptum. Centrum für Informations- und Sprachverarbeitung (CIS). LMU München [PDF] Seite 1-7. Johannes Goller: Statistische Methoden der Sprachverarbeitung. Vorlesungsskriptum. Centrum für Informations- und Sprachverarbeitung (CIS). LMU München [PDF] Seite 1-7. C. D. Manning, H. Schütze: Foundations of statistical natural language processing. The MIT Press, Cambridge, MA (Kopiervorlage in Raum B 101) (Buchsignatur MAN VIII 1) Seite Statistische Methoden in der Sprachverarbeitung 22
Einführung in die maschinelle Sprachverarbeitung
Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden
Mehr1. Statistik und Computerlinguistik
03. JULI 2006: BLATT 1 1. Statistik und Computerlinguistik 1.1. Allgemeines Nachfolgend zur Einführung eine kurze Übersicht über die Rolle der Statistik in der Computerlinguistik - bezogen auf die einzelnen
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
MehrSkript und Begleitmaterial. Statistische Methoden in der Sprachverarbeitung
Skript und Begleitmaterial Statistische Methoden in der Sprachverarbeitung Sommer 2004 Stefan Langer CIS, Universität München stefan.langer@cis.uni-muenchen.de Vorbemerkung Dieses Skript entstand vom Sommersemester
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte
Mehrxii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
MehrInhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?
MehrComputerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was
MehrSupervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung
Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag
MehrNLP - Analyse des Wissensrohstoffs Text
NLP - Analyse des Wissensrohstoffs Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Organisatorisches Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin
MehrNLP - Analyse des Wissensrohstoffs Text
NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:
MehrEinführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrVertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind
Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:
MehrSommer 2002 Stefan Langer CIS, Universität München.
Sommer 00 Stefan Langer CIS, Universität München stef@cis.uni-muenchen.de Sommersemester 00 Dozent: Stefan Langer 8. MAI 00: BLATT 1 1. Statistik und Computerlinguistik. Einige Grundbegriffe der deskriptiven
MehrMaschinelle Übersetzung
Maschinelle Übersetzung Kluge Andreas, 13IN-M basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 19. Juni 2014 Übersicht Gewünschte Funktionalität Schwierigkeiten
MehrINFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka
INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrSemiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
MehrGrundlagen und Definitionen
Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrVorbesprechung Mathe III
Vorbesprechung Mathe III Dr. Vera Demberg, Prof. Dr. Enrico Lieblang (HTW) Universität des Saarlandes April 19th, 2012 Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 1 / 20 Formalien Pflichtveranstaltung
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Hinrich Schütze Center for Information and Language Processing 2018-10-15 Schütze: Einführung in die Computerlinguistik 1 / 75 Die Grundfassung dieses Foliensatzes
MehrLinguistische Informatik
Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz
MehrEinführung (Skript 2013)
Einführung (Skript 2013) Informationswissenschaft Universität Regensburg Jürgen Reischer Informationslinguistik in Regensburg Übersicht aus informationswissenschaftlicher Sicht: B.A. Einführung in die
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrEinführung in die Computerlinguistik. Morphologie II
Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1
MehrSkript und Begleitmaterial. Statistische Methoden in der Sprachverarbeitung
Skript und Begleitmaterial Statistische Methoden in der Sprachverarbeitung Sommer 006 Clemens Marschner Stefan Langer Fast Search&Transfer Email: auf Anfrage Vorbemerkung Dieses Skript entstand vom Sommersemester
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrInterdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell
MehrAVS-M Name des Moduls: Sprachtypologie und Universalienforschung
AVS-M 10 1. Name des Moduls: Sprachtypologie und Universalienforschung 2. Fachgebiet / Verantwortlich: Allgemeine und Vergleichende Sprachwissenschaft/ Prof. Dr. Johannes Helmbrecht 3. Inhalte des Moduls:
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrProjektseminar "Texttechnologische Informationsmodellierung"
Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck
Mehr! Die Idee Kombination von Informatik und einem anderen Fach
Computerlinguistik Integriertes Anwendungsfach im B.Sc.Studiengang Department Informatik / Universität Hamburg! Wie funktioniert das integrierte Anwendungsfach Computerlinguistik (organisatorisch)?! Beziehungen
MehrDer VITERBI-Algorithmus
Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Prof Dr. Matthew Crocker Universität des Saarlandes 18. Juni 2015 Matthew Crocker (UdS) HMM Anwendungen 18. Juni 2015 1 / 26 Hidden Markov Modelle in der Computerlinguistik
MehrMETHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN *
LDV-Forum Bd. 5, Nr. 2/3, Jg. 1987/88, S. 17-25 17 METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * FACH BEITRÄGE Ulrich Heid Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung,
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrElementare Wahrscheinlichkeitslehre
Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?
MehrKontextfreie Grammatiken
Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Morphologie Wiederholung Aufgabe 1 Was ist Morphologie, Morphem? 3 Aufgabe 1 Was ist Morphologie, Morphem? Teildisziplin der
MehrVorlesung: Einführung in die Computerlinguistik. VL: Einführung in die Computerlinguistik
Wintersemester 98/99 Vorlesung: Einführung in die Computerlinguistik Teil 1: Forschungsgegenstand und Nachbarwissenschaften Hans Uszkoreit Übersicht des ersten Teils Aufgaben und Einordnung des Faches
Mehr8 Fakultät für Philologie
8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene
MehrAutomatisches Verstehen gesprochener Sprache
Automatisches Verstehen gesprochener Sprache 5. Sprachverstehen und Morphologie Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrEinführung in die Computerlinguistik. Syntax II
Einführung in die Computerlinguistik yntax II Hinrich chütze & Robert Zangenfeind Centrum für Informations- und prachverarbeitung, LMU München 18.12.2015 chütze & Zangenfeind: yntax II 1 / 17 Take-away
MehrKookkurrenzanalyse Einführung
Einführung Kookkurenzanalyse die grundlegende Idee 1) Beobachtung: In einem Korpus tritt Wort X 1000mal auf, Wort Y 100mal, Wort Z 10mal. 2) Wahrscheinlichkeit: Die Kombination XY ist 10mal so wahrscheinlich
MehrSammlung Metzler Band 307
Sammlung Metzler Band 307 Achim Stein Einführung in die französische Sprachwissenschaft Verlag J.B. Metzler Stuttgart. Weimar Angaben zum Autor Achim Stein, geh. 1962; Promotion 1993. Seit 1989 wissenschaftlicher
MehrSemiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
MehrStudienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Semantik. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Semantik Wiederholung Was ist die Semantik und womit beschäftigt sie sich? 3 Was ist die Semantik und womit beschäftigt sie sich?
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition
MehrComputerlinguistik: Ein Überblick
11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik
MehrInterdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrMidas Metadata yield by Data Analysis
Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten
MehrEinführung in die Syntax und Morphologie. Vorlesung mit Übung WS 2010/2011, Computerlinguistik
Einführung in die Syntax und Morphologie Vorlesung mit Übung WS 2010/2011, Computerlinguistik 02 Bedeutung von Sprache 1. Die menschliche Kommunikationsfähigkeit schlechthin (Satz A). 2. Eine bestimmte
MehrWissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung
Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung i) Worum geht es? ii) Aufgaben und Anwendungen iii) Mehrdeutigkeit - Das Kernproblem iv) linguistische Grundlagen I. Der synthetische
MehrSprachproduktion. Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010
Sprachproduktion Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010 Sprachliche Zentren im Gehirn SSSSensorische Funktionen Motorische Funktionen Sprachliche Zentren im Gehirn Generieren
Mehr1 Word Sense Disambiguation - Grundlagen
7. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 2. Juli 2008 1 Word Sense Disambiguation
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table
MehrDie Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012
Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012 Christian Kölbl Universität Augsburg, Lehrprofessur für Informatik 25. Oktober 2011 HAL 9000 - Zukunftsmusik
MehrDELA Wörterbücher ===========================================================
DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela
MehrLexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?
Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen
MehrInhaltsverzeichnis. I. Einleitendes 15. II. Wortbildung und Grammatik 17
Inhaltsverzeichnis I. Einleitendes 15 II. Wortbildung und Grammatik 17 1. Darstellung der allgemeinen Problematik 17 2. Diskussion möglicher Ursachen 18 3. Positionierung der Wortbildung innerhalb der
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
Mehrauf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10)
11 Planen Zentrale Fragestellung: Wie kann ein Agent die Struktur eines Problems nutzen, um komplexe Aktionspläne zu konstruieren? Bisher zwei Beispiele für planende Agenten: auf einer Suche basierender
MehrHidden Markov Models
Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung
MehrMorphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
MehrKorpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.
Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora
MehrSyntax natürlicher Sprachen
Syntax natürlicher Sprachen 03: Phrasen und Konstituenten Martin Schmitt Ludwig-Maximilians-Universität München 08.11.2017 Martin Schmitt (LMU) Syntax natürlicher Sprachen 08.11.2017 1 Themen der heutigen
MehrMaschinelle Sprachverarbeitung: N-Gramm-Modelle
HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind
MehrLinguistische Informatik Einführung
Linguistische Informatik Einführung Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Informatik und Linguistik Informatik als Werkzeug und Theoriegrundlage Linguistik
MehrKurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl
Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die
MehrEinführung in die Linguistik
Karl-Dieter Bünting Einführung in die Linguistik io. Auflage Athenäum Verlag 1983 Inhaltsverzeichnis V o r w o r t z u r e r s t e n u n d z u r s i e b t e n A u f l a g e... 1 1 Grundbegriffe 13 Allgemeine
MehrKL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie
KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil
MehrLexikoneinträge. Aufbau und Erstellung eines Lexikoneintrages
Lexikoneinträge Aufbau und Erstellung eines Lexikoneintrages Inhalt eines Lexikoneintrages Informationen zu Aussprache (für uns weniger relevant) Herkunft (für uns weniger relevant) Semantik Morphologie
MehrInformation und Produktion. Rolland Brunec Seminar Wissen
Information und Produktion Rolland Brunec Seminar Wissen Einführung Informationssystem Einfluss des Internets auf Organisation Wissens-Ko-Produktion Informationssystem (IS) Soziotechnisches System Dient
MehrEinführung in die germanistische Linguistik
Jörg Meibauer / Ulrike Demske / Jochen Geilfuß-Wolfgang / Jürgen Pafel/Karl Heinz Ramers/Monika Rothweiler/ Markus Steinbach Einführung in die germanistische Linguistik 2., aktualisierte Auflage Verlag
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Was ist Computerlinguistik? Dr. Benjamin Roth CIS LMU München Dr. Benjamin Roth (CIS LMU München) Einführung in die Computerlinguistik 1 / 69 Gliederung 1 Organisatorisches
MehrDiskriminatives syntaktisches Reranking für SMT
Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung
MehrVorwort Vorwort zur 3. Auflage
Vorwort Vorwort zur 2. Auflage Vorwort zur 3. Auflage V VI VI 1 Einleitung (Jörg Meibauer/Markus Steinbach) 1 1.1 Sprache in Literatur und Alltag 1 1.2 Sprache als soziales Phänomen 3 1.3 Sprache als historisches
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische
Mehr