Einführung in die maschinelle Sprachverarbeitung
|
|
- Karl Fried
- vor 7 Jahren
- Abrufe
Transkript
1 Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April Statistische Methoden in der Sprachverarbeitung 1
2 Statistik in der Computerlinguistik Allgemeines Statistik in der Syntax Statistik in der Semantik Statistik in der Morphologie Textlinguistik und Textklassifikation Lexikographie Anwendungsbereiche der Statistik in der Computerlinguistik Statistische Methoden in der Sprachverarbeitung 2
3 Teildisziplinen der Statistik Deskriptive und explorative Statistik (Datenbeschreibung) Beschreibung von Daten Darstellung von Daten Entdeckung von Strukturen und Besonderheiten in den Daten Analytische Statistik - Induktive Statistik Schlussfolgerungen aus Daten Einbeziehung der Wahrscheinlichkeitstheorie (Stochastik) Statistische Methoden in der Sprachverarbeitung 3
4 Statistik in der Syntax I Syntax ist die Beschreibung der Struktur natürlichsprachlicher Syntagmen (Sätze und ihrer Konstituenten). Wie sind Sätze beschaffen? Syntax, Struktur von Sprache. Um Sprache zu verstehen, müssen wir wissen, welche Sätze möglich / wahrscheinlich sind. Teilbereiche der Syntax bezogen auf die Computerlinguistik sind u.a. Tagging, Parsing, Generierung syntaktisch korrekter Sätze, Erfassung und Erkennung von Mehrwortlexemen Statistische Methoden in der Sprachverarbeitung 4
5 Statistik in der Syntax II 1. Fragestellungen in der deskriptiven Statistik Welche syntaktische Kategorien sind wie häufig in einem Text / einem Korpus zu finden? Welche Kategorienfolgen sind wie oft in einem Text vorhanden? Es könnten sich beispielsweise bei der Analyse eines Korpus mit Wörtern folgende Häufigkeiten für Folgen von zwei Kategorien ergeben: DET N: 300 ADJ N : 32 V N : 3 Ebenso können statistisch erfasst werden: Satztypen Konstruktionstypen Statistische Methoden in der Sprachverarbeitung 5
6 Statistik in der Syntax III 2. Fragestellungen in der induktiven Statistik Welche syntaktische Kategorie ist wahrscheinlich - sollte gewählt werden? Wortartentagging Z.B. kann irre eine Verbform sein (von irren) oder eine Adjektivform (von irr) sein. Die Folge DET V A ist in beliebigen Trainingskorpora inexistent bis selten, DET A N dagegen häufig. der irre Professor DET V/A N Welche syntaktische Analyse ist die richtige? Statistisches Parsing, Ambiguitätsresolution Z.B. Sie beobachtet den Mann mit dem Fernrohr Statistische Methoden in der Sprachverarbeitung 6
7 Statistik in der Semantik I Die Semantik befasst sich mit der Beschreibung der Bedeutung lexikalischer Einheiten (Wortsemantik/lexikalische Semantik) den Regularitäten zur Ermittlung der Bedeutung komplexer Einheiten (Satzsemantik). Wie ist der Zusammenhang zwischen einem Satz und der Welt; welche Aussage macht ein Satz über die Welt? Semantik, Bedeutung, Pragmatik. Um die Bedeutung einer Aussage zu verstehen, müssen wir wissen, in welchem Verhältnis Terme zu Objekten in der Welt stehen Statistische Methoden in der Sprachverarbeitung 7
8 Statistik in der Semantik II 1. Fragestellungen in der deskriptiven Statistik Welche Bedeutung eines Worts / einer Wortform ist häufiger/weniger häufig? Maus (Tier/Computerteil) Kontextspezifische Bedeutungshäufigkeit - in welchem lexikalischen oder syntagmatischen Kontext taucht welche Bedeutung häufiger auf? Er scrollt mit der Maus (Lesart Computerteil) Im Keller piepst eine Maus (Lesart Tier) Textspezifische Bedeutungshäufigkeit. Welche Bedeutungsklassen tauchen in bestimmten Textsammlungen häufig auf? Kompositaanalyse (Rosenblatt vs. Manusskriptblatt) Statistische Methoden in der Sprachverarbeitung 8
9 Statistik in der Semantik III 2. Fragestellungen in der induktiven Statistik Die Schlussfolgerungen aus semantischen Datenbeschreibung werden z.b. verwendet zur Bedeutungsdisambiguierung (etwa im Fall Maus). Disambiguierung von Wortbedeutungen ist für zahlreiche Anwendungen unverzichtbar, so etwa im Bereich der maschinellen Übersetzung. Statistische semantische Regularitäten können auch verwendet werden in der thematischen Zuordnung von Texten (Textkategorisierung) Kompositaanalyse Statistische Methoden in der Sprachverarbeitung 9
10 Statistik in der Morphologie I Die Morphologie beschäftigt sich mit dem Aufbau von Wortformen aus kleineren, noch bedeutungrelevanten Einheiten (Morphemen). 1. Fragestellungen in der deskriptiven Statistik Vollformen-Grundformen-Reduktion. Haus Hau Haus Haus (wahrscheinlichere Variante) Häufigkeit von Affixen und ihre morphologische Zuordnung gext = (99%) = X + Part.Perf. Kompositasegmentierung hat natürlich auch mit Morphologie zu tun Statistische Methoden in der Sprachverarbeitung 10
11 Statistik in der Morphologie II 2. Fragestellungen in der induktiven Statistik Statistiken über die Häufigkeit von Grundformen für eine Vollform können zur richtigen Grundformenreduzierung herangezogen werden Analyse unbekannter Formen gecancelt = cancel + Part.Perf. gext = (99%) = X + Part.Perf. Statistiken über Kompositaregularitäten können zur korrekten Analyse von Komposita herangezogen werden Ballkleid, Ballsaal Bücherwurm, Bücherregal, Büchersendung Kindeskinder, Kindesmissbrauch Statistische Methoden in der Sprachverarbeitung 11
12 Statistik in der Textlinguistik I Die Textlinguistik beschäftigt sich mit dem satzübergreifenden Regularitäten in Texten, Texteigenschaften (Wortartenverteilung) und Textklassifikation (Genre, Themengebiete). 1. Fragestellungen in der deskriptiven Statistik Vollformen-Grundformen-Reduktion. Haus Hau Haus Haus (wahrscheinlichere Variante) Häufigkeit von Affixen und ihre morphologische Zuordnung gext = (99%) = X + Part.Perf. Kompositasegmentierung hat natürlich auch mit Morphologie zu tun Statistische Methoden in der Sprachverarbeitung 12
13 Statistik in der Textlinguistik II 2. Fragestellungen in der induktiven Statistik Anaphernresolution (Bezug von Pronomina) (engl.) Anaphora Resolution Definition: Auflösung des Bezugs einer Anapher, d.h. Finden des Antezedens. Dazu kann man Informationen im linguistischen ebenso wie im nicht-linguistischen Kontext verwenden. David sah sich ein Theaterstück an. Er [David] fand es [das Spiel] sehr gut. (Pronomen als Anaphern). Er nahm die Süßigkeiten, die [die Süßigkeiten] auf dem Tisch lagen. (Anapher in einem Relativsatz) Erkennung von Textsorten, Themengebieten etc Statistische Methoden in der Sprachverarbeitung 13
14 Statistik in der Lexikographie I Die Lexikographie beschäftigt sich mit der Praxis der Wörterbucherstellung, d.h. mit der Erfassung von Wörtern und Mehrwortlexemen und ihren Eigenschaften. 1. Fragestellungen in der deskriptiven Statistik Für die Lexikographie lassen sich morphologische, syntaktische, semantische und textlinguistische Daten verwenden. Einige Beispiele für statistisch ermittelbare lexikalische Eigenschaften sind: Stilebenen andere textsortenspezifische Eigenschaften Häufigkeiten/Gebräuchlichkeit/historische Entwicklung Statistische Methoden in der Sprachverarbeitung 14
15 Statistik in der Lexikographie II 2. Fragestellungen in der induktiven Statistik Statistische Methoden werden in der Lexikographie v.a. verwendet um lexembezogene Daten aus Textkorpora zu ermitteln. Zum Teil werden die statistisch akquirierten Daten nur als Vorauswahl für eine weitere manuelle Klassifikation verwendet. automatische oder semiautomatische Ermittlung von textsorten-/fachgebietsspezifischen Eigenschaften von Lexemen Zur Erkennung und Extraktion von Mehrwortlexemen gehört die Analyse von Kookurrenzen - d.h. des statistisch signifikanten gemeinsamen Auftretens von Wörtern und Wortformen, und darauf aufbauende Schlussfolgerungen über die Zusammengehörigkeit von Wörtern und Wortformen Statistische Methoden in der Sprachverarbeitung 15
16 Anwendungsbereiche der Statistik in der CL Rechtschreibkorrektur und Grammatikkorrektur Rechtschreib- und Grammatikkorrektur sind Anwendungen, die Textverarbeitungsprogrammen bekannt sind. Rechtschreibkorrektur wird auch in anderen Anwendungen (z.b. Internet-Suchmaschinen) eingesetzt. Verbesserung der Rechtschreib- und Grammatikkorrektur: in der schule wird gelacht... er sagte, er Schule zur Zeit Arbeitslose Computerlinguisten Statistische Methoden in der Sprachverarbeitung 16
17 Anwendungsbereiche der Statistik in der CL Textgenerierung und Wortvorschlagssysteme Textgenerierung ist die Erzeugung von Texten aus Inhaltsdaten; z.b. aus einer semantischen Formel, einer formellen Beschreibung, einem Datensatz einer Datenbank. Überprüfung der Plausibilität einer von einer Grammatik generierten Wortfolge; Kommunikationshilfen mit Wortvorschlagssystemen - hier können einfache Wortfolgestatistiken brauchbare Fortsetzungen vorschlagen Statistische Methoden in der Sprachverarbeitung 17
18 Anwendungsbereiche der Statistik in der CL Spracherkennung Spracherkennung ist die Umwandlung gesprochener Sprache in einen elektronischen Text. Die automatische Transkription gesprochener in geschriebene Sprache beruht schon seit langem in erster Linie auf statischen Methoden: Hidden-Markov-Modelle zur Laut-Phonem- Zuordnung Sprachmodelle zur Festlegung wahrscheinlicherer Wortfolgen Statistische Methoden in der Sprachverarbeitung 18
19 Anwendungsbereiche der Statistik in der CL Textklassifikation Textklassifikation ist die Einordnung von Texten in vordefinierte Kategorien irgendwelcher Art. Sprachenidentifikation (s. die meisten Suchmaschinen) Ermittlung der Wahrscheinlichkeit mit der ein Text einer Sprache zugeordnet werden kann. Genreklassifikation (Texttyp) Filter. z.b. Pornofilter, wie in den meisten Suchmaschinen verfügbar Ermittlung des relevanten Vokabulars Zuordnungswahrscheinlichkeit zur einer Sammlung von Referenzdokumenten Inhaltliche Klassifikation wie z.b. Scirus ( - automatische Erkennung eines wissenschaftlichen Fachgebiets Statistische Methoden in der Sprachverarbeitung 19
20 Anwendungsbereiche der Statistik in der CL Textretrieval Textretrieval (Information Retrieval) befasst sich mit dem Auffinden spezifischer Textdokumente in einer Dokumentensammlung. Die bekanntesten Textretrievalsysteme sind sicher die Internetsuchmaschinen. Ranking - Ermittlung der Relevanz eines Dokuments bez. der Suchanfrage, abhängig von der Häufigkeit und Position des / der Suchterme/s, von der Länge des Dokuments... Vorklassifizierung von Texten nach verschiedenen Kriterien (Sprache, Domäne, Typ) (siehe Textklassifikation) Vorverarbeitung der Anfrage (Query) Statistische Methoden in der Sprachverarbeitung 20
21 Anwendungsbereiche der Statistik in der CL Maschinelle Übersetzung und Alignierung mehrsprachiger Korpora Statistische Algorithmen beruhen auf Zuordnungen in bilingualen Korpora Eigenschaften der Einzelsprachen Lexikalische Zuordnung: Welches Wort ist wahrscheinlich eine Übersetzung eines anderen Wortes? Disambiguierung: Welche Bedeutung eines polysemen Wortes liegt vor? Bruchstück und Satz-Zuordnung: Welche Phrase / welcher Satz ist wahrscheinlich eine Übersetzung eines anderen? Generierung: Welche Übersetzung ist ein wahrscheinlicherer Satz in der Zielsprache? Statistische Methoden in der Sprachverarbeitung 21
22 Literaturangaben Stefan Langer und Clemens Marschner: Statistische Methoden der Sprachverarbeitung. Vorlesungsskriptum. Centrum für Informations- und Sprachverarbeitung (CIS). LMU München [PDF] Seite 1-7. Johannes Goller: Statistische Methoden der Sprachverarbeitung. Vorlesungsskriptum. Centrum für Informations- und Sprachverarbeitung (CIS). LMU München [PDF] Seite 1-7. C. D. Manning, H. Schütze: Foundations of statistical natural language processing. The MIT Press, Cambridge, MA (Kopiervorlage in Raum B 101) (Buchsignatur MAN VIII 1) Seite Statistische Methoden in der Sprachverarbeitung 22
Was ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
Mehrxii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
MehrInhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?
MehrComputerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was
MehrSupervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung
Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrEinführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrNLP - Analyse des Wissensrohstoffs Text
NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrVertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind
Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrMaschinelle Übersetzung
Maschinelle Übersetzung Kluge Andreas, 13IN-M basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 19. Juni 2014 Übersicht Gewünschte Funktionalität Schwierigkeiten
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrSemiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
MehrGrundlagen und Definitionen
Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrVorbesprechung Mathe III
Vorbesprechung Mathe III Dr. Vera Demberg, Prof. Dr. Enrico Lieblang (HTW) Universität des Saarlandes April 19th, 2012 Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 1 / 20 Formalien Pflichtveranstaltung
MehrEinführung in die Computerlinguistik. Morphologie II
Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1
MehrSkript und Begleitmaterial. Statistische Methoden in der Sprachverarbeitung
Skript und Begleitmaterial Statistische Methoden in der Sprachverarbeitung Sommer 006 Clemens Marschner Stefan Langer Fast Search&Transfer Email: auf Anfrage Vorbemerkung Dieses Skript entstand vom Sommersemester
MehrEinführung (Skript 2013)
Einführung (Skript 2013) Informationswissenschaft Universität Regensburg Jürgen Reischer Informationslinguistik in Regensburg Übersicht aus informationswissenschaftlicher Sicht: B.A. Einführung in die
MehrAVS-M Name des Moduls: Sprachtypologie und Universalienforschung
AVS-M 10 1. Name des Moduls: Sprachtypologie und Universalienforschung 2. Fachgebiet / Verantwortlich: Allgemeine und Vergleichende Sprachwissenschaft/ Prof. Dr. Johannes Helmbrecht 3. Inhalte des Moduls:
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition
MehrKontextfreie Grammatiken
Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrMETHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN *
LDV-Forum Bd. 5, Nr. 2/3, Jg. 1987/88, S. 17-25 17 METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * FACH BEITRÄGE Ulrich Heid Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung,
MehrKookkurrenzanalyse Einführung
Einführung Kookkurenzanalyse die grundlegende Idee 1) Beobachtung: In einem Korpus tritt Wort X 1000mal auf, Wort Y 100mal, Wort Z 10mal. 2) Wahrscheinlichkeit: Die Kombination XY ist 10mal so wahrscheinlich
MehrComputerlinguistik: Ein Überblick
11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik
Mehr8 Fakultät für Philologie
8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrWissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung
Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung i) Worum geht es? ii) Aufgaben und Anwendungen iii) Mehrdeutigkeit - Das Kernproblem iv) linguistische Grundlagen I. Der synthetische
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrStudienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrAutomatisches Verstehen gesprochener Sprache
Automatisches Verstehen gesprochener Sprache 5. Sprachverstehen und Morphologie Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrInterdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht
MehrMidas Metadata yield by Data Analysis
Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten
MehrMorphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
MehrLinguistische Informatik Einführung
Linguistische Informatik Einführung Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Informatik und Linguistik Informatik als Werkzeug und Theoriegrundlage Linguistik
MehrKL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie
KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil
MehrDie Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012
Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012 Christian Kölbl Universität Augsburg, Lehrprofessur für Informatik 25. Oktober 2011 HAL 9000 - Zukunftsmusik
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
MehrEinführung in die Syntax und Morphologie. Vorlesung mit Übung WS 2010/2011, Computerlinguistik
Einführung in die Syntax und Morphologie Vorlesung mit Übung WS 2010/2011, Computerlinguistik 02 Bedeutung von Sprache 1. Die menschliche Kommunikationsfähigkeit schlechthin (Satz A). 2. Eine bestimmte
MehrHidden Markov Models
Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung
MehrEinführung in die germanistische Linguistik
Jörg Meibauer / Ulrike Demske / Jochen Geilfuß-Wolfgang / Jürgen Pafel/Karl Heinz Ramers/Monika Rothweiler/ Markus Steinbach Einführung in die germanistische Linguistik 2., aktualisierte Auflage Verlag
MehrEinführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
MehrKorpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.
Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora
MehrEinführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
MehrMaschinelle Sprachverarbeitung: N-Gramm-Modelle
HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind
MehrEinführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig
Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme
MehrEinführung Computerlinguistik. Überblick
Einführung Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-10-14 Schütze & Zangenfeind: Überblick 1 / 30 Take-away Schütze
MehrÜbung zur Einführung in die Computerlinguistik. Wiebke Petersen WiSe 04/05
Übung zur Einführung in die Computerlinguistik Wiebke Petersen WiSe 04/05 Turing-Test 1950, Alan Turing, imitation game: Testkandidat muß per Fernschreiber zwischen männlichen und weiblichen Gesprächspartnern
MehrWörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren
Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Was ist Computerlinguistik? Dr. Benjamin Roth CIS LMU München Dr. Benjamin Roth (CIS LMU München) Einführung in die Computerlinguistik 1 / 69 Gliederung 1 Organisatorisches
MehrLexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?
Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische
MehrInhaltsverzeichnis. I. Einleitendes 15. II. Wortbildung und Grammatik 17
Inhaltsverzeichnis I. Einleitendes 15 II. Wortbildung und Grammatik 17 1. Darstellung der allgemeinen Problematik 17 2. Diskussion möglicher Ursachen 18 3. Positionierung der Wortbildung innerhalb der
MehrSprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe
Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am 15.5.2002: Stefanie Grabbe Institut für Angewandte Informationswissenschaft Definitionen Korpus das, 1. Belegsammlung von
MehrMaschinelle Sprachverarbeitung
Maschinelle Sprachverarbeitung BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER Gertrud Faaβ Universität StuNgart, InsPtut für maschinelle Sprachverarbeitung Azenbergstr. 12, 70174 StuNgart 0711 685 81385 faaszgd@ims.uni
MehrKorrekturprogramme. Von Emine Senol & Gihan S. El Hosami
Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu
MehrEinführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)
Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 7. Foliensatz Wiebke Petersen Einführung CL 1 Morphologische Grundbegrie Wort / Lexem: abstrakte
MehrKontrastive Linguistik und Lexikographie XII
Computer und zweisprachiges Wörterbuch moderne Lexikographie - intensive Verwendung der Elektronischen Datenverarbeitung (EDV) elektronische Wörterbücher (ewb) Bestimmung: z.t. wie bei Printwörterbüchern,
MehrKurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl
Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die
MehrVolltextsuche und Text Mining
1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text
MehrLösungsvorschlag für das Übungsblatt 4. Aufgabe 1.
Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Im CISLEX sind für das deutsche Kernlexikon 206.000 Lemmata, 1.300.000 en und 2.350.000 Lesarten kodiert. Wichtiger ist aber die Herangehensweise, um
MehrSprachproduktion. Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010
Sprachproduktion Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010 Sprachliche Zentren im Gehirn SSSSensorische Funktionen Motorische Funktionen Sprachliche Zentren im Gehirn Generieren
MehrDELA Wörterbücher ===========================================================
DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela
MehrInformation und Produktion. Rolland Brunec Seminar Wissen
Information und Produktion Rolland Brunec Seminar Wissen Einführung Informationssystem Einfluss des Internets auf Organisation Wissens-Ko-Produktion Informationssystem (IS) Soziotechnisches System Dient
MehrLogik und modelltheoretische Semantik. Grundlagen zum Bedeutung-Text-Modell (BTM)
Logik und modelltheoretische Semantik Grundlagen zum Bedeutung-Text-Modell (BTM) Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 13.6.2017 Zangenfeind: BTM 1 / 26 Moskauer
MehrKünstliche Intelligenz Text Mining
Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von
MehrAutomatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:
02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete
MehrGermanistische Linguistik
b a c h e l o r - w i s s e n Albert Busch / Oliver Stenschke Germanistische Linguistik Eine Einführung R7 Guntef Narr Verlag Tübingen Inhalt Inhalt Vorwort 1 Themenblock i: Sprache und Zeichen Einheit
MehrÜbersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen
Einführung in die Informatik für Hörer aller Fakultäten Prof. Jürgen Wolff von Gudenberg (JWG) Prof. Frank Puppe (FP) Prof. Dietmar Seipel (DS) Vorlesung (Mo & Mi 13:30-15:00 im Zuse-Hörsaal): FP: Form
MehrModulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )
Modulhandbuch für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester 2013 (Version: 2013-06-26) 1 Modulübersicht V=Vorlesung, Ü=Übung, S=Seminar, P=Praktikum Semester Modulnr. Titel der
MehrAm Anfang war das Wort!
Am Anfang war das Wort! Was ist Morphologie? Der Begriff Morphologie wurde 1796 von Johann Wolfgang von Goethe in einer Tagebuchaufzeichnung für eine neue Wissenschaft geprägt,, die sich mit den Gestaltungsgesetzen
MehrVO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft
, Informations- und Wissensmanagement Zentrum für Translationswissenschaft Grundlagen und Definitionen Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache.
MehrUniversität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker
UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrEinführung in die Phonetik und Phonologie. Allgemeiner Überblick
Einführung in die Phonetik und Phonologie Allgemeiner Überblick Phonetik und Phonologie Die beiden Bezeichnungen Phonetik und Phonologie sind aus dem griechischen Wort ϕωνþ (phōnē) abgeleitet, welches
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrStatistische Verfahren in der Computerlinguistik
Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende
MehrMaschinelle Übersetzung
Maschinelle Übersetzung Termin: 24. Januar 2005 Dozentin: Petersen, Wiebke Referenten: Höhfeld, Stefanie Kwiatkowski, Melanie Nather, Juliane 1 Maschinelle und computergestütze Übersetzungen Fortschreitende
MehrEinführung in die portugiesische Sprachwissenschaft
Annette Endruschat Jürgen Schmidt-Radefeldt Einführung in die portugiesische Sprachwissenschaft Gunter Narr Verlag Tübingen Inhalt Vorwort 9 Abkürzungen und Abbildungsverzeichnis 12 1 Weltsprache Portugiesisch
MehrPraktikum Textmining
Praktikum Textmining Uwe Quasthoff Christoph Teichmann Abteilung Automatische Sprachverarbeitung November 16, 2010 Uwe Quasthoff, Christoph Teichmann (ASV) Praktikum Textmining November 16, 2010 1 / 19
Mehr3.1.2 Der Beitrag von Wortarten für die Sprachbeschreibung Bisherige Forschungsarbeiten und ihre Anwendung auf das Kreolische...
Inhaltsverzeichnis 1. Mauritius und das Kreolische auf Mauritius... 13 1.1 Landeskundlicher Teil ein Vorwort... 13 1.2 Zu Geographie, Bevölkerungsgruppen und Sprachen auf Mauritius... 14 1.3 Definition:
MehrNatural Language Processing
Natural Language Processing Kapitel 1: Einführung Prof. Dr. Johannes Maucher HdM MIB Version 1.7 13.10.2017 Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 1: Einführung Version 1.7 13.10.2017 1 / 30
MehrAufbau eines Flexionslexikons für die Katalogbereinigung
Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de
Mehr