Einführung in die maschinelle Sprachverarbeitung

Größe: px
Ab Seite anzeigen:

Download "Einführung in die maschinelle Sprachverarbeitung"

Transkript

1 Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April Statistische Methoden in der Sprachverarbeitung 1

2 Statistik in der Computerlinguistik Allgemeines Statistik in der Syntax Statistik in der Semantik Statistik in der Morphologie Textlinguistik und Textklassifikation Lexikographie Anwendungsbereiche der Statistik in der Computerlinguistik Statistische Methoden in der Sprachverarbeitung 2

3 Teildisziplinen der Statistik Deskriptive und explorative Statistik (Datenbeschreibung) Beschreibung von Daten Darstellung von Daten Entdeckung von Strukturen und Besonderheiten in den Daten Analytische Statistik - Induktive Statistik Schlussfolgerungen aus Daten Einbeziehung der Wahrscheinlichkeitstheorie (Stochastik) Statistische Methoden in der Sprachverarbeitung 3

4 Statistik in der Syntax I Syntax ist die Beschreibung der Struktur natürlichsprachlicher Syntagmen (Sätze und ihrer Konstituenten). Wie sind Sätze beschaffen? Syntax, Struktur von Sprache. Um Sprache zu verstehen, müssen wir wissen, welche Sätze möglich / wahrscheinlich sind. Teilbereiche der Syntax bezogen auf die Computerlinguistik sind u.a. Tagging, Parsing, Generierung syntaktisch korrekter Sätze, Erfassung und Erkennung von Mehrwortlexemen Statistische Methoden in der Sprachverarbeitung 4

5 Statistik in der Syntax II 1. Fragestellungen in der deskriptiven Statistik Welche syntaktische Kategorien sind wie häufig in einem Text / einem Korpus zu finden? Welche Kategorienfolgen sind wie oft in einem Text vorhanden? Es könnten sich beispielsweise bei der Analyse eines Korpus mit Wörtern folgende Häufigkeiten für Folgen von zwei Kategorien ergeben: DET N: 300 ADJ N : 32 V N : 3 Ebenso können statistisch erfasst werden: Satztypen Konstruktionstypen Statistische Methoden in der Sprachverarbeitung 5

6 Statistik in der Syntax III 2. Fragestellungen in der induktiven Statistik Welche syntaktische Kategorie ist wahrscheinlich - sollte gewählt werden? Wortartentagging Z.B. kann irre eine Verbform sein (von irren) oder eine Adjektivform (von irr) sein. Die Folge DET V A ist in beliebigen Trainingskorpora inexistent bis selten, DET A N dagegen häufig. der irre Professor DET V/A N Welche syntaktische Analyse ist die richtige? Statistisches Parsing, Ambiguitätsresolution Z.B. Sie beobachtet den Mann mit dem Fernrohr Statistische Methoden in der Sprachverarbeitung 6

7 Statistik in der Semantik I Die Semantik befasst sich mit der Beschreibung der Bedeutung lexikalischer Einheiten (Wortsemantik/lexikalische Semantik) den Regularitäten zur Ermittlung der Bedeutung komplexer Einheiten (Satzsemantik). Wie ist der Zusammenhang zwischen einem Satz und der Welt; welche Aussage macht ein Satz über die Welt? Semantik, Bedeutung, Pragmatik. Um die Bedeutung einer Aussage zu verstehen, müssen wir wissen, in welchem Verhältnis Terme zu Objekten in der Welt stehen Statistische Methoden in der Sprachverarbeitung 7

8 Statistik in der Semantik II 1. Fragestellungen in der deskriptiven Statistik Welche Bedeutung eines Worts / einer Wortform ist häufiger/weniger häufig? Maus (Tier/Computerteil) Kontextspezifische Bedeutungshäufigkeit - in welchem lexikalischen oder syntagmatischen Kontext taucht welche Bedeutung häufiger auf? Er scrollt mit der Maus (Lesart Computerteil) Im Keller piepst eine Maus (Lesart Tier) Textspezifische Bedeutungshäufigkeit. Welche Bedeutungsklassen tauchen in bestimmten Textsammlungen häufig auf? Kompositaanalyse (Rosenblatt vs. Manusskriptblatt) Statistische Methoden in der Sprachverarbeitung 8

9 Statistik in der Semantik III 2. Fragestellungen in der induktiven Statistik Die Schlussfolgerungen aus semantischen Datenbeschreibung werden z.b. verwendet zur Bedeutungsdisambiguierung (etwa im Fall Maus). Disambiguierung von Wortbedeutungen ist für zahlreiche Anwendungen unverzichtbar, so etwa im Bereich der maschinellen Übersetzung. Statistische semantische Regularitäten können auch verwendet werden in der thematischen Zuordnung von Texten (Textkategorisierung) Kompositaanalyse Statistische Methoden in der Sprachverarbeitung 9

10 Statistik in der Morphologie I Die Morphologie beschäftigt sich mit dem Aufbau von Wortformen aus kleineren, noch bedeutungrelevanten Einheiten (Morphemen). 1. Fragestellungen in der deskriptiven Statistik Vollformen-Grundformen-Reduktion. Haus Hau Haus Haus (wahrscheinlichere Variante) Häufigkeit von Affixen und ihre morphologische Zuordnung gext = (99%) = X + Part.Perf. Kompositasegmentierung hat natürlich auch mit Morphologie zu tun Statistische Methoden in der Sprachverarbeitung 10

11 Statistik in der Morphologie II 2. Fragestellungen in der induktiven Statistik Statistiken über die Häufigkeit von Grundformen für eine Vollform können zur richtigen Grundformenreduzierung herangezogen werden Analyse unbekannter Formen gecancelt = cancel + Part.Perf. gext = (99%) = X + Part.Perf. Statistiken über Kompositaregularitäten können zur korrekten Analyse von Komposita herangezogen werden Ballkleid, Ballsaal Bücherwurm, Bücherregal, Büchersendung Kindeskinder, Kindesmissbrauch Statistische Methoden in der Sprachverarbeitung 11

12 Statistik in der Textlinguistik I Die Textlinguistik beschäftigt sich mit dem satzübergreifenden Regularitäten in Texten, Texteigenschaften (Wortartenverteilung) und Textklassifikation (Genre, Themengebiete). 1. Fragestellungen in der deskriptiven Statistik Vollformen-Grundformen-Reduktion. Haus Hau Haus Haus (wahrscheinlichere Variante) Häufigkeit von Affixen und ihre morphologische Zuordnung gext = (99%) = X + Part.Perf. Kompositasegmentierung hat natürlich auch mit Morphologie zu tun Statistische Methoden in der Sprachverarbeitung 12

13 Statistik in der Textlinguistik II 2. Fragestellungen in der induktiven Statistik Anaphernresolution (Bezug von Pronomina) (engl.) Anaphora Resolution Definition: Auflösung des Bezugs einer Anapher, d.h. Finden des Antezedens. Dazu kann man Informationen im linguistischen ebenso wie im nicht-linguistischen Kontext verwenden. David sah sich ein Theaterstück an. Er [David] fand es [das Spiel] sehr gut. (Pronomen als Anaphern). Er nahm die Süßigkeiten, die [die Süßigkeiten] auf dem Tisch lagen. (Anapher in einem Relativsatz) Erkennung von Textsorten, Themengebieten etc Statistische Methoden in der Sprachverarbeitung 13

14 Statistik in der Lexikographie I Die Lexikographie beschäftigt sich mit der Praxis der Wörterbucherstellung, d.h. mit der Erfassung von Wörtern und Mehrwortlexemen und ihren Eigenschaften. 1. Fragestellungen in der deskriptiven Statistik Für die Lexikographie lassen sich morphologische, syntaktische, semantische und textlinguistische Daten verwenden. Einige Beispiele für statistisch ermittelbare lexikalische Eigenschaften sind: Stilebenen andere textsortenspezifische Eigenschaften Häufigkeiten/Gebräuchlichkeit/historische Entwicklung Statistische Methoden in der Sprachverarbeitung 14

15 Statistik in der Lexikographie II 2. Fragestellungen in der induktiven Statistik Statistische Methoden werden in der Lexikographie v.a. verwendet um lexembezogene Daten aus Textkorpora zu ermitteln. Zum Teil werden die statistisch akquirierten Daten nur als Vorauswahl für eine weitere manuelle Klassifikation verwendet. automatische oder semiautomatische Ermittlung von textsorten-/fachgebietsspezifischen Eigenschaften von Lexemen Zur Erkennung und Extraktion von Mehrwortlexemen gehört die Analyse von Kookurrenzen - d.h. des statistisch signifikanten gemeinsamen Auftretens von Wörtern und Wortformen, und darauf aufbauende Schlussfolgerungen über die Zusammengehörigkeit von Wörtern und Wortformen Statistische Methoden in der Sprachverarbeitung 15

16 Anwendungsbereiche der Statistik in der CL Rechtschreibkorrektur und Grammatikkorrektur Rechtschreib- und Grammatikkorrektur sind Anwendungen, die Textverarbeitungsprogrammen bekannt sind. Rechtschreibkorrektur wird auch in anderen Anwendungen (z.b. Internet-Suchmaschinen) eingesetzt. Verbesserung der Rechtschreib- und Grammatikkorrektur: in der schule wird gelacht... er sagte, er Schule zur Zeit Arbeitslose Computerlinguisten Statistische Methoden in der Sprachverarbeitung 16

17 Anwendungsbereiche der Statistik in der CL Textgenerierung und Wortvorschlagssysteme Textgenerierung ist die Erzeugung von Texten aus Inhaltsdaten; z.b. aus einer semantischen Formel, einer formellen Beschreibung, einem Datensatz einer Datenbank. Überprüfung der Plausibilität einer von einer Grammatik generierten Wortfolge; Kommunikationshilfen mit Wortvorschlagssystemen - hier können einfache Wortfolgestatistiken brauchbare Fortsetzungen vorschlagen Statistische Methoden in der Sprachverarbeitung 17

18 Anwendungsbereiche der Statistik in der CL Spracherkennung Spracherkennung ist die Umwandlung gesprochener Sprache in einen elektronischen Text. Die automatische Transkription gesprochener in geschriebene Sprache beruht schon seit langem in erster Linie auf statischen Methoden: Hidden-Markov-Modelle zur Laut-Phonem- Zuordnung Sprachmodelle zur Festlegung wahrscheinlicherer Wortfolgen Statistische Methoden in der Sprachverarbeitung 18

19 Anwendungsbereiche der Statistik in der CL Textklassifikation Textklassifikation ist die Einordnung von Texten in vordefinierte Kategorien irgendwelcher Art. Sprachenidentifikation (s. die meisten Suchmaschinen) Ermittlung der Wahrscheinlichkeit mit der ein Text einer Sprache zugeordnet werden kann. Genreklassifikation (Texttyp) Filter. z.b. Pornofilter, wie in den meisten Suchmaschinen verfügbar Ermittlung des relevanten Vokabulars Zuordnungswahrscheinlichkeit zur einer Sammlung von Referenzdokumenten Inhaltliche Klassifikation wie z.b. Scirus ( - automatische Erkennung eines wissenschaftlichen Fachgebiets Statistische Methoden in der Sprachverarbeitung 19

20 Anwendungsbereiche der Statistik in der CL Textretrieval Textretrieval (Information Retrieval) befasst sich mit dem Auffinden spezifischer Textdokumente in einer Dokumentensammlung. Die bekanntesten Textretrievalsysteme sind sicher die Internetsuchmaschinen. Ranking - Ermittlung der Relevanz eines Dokuments bez. der Suchanfrage, abhängig von der Häufigkeit und Position des / der Suchterme/s, von der Länge des Dokuments... Vorklassifizierung von Texten nach verschiedenen Kriterien (Sprache, Domäne, Typ) (siehe Textklassifikation) Vorverarbeitung der Anfrage (Query) Statistische Methoden in der Sprachverarbeitung 20

21 Anwendungsbereiche der Statistik in der CL Maschinelle Übersetzung und Alignierung mehrsprachiger Korpora Statistische Algorithmen beruhen auf Zuordnungen in bilingualen Korpora Eigenschaften der Einzelsprachen Lexikalische Zuordnung: Welches Wort ist wahrscheinlich eine Übersetzung eines anderen Wortes? Disambiguierung: Welche Bedeutung eines polysemen Wortes liegt vor? Bruchstück und Satz-Zuordnung: Welche Phrase / welcher Satz ist wahrscheinlich eine Übersetzung eines anderen? Generierung: Welche Übersetzung ist ein wahrscheinlicherer Satz in der Zielsprache? Statistische Methoden in der Sprachverarbeitung 21

22 Literaturangaben Stefan Langer und Clemens Marschner: Statistische Methoden der Sprachverarbeitung. Vorlesungsskriptum. Centrum für Informations- und Sprachverarbeitung (CIS). LMU München [PDF] Seite 1-7. Johannes Goller: Statistische Methoden der Sprachverarbeitung. Vorlesungsskriptum. Centrum für Informations- und Sprachverarbeitung (CIS). LMU München [PDF] Seite 1-7. C. D. Manning, H. Schütze: Foundations of statistical natural language processing. The MIT Press, Cambridge, MA (Kopiervorlage in Raum B 101) (Buchsignatur MAN VIII 1) Seite Statistische Methoden in der Sprachverarbeitung 22

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was

Mehr

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

Einführung in die Computerlinguistik. Morphologie III

Einführung in die Computerlinguistik. Morphologie III Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Kluge Andreas, 13IN-M basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 19. Juni 2014 Übersicht Gewünschte Funktionalität Schwierigkeiten

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

Grundlagen und Definitionen

Grundlagen und Definitionen Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Vorbesprechung Mathe III

Vorbesprechung Mathe III Vorbesprechung Mathe III Dr. Vera Demberg, Prof. Dr. Enrico Lieblang (HTW) Universität des Saarlandes April 19th, 2012 Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 1 / 20 Formalien Pflichtveranstaltung

Mehr

Einführung in die Computerlinguistik. Morphologie II

Einführung in die Computerlinguistik. Morphologie II Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1

Mehr

Skript und Begleitmaterial. Statistische Methoden in der Sprachverarbeitung

Skript und Begleitmaterial. Statistische Methoden in der Sprachverarbeitung Skript und Begleitmaterial Statistische Methoden in der Sprachverarbeitung Sommer 006 Clemens Marschner Stefan Langer Fast Search&Transfer Email: auf Anfrage Vorbemerkung Dieses Skript entstand vom Sommersemester

Mehr

Einführung (Skript 2013)

Einführung (Skript 2013) Einführung (Skript 2013) Informationswissenschaft Universität Regensburg Jürgen Reischer Informationslinguistik in Regensburg Übersicht aus informationswissenschaftlicher Sicht: B.A. Einführung in die

Mehr

AVS-M Name des Moduls: Sprachtypologie und Universalienforschung

AVS-M Name des Moduls: Sprachtypologie und Universalienforschung AVS-M 10 1. Name des Moduls: Sprachtypologie und Universalienforschung 2. Fachgebiet / Verantwortlich: Allgemeine und Vergleichende Sprachwissenschaft/ Prof. Dr. Johannes Helmbrecht 3. Inhalte des Moduls:

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN *

METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * LDV-Forum Bd. 5, Nr. 2/3, Jg. 1987/88, S. 17-25 17 METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * FACH BEITRÄGE Ulrich Heid Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung,

Mehr

Kookkurrenzanalyse Einführung

Kookkurrenzanalyse Einführung Einführung Kookkurenzanalyse die grundlegende Idee 1) Beobachtung: In einem Korpus tritt Wort X 1000mal auf, Wort Y 100mal, Wort Z 10mal. 2) Wahrscheinlichkeit: Die Kombination XY ist 10mal so wahrscheinlich

Mehr

Computerlinguistik: Ein Überblick

Computerlinguistik: Ein Überblick 11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik

Mehr

8 Fakultät für Philologie

8 Fakultät für Philologie 8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung i) Worum geht es? ii) Aufgaben und Anwendungen iii) Mehrdeutigkeit - Das Kernproblem iv) linguistische Grundlagen I. Der synthetische

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Automatisches Verstehen gesprochener Sprache

Automatisches Verstehen gesprochener Sprache Automatisches Verstehen gesprochener Sprache 5. Sprachverstehen und Morphologie Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Midas Metadata yield by Data Analysis

Midas Metadata yield by Data Analysis Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten

Mehr

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung

Mehr

Linguistische Informatik Einführung

Linguistische Informatik Einführung Linguistische Informatik Einführung Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Informatik und Linguistik Informatik als Werkzeug und Theoriegrundlage Linguistik

Mehr

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil

Mehr

Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012

Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012 Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012 Christian Kölbl Universität Augsburg, Lehrprofessur für Informatik 25. Oktober 2011 HAL 9000 - Zukunftsmusik

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Einführung in die Syntax und Morphologie. Vorlesung mit Übung WS 2010/2011, Computerlinguistik

Einführung in die Syntax und Morphologie. Vorlesung mit Übung WS 2010/2011, Computerlinguistik Einführung in die Syntax und Morphologie Vorlesung mit Übung WS 2010/2011, Computerlinguistik 02 Bedeutung von Sprache 1. Die menschliche Kommunikationsfähigkeit schlechthin (Satz A). 2. Eine bestimmte

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

Einführung in die germanistische Linguistik

Einführung in die germanistische Linguistik Jörg Meibauer / Ulrike Demske / Jochen Geilfuß-Wolfgang / Jürgen Pafel/Karl Heinz Ramers/Monika Rothweiler/ Markus Steinbach Einführung in die germanistische Linguistik 2., aktualisierte Auflage Verlag

Mehr

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie

Mehr

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora

Mehr

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie

Mehr

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Maschinelle Sprachverarbeitung: N-Gramm-Modelle HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind

Mehr

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme

Mehr

Einführung Computerlinguistik. Überblick

Einführung Computerlinguistik. Überblick Einführung Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-10-14 Schütze & Zangenfeind: Überblick 1 / 30 Take-away Schütze

Mehr

Übung zur Einführung in die Computerlinguistik. Wiebke Petersen WiSe 04/05

Übung zur Einführung in die Computerlinguistik. Wiebke Petersen WiSe 04/05 Übung zur Einführung in die Computerlinguistik Wiebke Petersen WiSe 04/05 Turing-Test 1950, Alan Turing, imitation game: Testkandidat muß per Fernschreiber zwischen männlichen und weiblichen Gesprächspartnern

Mehr

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Was ist Computerlinguistik? Dr. Benjamin Roth CIS LMU München Dr. Benjamin Roth (CIS LMU München) Einführung in die Computerlinguistik 1 / 69 Gliederung 1 Organisatorisches

Mehr

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort? Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische

Mehr

Inhaltsverzeichnis. I. Einleitendes 15. II. Wortbildung und Grammatik 17

Inhaltsverzeichnis. I. Einleitendes 15. II. Wortbildung und Grammatik 17 Inhaltsverzeichnis I. Einleitendes 15 II. Wortbildung und Grammatik 17 1. Darstellung der allgemeinen Problematik 17 2. Diskussion möglicher Ursachen 18 3. Positionierung der Wortbildung innerhalb der

Mehr

Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe

Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am 15.5.2002: Stefanie Grabbe Institut für Angewandte Informationswissenschaft Definitionen Korpus das, 1. Belegsammlung von

Mehr

Maschinelle Sprachverarbeitung

Maschinelle Sprachverarbeitung Maschinelle Sprachverarbeitung BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER Gertrud Faaβ Universität StuNgart, InsPtut für maschinelle Sprachverarbeitung Azenbergstr. 12, 70174 StuNgart 0711 685 81385 faaszgd@ims.uni

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 7. Foliensatz Wiebke Petersen Einführung CL 1 Morphologische Grundbegrie Wort / Lexem: abstrakte

Mehr

Kontrastive Linguistik und Lexikographie XII

Kontrastive Linguistik und Lexikographie XII Computer und zweisprachiges Wörterbuch moderne Lexikographie - intensive Verwendung der Elektronischen Datenverarbeitung (EDV) elektronische Wörterbücher (ewb) Bestimmung: z.t. wie bei Printwörterbüchern,

Mehr

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining 1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text

Mehr

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Im CISLEX sind für das deutsche Kernlexikon 206.000 Lemmata, 1.300.000 en und 2.350.000 Lesarten kodiert. Wichtiger ist aber die Herangehensweise, um

Mehr

Sprachproduktion. Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010

Sprachproduktion. Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010 Sprachproduktion Psycholinguistik (7/11; HS 2010/2011 Vilnius, den 26. Oktober 2010 Sprachliche Zentren im Gehirn SSSSensorische Funktionen Motorische Funktionen Sprachliche Zentren im Gehirn Generieren

Mehr

DELA Wörterbücher ===========================================================

DELA Wörterbücher =========================================================== DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela

Mehr

Information und Produktion. Rolland Brunec Seminar Wissen

Information und Produktion. Rolland Brunec Seminar Wissen Information und Produktion Rolland Brunec Seminar Wissen Einführung Informationssystem Einfluss des Internets auf Organisation Wissens-Ko-Produktion Informationssystem (IS) Soziotechnisches System Dient

Mehr

Logik und modelltheoretische Semantik. Grundlagen zum Bedeutung-Text-Modell (BTM)

Logik und modelltheoretische Semantik. Grundlagen zum Bedeutung-Text-Modell (BTM) Logik und modelltheoretische Semantik Grundlagen zum Bedeutung-Text-Modell (BTM) Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 13.6.2017 Zangenfeind: BTM 1 / 26 Moskauer

Mehr

Künstliche Intelligenz Text Mining

Künstliche Intelligenz Text Mining Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von

Mehr

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation: 02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete

Mehr

Germanistische Linguistik

Germanistische Linguistik b a c h e l o r - w i s s e n Albert Busch / Oliver Stenschke Germanistische Linguistik Eine Einführung R7 Guntef Narr Verlag Tübingen Inhalt Inhalt Vorwort 1 Themenblock i: Sprache und Zeichen Einheit

Mehr

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen Einführung in die Informatik für Hörer aller Fakultäten Prof. Jürgen Wolff von Gudenberg (JWG) Prof. Frank Puppe (FP) Prof. Dietmar Seipel (DS) Vorlesung (Mo & Mi 13:30-15:00 im Zuse-Hörsaal): FP: Form

Mehr

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: ) Modulhandbuch für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester 2013 (Version: 2013-06-26) 1 Modulübersicht V=Vorlesung, Ü=Übung, S=Seminar, P=Praktikum Semester Modulnr. Titel der

Mehr

Am Anfang war das Wort!

Am Anfang war das Wort! Am Anfang war das Wort! Was ist Morphologie? Der Begriff Morphologie wurde 1796 von Johann Wolfgang von Goethe in einer Tagebuchaufzeichnung für eine neue Wissenschaft geprägt,, die sich mit den Gestaltungsgesetzen

Mehr

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft , Informations- und Wissensmanagement Zentrum für Translationswissenschaft Grundlagen und Definitionen Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache.

Mehr

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Einführung in die Phonetik und Phonologie. Allgemeiner Überblick

Einführung in die Phonetik und Phonologie. Allgemeiner Überblick Einführung in die Phonetik und Phonologie Allgemeiner Überblick Phonetik und Phonologie Die beiden Bezeichnungen Phonetik und Phonologie sind aus dem griechischen Wort ϕωνþ (phōnē) abgeleitet, welches

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Statistische Verfahren in der Computerlinguistik

Statistische Verfahren in der Computerlinguistik Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Termin: 24. Januar 2005 Dozentin: Petersen, Wiebke Referenten: Höhfeld, Stefanie Kwiatkowski, Melanie Nather, Juliane 1 Maschinelle und computergestütze Übersetzungen Fortschreitende

Mehr

Einführung in die portugiesische Sprachwissenschaft

Einführung in die portugiesische Sprachwissenschaft Annette Endruschat Jürgen Schmidt-Radefeldt Einführung in die portugiesische Sprachwissenschaft Gunter Narr Verlag Tübingen Inhalt Vorwort 9 Abkürzungen und Abbildungsverzeichnis 12 1 Weltsprache Portugiesisch

Mehr

Praktikum Textmining

Praktikum Textmining Praktikum Textmining Uwe Quasthoff Christoph Teichmann Abteilung Automatische Sprachverarbeitung November 16, 2010 Uwe Quasthoff, Christoph Teichmann (ASV) Praktikum Textmining November 16, 2010 1 / 19

Mehr

3.1.2 Der Beitrag von Wortarten für die Sprachbeschreibung Bisherige Forschungsarbeiten und ihre Anwendung auf das Kreolische...

3.1.2 Der Beitrag von Wortarten für die Sprachbeschreibung Bisherige Forschungsarbeiten und ihre Anwendung auf das Kreolische... Inhaltsverzeichnis 1. Mauritius und das Kreolische auf Mauritius... 13 1.1 Landeskundlicher Teil ein Vorwort... 13 1.2 Zu Geographie, Bevölkerungsgruppen und Sprachen auf Mauritius... 14 1.3 Definition:

Mehr

Natural Language Processing

Natural Language Processing Natural Language Processing Kapitel 1: Einführung Prof. Dr. Johannes Maucher HdM MIB Version 1.7 13.10.2017 Prof. Dr. Johannes Maucher (HdM MIB) NLP Kapitel 1: Einführung Version 1.7 13.10.2017 1 / 30

Mehr

Aufbau eines Flexionslexikons für die Katalogbereinigung

Aufbau eines Flexionslexikons für die Katalogbereinigung Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de

Mehr