Was ist Statistik? Wozu dienen statistische Methoden?

Größe: px
Ab Seite anzeigen:

Download "Was ist Statistik? Wozu dienen statistische Methoden?"

Transkript

1 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen der maschinellen Sprachverarbeitung / Linguistik Übersicht über Anwendungen der Sprachverarbeitung und die Rolle statistischer Verfahren

2 25. APRIL 2002: BLATT 2 Quantitative Erfassung und Analyse von Datenstrukturen Deskriptive und explorative Statistik - Datenbeschreibung o Beschreibung von Daten o Darstellung von Daten o Strukturen und Besonderheiten in den Daten entdecken Analytische Statistik/induktive Statistik o Schlussfolgerungen aus Daten o Einbeziehung der Wahrscheinlichkeitstheorie (Stochastik)

3 25. APRIL 2002: BLATT 3 Würfelexperiment: Deskriptiv: bei hundert Würfen wurde 13 mal eins, 14 mal zwei... geworfen Explorativ: jede Augenzahl scheint etwa gleich häufig aufzutreten Induktiv: o Wie wird das Ergebnis aussehen, wenn ich weiter hundert Würfe mache o Wie sicher kann ich sein, dass es sich um einen fairen Würfel handelt Linguistisches Experiment Deskriptiv: In einem Korpus von Wörtern taucht das Wort Leviten 30 mal auf, davon 29 mal im gleichen Satz mit dem Wort lesen Explorativ: Feststellung der Auffälligkeit dieser Beobachtung im Vergleich zu anderen Wortpaaren Induktiv: o Wie wahrscheinlich ist es, dass eine solche Häufung zufällig zustande kommt? Was ist die Assoziationrate die hieraus folgert?

4 25. APRIL 2002: BLATT 4 Analyse, Verarbeitung und Erzeugung elektronischer Texte mit Hilfe von Computerprogrammen. Linguistisches Wissen Formalisierung des linguistischen Wissens Operationalisierung des linguistischen Wissen

5 25. APRIL 2002: BLATT 5 Syntax - Tagging - Parsing - Generierung syntaktisch korrekter Sätze - Erkennung von Mehrwortlexemen Morphologie - morphologischen Analyse von Wortformen - Flexions- Derivations- und Kompositionsanalyse - Generierung von Wortformen Semantik - automatische Disambiguierung mehrdeutiger Wörter - Erkennung semantischer Felder in Texten - Erstellung von und Generierung aus semantischen Repräsentationen Phonetik - Spracherkennung - Phon(em)-Graphem-Zuordnung Textlinguistik und Korpuslinguistik - Textanalyse und - gliederung, automatische Textkategorisierung, Text-Typen- Zuordnung, Genrezuordnung etc.

6 25. APRIL 2002: BLATT 6 Welche syntaktischen Kategorien sind wie häufig? Welche Kategorienfolgen sind wie häufig? DET N: 300 ADJ N : 32 V N : 3... Dasselbe für: Satztypen; Konstruktionen; Teil(bäume) Welche syntaktische Kategorie ist wahrscheinlich - sollte gewählt werden DET V/A N der irre Professor Welche syntaktische Analyse ist die richtige? Er sieht den Mann mit der Krawatte Er sieht den Mann mit dem Fernrohr

7 25. APRIL 2002: BLATT 7 Welche Bedeutung eines Wortes/einer Wortform ist häufiger/weniger häufig Rechner (Mensch der rechnet/computer) Kontextspezifische Bedeutungshäufigkeit Absturz des Rechners Absturz des kühlen Rechners Domänenspezifische Bedeutungshäufigkeit (in einem Computermagazin) kühle Rechner mit neuer CPU Bedeutungsdisambiguierung z.b. in der Kompositaanalyse Erstglieder zu Blatt: PFL:TI : 1.5 (Rosenblatt) (Blatt=Pflanzenteil) GED:TI : 1.0 (Manuskriptblatt) (Blatt = Papierblatt) Thematische Zuordnung

8 25. APRIL 2002: BLATT 8 Vollformen-Grundformen-Beziehungen Haus - Hau Haus - Haus Häufigkeit verschiedener Kompositasegmentierung Wach s tube Vollformen - Grundformen - Reduktion o Haus - Haus (nicht Hau) Disambiguierung mehrdeutiger Formen

9 25. APRIL 2002: BLATT 9 Themengebietspezifischer Wortschatz/Konstruktionen (spezifisch für eine Textsammlung, ein Teilkorpus) Welche Wörter sind häufig in bestimmten Textsorten andere textsortenspezifische Texteigenschaften (Wortlängen, Wortarten) Textkategorisierung - automatische Klassifikation o Themengebiete o Sprachenidentifizierung o Typenklassifizierung Clustering (Vollautomatische Klassifikation) Extraktion statistisch signifikanter Assoziationspaare

10 25. APRIL 2002: BLATT 10 Häufig zusammen auftretende Wörter mit möglichen Abständen Stilebenen Texttypen für Wörter Häufigkeiten/Gebräuchlichkeit/historische Entwicklung Erkennung und Extraktion von Mehrwortlexemen Automatische Erkennung von Stilebenen, Neologismen u.v.a.m.

11 25. APRIL 2002: BLATT 11 Korrekturprogramme o Rechtschreibkorrektur o Grammatikkorrektur Spracherkennung Textklassifikation o Inhaltlich o Sprachenidentifikation o Genre o... Textgenerierung Textretrieval - z.b. in Internet-Suchmaschinen Maschinelle Übersetzung

12 25. APRIL 2002: BLATT 12 Verbesserung der Rechtschreibkorrektur in der schule wird gelacht... er sagte, er Schule zur Zeit Arbeitslose Computerlinguisten.

13 25. APRIL 2002: BLATT 13 Überprüfung der Plausibilität einer von einer Grammatik generierten Wortfolge; Kommunikationshilfen mit Wortvorschlagssystemen Ich möchte dir einen W... (Witz erzählen) Generierung von Scheintexten

14 25. APRIL 2002: BLATT 14 Sprachenidentifikation (s. die meisten Suchmaschinen) - Ermittlung der Wahrscheinlichkeit mit der ein Text einer Sprache zugeordnet werden kann Filter. z.b. Pornofilter, wie in den meisten Suchmaschinen verfügbar Ermittlung des relevante Vokabulars Zuordnungswahrscheinlichkeit zur einer Sammlung von Referenzdokumenten Inhaltliche Klassifikation wie z.b. Scirus ( - automatische Erkennung eines wissenschaftlichen Fachgebiets

15 25. APRIL 2002: BLATT 15 Ranking - Ermittlung der Relevanz eines Dokuments bez. der Suchanfrage, abhängig von der Häufigkeit und Position des / der Suchterme/s, von der Länge des Dokuments... Vorklassifizierung von Texten nach verschiedenen Kriterien (Sprache, Domäne, Typ) (siehe Textklassifikation) Vorverarbeitung der Anfrage (Query)

16 25. APRIL 2002: BLATT 16 Statistische Algorithmen beruhen auf Zuordnungen in bilingualen Korpora Eigenschaften der Einzelsprachen Welches Wort ist wahrscheinlich eine Übersetzung eines anderen Wortes Welche Phrase / welcher Satz ist wahrscheinlich eine Übersetzung eines anderen Welche Übersetzung ist eine wahrscheinlicherer Satz in der Zielsprache?

Einführung in die maschinelle Sprachverarbeitung

Einführung in die maschinelle Sprachverarbeitung Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

3. Grundbegriffe der Wahrscheinlichkeitstheorie

3. Grundbegriffe der Wahrscheinlichkeitstheorie 03. JULI 2006: BLATT 17 3. Grundbegriffe der Wahrscheinlichkeitstheorie (v.a. nach Manning/Schütze: 40ff und Fahrmeir /Künstler/Pigeot/Tutz: 171ff) Übersicht Um entscheiden zu können, ob eine statistische

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 1 / 31 Take-away Phrasenstrukturgrammatik:

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

8 Fakultät für Philologie

8 Fakultät für Philologie 8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Vorbesprechung Mathe III

Vorbesprechung Mathe III Vorbesprechung Mathe III Dr. Vera Demberg, Prof. Dr. Enrico Lieblang (HTW) Universität des Saarlandes April 19th, 2012 Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 1 / 20 Formalien Pflichtveranstaltung

Mehr

Skript und Begleitmaterial. Statistische Methoden in der Sprachverarbeitung

Skript und Begleitmaterial. Statistische Methoden in der Sprachverarbeitung Skript und Begleitmaterial Statistische Methoden in der Sprachverarbeitung Sommer 006 Clemens Marschner Stefan Langer Fast Search&Transfer Email: auf Anfrage Vorbemerkung Dieses Skript entstand vom Sommersemester

Mehr

Germanistische Linguistik

Germanistische Linguistik bachelor-wissen Albert Busch / Oliver Stenschke Germanistische Linguistik Eine Einführung 2., durchgesehene und korrigierte Auflage Gunter Narr Verlag Tübingen Inhalt Vorwort 1 Sprache und Zeichen Einheit

Mehr

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.

Korpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora

Mehr

Germanistische Linguistik

Germanistische Linguistik b a c h e l o r - w i s s e n Albert Busch / Oliver Stenschke Germanistische Linguistik Eine Einführung R7 Guntef Narr Verlag Tübingen Inhalt Inhalt Vorwort 1 Themenblock i: Sprache und Zeichen Einheit

Mehr

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und

Mehr

Einführung (Skript 2013)

Einführung (Skript 2013) Einführung (Skript 2013) Informationswissenschaft Universität Regensburg Jürgen Reischer Informationslinguistik in Regensburg Übersicht aus informationswissenschaftlicher Sicht: B.A. Einführung in die

Mehr

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle Morphologische Merkmale Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle Merkmale Das Wort 'Merkmal' ' bedeutet im Prinzip soviel wie 'Eigenschaft'

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Kluge Andreas, 13IN-M basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 19. Juni 2014 Übersicht Gewünschte Funktionalität Schwierigkeiten

Mehr

Linguistische Informatik Einführung

Linguistische Informatik Einführung Linguistische Informatik Einführung Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Informatik und Linguistik Informatik als Werkzeug und Theoriegrundlage Linguistik

Mehr

Vorwort zur zweiten Auflage Vorbemerkung Zur Einführung

Vorwort zur zweiten Auflage Vorbemerkung Zur Einführung Vorwort zur zweiten Auflage Vorbemerkung Zur Einführung XI XIII XV I. Allgemeine Gesichtspunkte 1 1. Der Beitrag der Linguistik zur Übersetzungstheorie und -praxis 1 1.1 Übersetzbarkeit vs. Unübersetzbarkeit.

Mehr

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische

Mehr

Einführung in die Computerlinguistik: Morphologie und Automaten I

Einführung in die Computerlinguistik: Morphologie und Automaten I Einführung in die Computerlinguistik: Morphologie und Automaten I WS 2013/2014 Manfred Pinkal Morphologie Morphologie ist der Teilbereich der Linguistik, der sich mit der internen Struktur von Wörtern

Mehr

Mit Computerlinguistik und Sprachtechnologie in die Zukunft: Die Technik

Mit Computerlinguistik und Sprachtechnologie in die Zukunft: Die Technik 1 Mit Computerlinguistik und Sprachtechnologie in die Zukunft: Die Technik Ein Fragebogen zur Einschätzung der Aktualität von Methoden und zum Zeithorizont von Entwicklungen. Karin Haenelt, 25.06.2002

Mehr

Sachrechnen/Größen WS 14/15-

Sachrechnen/Größen WS 14/15- Kapitel Daten & Wahrscheinlichkeit 3.1 Kombinatorische Grundlagen 3.2 Kombinatorik & Wahrscheinlichkeit in der Grundschule 3.3 Daten Darstellen 3.1 Kombinatorische Grundlagen Verschiedene Bereiche der

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Einführung in die germanistische Linguistik

Einführung in die germanistische Linguistik Jörg Meibauer / Ulrike Demske / Jochen Geilfuß-Wolfgang / Jürgen Pafel/Karl Heinz Ramers/Monika Rothweiler/ Markus Steinbach Einführung in die germanistische Linguistik 2., aktualisierte Auflage Verlag

Mehr

DELA Wörterbücher ===========================================================

DELA Wörterbücher =========================================================== DELA Wörterbücher =========================================================== Der Umgang mit externen Ressourcen in Unitex Was man beim Erstellen eigener Lexika beachten sollte? Ein Vortrag von Michaela

Mehr

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung i) Worum geht es? ii) Aufgaben und Anwendungen iii) Mehrdeutigkeit - Das Kernproblem iv) linguistische Grundlagen I. Der synthetische

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr

Computerlinguistik: Ein Überblick

Computerlinguistik: Ein Überblick 11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen Einführung in die Informatik für Hörer aller Fakultäten Prof. Jürgen Wolff von Gudenberg (JWG) Prof. Frank Puppe (FP) Prof. Dietmar Seipel (DS) Vorlesung (Mo & Mi 13:30-15:00 im Zuse-Hörsaal): FP: Form

Mehr

Einführung in die Computerlinguistik. Morphologie III

Einführung in die Computerlinguistik. Morphologie III Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III

Mehr

Praktikum Textmining

Praktikum Textmining Praktikum Textmining Uwe Quasthoff Christoph Teichmann Abteilung Automatische Sprachverarbeitung November 16, 2010 Uwe Quasthoff, Christoph Teichmann (ASV) Praktikum Textmining November 16, 2010 1 / 19

Mehr

Einführung in die Phonetik und Phonologie. Allgemeiner Überblick

Einführung in die Phonetik und Phonologie. Allgemeiner Überblick Einführung in die Phonetik und Phonologie Allgemeiner Überblick Phonetik und Phonologie Die beiden Bezeichnungen Phonetik und Phonologie sind aus dem griechischen Wort ϕωνþ (phōnē) abgeleitet, welches

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen

Mehr

METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN *

METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * LDV-Forum Bd. 5, Nr. 2/3, Jg. 1987/88, S. 17-25 17 METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * FACH BEITRÄGE Ulrich Heid Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung,

Mehr

Stochastik - Kapitel 2

Stochastik - Kapitel 2 " k " h(a) n = bezeichnet man als die relative Häufigkeit des Ereignisses A bei n Versuchen. n (Anmerkung: für das kleine h wird in der Literatur häufig auch ein r verwendet) k nennt man die absolute Häufigkeit

Mehr

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: ) Modulhandbuch für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester 2013 (Version: 2013-06-26) 1 Modulübersicht V=Vorlesung, Ü=Übung, S=Seminar, P=Praktikum Semester Modulnr. Titel der

Mehr

einführung in die Sprachwissenschaft für romanisten

einführung in die Sprachwissenschaft für romanisten josef felixberger helmut berschin einführung in die Sprachwissenschaft für romanisten max hueber verlag Inhaltsübersicht Vorwort 11 A. Grundbegriffe 1. Die Sprache - ein Kommunikationssystem 13 1.1. Kommunikationsmodell

Mehr

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Die Sammlung unikaler Wörter des Deutschen Aufbauprinzipien und erste Auswertungsergebnisse

Die Sammlung unikaler Wörter des Deutschen Aufbauprinzipien und erste Auswertungsergebnisse Die Sammlung unikaler Wörter des Deutschen Aufbauprinzipien und erste Auswertungsergebnisse Manfred Sailer und Beata Trawiński SFB 441 Universität Tübingen {mf,trawinsk}@sfs.uni-tuebingen.de. EUROPHRAS

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

Lexikalisch-semantische Disambiguierung mit WordNet

Lexikalisch-semantische Disambiguierung mit WordNet Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische

Mehr

Grundlagen und Definitionen

Grundlagen und Definitionen Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann

Mehr

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften

Mehr

AVS-M Name des Moduls: Sprachtypologie und Universalienforschung

AVS-M Name des Moduls: Sprachtypologie und Universalienforschung AVS-M 10 1. Name des Moduls: Sprachtypologie und Universalienforschung 2. Fachgebiet / Verantwortlich: Allgemeine und Vergleichende Sprachwissenschaft/ Prof. Dr. Johannes Helmbrecht 3. Inhalte des Moduls:

Mehr

Überblick. Grundkurs C: Einführung in die Morphologie Komposition. Linguistische Analyse. Linguistische Analyse. (Linguistische) Theorie: -ung

Überblick. Grundkurs C: Einführung in die Morphologie Komposition. Linguistische Analyse. Linguistische Analyse. (Linguistische) Theorie: -ung Grundkurs C: Einführung in die Morphologie Komposition Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Überblick einige Folien zum Sinn linguistischer Analyse e Aspekte Muster, Rekursivität

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Stochastik Klasse 10 Zufallszahlen

Stochastik Klasse 10 Zufallszahlen Thema Grit Moschkau Stochastik Klasse 10 Zufallszahlen Sek I Sek II ClassPad TI-Nspire CAS. Schlagworte: Urnenmodell, Histogramm, absolute und relative Häufigkeit, Zufallsexperiment, Wahrscheinlichkeit,

Mehr

Speech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber

Speech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber Speech Recognition Grammar Compilation in Grammatikal Framework von Michael Heber Agenda 1. Einführung 2. Grammatical Framework (GF) 3. Kontextfreie Grammatiken und Finite-State Modelle 4. Quellen 2 1.

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

005 Einführungen. Abrisse (hier nur Gesamtgebiet) 010 Grundlegende Untersuchungen. (hier nur Gesamtgebiet) Lehrbücher

005 Einführungen. Abrisse (hier nur Gesamtgebiet) 010 Grundlegende Untersuchungen. (hier nur Gesamtgebiet) Lehrbücher Allgemeine Sprachwissenschaft Allgemeine Literaturwissenschaft Nicht vertretene Philologien (SL ) Allgemeines 000 Lexika. Wörterbücher. Handbücher 003 Atlanten. Bildwerke 005 Einführungen. Abrisse (hier

Mehr

Künstliche Intelligenz Text Mining

Künstliche Intelligenz Text Mining Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Quantitative Linguistik 2 WS 2004/05,

Quantitative Linguistik 2 WS 2004/05, Quantitative Linguistik 2 WS 2004/05, 21.10.2004 Gegenüberstellung: Linguistik und QL Exempel: Das Zipfsche Gesetz Zielsetzung der Quantitativen Linguistik Zur Methodik der Quantitativen Linguistik Jürgen

Mehr

Algorithmen und Formale Sprachen

Algorithmen und Formale Sprachen Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und

Mehr

Midas Metadata yield by Data Analysis

Midas Metadata yield by Data Analysis Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten

Mehr

Einführung in die portugiesische Sprachwissenschaft

Einführung in die portugiesische Sprachwissenschaft Annette Endruschat Jürgen Schmidt-Radefeldt Einführung in die portugiesische Sprachwissenschaft Gunter Narr Verlag Tübingen Inhalt Vorwort 9 Abkürzungen und Abbildungsverzeichnis 12 1 Weltsprache Portugiesisch

Mehr

Die bedingte Wahrscheinlichkeit in der Spracherkennung. Wie rechnet man mit...?

Die bedingte Wahrscheinlichkeit in der Spracherkennung. Wie rechnet man mit...? Die bedingte Wahrscheinlichkeit in der Spracherkennung Florian Schiel Was ist...? Münchner Winterwetter Beispiele Statistik! Wozu braucht man...? Automatische Spracherkennung Wie rechnet man mit...? Florian

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

AVS - M 01. Allgemeine und Vergleichende Sprachwissenschaft/ Verantwortlich:

AVS - M 01. Allgemeine und Vergleichende Sprachwissenschaft/ Verantwortlich: AVS - M 01 1. Name des Moduls: Basismodul I: Grundlagen und Methoden der AVS Allgemeine und Vergleichende Sprachwissenschaft/ 3. Inhalte / Lehrziele Die Studierenden werden in diesem Basismodul vertraut

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Einführung in die germanistische Linguistik

Einführung in die germanistische Linguistik Lehrbuch Einführung in die germanistische Linguistik Bearbeitet von Jörg Meibauer, Ulrike Demske, Jochen Geilfuß-Wolfgang, Jürgen Pafel, Karl Heinz Ramers, Monika Rothweiler, Markus Steinbach 2., aktualisierte

Mehr

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Satz Umstrukturierung für statistisch maschinelle Übersetzung Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Einführung Beschreibung einer

Mehr

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse

Mehr

Aufbau eines Flexionslexikons für die Katalogbereinigung

Aufbau eines Flexionslexikons für die Katalogbereinigung Exposé der Studienarbeit: Aufbau eines Flexionslexikons für die Katalogbereinigung Eingereicht von: Johannes Kozakiewicz Institut für Informatik Humboldt-Universität zu Berlin Matr.Nr.: 186778 kozakiewicz@gmx.de

Mehr

Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten

Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten Sabine Schulte im Walde Institut für Maschinelle Sprachverarbeitung Universität Stuttgart Heidelberg,

Mehr

Sprachkontrastive Darstellung Deutsch-Türkisch

Sprachkontrastive Darstellung Deutsch-Türkisch Germanistik Nuran Aksoy Sprachkontrastive Darstellung Deutsch-Türkisch Studienarbeit Freie Universität Berlin Wintersemester 2003/2004 Fachbereich Philosophie und Geisteswissenschaften: Fächergruppe deutsche

Mehr

Sprache systematisch verbessern. Eugen Okon

Sprache systematisch verbessern. Eugen Okon Sprache systematisch verbessern Eugen Okon Sprache systematisch verbessern Gliederung Einleitung Die CLEAR Methode CLEAR in einer Fallstudie Ergebnisse und Bewertung Zusammenfassung Sprache systematisch

Mehr

Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012

Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012 Die Geschichte der Sprachverarbeitung ist eine Geschichte voller Mißverständnisse WS 2011/2012 Christian Kölbl Universität Augsburg, Lehrprofessur für Informatik 25. Oktober 2011 HAL 9000 - Zukunftsmusik

Mehr

2 Sprachliche Einheiten

2 Sprachliche Einheiten 2 Sprachliche Einheiten Inhalt Semiotische Begriffe Wörter Wortbestandteile Wortzusammensetzungen Wortgruppen Text und Dialog Wort- und Satzbedeutung 2.1 Semiotische Begriffe Semiotische Begriffe Semiotik

Mehr

Wieviel Computerlinguistik braucht der Word-Anwender?

Wieviel Computerlinguistik braucht der Word-Anwender? Wieviel Computerlinguistik braucht der Word-Anwender? Tobias Thelen Institut für Semantische Informationsverarbeitung Universität Osnabrück E-Mail: tthelen@uos.de www.schrifterwerb.de Tobias Thelen tthelen@uos.de

Mehr

dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement

dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung Die

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Einführung in die Phonologie und Graphematik

Einführung in die Phonologie und Graphematik Einführung in die Phonologie und Graphematik Bearbeitet von Nanna Fuhrhop, Jörg Peters 1. Auflage 2013. Buch inkl. Online-Nutzung. XV, 301 S. Softcover ISBN 978 3 476 02373 5 Format (B x L): 15,5 x 23,5

Mehr

Maschinelle Übersetzung (Einführung Ausgewählte Techniken der Maschinellen Übersetzung) Susanne J. Jekat Zürcher Hochschule Winterthur

Maschinelle Übersetzung (Einführung Ausgewählte Techniken der Maschinellen Übersetzung) Susanne J. Jekat Zürcher Hochschule Winterthur Maschinelle Übersetzung (Einführung Ausgewählte Techniken der Maschinellen Übersetzung) Susanne J. Jekat Zürcher Hochschule Winterthur jes@zhwin.ch Maschinelle Übersetzung Terminologie Historische Entwicklung

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Termin: 24. Januar 2005 Dozentin: Petersen, Wiebke Referenten: Höhfeld, Stefanie Kwiatkowski, Melanie Nather, Juliane 1 Maschinelle und computergestütze Übersetzungen Fortschreitende

Mehr

Überblick. Linguistische Anwendungen: æ Spracherkennung æ Textretrival æ probabilistische Grammatiken: z.b. Disambiguierung. Problem: woher Daten?

Überblick. Linguistische Anwendungen: æ Spracherkennung æ Textretrival æ probabilistische Grammatiken: z.b. Disambiguierung. Problem: woher Daten? 1 Überblick æ Beschreibende Statistik: Auswertung von Experimenten und Stichproben æ Wahrscheinlichkeitsrechnung: Schlüsse aus gegebenen Wahrscheinlichkeiten, Hilfsmittel: Kombinatorik æ Beurteilende Statistik:

Mehr

Social Media Analytics: Automatische Analyse von Hotelbewertungen

Social Media Analytics: Automatische Analyse von Hotelbewertungen Social Media Analytics: Automatische Analyse von Hotelbewertungen - Anwendungsbericht bei HRS Hotel Reservation Service - Dr. Kornél Markó, Averbis GmbH Dr. Katrin Tomanek, Averbis GmbH Oliver Juwig, HRS

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

Korpuslinguistik IDS-Korpora und COSMAS II

Korpuslinguistik IDS-Korpora und COSMAS II Korpuslinguistik IDS-Korpora und COSMAS II Heike Zinsmeister Korpuslinguistik 11. 11. 2011 Gliederung 1 Einleitung 2 Korpusbestand am IDS 3 Korpusrecherche mit COSMAS II 4 Referenzen Das Institut für Deutsche

Mehr

CyMON - SDMS. Warum SDMS? Semantisches Dokumenten Management System

CyMON - SDMS. Warum SDMS? Semantisches Dokumenten Management System CyMON - SDMS Semantisches Dokumenten Management System Warum SDMS? Die Informationsgesellschaft basiert auf schneller Verfügbarkeit und einfacher Verwendbarkeit von großen Mengen an Daten und Informationen.

Mehr