Projektseminar "Texttechnologische Informationsmodellierung"
|
|
- Manuela Hochberg
- vor 5 Jahren
- Abrufe
Transkript
1 Projektseminar "Texttechnologische Informationsmodellierung"
2 Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck von der Arbeit mit haben
3 Was sind?
4 sind Sammlungen von Texten oder Äußerungen einer Sprache genauer: Sammlungen von Textsorten Zentraler Bestandteil linguistischer Verarbeitung natürlicher Sprachen Lange Zeit konzentrierten sich auf einen Aspekt von Sprache (Syntax, Morphologie, Diskursanalyse) Jetzt werden mehrfach (hinsichtlich verschiedener Ebenen) annotiert Verschiedene Betrachtungsebenen sind von Interesse
5 (Auswahl) Referenzkorpora: BNC (British National Corpus), umfasst ca. 100 Millionen Wörter ( DeReKo (Deutscher Referenzkorpus) ( Weitere : Zeitungen: IDS Mannheim, COSMAS System ( Literarische Werke: 1984 von George Orwell, als Korpus aufbereitet im Projekt Multext-East ( Juristische Texte aus Official Journal of the European Community im Projekt Multext (
6 in der Computerlinguistik Ressource zur Modellbildung, d.h. der Beschreibung (syntaktischer) Merkmale Trainingsmaterial für Anwendungen wie Korrekturprogramme, Textmining, Dialogsysteme, morphologische Tagger, Übersetzungssysteme, Grundlage automatischer Annotationen: 1. Erstellen eines Korpus 2. Erzeugen von Annotationsregeln anhand des Korpus 3. automatische Annotation an neuen Daten
7 Arbeiten mit : 1. Korpuserstellung a) Auswahl einer Textsorte b) Identifikation von repräsentativen Texten c) Vorverarbeitung (Digitalisierung, Vereinheitlichung) 2. Annotation a) Auswahl des Untersuchungsgegenstandes b) Identifikation der relevanten Informationseinheiten c) Auswahl eines Annotationsschemas
8 Annotationsverfahren Automatische Annotation: Regelbasiert, z.b. mittels der Constraint Grammar ( Statistisch, z.b. (hauptsächlich für Spracherkennung verwendete) Hidden Markov Models Kombinierte Verfahren, z.b. für große, unbekannte Textmengen Nachteil: keine Fehlerfreiheit gewährleistet Manuelle Annotation: Vorteil: Verlässlichere Annotationen, auf verschiedenen Annotationsebenen: POS (Part of Speech Wortarten) Syntaktische Strukturen Lemmatisierung Semantische Informationen Nachteil: Große Datenmengen nur schwer zu erstellen
9 Rolle der Texttechnologie: Standardisierte Repräsentationsformate (z.b. Auszeichnungssprachen wie SGML/ XML) erleichtern die Wiederverwertbarkeit von Verbreitete Formate, die auf XML zurückgreifen (z.b. XHTML) erleichtern die Erschließung großer Datenmengen Neue Analysegegenstände werden erschlossen, z.b. durch kombinierte Repräsentation verschiedener Schriftsysteme Annotation auf mehreren Ebenen: Neue Kombination und Wiederverwendung der Annotationen
10 spezifikationen und standards Als Ergebnisse von Projektarbeiten: NITE CES TUSNELDA (aufbauend auf XCES) E-MELD MATE TASX Verbmobil Als Ergebnis von Standardisierungsbemühungen: TEI (als Standard für allgemeine Textstrukturierung) XCES Dublin Core (als Metadatenstandard)
11 Ihre Aufgabe: Untersuchen Sie die im Ordner Kursvorlagen abgelegten Beispieldaten Entscheiden Sie sich für eine linguistische Fragestellung, nach der diese Textsorte annotiert werden kann (bei Audiodaten: transkribieren Sie zunächst die Rohdaten) Identifizieren Sie die strukturgebenden Informationseinheiten Erstellen Sie eine XML DTD, anhand derer diese Textsorte annotiert werden kann Annotieren Sie den Text gemäß Ihrer DTD
Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrKorpus. Was ist ein Korpus?
Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend
MehrWiederholung: Forschungsfragen und Korpusdaten. GK C: Einführung in die Korpuslinguistik. Wiederholung: Forschungsfragen und Korpusdaten
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Wiederholung: Forschungsfragen und Korpusdaten Korpusdaten können benutzt werden um zu entscheiden,
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrInhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es
Inhalt und Typen von Korpora Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es Inhalt von Korpora Korpora können die verschiedensten Texte in den unterschiedlichsten Zusammensetzungen
Mehrxii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
MehrInhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
MehrKorpuslinguistik. Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, Korpuslinguistik. Jürgen Spitzmüller.
Vorlesungsreihe»Methoden der Linguistik«(WS 2004/05) Universität Zürich, 7.12.2004 1. Teil: Theorie Grundlegende theoretische Fragestellungen: Was sind überhaupt Korpora? Wozu Korpora? Was sollen Korpora
MehrLinguistische Forschungsdaten
Linguistische Forschungsdaten Andreas Witt Institut für Deutsche Sprache (IDS), Mannheim 45 Jahre und mehr IDS, Korpora, Verfügbarkeit, rechtliche Fragen (1) 1964 Das Institut für Deutsche Sprache wird
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische
MehrSprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am : Stefanie Grabbe
Sprachliche Ressourcen I - Korpora - Hauptseminar Sprachtechnologie Referentin am 15.5.2002: Stefanie Grabbe Institut für Angewandte Informationswissenschaft Definitionen Korpus das, 1. Belegsammlung von
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde
MehrWiederholung: Linguistische Daten. HS Korpuslinguistische Beschreibung von Phänomenen des Deutschen. Organisatorisches. Wiederholung: Korpusdaten
HS Korpuslinguistische Beschreibung von Phänomenen des Deutschen Anke Lüdeling WS 2003/2004 Wiederholung: Linguistische Daten linguistische Fragestellung (eingebettet in eine Theorie oder ein Modell) dafür
MehrDEREKO Das Deutsche Referenzkorpus
DEREKO Das Deutsche Referenzkorpus INSTITUT FÜR DEUTSCHE SPRACHE KobRA-Kickoff-Treffen, Dortmund 16.11.2012 1/23 : DEREKO Das Deutsche Referenzkorpus, KobRA-Kickoff, Dortmund 16.11.12 Überblick 1 Allgemeines
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrTechnik und Arbeitsablauf für FALKO
Peter Adolphs Emil Kroymann Technik und Arbeitsablauf für FALKO 1 Software 1.1 EXMARaLDA Partitur-Editor EXMARaLDA ist ein Annotationswerkzeug für linguistische Korpora. Es wurde von der Universität Hamburg
MehrStrukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs
Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand
MehrEinführung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrLemmatisierung. Einführung in die Korpuslinguistik. Lemmatisierung und Wortarttagging. Lemmatisierung. zum Erinnern... zum Erinnern...
Lemmatisierung Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 zum Lemmatisieren braucht man also ein Lexikon, in dem die Lemmata mit ihrer Flexionsklasse
MehrÜberblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation
Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung
MehrKorpuserstellung - Themen. HS Korpuslinguistik. Was mach ich, wenn ich ein Korpus will? Referenzkorpus. Datensammlung: opportunistisch.
Korpuserstellung - Themen HS Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2005 feste Korpora vs. wachsende Korpora Repräsentativität (das R-Wort ) Ausgewogenheit Datenakquisition
MehrElektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,
Mehrein Wort ist nicht in 3 Jahren FAZ Hauptseminar: Einführung in die Korpuslinguistik Welche Wörter kommen nicht vor? Allerdings,...
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 ein Wort ist nicht in 3 Jahren FAZ kann man daraus schließen, dass es nicht mehr verwendet
MehrEinführung in die Computerlinguistik
Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen
MehrOrganisatorisches: Plan. HS Korpuslinguistik. Was mach ich, wenn ich ein Korpus will? Korpuserstellung - Themen. Referenzkorpus.
Organisatorisches: Plan HS Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 27.04.2007 Korpusdesign 04.05.2007 Korpusvorverarbeitung 1: Tokenisieren & Lemmatisieren 11.05.2007
MehrSerengeti webbasierte semi-automatische Annotation semantischer Relationen
Serengeti webbasierte semi-automatische Annotation semantischer Relationen Nils Diewald, Anna Garbar, Daniela Goecke, Maik Stührenberg Übersicht Projekt Sekimo Annotationsschema zur Annotation semantischer
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrCLARIN-D. Überblick, Metadaten, Demo. Christoph Kuras. Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig
CLARIN-D Überblick, Metadaten, Demo Christoph Kuras Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig Institut für Informatik 1 CLARIN: Common Language Resource and Technology
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin
MehrComputerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Was ist Computerlinguistik? Definition Anwendungen Fragestellung
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrAufgabe. Erstellen eines kleinen Lernerkorpus exemplarisches Aufzeigen, wie Fehler sinnvoll klassifiziert und annotiert werden könnten
Aufgabe Erstellen eines kleinen Lernerkorpus exemplarisches Aufzeigen, wie Fehler sinnvoll klassifiziert und annotiert werden könnten Mitstreiterinnen: Elena Briskina, Julia Hantschel, Jenny Krüger, Stéphanie
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
MehrWiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik
Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de
MehrOrganisatorisches. VL: Einführung in die Korpuslinguistik. Was mach ich, wenn ich ein Korpus will? Korpuserstellung - Themen
Organisatorisches VL: Einführung in die Korpuslinguistik 05.05.: Vertretung durch Maik Walter: Der Lerner als Entdecker: Über den Umgang mit Daten in der Fremdsprachvermittlung Anke Lüdeling anke.luedeling@rz.hu-berlin.de
MehrINFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka
INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung
MehrKorpuslinguistik IDS-Korpora und COSMAS II
Korpuslinguistik IDS-Korpora und COSMAS II Heike Zinsmeister Korpuslinguistik 11. 11. 2011 Gliederung 1 Einleitung 2 Korpusbestand am IDS 3 Korpusrecherche mit COSMAS II 4 Referenzen Das Institut für Deutsche
MehrIvana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,
Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrLösungsvorschlag für das Übungsblatt 8. Aufgabe1.
Lösungsvorschlag für das Übungsblatt 8. Aufgabe1. 3 Det A N VP R6 4 Any A N VP L3 5 Any intelligent N VP L4 6 Any intelligent cat VP L2 Nach den Regeln kann der Satz weiter nicht erzeugt warden, deswegen
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrInformationsmodellierung in XML und SGML
Henning Lobin Informationsmodellierung in XML und SGML Mit 29 Abbildungen und 4 Tabellen Springer Inhalt 1 Einleitung 1 1.1 1986 - eine neue Zeit beginnt 1 1.2 Was ist,textuelle Informationsmodellierung'?
MehrOrganisatorisches: Poster. Einführung in die Korpuslinguistik. Organisatorisches: Poster. Organisatorisches: Poster. Organisatorisches: Poster
Organisatorisches: Poster Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2005 Erstellung eines wissenschaftlichen Posters in einer Gruppe (< 4 Personen)
MehrComputerlinguistik, Markup-Sprachen,
Computerlinguistik, Markup-Sprachen, und das World Wide Web Georg Rehm Justus-Liebig-Universität Giessen Arbeitsbereich Angewandte Sprachwissenschaft und Computerlinguistik Otto-Behaghel-Strasse 10 D 35394
MehrSpeech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber
Speech Recognition Grammar Compilation in Grammatikal Framework von Michael Heber Agenda 1. Einführung 2. Grammatical Framework (GF) 3. Kontextfreie Grammatiken und Finite-State Modelle 4. Quellen 2 1.
MehrVerknüpfung heterogener texttechnologischer Ressourcen
Verknüpfung heterogener texttechnologischer Ressourcen Daniela Goecke, Dieter Metzing, Andreas Witt Fakultät für Linguistik und Literaturwissenschaft Universität Bielefeld Postfach 10 01 31 33501 Bielefeld
MehrProf. Dr. Udo Hahn. Seminar im Modul B-GSW-12 SoSe 2018
Seminar im Modul B-GSW-12 SoSe 2018 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität
MehrFürstinnenkorrespondenzen Experiment einer Nachnutzung. Stefan Dumont, Berlin
Fürstinnenkorrespondenzen Experiment einer Nachnutzung Stefan Dumont, Berlin Ressource Frühneuzeitliche Fürstinnenkorrespondenzen im mitteldeutschen Raum Ziel: Kulturhistorisch bedeutsame Korrespondenzen
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrEinführung in die Korpuslinguistik
Einführung in die Korpuslinguistik Ines Rehbein WS 09/10 Ines Rehbein (WS 09/10) VL Computerlinguistik Oktober 2009 1 / 48 Überblick 1 Wo kommen die linguistischen Daten her? 2 Korpuslinguistik Was macht
MehrAusgewählte Techniken der Maschinellen Übersetzung. Susanne J. Jekat ZHW Subject: MTZH
Ausgewählte Techniken der Maschinellen Übersetzung Susanne J. Jekat ZHW E-mail: jes@zhwin.ch, Subject: MTZH Unterschied zwischen Normalisierung und Lemmatisierung? Enthält GermaNet schweizerdeutsche Einträge?
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von
MehrComputerlinguistik: Ein Überblick
11.2.2016 Einleitung: Was ist Computerlinguistik? Was ist Computerlinguistik? Es gibt verschiedene Definitionen davon, was Computerlinguistik ist; folgende ist die für uns maßgebliche: Computerlinguistik
MehrWiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.
Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen
MehrDas Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv
Das Deutsche Textarchiv als Repositorium und Werkzeug Frank Wiegand (BBAW) Deutsches Textarchiv www.deutschestextarchiv.de wiegand@bbaw.de Deutsches Textarchiv Referenzkorpus für die schriftliche neuhochdeutsche
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Spracherkennung und Hidden Markov Modelle Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Einführung in die Computerlinguistik WS 04/05 Spracherkennung Merkmalsextraktion
MehrNLP - Analyse des Wissensrohstoffs Text
NLP - Analyse des Wissensrohstoffs Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Organisatorisches Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607
MehrWörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren
Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische
MehrLiteratur. Verteilte Anwendungen WS Teil 2/Namensräume
Literatur [2-1] Eckstein, Robert; Casabianca, Michel: XML Kurz und gut. O'Reilly, 2. Auflage, 2003 [2-2] Nussbaumer, Alfred; Mistlbacher, August: XML Ge-Packt. mitp, 2002 [2-3] Musciano, Chuck; Kennedy,
MehrNLP - Analyse des Wissensrohstoffs Text
NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrWissensrepräsentation
Wissensrepräsentation Vorlesung Sommersemester 2008 12. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Übersicht Rückblick, Zusammenhänge Mysterien 2 Inhalte im abstrakten Überblick Künstliche
MehrLinguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Linguistische Aufbereitung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.01.2011 Linguistische Aufbereitung Es war einmal eine kleine Hexe, die war erst einhundertsiebenundzwanzig Jahre alt,
MehrHistorische Linguistik HS Historische Korpuslinguistik
Historische Linguistik HS Historische Korpuslinguistik Anke Lüdeling Roland Hinterhölzl WS 2003/2004 per se 'Korpuslinguistik' (man hat ja nix anderes ) 19. Jhd. Entwicklung von Methodik zur Erforschung
MehrIch baue ein eigenes Korpus
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte
MehrErkennung und Erzeugung gesprochener Sprache
Erkennung und Erzeugung gesprochener Sprache Sebastian Pado Einführung in die Computerlinguistik 2004/2005 1 Einführung Viele computerlinguistische Anwendungen gehen von textbasierter Ein/Ausgabe aus (I.a.)
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrTwitter als interaktive Erweiterung des Mediums Fernsehen: Inhaltliche Analyse von Tatort- Tweets
Twitter als interaktive Erweiterung des Mediums Fernsehen: Inhaltliche Analyse von Tatort- Tweets Manuel Burghardt 1, Heike Karsten 2, Melanie Pflamminger 2 und Christian Wolff 1 Lehrstuhl für Medieninformatik
MehrSemiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
MehrLAUDATIO-Repository für Anwender. Carolin Odebrecht Humboldt-Universität zu Berlin LAUDATIO-repository.org
LAUDATIO-Repository für Anwender Carolin Odebrecht Humboldt-Universität zu Berlin LAUDATIO-repository.org Arbeiten mit (historischen) Fragen, die oft gestellt werden: Korpora Wo finde ich Korpora aus dem
MehrSemiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
MehrMedienkompetenz, Grafik und DTP
VO 340381 Informationsdesign; Medienkompetenz, Grafik und DTP Zentrum für Translationswissenschaft Letztes Mal sprachen wir über: Software, Betriebssysteme, Cloud Computing Aufbau Definition Metadata then,
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag
MehrWDG Analyse und Transformation (WAT)
WDG Analyse und Transformation (WAT) Studienprojekt von Ineta Sejane und Wiebke Wagner am Institut für Deutsche Sprache Mannheim WDG Das Wörterbuch zur deutschen Grammatik WDG enthält ca. 150 000 Lemmata.
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Prof Dr. Matthew Crocker Universität des Saarlandes 18. Juni 2015 Matthew Crocker (UdS) HMM Anwendungen 18. Juni 2015 1 / 26 Hidden Markov Modelle in der Computerlinguistik
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrErkennung und Erzeugung gesprochener Sprache
Erkennung und Erzeugung gesprochener Sprache 8.11.2005 Sebastian Pado Einführung in die Computerlinguistik 2005/2006 M. Pinkal / S. Pado UdS 1 Einführung Viele computerlinguistische Anwendungen gehen von
MehrVolltextsuche und Text Mining
1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text
MehrEinführung in die maschinelle Sprachverarbeitung
Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden
MehrEinführung in die maschinelle Sprachverarbeitung
Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0
MehrInformationsstrukturierung für die syntaktische Annotation eines diachronen Korpus des Deutschen
UNIVERSITÄT REGENSBURG Informationsstrukturierung für die syntaktische Annotation eines diachronen Korpus des Deutschen Magisterarbeit im Fach Informationswissenschaft Institut für Medien-, Informations-
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
Mehr8 Fakultät für Philologie
8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene
MehrSprachdaten sammeln und auswerten
130 Sprachdaten sammeln und auswerten Die Korpuslinguistik am Institut für Deutsche Sprache (IDS) Von Peter Anliker 1 Im Jahr 1964, also vor fünfzig Jahren, wurde in Mannheim das Institut für Deutsche
MehrSpracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16
Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16 AGENDA Grundlegendes Sprache Anwendungsbeispiele Schwierigkeit Architektur Spracherkennungssystem Hidden Markov Modell Verbesserung durch Kombination mit
MehrModul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 2: Textsegmentierung: Automatische Wort- und Satzsegmentierung Simon Clematide Themen Wortsegmentierung Tokenisierung =
MehrUniversität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker
UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften
MehrQuellen des Neuen Die Integration von Ressourcen zur schulischen und universitären Bildung in die CLARIN-D-Infrastruktur
Quellen des Neuen Die Integration von Ressourcen zur schulischen und universitären Bildung in die CLARIN-D-Infrastruktur - Ein CLARIN-D Kurationsprojekt der F-AG Neuere Geschichte - Maret Keller, Christian
Mehr1. Statistik und Computerlinguistik
03. JULI 2006: BLATT 1 1. Statistik und Computerlinguistik 1.1. Allgemeines Nachfolgend zur Einführung eine kurze Übersicht über die Rolle der Statistik in der Computerlinguistik - bezogen auf die einzelnen
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was
Mehr