Prof. J. Rolshoven Angewandte linguistische Datenverarbeitung Universität zu Köln 12. Dezember 2011
1 Einführung Was sind Lexika? 2 Digitale Lexika LEO DICT Projekt Deutscher Wortschatz Wikipedia 3 Quellen & Links
Was sind Lexika? Einfachste Definition Menge diskreter Lemmata.
Was sind Lexika? Einfachste Definition Menge diskreter Lemmata. {Auto; Papst; fahren}
Was sind Lexika? Duden 1880
Was sind Lexika? Metainformationen Menge diskreter Lemmata. {Auto; Papst; fahren} Lemmata mit Metainformationen.
Was sind Lexika? Metainformationen Menge diskreter Lemmata. {Auto; Papst; fahren} Lemmata mit Metainformationen. {Auto, N, n; Papst, N, m; fahren, V}
Was sind Lexika? Metainformationen Menge diskreter Lemmata. {Auto; Papst; fahren} Lemmata mit Metainformationen. {Auto, N, n; Papst, N, m; fahren, V} Lemmata mit Übersetzungsinformationen.
Was sind Lexika? Metainformationen Menge diskreter Lemmata. {Auto; Papst; fahren} Lemmata mit Metainformationen. {Auto, N, n; Papst, N, m; fahren, V} Lemmata mit Übersetzungsinformationen. {Auto, car; Papst, pope; fahren, drive}
Was sind Lexika? Langenscheidt
Was sind Lexika? Semantische Informationen Menge diskreter Lemmata. {Auto; Papst; fahren} Lemmata mit Metainformationen. {Auto, N, n; Papst, N, m; fahren, V} Lemmata mit Übersetzungsinformationen. {Auto, car; Papst, pope; fahren, drive} Lemmata mit semantischen Informationen.
Was sind Lexika? Semantische Informationen Menge diskreter Lemmata. {Auto; Papst; fahren} Lemmata mit Metainformationen. {Auto, N, n; Papst, N, m; fahren, V} Lemmata mit Übersetzungsinformationen. {Auto, car; Papst, pope; fahren, drive} Lemmata mit semantischen Informationen. {Papst, rel. Titel, Oberhaupt der r-k Kirche}
Was sind Lexika? Brockhaus
Digitale Lexika
Digitale Lexika LEO (TU München)
Digitale Lexika LEO (TU München) DICT
Digitale Lexika LEO (TU München) DICT Projekt Deutscher Wortschatz (Uni Leipzig)
Digitale Lexika LEO (TU München) DICT Projekt Deutscher Wortschatz (Uni Leipzig) Wikipedia
LEO LEO
LEO LEO Mehrere Sprachwörterbücher (de, en, fr, es, it, ru, zh)
LEO LEO Mehrere Sprachwörterbücher (de, en, fr, es, it, ru, zh) Verknüpfung mit weiteren Datenbanken (Aussprache, Synonyme, Antonyme,... )
LEO LEO Mehrere Sprachwörterbücher (de, en, fr, es, it, ru, zh) Verknüpfung mit weiteren Datenbanken (Aussprache, Synonyme, Antonyme,... ) Problem: Keine öffentliche API.
DICT DICT
DICT DICT Protokoll zur Kommunikation mit Wörterbuch-Servern.
DICT DICT Protokoll zur Kommunikation mit Wörterbuch-Servern. Standard der IETF (RFC 2229).
DICT DICT Protokoll zur Kommunikation mit Wörterbuch-Servern. Standard der IETF (RFC 2229). Quelloffen und frei zugänglich.
DICT DICT Protokoll zur Kommunikation mit Wörterbuch-Servern. Standard der IETF (RFC 2229). Quelloffen und frei zugänglich. APIs für gängige Programmiersprachen.
DICT DICT Protokoll zur Kommunikation mit Wörterbuch-Servern. Standard der IETF (RFC 2229). Quelloffen und frei zugänglich. APIs für gängige Programmiersprachen. Viele Server und viele Wörterbücher verfügbar.
DICT DICT-Abfrage
DICT DICT-Abfrage (Matching)
DICT DICT-Abfrage (mehrere Lexika)
DICT DICT-Abfrage (Java Dict API)
Projekt Deutscher Wortschatz Projekt Deutscher Wortschatz
Projekt Deutscher Wortschatz Projekt Deutscher Wortschatz Datenbank aus Korpus gegenwärtiger Texte.
Projekt Deutscher Wortschatz Projekt Deutscher Wortschatz Datenbank aus Korpus gegenwärtiger Texte. Verschiedene Sprachwörterbücher.
Projekt Deutscher Wortschatz Projekt Deutscher Wortschatz Datenbank aus Korpus gegenwärtiger Texte. Verschiedene Sprachwörterbücher. Viele Sonderfunktionen (Worthäufigkeit, Synonyme, Grundform, Nachbarn, etc.)
Projekt Deutscher Wortschatz Projekt Deutscher Wortschatz Datenbank aus Korpus gegenwärtiger Texte. Verschiedene Sprachwörterbücher. Viele Sonderfunktionen (Worthäufigkeit, Synonyme, Grundform, Nachbarn, etc.) Dienste über APIs und Webservices verfügbar.
Projekt Deutscher Wortschatz Projekt Deutscher Wortschatz Datenbank aus Korpus gegenwärtiger Texte. Verschiedene Sprachwörterbücher. Viele Sonderfunktionen (Worthäufigkeit, Synonyme, Grundform, Nachbarn, etc.) Dienste über APIs und Webservices verfügbar. (Größtenteils) frei zugänglich.
Projekt Deutscher Wortschatz Projekt Deutscher Wortschatz Datenbank aus Korpus gegenwärtiger Texte. Verschiedene Sprachwörterbücher. Viele Sonderfunktionen (Worthäufigkeit, Synonyme, Grundform, Nachbarn, etc.) Dienste über APIs und Webservices verfügbar. (Größtenteils) frei zugänglich. Exzellente Dokumentation und Einfachheit.
Projekt Deutscher Wortschatz Projekt Deutscher Wortschatz Datenbank aus Korpus gegenwärtiger Texte. Verschiedene Sprachwörterbücher. Viele Sonderfunktionen (Worthäufigkeit, Synonyme, Grundform, Nachbarn, etc.) Dienste über APIs und Webservices verfügbar. (Größtenteils) frei zugänglich. Exzellente Dokumentation und Einfachheit. http://wortschatz.uni-leipzig.de/axis/servlet/ ServiceOverviewServlet
Projekt Deutscher Wortschatz Semantik Semantik?
Projekt Deutscher Wortschatz Wikipedia
Wikipedia Wikipedia Semantische Informationen!
Wikipedia Wikipedia Semantische Informationen! Das gleiche Problem, wie bei LEO: Keine API.
Wikipedia Wikipedia Semantische Informationen! Das gleiche Problem, wie bei LEO: Keine API. Lösung am Horizont: WikiData.
Wikipedia Wikipedia Semantische Informationen! Das gleiche Problem, wie bei LEO: Keine API. Lösung am Horizont: WikiData. Faktenbasis und semantische Verknüpfungen.
Wikipedia Wikipedia Semantische Informationen! Das gleiche Problem, wie bei LEO: Keine API. Lösung am Horizont: WikiData. Faktenbasis und semantische Verknüpfungen. Im Beginn begriffen; Jobangebote offen. http://www.wikimedia.de/wiki/overview_%28all_ positions%29
Quellen & Links DICT Development Group http://www.dict.org/ RFC 2229 http://tools.ietf.org/html/rfc2229 Java DICT API http://sourceforge.net/projects/javadict/ Projekt Deutscher Wortschatz http://wortschatz.uni-leipzig.de/ Wikidata http://meta.wikimedia.org/wiki/new_wikidata