Terminologie-Extraktion: Beispiel

Größe: px
Ab Seite anzeigen:

Download "Terminologie-Extraktion: Beispiel"

Transkript

1 Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation therapy], TBI (especially if not fractionated), and high-dose steroids. Es sollten mindestens die fett gedruckten Termini extrahiert werden. Aber: nicht immer eindeutig, was Terminologie ist: Cytoxan ist der Name eines Medikamentes, steht nicht im Pschyrembel. Trotzdem Terminologie???

2 Terminologie-Extraktion: Anwendungen Terminologiewörterbuch: Als Grundlage zur Einarbeitung in ein Fachgebiet Vergleich von Fachsprachen: z.b. Bürgersprache vs. Beamtensprache Maschinelle Übersetzung: Terminologie als möglicherweise fehlende oder ergänzungsbedürftige Einträge im Lexikon Als Beschlagwortung : Für Maschinen: Suchen/clustern/klassifizieren von Texten anhand v. Stichwörtern (IR, vgl. automatic indexing) Für Menschen: Erstellung von Abstracts, Topic Maps,

3 Terminologie: Definitionen Eugen Wüster/DIN: das Begriffs- und Benennungssystem eines Fachgebietes, das alle Fachausdrücke umfaßt, die allgemein üblich sind. Begriff Zeicheninhalt, Benennung Zeichenform Oft gefordert: Eineindeutigkeit, d.h. Fachtermini sollen nicht ambig sein (Präzision) und: es soll keine Synonyme geben (Ökonomie). Diese Forderung ist bei genormten Terminologien erfüllt: Normung beinhaltet: Definition eines jeden Fachterminus, Garantie v. Eindeutigkeit. Meist hierarchische, semantische Anordnung der Termini (Taxonomie).

4 Terminologie-Definitionen: Probleme Definitionen zu vage, um Terminologie in Texten zu identifizieren: Was als allgemein üblich empfunden wird, hängt vom Betrachter ab (bei nicht genormten Terminologien ) Gleiches Problem wie im Information Retrieval: Welche Dokumente sind relevant? Bzw.: welche Wörter sind terminologisch? Idee aus dem IR: Relevance Feedback

5 Statistische Merkmale von Terminologie Fachtermini sind Wörter, die in Fachtexten der entsprechenden Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten:

6 Linguistische Merkmale von Terminologie Morphologie: Je nach Fachsprache sind bestimmte Derivative/Suffixe häufiger bzw. produktiver (Bsp.: -itis in der Medizin) Deutsch: viele Komposita, zusammengesetzt aus immer wieder den gleichen Basismorphemen Syntax: Wortarten: Einwortterme sind immer Autosemantika, meist N, A Viele Fachtermini sind Mehrwortbegriffe (NPs) mit typischen POS- Mustern (z.b. [A N] oder [N N]) Meist unvariiert (keine Umstellungen) Nicht trennbar (weder im Englischen noch im Deutschen split NP möglich)

7 Ansätze zur Terminologie-Extraktion Drei Hauptrichtungen (fast alles für Englisch!!): Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter.

8 Ansätze: Erkenntnisse (1) Statistische Verfahren: [Salton 1975]: TF/IDF funktioniert nur für Kollektionen, für Analyse einzelner Dokumente ungeeignet [Cohen 1995]: Differenzanalyse für Buchstaben-n-gramme kann gute Ergebnisse bringen [Dunning 1993]: Verfahren ohne korrektes statistisches Modell überbewerten seltene Ereignisse Linguistische Verfahren: Contra POS-Muster: mittels [N N] wird aus the man gave the girl biscuits die Phrase girl biscuits extrahiert. Contra Parser: Brauche zuviel Wissen im Lexikon (Valenzrahmen, Wortarten etc.) über die Wörter eines Textes => das Lexikon soll aber erst aufgebaut werden! Chunking als Kompromiß?

9 Ansätze: Erkenntnisse (2) Hybride Verfahren: [Daille 1994], [Justeson 1995]: Der beste statistische Filter für Phrasen (egal wie extrahiert) ist deren pure Frequenz Verfahren für das Deutsche ([Heid 1998]): Semantisch komplexe Begriffe werden im Deutschen (meist) durch Komposita statt Mehrwortbegriffe ausgedrückt => Phrasenextraktion sinnlos Über Kompositazerlegung und Suche nach domänenspezifischen Basismorphemen läßt sich das aber voll kompensieren!

10 Literatur Statistische Verfahren: [Cohen 1995] Cohen, J.D. (1995): Highlights: language and domain independent automatic indexing terms for abstracting. In: Journal of the American Society for Information Science, 46(3), S [Dunning 1993] Dunning, T. (1993): Accurate Methods for the Statistics of Surprise and Coincidence. In: Computational Linguistics, 19(1), S Hybride Verfahren: [Justeson 1995] Justeson, J.S., Katz, S.M. (1995): Technical terminology: some linguistic properties and an algorithm for identification in text. In: Natural Language Engineering, 1(1), S [Daille 1994] Daille, B., Gaussier, E., Lang e, J. (1994): Towards Automatic Extraction of Monolingual and Bilingual Terminology. In: Proceedings of COLING94, S Deutsch: [Heid 1998] Heid, U. (1998): A linguistic bootstrapping approach to the extraction of term candidates from German text. In: Terminology, 5(2), S

Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion

Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion Hans Friedrich Witschel Universität Leipzig, Institut für Informatik Augustusplatz 10-11, 04109 Leipzig [email protected]

Mehr

Terminologie, Terminologiemanagement und Terminologie-Extraktion

Terminologie, Terminologiemanagement und Terminologie-Extraktion , Terminologiemanagement und Terminologie-Extraktion Vorlesung "Wissens- und Contentmanagement" WS 2009/2010 im Modul "Wissens- und Contentmanagement" Dr. Lutz Maicher Universität Leipzig [email protected]

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Linguistische Informatik

Linguistische Informatik Linguistische Informatik Gerhard Heyer Universität Leipzig [email protected] Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz

Mehr

Petra Drewer & Melanie Siegel. Terminologieextraktion multilingual, semantisch und mehrfach verwendbar

Petra Drewer & Melanie Siegel. Terminologieextraktion multilingual, semantisch und mehrfach verwendbar Terminologieextraktion multilingual, semantisch und mehrfach verwendbar Agenda Einleitung und Grundlagen Extraktion von Terminologie in einer Sprache linguistisch basiert Multilinguale Termextraktion -

Mehr

XDOC Extraktion, Repräsentation und Auswertung von Informationen

XDOC Extraktion, Repräsentation und Auswertung von Informationen XDOC Extraktion, Repräsentation und Auswertung von Informationen Manuela Kunze Otto-von-Guericke Universität Magdeburg Fakultät für Informatik Institut für Wissens- und Sprachverarbeitung Gliederung Ausgangspunkt

Mehr

Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln

Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln Prof. Dr. Klaus-Dirk Schmitz Fachhochschule Köln - Fakultät 03 - ITMK Crowd

Mehr

Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik

Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik Christine Engelmann Germanistische Sprachwissenschaft (Friedrich-Schiller-Universität Jena) 18.01.2013 Forschungsbereich innerhalb der

Mehr

"What's in the news? - or: why Angela Merkel is not significant

What's in the news? - or: why Angela Merkel is not significant "What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2

Mehr

Terminologie vs. kontrolliertes Vokabular Unterschiede, Gemeinsamkeiten, sinnvolle Kombinationen. Ursula Reuther

Terminologie vs. kontrolliertes Vokabular Unterschiede, Gemeinsamkeiten, sinnvolle Kombinationen. Ursula Reuther Terminologie vs. kontrolliertes Vokabular Unterschiede, Gemeinsamkeiten, sinnvolle Kombinationen tekom Frühjahrstagung, Karlsruhe, 27. April 2012 Übersicht Terminologiearbeit Entstehung von Terminologie

Mehr

Semi-automatische Ontologieerstellung mittels TextToOnto

Semi-automatische Ontologieerstellung mittels TextToOnto Semi-automatische Ontologieerstellung mittels TextToOnto Mark Hall SE Computational Linguistics 14. Juni 2004 Zusammenfassung Das Erstellen von Ontologien ist ein komplexer und langwieriger Prozess. Um

Mehr

Terminologie zum Dreyer & Bosse BHKW 110 kw

Terminologie zum Dreyer & Bosse BHKW 110 kw Terminologie zum Dreyer & Bosse BHKW 110 kw Teilgruppe 1: Terminologische Erfassung der Fachwörter des Dreyer & Bosse BHKW 110 kw Begriffe des Textkorpus von % bis Bedienelement Bearbeitet von: Lars Nordmann

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

Inaugural-Dissertation. Philosophie

Inaugural-Dissertation. Philosophie Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät

Mehr

Kapitel 9. Zusammenfassung & Ausblick

Kapitel 9. Zusammenfassung & Ausblick Kapitel 9 Kapitel 9 Zusammenfassung & Ausblick In diesem Kapitel wird der Prozess der Erstellung einer Zielontologie aus einer Textkollektion zusammengefasst und herausgestellt, wie sich eine Ontologie,

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER [email protected] -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Thesaurus 1. Merkmale:

Thesaurus 1. Merkmale: Thesaurus 1 Eine Dokumentationssprache ist eine Menge sprachlicher Ausdrücke, die, nach bestimmten Regeln angewendet, der Beschreibung von Dokumenten zum Zweck des Speicherns und einer gezielten Wiederauffindung

Mehr

Information Retrieval

Information Retrieval Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben

Mehr

Terminologiemanagement für den kleinen Geldbeutel

Terminologiemanagement für den kleinen Geldbeutel Terminologiemanagement für den kleinen Geldbeutel Ann-Cathrin Mackenthun, parson AG 08.11.2013 Terminologiemanagement 1 parson AG Software- und Prozessdokumentation Wissensmanagement Wikis und XML-basierte

Mehr

Grundlagen und Definitionen

Grundlagen und Definitionen Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann

Mehr

Midas Metadata yield by Data Analysis

Midas Metadata yield by Data Analysis Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten

Mehr

Literaturdatenbanken

Literaturdatenbanken Workshop Tipps und Tools für eine effektive Literaturrecherche in Pubmed/Medline 5. Kongress für Arzneimittelinformation Köln 04.02.2017 Dr. Mirjam Gnadt Arzneimittelinformationsstelle der Bayerischen

Mehr

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse

Mehr

Inhaltsverzeichnis. 1 Einleitung... 1

Inhaltsverzeichnis. 1 Einleitung... 1 Inhaltsverzeichnis 1 Einleitung... 1 2 Grundlagen der Terminologiewissenschaft... 5 2.1 Einleitung... 5 2.2 Was ist Terminologie?... 5 2.3 Gegenstand... 7 2.4 Begriff...8 2.4.1 Grundlagen...8 2.4.2 Begriffsbeziehungen

Mehr

Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten

Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten Juliane Bredack SKILL 2014 Studierendenkonferenz Informatik 25. September 2014 Einführung Überblick Was sind Mehrwortgruppen?

Mehr

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische

Mehr

NLP im Information Retrieval

NLP im Information Retrieval NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische

Mehr

Vertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main

Vertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main Vertriebssteuerung & Kundenmanagement bei Finanzinstituten 1. Dezember 2010, Frankfurt am Main Erweitern Sie Ihre Analyse auch um unstrukturierte Daten: mehr Einblicke, bessere Entscheidungen! Unsere Agenda

Mehr

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation

Mehr

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition

Mehr

Semantic Role Labeling im modernen Text-Analyse-Prozess

Semantic Role Labeling im modernen Text-Analyse-Prozess Semantic Role Labeling im modernen Text-Analyse-Prozess Bastian Haarmann [email protected] http://www.bastianhaarmann.de Agenda I Text-Analyse-Prozesse 1. Motivation 2. Informationsextraktion 3.

Mehr

Linguistik für Kognitionswissenschaften

Linguistik für Kognitionswissenschaften Linguistik für Kognitionswissenschaften Computerlinguistik: Maschinelle Übersetzung Computerlinguistik Fehlübersetzung von engl. computational linguistics - computationelle Linguistik beinhaltet im weiteren

Mehr

Erläuterung des Begriffs Plagiat

Erläuterung des Begriffs Plagiat Erläuterung des Begriffs Plagiat 1 Definition Plagiat Unter einem Plagiat versteht man allgemein die Wiedergabe eines Textteils ohne Herkunftsangabe. Besonders zu beachten ist, dass es unerheblich ist,

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Grundlagen der übersetzungsbezogenen Terminologiearbeit - Terminologienormung und Terminologieverwaltung

Grundlagen der übersetzungsbezogenen Terminologiearbeit - Terminologienormung und Terminologieverwaltung Sprachen Thu-Mai Do-Thanh Grundlagen der übersetzungsbezogenen Terminologiearbeit - Terminologienormung und Terminologieverwaltung Studienarbeit Seminar für Übersetzen und Dolmetschen Grundlagen der übersetzungsbezogenen

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining 1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text

Mehr

FACHSPRACHE. Einführung

FACHSPRACHE. Einführung FACHSPRACHE Einführung FACHTEXT Der Fachtext ist Instrument und Resultat der im Zusammenhang mit einer spezialisierten gesellschaftlich-produktiven Tätigkeit ausgeübten sprachlich-kommunikativen Tätigkeit;

Mehr

INFORMATIONSEXTRAKTION

INFORMATIONSEXTRAKTION INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.

Mehr

Übersicht. Mehrwortlexeme Eigennamenerkennung. Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval. Crosslinguales Retrieval

Übersicht. Mehrwortlexeme Eigennamenerkennung. Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval. Crosslinguales Retrieval Übersicht Mehrwortlexeme Eigennamenerkennung Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval Crosslinguales Retrieval Mehrwortlexeme offene Komposita ( Phrasen ): ministry of education

Mehr

Informationsextraktion aus radiologischen Befundberichten

Informationsextraktion aus radiologischen Befundberichten Informationsextraktion aus radiologischen Befundberichten Philipp Daumke, Soeren Holste, Sarah Ambroz, Michael Poprat, Kai Simon, Dirk Marwede, Elmar Kotter Partner» Anbieter von Textanalyse-Software für

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Vorbereitung. Kataloge und Datenbanken. Zugang

Vorbereitung. Kataloge und Datenbanken. Zugang Vorbereitung Vor der Benutzung der verschiedenen Findmittel muss man sich einen Überblick über das Thema verschaffen: Lexika Handbücher mit google: define:wort Weitere Infos Definition des Informationsbedürfnisses

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Text Mining und Textzusammenfassung Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Übersicht 1. Definition 2. Prozessablauf 3. Textzusammenfassung 4. Praxisbeispiel Definition Text Mining is the art

Mehr

Zeitschriften Linguistik

Zeitschriften Linguistik Across Languages and Cultures X 2x/Jahr Akadémia Kiadó 2000- Zeitschriften Adesso 12x/Jahr Spotlight Verlag 2007- Zeitschriften AILA Review X 1x/Jahr John Benjamins 2001-1.11.233 Annual Review of Applied

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Dante Bemabei. Der Bindestrich. Vorschlas zur Systematisierung. PETER LANG Europäischer Verla3 der Wissenschaften

Dante Bemabei. Der Bindestrich. Vorschlas zur Systematisierung. PETER LANG Europäischer Verla3 der Wissenschaften Dante Bemabei Der Bindestrich Vorschlas zur Systematisierung PETER LANG Europäischer Verla3 der Wissenschaften Inhaltsverzeichnis 1 EINLEITUNG 11 2 EINFÜHRUNG IN DIE PROBLEMATIK 14 2.1 Historische Aspekte

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Mit Excel und Prüftool Terminologieverwaltung und -prüfung konzernweit einführen

Mit Excel und Prüftool Terminologieverwaltung und -prüfung konzernweit einführen Mit Excel und Prüftool Terminologieverwaltung und -prüfung konzernweit einführen tekom-jahrestagung 2012, Wiesbaden Dr. Holger Brüggemann, Mitutoyo CTL Germany GmbH, Oberndorf Dr. Rachel Herwartz, TermSolutions,

Mehr

Wort, Name, Begriff, Terminus. Schlusszusammenfassung

Wort, Name, Begriff, Terminus. Schlusszusammenfassung Wort, Name, Begriff, Terminus Schlusszusammenfassung Seminar Ib Sommersemester 2006 Walther v.hahn Das Wort als zentrale Einheit der Sprache Das Wort ist das wichtigste Element der Sprache, denn weder

Mehr

Ziele und Herausforderungen

Ziele und Herausforderungen Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik [email protected]

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Wissenschaftssprache. S p r a c h l i c h e B e s o n d e r h e i t e n. Wissenschaftssprache, T.

Wissenschaftssprache. S p r a c h l i c h e B e s o n d e r h e i t e n. Wissenschaftssprache, T. Wissenschaftssprache S p r a c h l i c h e B e s o n d e r h e i t e n Wissenschaftssprache, T. Der Ruf der deutschen Wissenschaftssprache gründet sich auf nichts so fest wie auf Unverständlichkeit. Leonhardt,

Mehr

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 14. OKTOBER 2011 1. Schlüsselworte Semantik, Informationsextraktion, Automatisierte Syntaxanalyse, Validierung, Chunking, Tagging,

Mehr

Verlässlicher Grammatik-Transfer

Verlässlicher Grammatik-Transfer Transferwissenschaften 8 Verlässlicher Grammatik-Transfer Am Beispiel von subordinierenden Konjunktionen Bearbeitet von Alaa Mohamed Moustafa 1. Auflage 2011. Buch. XIV, 294 S. Hardcover ISBN 978 3 631

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome Big Data bei unstrukturierten Daten AW1 Vortrag Sebastian Krome Agenda Wiederholung Aspekte von Big Data Datenverarbeitungsprozess TextMining Aktuelle Paper Identification of Live News Events Using Twitter

Mehr

Logik und modelltheoretische Semantik. Montague-Grammatik

Logik und modelltheoretische Semantik. Montague-Grammatik Logik und modelltheoretische Montague-Grammatik Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 23.5.2017 Zangenfeind: Montague-Grammatik 1 / 23 Vorgeschichte Ursprung

Mehr

Text Mining für News-Sites Nina Hälker

Text Mining für News-Sites Nina Hälker Ablauf Department Informatik, HAW Hamburg Sommersemester 2014 A Motivation Aufbauprojekt Was sagt das Ausland? Fokus der Masterarbeit: Text Mining für News-Sites B Drei Papers: Fokus, Ergebnisse, eigenes

Mehr

Literaturrecherche Mentoring für Lehrer

Literaturrecherche Mentoring für Lehrer Literaturrecherche Mentoring für Lehrer VU Empirische Methoden Ao.Univ.-Prof. Mag. DI Dr. Christian Schlögl Anna Winkelbauer 0212038 geplante Recherchestrategie Suchbegriff: Mentoring für Lehrer Datenbank:

Mehr

Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache

Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache Einführung in die übersetzungsbezogene Terminologiearbeit Martin Volk Uni Zürich Dolmetscherschule Zürich / ZHW Übersicht über das Seminar 4 Wochen Präsentation Danach: praktische Übungen in Doppelstunden

Mehr

Knauer: Gesellschaftsvertrag Deutsch-Englisch. Inhalt

Knauer: Gesellschaftsvertrag Deutsch-Englisch. Inhalt Seite 10 Inhalt VORWORT... 9 INHALT... 10 1 EINLEITUNG... 14 2 AUFGABEN- UND ZIELSTELLUNG... 15 3 MATERIALGRUNDLAGE... 16 4 METHODOLOGISCHES VORGEHEN... 22 5 DIE RECHTSSPRACHE... 24 5.1 DIE ENTWICKLUNG

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Der Terminus ohne Haken Wunsch oder Wirklichkeit?

Der Terminus ohne Haken Wunsch oder Wirklichkeit? Wunsch oder Wirklichkeit? Partnervortrag der Daimler AG und der cognitas GmbH Dorina Frey (Daimler AG), Christine Schmacht (cognitas GmbH) Agenda Der Terminus Versuch einer Begriffsbestimmung Interaktionsfelder

Mehr

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können

Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Marc Reznicek Humboldt-Universität zu Berlin STTS- Workshop 24.9.2012 Überblick STTS in Lernerkorpora Lernerfehler

Mehr

Ingeborg Blank Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians-Universität München Oettingenstr.

Ingeborg Blank Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians-Universität München Oettingenstr. Ingeborg Blank Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians-Universität München Oettingenstr. 67 80538 München Inaugural-Dissertation zur Erlangung des Doktorgrades der Philosophie

Mehr

30 Minuten zum Thema Terminologie: Terminologiearbeit mit Excel Grundregeln und Tipps. Mittwoch, 29. Juni - 11:00 CET

30 Minuten zum Thema Terminologie: Terminologiearbeit mit Excel Grundregeln und Tipps. Mittwoch, 29. Juni - 11:00 CET 30 Minuten zum Thema Terminologie: Terminologiearbeit mit Excel Grundregeln und Tipps Mittwoch, 29. Juni - 11:00 CET Technische Hinweise Bedienpult von GoToWebinar > Bedienpult ein-/ausblenden > Vollbildmodus

Mehr

International Office

International Office International Office Corporate Language und Terminologiearbeit Landeskoordinationsstelle für Übersetzungsangelegenheiten im Hochschulwesen Netzwerktreffen 21. Februar 2017 vorgetragen von Luzie Schmitt,

Mehr

Zwischensprachliche Variation bei Quantorenanhebung

Zwischensprachliche Variation bei Quantorenanhebung Zwischensprachliche Variation bei Quantorenanhebung Johannes Neubarth Wolfgang Seeker 12. November 2007 Wiederholung: Mays Skopusprinzip (May 1985) Skopusprinzip Zwei Quantoren (Operatoren), die sich gegenseitig

Mehr