Terminologie-Extraktion: Beispiel
|
|
|
- Siegfried Bach
- vor 9 Jahren
- Abrufe
Transkript
1 Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation therapy], TBI (especially if not fractionated), and high-dose steroids. Es sollten mindestens die fett gedruckten Termini extrahiert werden. Aber: nicht immer eindeutig, was Terminologie ist: Cytoxan ist der Name eines Medikamentes, steht nicht im Pschyrembel. Trotzdem Terminologie???
2 Terminologie-Extraktion: Anwendungen Terminologiewörterbuch: Als Grundlage zur Einarbeitung in ein Fachgebiet Vergleich von Fachsprachen: z.b. Bürgersprache vs. Beamtensprache Maschinelle Übersetzung: Terminologie als möglicherweise fehlende oder ergänzungsbedürftige Einträge im Lexikon Als Beschlagwortung : Für Maschinen: Suchen/clustern/klassifizieren von Texten anhand v. Stichwörtern (IR, vgl. automatic indexing) Für Menschen: Erstellung von Abstracts, Topic Maps,
3 Terminologie: Definitionen Eugen Wüster/DIN: das Begriffs- und Benennungssystem eines Fachgebietes, das alle Fachausdrücke umfaßt, die allgemein üblich sind. Begriff Zeicheninhalt, Benennung Zeichenform Oft gefordert: Eineindeutigkeit, d.h. Fachtermini sollen nicht ambig sein (Präzision) und: es soll keine Synonyme geben (Ökonomie). Diese Forderung ist bei genormten Terminologien erfüllt: Normung beinhaltet: Definition eines jeden Fachterminus, Garantie v. Eindeutigkeit. Meist hierarchische, semantische Anordnung der Termini (Taxonomie).
4 Terminologie-Definitionen: Probleme Definitionen zu vage, um Terminologie in Texten zu identifizieren: Was als allgemein üblich empfunden wird, hängt vom Betrachter ab (bei nicht genormten Terminologien ) Gleiches Problem wie im Information Retrieval: Welche Dokumente sind relevant? Bzw.: welche Wörter sind terminologisch? Idee aus dem IR: Relevance Feedback
5 Statistische Merkmale von Terminologie Fachtermini sind Wörter, die in Fachtexten der entsprechenden Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten:
6 Linguistische Merkmale von Terminologie Morphologie: Je nach Fachsprache sind bestimmte Derivative/Suffixe häufiger bzw. produktiver (Bsp.: -itis in der Medizin) Deutsch: viele Komposita, zusammengesetzt aus immer wieder den gleichen Basismorphemen Syntax: Wortarten: Einwortterme sind immer Autosemantika, meist N, A Viele Fachtermini sind Mehrwortbegriffe (NPs) mit typischen POS- Mustern (z.b. [A N] oder [N N]) Meist unvariiert (keine Umstellungen) Nicht trennbar (weder im Englischen noch im Deutschen split NP möglich)
7 Ansätze zur Terminologie-Extraktion Drei Hauptrichtungen (fast alles für Englisch!!): Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter.
8 Ansätze: Erkenntnisse (1) Statistische Verfahren: [Salton 1975]: TF/IDF funktioniert nur für Kollektionen, für Analyse einzelner Dokumente ungeeignet [Cohen 1995]: Differenzanalyse für Buchstaben-n-gramme kann gute Ergebnisse bringen [Dunning 1993]: Verfahren ohne korrektes statistisches Modell überbewerten seltene Ereignisse Linguistische Verfahren: Contra POS-Muster: mittels [N N] wird aus the man gave the girl biscuits die Phrase girl biscuits extrahiert. Contra Parser: Brauche zuviel Wissen im Lexikon (Valenzrahmen, Wortarten etc.) über die Wörter eines Textes => das Lexikon soll aber erst aufgebaut werden! Chunking als Kompromiß?
9 Ansätze: Erkenntnisse (2) Hybride Verfahren: [Daille 1994], [Justeson 1995]: Der beste statistische Filter für Phrasen (egal wie extrahiert) ist deren pure Frequenz Verfahren für das Deutsche ([Heid 1998]): Semantisch komplexe Begriffe werden im Deutschen (meist) durch Komposita statt Mehrwortbegriffe ausgedrückt => Phrasenextraktion sinnlos Über Kompositazerlegung und Suche nach domänenspezifischen Basismorphemen läßt sich das aber voll kompensieren!
10 Literatur Statistische Verfahren: [Cohen 1995] Cohen, J.D. (1995): Highlights: language and domain independent automatic indexing terms for abstracting. In: Journal of the American Society for Information Science, 46(3), S [Dunning 1993] Dunning, T. (1993): Accurate Methods for the Statistics of Surprise and Coincidence. In: Computational Linguistics, 19(1), S Hybride Verfahren: [Justeson 1995] Justeson, J.S., Katz, S.M. (1995): Technical terminology: some linguistic properties and an algorithm for identification in text. In: Natural Language Engineering, 1(1), S [Daille 1994] Daille, B., Gaussier, E., Lang e, J. (1994): Towards Automatic Extraction of Monolingual and Bilingual Terminology. In: Proceedings of COLING94, S Deutsch: [Heid 1998] Heid, U. (1998): A linguistic bootstrapping approach to the extraction of term candidates from German text. In: Terminology, 5(2), S
Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion
Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion Hans Friedrich Witschel Universität Leipzig, Institut für Informatik Augustusplatz 10-11, 04109 Leipzig [email protected]
Terminologie, Terminologiemanagement und Terminologie-Extraktion
, Terminologiemanagement und Terminologie-Extraktion Vorlesung "Wissens- und Contentmanagement" WS 2009/2010 im Modul "Wissens- und Contentmanagement" Dr. Lutz Maicher Universität Leipzig [email protected]
Proseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
Linguistische Informatik
Linguistische Informatik Gerhard Heyer Universität Leipzig [email protected] Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz
Petra Drewer & Melanie Siegel. Terminologieextraktion multilingual, semantisch und mehrfach verwendbar
Terminologieextraktion multilingual, semantisch und mehrfach verwendbar Agenda Einleitung und Grundlagen Extraktion von Terminologie in einer Sprache linguistisch basiert Multilinguale Termextraktion -
XDOC Extraktion, Repräsentation und Auswertung von Informationen
XDOC Extraktion, Repräsentation und Auswertung von Informationen Manuela Kunze Otto-von-Guericke Universität Magdeburg Fakultät für Informatik Institut für Wissens- und Sprachverarbeitung Gliederung Ausgangspunkt
Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln
Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln Prof. Dr. Klaus-Dirk Schmitz Fachhochschule Köln - Fakultät 03 - ITMK Crowd
Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik
Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik Christine Engelmann Germanistische Sprachwissenschaft (Friedrich-Schiller-Universität Jena) 18.01.2013 Forschungsbereich innerhalb der
"What's in the news? - or: why Angela Merkel is not significant
"What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2
Terminologie vs. kontrolliertes Vokabular Unterschiede, Gemeinsamkeiten, sinnvolle Kombinationen. Ursula Reuther
Terminologie vs. kontrolliertes Vokabular Unterschiede, Gemeinsamkeiten, sinnvolle Kombinationen tekom Frühjahrstagung, Karlsruhe, 27. April 2012 Übersicht Terminologiearbeit Entstehung von Terminologie
Semi-automatische Ontologieerstellung mittels TextToOnto
Semi-automatische Ontologieerstellung mittels TextToOnto Mark Hall SE Computational Linguistics 14. Juni 2004 Zusammenfassung Das Erstellen von Ontologien ist ein komplexer und langwieriger Prozess. Um
Terminologie zum Dreyer & Bosse BHKW 110 kw
Terminologie zum Dreyer & Bosse BHKW 110 kw Teilgruppe 1: Terminologische Erfassung der Fachwörter des Dreyer & Bosse BHKW 110 kw Begriffe des Textkorpus von % bis Bedienelement Bearbeitet von: Lars Nordmann
NLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
Was ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
Semiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
Inaugural-Dissertation. Philosophie
Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät
Kapitel 9. Zusammenfassung & Ausblick
Kapitel 9 Kapitel 9 Zusammenfassung & Ausblick In diesem Kapitel wird der Prozess der Erstellung einer Zielontologie aus einer Textkollektion zusammengefasst und herausgestellt, wie sich eine Ontologie,
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER [email protected] -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko
Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht
Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr
Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen
Thesaurus 1. Merkmale:
Thesaurus 1 Eine Dokumentationssprache ist eine Menge sprachlicher Ausdrücke, die, nach bestimmten Regeln angewendet, der Beschreibung von Dokumenten zum Zweck des Speicherns und einer gezielten Wiederauffindung
Information Retrieval
Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben
Terminologiemanagement für den kleinen Geldbeutel
Terminologiemanagement für den kleinen Geldbeutel Ann-Cathrin Mackenthun, parson AG 08.11.2013 Terminologiemanagement 1 parson AG Software- und Prozessdokumentation Wissensmanagement Wikis und XML-basierte
Grundlagen und Definitionen
Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann
Midas Metadata yield by Data Analysis
Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten
Literaturdatenbanken
Workshop Tipps und Tools für eine effektive Literaturrecherche in Pubmed/Medline 5. Kongress für Arzneimittelinformation Köln 04.02.2017 Dr. Mirjam Gnadt Arzneimittelinformationsstelle der Bayerischen
Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber
Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse
Inhaltsverzeichnis. 1 Einleitung... 1
Inhaltsverzeichnis 1 Einleitung... 1 2 Grundlagen der Terminologiewissenschaft... 5 2.1 Einleitung... 5 2.2 Was ist Terminologie?... 5 2.3 Gegenstand... 7 2.4 Begriff...8 2.4.1 Grundlagen...8 2.4.2 Begriffsbeziehungen
Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten
Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten Juliane Bredack SKILL 2014 Studierendenkonferenz Informatik 25. September 2014 Einführung Überblick Was sind Mehrwortgruppen?
Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren
Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische
NLP im Information Retrieval
NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische
Vertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main
Vertriebssteuerung & Kundenmanagement bei Finanzinstituten 1. Dezember 2010, Frankfurt am Main Erweitern Sie Ihre Analyse auch um unstrukturierte Daten: mehr Einblicke, bessere Entscheidungen! Unsere Agenda
Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute
Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation
Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker
UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften
Einführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition
Semantic Role Labeling im modernen Text-Analyse-Prozess
Semantic Role Labeling im modernen Text-Analyse-Prozess Bastian Haarmann [email protected] http://www.bastianhaarmann.de Agenda I Text-Analyse-Prozesse 1. Motivation 2. Informationsextraktion 3.
Linguistik für Kognitionswissenschaften
Linguistik für Kognitionswissenschaften Computerlinguistik: Maschinelle Übersetzung Computerlinguistik Fehlübersetzung von engl. computational linguistics - computationelle Linguistik beinhaltet im weiteren
Erläuterung des Begriffs Plagiat
Erläuterung des Begriffs Plagiat 1 Definition Plagiat Unter einem Plagiat versteht man allgemein die Wiedergabe eines Textteils ohne Herkunftsangabe. Besonders zu beachten ist, dass es unerheblich ist,
Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
Grundlagen der übersetzungsbezogenen Terminologiearbeit - Terminologienormung und Terminologieverwaltung
Sprachen Thu-Mai Do-Thanh Grundlagen der übersetzungsbezogenen Terminologiearbeit - Terminologienormung und Terminologieverwaltung Studienarbeit Seminar für Übersetzen und Dolmetschen Grundlagen der übersetzungsbezogenen
Volltextsuche und Text Mining
1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text
FACHSPRACHE. Einführung
FACHSPRACHE Einführung FACHTEXT Der Fachtext ist Instrument und Resultat der im Zusammenhang mit einer spezialisierten gesellschaftlich-produktiven Tätigkeit ausgeübten sprachlich-kommunikativen Tätigkeit;
INFORMATIONSEXTRAKTION
INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.
Übersicht. Mehrwortlexeme Eigennamenerkennung. Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval. Crosslinguales Retrieval
Übersicht Mehrwortlexeme Eigennamenerkennung Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval Crosslinguales Retrieval Mehrwortlexeme offene Komposita ( Phrasen ): ministry of education
Informationsextraktion aus radiologischen Befundberichten
Informationsextraktion aus radiologischen Befundberichten Philipp Daumke, Soeren Holste, Sarah Ambroz, Michael Poprat, Kai Simon, Dirk Marwede, Elmar Kotter Partner» Anbieter von Textanalyse-Software für
Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
Vorbereitung. Kataloge und Datenbanken. Zugang
Vorbereitung Vor der Benutzung der verschiedenen Findmittel muss man sich einen Überblick über das Thema verschaffen: Lexika Handbücher mit google: define:wort Weitere Infos Definition des Informationsbedürfnisses
Text-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer
Text Mining und Textzusammenfassung Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Übersicht 1. Definition 2. Prozessablauf 3. Textzusammenfassung 4. Praxisbeispiel Definition Text Mining is the art
Zeitschriften Linguistik
Across Languages and Cultures X 2x/Jahr Akadémia Kiadó 2000- Zeitschriften Adesso 12x/Jahr Spotlight Verlag 2007- Zeitschriften AILA Review X 1x/Jahr John Benjamins 2001-1.11.233 Annual Review of Applied
Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
Maschinelle Übersetzung
Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung
Anwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
Dante Bemabei. Der Bindestrich. Vorschlas zur Systematisierung. PETER LANG Europäischer Verla3 der Wissenschaften
Dante Bemabei Der Bindestrich Vorschlas zur Systematisierung PETER LANG Europäischer Verla3 der Wissenschaften Inhaltsverzeichnis 1 EINLEITUNG 11 2 EINFÜHRUNG IN DIE PROBLEMATIK 14 2.1 Historische Aspekte
Einführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax
Information-Retrieval: Unscharfe Suche
Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
Mit Excel und Prüftool Terminologieverwaltung und -prüfung konzernweit einführen
Mit Excel und Prüftool Terminologieverwaltung und -prüfung konzernweit einführen tekom-jahrestagung 2012, Wiesbaden Dr. Holger Brüggemann, Mitutoyo CTL Germany GmbH, Oberndorf Dr. Rachel Herwartz, TermSolutions,
Wort, Name, Begriff, Terminus. Schlusszusammenfassung
Wort, Name, Begriff, Terminus Schlusszusammenfassung Seminar Ib Sommersemester 2006 Walther v.hahn Das Wort als zentrale Einheit der Sprache Das Wort ist das wichtigste Element der Sprache, denn weder
Ziele und Herausforderungen
Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische
Automatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik [email protected]
Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
Wissenschaftssprache. S p r a c h l i c h e B e s o n d e r h e i t e n. Wissenschaftssprache, T.
Wissenschaftssprache S p r a c h l i c h e B e s o n d e r h e i t e n Wissenschaftssprache, T. Der Ruf der deutschen Wissenschaftssprache gründet sich auf nichts so fest wie auf Unverständlichkeit. Leonhardt,
INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN
INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 14. OKTOBER 2011 1. Schlüsselworte Semantik, Informationsextraktion, Automatisierte Syntaxanalyse, Validierung, Chunking, Tagging,
Verlässlicher Grammatik-Transfer
Transferwissenschaften 8 Verlässlicher Grammatik-Transfer Am Beispiel von subordinierenden Konjunktionen Bearbeitet von Alaa Mohamed Moustafa 1. Auflage 2011. Buch. XIV, 294 S. Hardcover ISBN 978 3 631
Computerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde
Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome
Big Data bei unstrukturierten Daten AW1 Vortrag Sebastian Krome Agenda Wiederholung Aspekte von Big Data Datenverarbeitungsprozess TextMining Aktuelle Paper Identification of Live News Events Using Twitter
Logik und modelltheoretische Semantik. Montague-Grammatik
Logik und modelltheoretische Montague-Grammatik Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 23.5.2017 Zangenfeind: Montague-Grammatik 1 / 23 Vorgeschichte Ursprung
Text Mining für News-Sites Nina Hälker
Ablauf Department Informatik, HAW Hamburg Sommersemester 2014 A Motivation Aufbauprojekt Was sagt das Ausland? Fokus der Masterarbeit: Text Mining für News-Sites B Drei Papers: Fokus, Ergebnisse, eigenes
Literaturrecherche Mentoring für Lehrer
Literaturrecherche Mentoring für Lehrer VU Empirische Methoden Ao.Univ.-Prof. Mag. DI Dr. Christian Schlögl Anna Winkelbauer 0212038 geplante Recherchestrategie Suchbegriff: Mentoring für Lehrer Datenbank:
Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache
Einführung in die übersetzungsbezogene Terminologiearbeit Martin Volk Uni Zürich Dolmetscherschule Zürich / ZHW Übersicht über das Seminar 4 Wochen Präsentation Danach: praktische Übungen in Doppelstunden
Knauer: Gesellschaftsvertrag Deutsch-Englisch. Inhalt
Seite 10 Inhalt VORWORT... 9 INHALT... 10 1 EINLEITUNG... 14 2 AUFGABEN- UND ZIELSTELLUNG... 15 3 MATERIALGRUNDLAGE... 16 4 METHODOLOGISCHES VORGEHEN... 22 5 DIE RECHTSSPRACHE... 24 5.1 DIE ENTWICKLUNG
Einführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
Der Terminus ohne Haken Wunsch oder Wirklichkeit?
Wunsch oder Wirklichkeit? Partnervortrag der Daimler AG und der cognitas GmbH Dorina Frey (Daimler AG), Christine Schmacht (cognitas GmbH) Agenda Der Terminus Versuch einer Begriffsbestimmung Interaktionsfelder
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
Clustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,
Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können
Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Marc Reznicek Humboldt-Universität zu Berlin STTS- Workshop 24.9.2012 Überblick STTS in Lernerkorpora Lernerfehler
Ingeborg Blank Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians-Universität München Oettingenstr.
Ingeborg Blank Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians-Universität München Oettingenstr. 67 80538 München Inaugural-Dissertation zur Erlangung des Doktorgrades der Philosophie
30 Minuten zum Thema Terminologie: Terminologiearbeit mit Excel Grundregeln und Tipps. Mittwoch, 29. Juni - 11:00 CET
30 Minuten zum Thema Terminologie: Terminologiearbeit mit Excel Grundregeln und Tipps Mittwoch, 29. Juni - 11:00 CET Technische Hinweise Bedienpult von GoToWebinar > Bedienpult ein-/ausblenden > Vollbildmodus
International Office
International Office Corporate Language und Terminologiearbeit Landeskoordinationsstelle für Übersetzungsangelegenheiten im Hochschulwesen Netzwerktreffen 21. Februar 2017 vorgetragen von Luzie Schmitt,
Zwischensprachliche Variation bei Quantorenanhebung
Zwischensprachliche Variation bei Quantorenanhebung Johannes Neubarth Wolfgang Seeker 12. November 2007 Wiederholung: Mays Skopusprinzip (May 1985) Skopusprinzip Zwei Quantoren (Operatoren), die sich gegenseitig
