Wortbedeutungsdisambiguierung
|
|
- Bastian Esser
- vor 6 Jahren
- Abrufe
Transkript
1 Proseminar: Statistische Methoden in der Sprachverarbeitung Dozent: Stefan Langer LMU München Centrum für Informations- und Sprachverarbeitung Sommersemester 2003 Referenten: Michaela Geierhos, Christian Seidel, Oyundavaa Radnaa, Ilona Nowak Allgemeines Ambiguität (Mehrdeutigkeit) Lexikalischen Einheiten können mehrere Bedeutungen zugeordnet werden. Wortbedeutung - lexikalische Wortbedeutung, z. B. The early bird catches he worm. (Morgenstund hat Gold im Mund.) Someone bites the dust. (Jemand beisst ins Gras.) - strukturelle bzw. syntaktische Wortbedeutung, z. B. Mary saw the man with the telescope. Ziel der Disambiguierung Festlegung der Bedeutung eines ambigen Wortes in einem bestimmten Kontext. Label Markierung eines Wortes in einem bestimmten Kontext mit seiner Bedeutung. Thesaurus Eine Art Wörterbuch. Genauer: Eine systematisch geordnete Sammlung von Wörtern eines bestimmten (Fach-)Bereichs. Notation bei der Disambiguierungstheorie w s 1,..., s k,..., s K c 1,..., c i,..., c I v 1,..., v j,..., v J ein ambiges Wort die verschiedenen Bedeutungen des ambigen Wortes w die verschiedenen Kontexte von w in einem Korpus verschiedene Wörter, die aus dem Kontext von w entnommen wurden, da sie für die Disambiguierung am geeignetsten sind 2. Supervised Disambiguation Es liegt bereits ein disambiguierter Trainings-Korpus vor, in dem die ambigen Wörter gekennzeichnet (gelabelt) wurden - d.h. jedem Wort w wird ein Label s k zugeordnet. Ziel: Die auf das Trainings-Korpus abgestimmte Maschine sollte auch neue ambige Wörter erkennen, und unter Berücksichtigung des Kontextes disambiguieren können. 1
2 2.1 Klassifizierung nach Bayes Hierfür wird das ambige Wort w in einem sehr weit gefassten Kontext nach Wörtern, die bestimmte Informationen tragen, durchsucht. Mit dieser Information muss die Maschine die Kombinationen evaluieren, und somit die Bedeutung des Wortes feststellen. Zur Disambiguierung wird die Bayes-Entscheidungsregel angewandt: - Nimm die Bedeutung s' von w an, wenn P(s' c) > P(s k c) für s k s' gilt. - Berechnung der Bedeutung s eines Wortes w mit der Bayes-Regel: s' = arg max P(c s k )P(s k ) = arg max P(c s k )P(s k ) sk sk P(c) Gale et al. gehen von einem Spezialfall der Bayes-Entscheidungsregel aus: Einfache Bayes-Annahme: P(c s k ) = P({ v j v j in c} s k ) Hierbei wird die strukturierte und lineare Ordnung der Wörter im Kontext ignoriert, und man geht vom so genannten bag of words (dem Sack voller Wörter) aus, wobei die Wörter unabhängig von einander sind. Diese Annahme ist im Wesentlichen eher realitätsfremd und stark vereinfachend. Bsp: Das Wort "Gewerkschaftsvorsitzender" tritt viel häufiger in Kontexten auf, in denen auch das Wort "DBG" enthalten ist, als in Kontexten, in denen das Wort "Blume" vorkommt. Trotz seiner zahlreichen Mängel arbeitet dieses Model ziemlich effektiv. Man muss nur darauf achten, dass das Kontext-Fenster, in dem die Bedeutung eines Wortes evaluiert werden soll, nicht zu groß gewählt wird. Berechnung der Bedeutung von s mit der Einfachen Bayes-Entscheidungsregel: Entscheide dich für die Bedeutung s', wenn s' = arg max s k [log P(s k ) + vj in c logp(vj s k )] Bsp: engl. drug Bedeutung medication illegal substance Schlüsselbegriffe prices, prescription, patent, increase, consumer, pharmaceutical abuse, paraphernalia, illicit, alcohol, cocaine, traffickers 2.2 Informationstheoretische Annäherung Vorgehensweise: Ein einzelnes Merkmal soll im Kontext gefunden werden, das zuverlässig die Bedeutung des ambigen Wortes anzeigt. Hiefür müssen die Werte der Wörter, die diese Merkmale haben, nach der Bedeutung, die sie kodieren, in verschiedene Kategorien eingeordnet werden. Bsp.: nach Brown et al., 1991 ambiges Wort Indikator Bsp.: Wert -> Bedeutung prendre Objekt mesure -> to take décision -> to make vouloir Tempus present -> to want conditional -> to like cent Wort, das links vom per -> % 2
3 ambiges Wort Indikator Bsp.: Wert -> Bedeutung ambigen Wort steht number -> c. [Geldmünze] Um diese Annäherung berechnen zu können, verwendet man in der Regel den Flip-Flop- Algorithmus. 3. Lexikonbasierte Disambiguierung Es steht kein gelabelter (annotierter) Korpus zur Verfügung. Bedeutung Definition s 1 tree a tree of the olive family s 2 burned stuff the solid residue left when combustible material is burned 3.1 Disambiguierung basierend auf Bedeutungsdefinitionen (nach Lesk, 1986) Basis für die Disambiguierung ist hier ein Lexikon, das Aufschluss über die Bedeutungen der entsprechenden Wörter geben soll. Bsp.: engl. ash (dt. Esche/Asche): Treffer (scores) Kontext s 1 s This cigar burns slowly and creates a stiff ash. 1 0 The ash is one of the last trees to come into leaf. Algorithmus: comment: Given: context c for all senses s k of w do { score (s k ) = overlap (D k,u vj in c E vj ) } end choose s' s.t. s' = arg max sk score (s k ) D k E vj Menge der Lexikondefinitionen aller unterschiedlichen Bedeutungen des ambigen Wortes. Menge der Lexikondefinitionen der Worte v j, die im Kontext des ambigen Wortes vorkommen. - Algorithmus erzielt nur mittelmäßige Ergebnisse (50-70% Erfolgsquote) - Verbesserungsvorschläge nach Lesk: Mehrere Text-Durchläufe des Algorithmus sind nötig. Ersetzung von U vj in c E vj durch die Wörter, die für die Disambiguierung am geeignetsten erscheinen. Kombination von lexikonbasierter und Thesaurus-basierter Disambiguierung. 3
4 3.2 Thesaurus-basierte Disambiguierung (nach Yarowski, 1992) In einem Thesaurus bestimmen die semantischen Kategorien der Wörter die semantische Kategorie des Kontexts als Ganzes. Aufgrund dieser Kategorisierung wird im Anschluss daran auf die Bedeutung des ambigen Wortes geschlossen. Bsp: Ergebnisse des Yarowski Algorithmus: Wort Bedeutung Kategorie Genauigkeit bass musical senses music 99,00% fish animal, insect 100,00% star space object universe 96,00% celebrity entertainer 95,00% interest curiosity reasoning 88,00% advantage injustice 34,00% financial debt 90,00% share property 38,00% Mögliche Probleme: Je ähnlicher sich die Kategorien sind, denen ein Wort zugeordnet werden kann, desto schlechter wird die Trefferquote für das Ergebnis. (z. B. interest) Wenn eine bestimmte Bedeutung mehreren Kategorien zugeordnet werden kann, arbeitet der Algorithmus auch ungenauer. Im obigen Beispiel ist advantage eine Bedeutung von interest (wie in self-interest ). Da self-interest nicht nur in der Finanzwelt, der Unterhaltungsbranche oder im Musikgeschäft auftreten kann, ist es schwer bzw. fast unmöglich ihm genau eine Kategorie zuzuordnen. Ist das Wörterbuch bzw. der Thesaurus nicht auf dem neuesten Stand oder weist Lücken auf, schleichen sich schnell Fehler ein. Z.B. ist Navratilova ein guter Hinweis dafür, dass es um Sport geht, hat man aber einen veralteten Thesaurus als Grundlage, wird das der Algorithmus kaum herausfinden. Das gleiche gilt für die Maus einmal als Säugetier und einmal als elektronisches Computerzubehör. 3.3 Disambiguierung basierend auf Übersetzungen in einem bilingualen Korpus Wichtig ist hier die Unterscheidung zwischen first language (die im Korpus zu ambiguierende Sprache) und second language (der Zielsprache). Bsp.: engl. interest Bedeutung Nr. 1 Bedeutung Nr.2 Definition legal share attention, concern Übersetzung Beteiligung Interesse Englische Kollokation acquire an interest show interest Übersetzung Beteiligung erwerben Interesse zeigen Vorgehensweise: interest hat im deutschen zwei unterschiedliche, häufig auftretende Übersetzungen 4
5 Beteiligung und Interesse. Wichtig ist es die Kollokationen von interest zu berücksichtigen, nur so erkennt man wie dieses Assoziationspaar von der englischen Sprache analog in die Deutsche übersetzt werden kann. (siehe obiges Beispiel) Somit wird der Algorithmus erkennen, dass beispielsweise interest im Satzteil showed interest nur in der Bedeutung von attention, concern vorliegen kann. 3.4 Eine Bedeutung pro Diskurs, eine Bedeutung pro Kollokation Eine Bedeutung pro Diskurs Es wir davon ausgegangen, dass die Bedeutung eines Zielwortes innerhalb eines Textes oder Kapitels etc. konstant bleibt, d.h. Bank wird wohl kaum in gleichen Text als Geldinstitut und als Sitzgelegenheit vorkommen. Nun wird jedes Vorkommen des ambigen Wortes nicht mehr gesondert betrachtet, sondern die erste Bedeutung dieses Wortes wird auf alle weiteren Vorkommen im Text angewandt Eine Bedeutung pro Kollokation Die im Kontext des zu untersuchendes Wortes liegenden Wörter geben relativ gute Hinweise darauf, welche Bedeutung das ambige Wort hier hat. Nur ist noch darauf zu achten, wo genau sich die Kontextwörter befinden, denn die Disambiguierung ist abhängig von der Entfernung, Reihenfolge und den syntaktischen Beziehungen dieser Kontextwörter in Relation zum ambigen Wort. Auch hier wird die am häufigsten ermittelte Bedeutung dieses Wortes auf alle weiteren Vorkommen im Text angewandt. Vor allem bei kurzen Texten wird dieses Verfahren genutzt, da es hier die höchste Trefferquote hat. 4. Unsupervised Disambiguation Tritt in Aktion, wenn keine Hinweise auf die Bedeutungen der Wörter vorliegen, da weder lexikalische Quellen, noch ein Trainings-Set oder Kollokationssequenzen zur Verfügung stehen. (Allerdings ist eine reine unsupervised Disambiguation in der Praxis nicht möglich!) Vorgehensweise: Die Kontexte, in denen ein ambiges Wort steht werden in Gruppen (Kluster) eingeteilt Unterschiede werden zwischen diesen einzelnen Gruppen dennoch gemacht, auch ohne, dass sie markiert wurden. Ein gängiges Verfahren hierfür ist die context-group discrimination, ein bestimmter Algorithmus. Anwendung hierbei findet auch häufig der EM-Algorithmus. Vorteile: Unterschiede zwischen den einzelnen gebräuchlichen Bedeutungen sind viel feiner als 5
6 in einem Lexikon. Für Information-Retrieval-Systeme ist dies eine wichtige Anwendung. Mögliche Probleme: Diese Methode erlaubt es nicht seltene Bedeutungen eines Wortes und Bedeutungen, die nur in wenigen Kollokationen auftreten, zu isolieren, d.h. sie sind überaus schwer zu lokalisieren. suit mit der Bedeutung von to be appropriate for (geeignet sein, passend sein), wie in This suits me fine. wird mit hoher Wahrscheinlichkeit nicht gefunden. 5. Welche Bedeutung hat ein Wort? Mittlerweile gibt es verschiedene Experimente, um herauszufinden, welche Bedeutungen der Durchschnittsmensch, bestimmten ambigen Wörtern zuordnen würde: Versuchspersonen sollen Kontexte ambiger Wörter in Gruppen einteilen.(clustern) Versuchspersonen sollen ambige Wörter in einem Korpus markieren, der auf lexikalischen Definitionen gestützt ist. Mögliche Probleme: Unklar ist noch, wie sicher und korrekt die Versuchspersonen den Gebrauch der Wörter und ihrer Bedeutungen im aktuellen Sprachverständnis und in der Sprachproduktion angeben. Die Einteilung der Versuchspersonen ist beliebig, deshalb ist nicht eindeutig zu sagen, ob diese Versuchmethoden in ihrer Reinform geeignet sind. Die Übereinstimmungen der Versuchspersonen beim Clustern sind sehr niedrig. Die Übereinstimmung bei der Markierung ist sehr hoch, wenn es viele ambige Worte mit einer schiefen Verteilung gibt (skewed distribution), d.h. ein und dieselbe Bedeutung wird bei den häufigsten Vorkommen eines Wortes verwendet. Viele Wörter mit der größten Abweichungsquote sind hoch frequente Wörter. Co-Aktivation: Mehrere Bedeutungen eines ambigen Wortes werden in ein und demselben Kontext simultan gebraucht. Hohe Abweichungsquote Häufige simultane Verwendungen in der Alltagssprache Z.B. For better or worse, this would bring competition to the licensed trade. ('the act of X' versus 'the people doing X') Fast alle Wörter können auch als Eigennamen auftreten! Z.B. Brown, Bush, Army, usw. Quelle: Christopher D. Manning & Hinrich Schütze : Foundations of Statistical Natural Language Processing. MIT Press. Cambridge (USA) Kapitel 7. pp
Einführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrWahrscheinlichkeitstheorie und Naive Bayes
Wahrscheinlichkeitstheorie und Naive Bayes Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 12.05.2011 Caroline Sporleder Naive Bayes (1) Elementare Wahrscheinlichkeitstheorie
Mehr12. LA- und PS-Hierarchien im Vergleich
Kapitel 12: LA- und PS-Hierarchien im Vergleich 210 12 LA- und PS-Hierarchien im Vergleich 121 Sprachklassen der LA- und PS-Grammatik 1211 Komplexitätsklassen der LA- und PS-Hierarchie LA-Grammatik PS-Grammatik
MehrA Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz
A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrEinführung in die Computerlinguistik Statistische Grundlagen
Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrDOWNLOAD. Englisch in Bewegung. Spiele für den Englischunterricht. Britta Buschmann. Downloadauszug aus dem Originaltitel:
DOWNLOAD Britta Buschmann Englisch in Bewegung Spiele für den Englischunterricht auszug aus dem Originaltitel: Freeze Hör-/ und Sehverstehen Folgende Bewegungen werden eingeführt: run: auf der Stelle rennen
MehrGrundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt
Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum
MehrSatz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung
Satz Umstrukturierung für statistisch maschinelle Übersetzung Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Einführung Beschreibung einer
MehrParsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8.
Gliederung Natürlichsprachliche Systeme I D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg 1 WS 2011/12, 26. Oktober 2011, c 2010-2012
MehrEnglisch Klasse 8 - Name:
Englisch Klasse 8 Name: Kompetenzen: Unit 1 talk about New York City Englisch G 21 A4 p. 1421 Fit für Tests und Klassenarbeiten 4, p. 89, p. 14 ex. 2, p. 15 ex. 3 use the present perfect progressive and
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrDependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/
Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/12 21.11.2011 Lena Enzweiler 1 Was ist das Problem? Wortbasierte Vektormodelle betrachten nur
MehrDas Kompositionalitätsprinzip
Das Kompositionalitätsprinzip (Version 1.0) Seminar Kompositionalität, 2005 1 Das Kompositionalitätsprinzip (Version 1.0) Die Bedeutung eines komplexen Ausdrucks ist durch die Bedeutung seiner Teile bestimmt
MehrUnabhängigkeit KAPITEL 4
KAPITEL 4 Unabhängigkeit 4.1. Unabhängigkeit von Ereignissen Wir stellen uns vor, dass zwei Personen jeweils eine Münze werfen. In vielen Fällen kann man annehmen, dass die eine Münze die andere nicht
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrLexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones
Lexikalische Substitutionen Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Gliederung 1 Substitutionen: Arten und Eigenschaften 2 Entstehung
MehrName: Klasse/Jahrgang: Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung HUM. 12. Jänner Englisch.
Name: Klasse/Jahrgang: Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung HUM 12. Jänner 2016 Englisch (B2) Schreiben Hinweise zum Beantworten der Fragen Sehr geehrte Kandidatin,
MehrAbschnitt 3: Mathematische Grundlagen
Abschnitt 3: Mathematische Grundlagen 3. Mathematische Grundlagen 3.1 3.2 Induktion und Rekursion 3.3 Boolsche Algebra Peer Kröger (LMU München) Einführung in die Programmierung WS 14/15 48 / 155 Überblick
MehrReranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle
MehrEin RSA verwandtes, randomisiertes Public Key Kryptosystem
Seminar Codes und Kryptographie WS 2003 Ein RSA verwandtes, randomisiertes Public Key Kryptosystem Kai Gehrs Übersicht 1. Motivation 2. Das Public Key Kryptosystem 2.1 p-sylow Untergruppen und eine spezielle
MehrSelf-Regulation Questionnaire for Adolescent Students (SRQ-A[G])
Self-Regulation Questionnaire for Adolescent Students (SRQ-A[G]) Skalen zur motivationalen Regulation beim Lernen von Schülerinnen und Schülern (überarbeitete Fassung) Klagenfurt, im August 2011 Alpen-Adria
Mehr8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
MehrBachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.
München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrEnglisch. Schreiben. 18. September 2015 BAKIP / BASOP. Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung.
Name: Klasse/Jahrgang: Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung BAKIP / BASOP 18. September 2015 Englisch (B2) Schreiben Hinweise zum Beantworten der Fragen Sehr geehrte
Mehr16. Die Chomsky-Hierarchie
16. Die Chomsky-Hierarchie Die Chomsky-Sprachen sind gerade die rekursiv aufzählbaren Sprachen: CH = RA Da es nicht rekursive (d.h. unentscheidbare) r.a. Sprachen gibt, ist das Wortproblem für Chomsky-Grammatiken,
MehrAutomatisches Lernen von Regeln zur quellseitigen Umordnung
Automatisches Lernen von Regeln zur quellseitigen Umordnung E I N A N S AT Z V O N D M I T R I Y G E N Z E L Duwaraka Murugadas Fortgeschrittene Methoden der statistischen maschinellen Übersetzung (Miriam
MehrPart-Of-Speech-Tagging mit Viterbi Algorithmus
Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus
Mehr4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum
4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.
MehrErgänzungsmaterial g zum Kapitel. Die Unified Modeling Language (UML) Aggregation versus Komposition
Ergänzungsmaterial g zum Kapitel Die Unified Modeling Language (UML) Aggregation versus Komposition UML, statisches Modell: Assoziationen Kardinalität beliebig: festes Intervall: 0.. offenes Intervall:
MehrObjekterkennung Visuelle Verarbeitung von Gesichtern Orientierungseffekte. Objekterkennung Visuelle Verarbeitung von Gesichtern Orientierungseffekte
Orientierungseffekte Orientierungseffekte Inversionseffekt Thatcher Illusion Rotierte Gesichter sind schwieriger zu erkennen als andere mono-orientierte Objekte (Yin, 1969). Der groteske Gesichtsausdruck,
MehrEINFÜHRUNG IN DIE THEORETISCHE INFORMATIK
EINFÜHRUNG IN DIE THEORETISCHE INFORMATIK Prof. Dr. Klaus Ambos-Spies Sommersemester 2011 17. DIE CHOMSKY-HIERARCHIE Theoretische Informatik (SoSe 2011) 17. Die Chomsky-Hierarchie 1 / 15 Einleitung Die
MehrBachelorarbeit Erkennung von Fließtext in PDF-Dokumenten
Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei
MehrEinführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management
Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Regression: 4 eindimensionale Beispiele Berühmte
MehrEin Tabellenverfahren zur Lösung linearer Gleichungssysteme
Ein Tabellenverfahren zur Lösung linearer Gleichungssysteme Holger Krug 17. Februar 2007 1 Das Tabellenverfahren Zum Lösen linearer Gleichungssysteme gibt es mehrere Verfahren. Alle Verfahren haben gemeinsam,
MehrLevel 1 German, 2012
90886 908860 1SUPERVISOR S Level 1 German, 2012 90886 Demonstrate understanding of a variety of German texts on areas of most immediate relevance 9.30 am Tuesday 13 November 2012 Credits: Five Achievement
MehrDynamisches Huffman-Verfahren
Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrInterdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen
Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2013: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache
MehrRelationen zwischen Nomen und ihren Assoziationen. Michael Roth
Relationen zwischen Nomen und ihren Assoziationen Michael Roth 2 Assoziationen sind psychologisch interessant. Wie erfolgt der Zugriff auf sie? Welche Bedeutung haben sie? erfüllen einen linguistischen
MehrEinführung in die Wahrscheinlichkeitsrechnung
Einführung in die Wahrscheinlichkeitsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Wahrscheinlichkeitsrechnung
MehrPsycholinguistik. Definition: Psycholinguistik (synonym: Sprachpsychologie) erforscht das kognitive (mentale) System, das den Sprachgebrauch erlaubt.
Psycholinguistik Definition: Psycholinguistik (synonym: Sprachpsychologie) erforscht das kognitive (mentale) System, das den Sprachgebrauch erlaubt. Teilgebiete der Psycholinguistik Können danach klassifiziert
MehrLexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?
Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen
MehrPunktlokalisierung. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK
Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 22.05.2012 Nachtrag: Dynamische Bereichsabfragen Letzte Woche: kd-trees und Range-Trees
MehrPraktikum Maschinelle Übersetzung Lexikon and Word Alignment
Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden zunächst
MehrErkennung fremdsprachiger Ausdrücke im Text
Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina
MehrÜbungen Teil 1: ER-Modelle. Dozent: Stefan Maihack Dipl. Ing. (FH)
Übungen Teil 1: ER-Modelle Dozent: Stefan Maihack Dipl. Ing. (FH) Die (min, max) - Notation Bei der Verwendung der Funktionalität ist für einen Entity-Typen nur die maximale Anzahl der Beziehungen mit
MehrMy Reading-Log. Eine Hilfe beim Lesen von englischen Ganzschriften in der Schule. Hinweise zur technischen Umsetzung:
Eine Hilfe beim Lesen von englischen Ganzschriften in der Schule Hinweise zur technischen Umsetzung: Die Tagebuch-Seiten werden in der vorgebenen Reihenfolge beidseitig auf A4 Papier gedruckt. Das vierte
MehrEinführung in die Computerlinguistik: Semantik. Manfred Pinkal / Sebastian Pado
Einführung in die Computerlinguistik: Semantik Manfred Pinkal / Sebastian Pado Semantik Wann fängt heute die CL-Vorlesung an? Sie beginnt um 11. Einführung in die Computerlinguistik 2005/2006 M. Pinkal
MehrAlgorithmen und Datenstrukturen 1
Algorithmen und Datenstrukturen 1 4. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de 4. Sortierverfahren Elementare Sortierverfahren - Sortieren durch
MehrEinführung in das Maschinelle Lernen I
Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL
Mehr2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrAugust Macke 1887-1914 Abschied, 1914 Museum Ludwig, Köln
August Macke 1887-1914 Abschied, 1914 Museum Ludwig, Köln Ideas for the classroom 1. Introductory activity wer?, was?, wo?, wann?, warum? 2. Look at how people say farewell in German. 3. Look at how people
MehrFortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung
MehrStatistische Verfahren in der Computerlinguistik
Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende
MehrEinführung Computerlinguistik. Konstituentensyntax II
Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax
MehrPlanning a trip to California
Planning a trip to California Die Millers planen eine 10-Tage-Tour mit dem Wohnmobil durch Kalifornien. Das Problem ist bloß, jedes Familienmitglied möchte etwas anderes sehen. Es ist nicht genug Zeit,
MehrWahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26)
Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26 Ein Wahrscheinlichkeitsraum (Ω, P ist eine Menge Ω (Menge aller möglichen Ausgänge eines Zufallsexperiments: Ergebnismenge versehen mit einer Abbildung
MehrName: Klasse: Standardisierte kompetenzorientierte schriftliche Reifeprüfung AHS. 18. September Englisch. Schreiben
Name: Klasse: Standardisierte kompetenzorientierte schriftliche Reifeprüfung AHS 18. September 2015 Englisch (B2) Schreiben Hinweise zum Beantworten der Fragen Sehr geehrte Kandidatin, sehr geehrter Kandidat!
MehrIm Original veränderbare Word-Dateien
Schulaufgabe aus dem Englischen Klasse:... Name:... gehalten am:... 1. Dictation 2. Compare these things! Take the given adjectives in brackets and use the comparative once and the superlative once. (1)
Mehr19 Folgen. Grenzwerte. Stetigkeit
19 Folgen. Grenzwerte. Stetigkeit Jörn Loviscach Versionsstand: 27. Dezember 2014, 16:35 Die nummerierten Felder sind absichtlich leer, zum Ausfüllen beim Ansehen der Videos: http://www.j3l7h.de/videos.html
MehrÜber die App PONS Schülerwörterbuch Englisch Deutsch
Über die App PONS Schülerwörterbuch Diese Übungen ergänzen die App Schülerwörterbuch, die es gratis zu jedem PONS Schülerwörterbuch gibt. Im Buch finden Sie einen Code, mit dem Sie die Wörterbuch-App herunterladen
MehrStatistik Einführung // Wahrscheinlichkeitstheorie 3 p.2/58
Statistik Einführung Wahrscheinlichkeitstheorie Kapitel 3 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Leydold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Wahrscheinlichkeitstheorie
MehrVektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
Mehr8 Design Patterns. Events
8 Design Patterns. Events Jörn Loviscach Versionsstand: 28. März 2015, 19:13 Die nummerierten Felder sind absichtlich leer, zum Ausfüllen beim Ansehen der Videos: http://www.j3l7h.de/videos.html This work
MehrSupervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung
Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und
MehrDuopol. Monopol. Duopol. Supply Chains. Strategische Lagerhaltung. Anreize für Manager. Terminmärkte. Hotelling
Abdolkarim Sadrieh Unternehmensinteraktion 40 Annahmen Zwei Firmen (i = 1,2) Unterscheidung zwischen Produkten Unterscheidung der ssituation g Unterscheidung der svariable Preiswahl Mengenwahl Abdolkarim
MehrDefinition der Entropie unter Verwendung von supp(p XY )
Definition der Entropie unter Verwendung von supp(p XY ) Wir fassen die Ergebnisse des letzten Abschnitts nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße XY mit der Wahrscheinlichkeitsfunktion
MehrBayessche Netzwerke und ihre Anwendungen
Bayessche Netzwerke und ihre Anwendungen 1. Kapitel: Grundlagen Zweiter Schwerpunktanteil einer Vorlesung im Rahmen des Moduls Systemplanung und Netzwerktheorie (Modul-Nr.: 1863) Fakultät für Informatik
Mehrhttps://portal.microsoftonline.com
Sie haben nun Office über Office365 bezogen. Ihr Account wird in Kürze in dem Office365 Portal angelegt. Anschließend können Sie, wie unten beschrieben, die Software beziehen. Congratulations, you have
MehrPrediction Market, 28th July 2012 Information and Instructions. Prognosemärkte Lehrstuhl für Betriebswirtschaftslehre insbes.
Prediction Market, 28th July 2012 Information and Instructions S. 1 Welcome, and thanks for your participation Sensational prices are waiting for you 1000 Euro in amazon vouchers: The winner has the chance
MehrDieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.
Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.
MehrRelationales Datenbanksystem Oracle
Relationales Datenbanksystem Oracle 1 Relationales Modell Im relationalen Modell wird ein relationales Datenbankschema wie folgt beschrieben: RS = R 1 X 1 SC 1... R n X n SC n SC a a : i=1...n X i B Information
MehrQUALIA STRUKTUR NACH PUSTEJOVSKY
QUALIA STRUKTUR NACH PUSTEJOVSKY Angewandte Linguistische Datenverarbeitung Sprachliche Informationsverarbeitung Universität zu Köln Dozent: Prof. Dr. Jürgen Rolshoven Referentin: Corinna Asselborn 20.01.2014
MehrWeiterbildungskolleg der Stadt Bielefeld Abendrealschule Fachbereich Englisch Frachtstraße 8 33602 Bielefeld
Weiterbildungskolleg der Stadt Bielefeld Abendrealschule Fachbereich Englisch Frachtstraße 8 33602 Bielefeld Requirements for Entering the First Term in English, Exercises to Prepare Yourself / Anforderungen
MehrVideo zum I Don't Want To Know
Video zum I Don't Want To Know {youtube}ans9ssja9yc{/youtube} {tab=songtext} (Adam Levine:) Wasted (wasted) And the more I drink the more I think about you Oh no, no, I can't take it Baby every place I
MehrKreuzworträtsel PROVERB: Crossword solver Fabian Walke
Kreuzworträtsel PROVERB: Crossword solver Fabian Walke 30. Mai 2010 Fachbereich 03 Institut für Sportwissenschaft Fabian Walke 1 Gliederung 1. Problemaufriss/Einleitung 2. Wie lösen die Entwickler die
MehrLinguistik für Kognitionswissenschaften
Linguistik für Kognitionswissenschaften Computerlinguistik: Maschinelle Übersetzung Computerlinguistik Fehlübersetzung von engl. computational linguistics - computationelle Linguistik beinhaltet im weiteren
MehrBerechnung von W für die Elementarereignisse einer Zufallsgröße
R. Albers, M. Yanik Skript zur Vorlesung Stochastik (lementarmathematik) 5. Zufallsvariablen Bei Zufallsvariablen geht es darum, ein xperiment durchzuführen und dem entstandenen rgebnis eine Zahl zuzuordnen.
MehrVorlesung Diskrete Strukturen Ordnungsrelationen
Vorlesung Diskrete Strukturen Ordnungsrelationen Bernhard Ganter WS 2009/10 Ein Spiegelei zubereiten... Was muss man tun, wenn man ein Spiegelei brät? HE Herd einschalten PH Pfanne auf den Herd stellen
Mehr2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
Mehr1 Wahrscheinlichkeitsrechnung und Zufallsvariablen
1 Wahrscheinlichkeitsrechnung und Zufallsvariablen Zoltán Zomotor Versionsstand: 18. Mai 2015, 09:29 Die nummerierten Felder bitte während der Vorlesung ausfüllen. This work is licensed under the Creative
MehrLehrkonzept Language & More
Lehrkonzept Language & More Agenda: Zielsetzung Philosophie Lehrinhalte Spezialkurse Personal Coaching Zusammenfassung Language & More 2 Zur Person: Alastair Black Geboren in Edinburgh Beruflicher Werdegang:
MehrEinführung Computerlinguistik. Was ist ein Wort?
Einführung Computerlinguistik Was ist ein Wort? Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-10-18 Schütze & Zangenfeind: Was ist ein Wort? 1
MehrSemantic Relations and User Interests
Semantic Relations and User Interests WordNet Lexical Database und mögliche Anwendungen bei der Benutzerinteraktion Sebastian Blohm Sorry... Wie kann eine Maschine beim Suchen helfen? Was Maschinen schon
MehrEXPERT SURVEY OF THE NEWS MEDIA
EXPERT SURVEY OF THE NEWS MEDIA THE SHORENSTEIN CENTER ON THE PRESS, POLITICS & PUBLIC POLICY JOHN F. KENNEDY SCHOOL OF GOVERNMENT, HARVARD UNIVERSITY, CAMBRIDGE, MA 0238 PIPPA_NORRIS@HARVARD.EDU. FAX:
MehrEnglisch. Schreiben. 11. Mai 2016 HUM. Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung. Name: Jahrgang:
Name: Jahrgang: Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung HUM 11. Mai 2016 Englisch (B2) Schreiben 2 Hinweise zum Beantworten der Fragen Sehr geehrte Kandidatin, sehr geehrter
MehrDo Word Meanings Exist? Patrick Hanks
Do Word Meanings Exist? Patrick Hanks Intro Zur Desambiguierung wurden Checklisten benutzt checklist theories: oberflächlich und irreführend wenn es Bedeutung gibt, dann nicht in Form einer Checkliste
MehrFormalisierung und Kategorisierung natürlichsprachlicher Ortsbeschreibungen
Formalisierung und Kategorisierung natürlichsprachlicher Ortsbeschreibungen Daniela Richter, Stephan Winter FAKULTÄT FÜR BAUINGENIEUR-, GEO- UND UMWELTWISSENSCHAFTEN DEPARTMENT OF INFRASTRUCTURE ENGINEERING
MehrDie Wortbildung des Deutschen. Wortbildungsmittel
Die Wortbildung des Deutschen Wortbildungsmittel Voraussetzungen und Ziele der Wortbildungsanalyse Bildung von Wörtern folgt best. Wortbildungstypen Bildung nach Vorbild eines bereits bekannten Wortes
MehrResolutionsalgorithmus
112 Resolutionskalkül Mit dem Begriff Kalkül bezeichnet man eine Menge von syntaktischen Umformungsregeln, mit denen man semantische Eigenschaften der Eingabeformel herleiten kann. Für den Resolutionskalkül:
MehrEinführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
MehrElemente der Stochastik (SoSe 2016) 6. Übungsblatt
Dr. M. Weimar 19.05.2016 Elemente der Stochastik (SoSe 2016 6. Übungsblatt Aufgabe 1 ( Punkte Eine Klausur, die insgesamt von zwölf Kursteilnehmern geschrieben wurde, soll von drei Gutachtern bewertet
MehrTerminologie zum Dreyer & Bosse BHKW 110 kw
Terminologie zum Dreyer & Bosse BHKW 110 kw Teilgruppe 1: Terminologische Erfassung der Fachwörter des Dreyer & Bosse BHKW 110 kw Begriffe des Textkorpus von % bis Bedienelement Bearbeitet von: Lars Nordmann
Mehr