Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen)



Ähnliche Dokumente
Einfache Varianzanalyse für abhängige

Prüfung eines Datenbestandes

Professionelle Seminare im Bereich MS-Office

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Erfahrungen mit Hartz IV- Empfängern

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

SWOT Analyse zur Unterstützung des Projektmonitorings

Projektzeit erfassen. Allgemeines. Projektzeit erfassen - Maske. Erklärung der Tabellenspalten. In Arbeit!

Ermittlung von Tantiemen mittels Excel-Zielwertsuche für Bemessungsgrundlagen nach Gewerbesteuer und nach der Tantieme selbst

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

Bruchrechnung Wir teilen gerecht auf

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

LimeSurvey Fragetypen

Stellvertretenden Genehmiger verwalten. Tipps & Tricks

Anleitung zur Beurteilungssystematik von Lehrveranstaltungen mit immanentem Prüfungscharakter in MEDonline als Lehrende/r

Musterlösung zu Serie 14

Erfolg beginnt im Kopf

Einfache statistische Auswertungen mit dem Programm SPSS

R ist freie Software und kann von der Website.

Naturgewalten & Risikoempfinden

Bedienerhandbuch Toleranztabellen Version 1.2.x. Copyright Hexagon Metrology

Anleitung über den Umgang mit Schildern

Wir machen neue Politik für Baden-Württemberg

Aktivierung von Makros in den Erfassungshilfen

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Modalitäten der LSF-Belegung für die Lehrveranstaltungen

Datenbanken Microsoft Access 2010

Lernaufgabe Industriekauffrau/Industriekaufmann Angebot und Auftrag: Arbeitsblatt I Auftragsbeschreibung

Noten ausrechnen mit Excel/Tabellenkalkulation. 1) Individuellen Notenschlüssel/Punkteschlüssel erstellen

Studienplatzbeschaffung

ein Versandsystem das immer passt HVS32 Monitoring

Anleitung SEPA-Lastschriften mit VR- NetWorld Software 5

Kapitel 4 Tabellen Seite 1. Nun wirst du eine Tabelle erstellen und ein wenig über deren Aufbau lernen.

Politikverständnis und Wahlalter. Ergebnisse einer Studie mit Schülern und Studienanfängern

ANLEITUNG - WIE UNTERSTÜTZE ICH AUF STARTNEXT?

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Statistik für Studenten der Sportwissenschaften SS 2008

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Auswertung des Jahresabschlusses Bilanzanalyse 2

Daten sammeln, darstellen, auswerten

Folgende Voraussetzungen für die Konfiguration müssen erfüllt sein: - Ein Bootimage ab Version Optional einen DHCP Server.

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Tipps & Tricks für ConAktiv-User

Um die Rücklagen ordnungsgemäß zu verbuchen, ist es wichtig, Schritt-für-Schritt vorzugehen:

Vorgehensweise bei Lastschriftverfahren

Österreichische Trachtenjugend

Der HIV-Antikörper-Schnelltest aus Sicht des Labormediziners. Dr. Thomas Berg, Berlin

Info-Veranstaltung zur Erstellung von Zertifikaten

Erstellen einer Abwesenheitsnotiz

Tutorial: Homogenitätstest

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

1. Wie viel Zinsen bekommt man, wenn man 7000,00 1 Jahr lang mit 6 % anlegt?

SEPA-Umstellungshilfe für die VR-NetWorld-Software zur Nutzung von SEPA-Lastschriften

Formelsammlung zur Kreisgleichung

Anleitung für die Online-Bewerbung über LSF auf Lehrveranstaltungen aller Lehramtsstudiengänge

Installationsanleitung. Ab Version

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Technische Informatik Basispraktikum Sommersemester 2001

Auswahlabfragen mit ACCESS

Betriebswirtschaftliches Beratungstool für Steuerberater Ziele, Inhalte und Struktur

Überblick über die Verfahren für Ordinaldaten

Wireless LAN PCMCIA Adapter Installationsanleitung

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Die richtigen Partner finden, Ressourcen finden und zusammenführen

RTA-BW Version 6.16 Anderungsbeschreibung

Datenexport aus JS - Software

sidoku sidoku EXPRESS Release Stand: erstellt von: EXEC Software Team GmbH Südstraße Ransbach-Baumbach

NEWSLETTER. Holen Sie Ihre GRATIS-AUSGABE von *Crealern Insider* - einer der führenden Newsletter im Internet für Familien zum Thema:

Excel Pivot-Tabellen 2010 effektiv

Rasterpunkte und Rasterdichte (Knoten/km)

SmartDispatch DMR-Dispatcher. Bestellablauf. SmartDispatch-Bestellablauf V1.0

Erstellen und Bearbeiten von Inhalten (Assets)

Vorsorgeverhalten und Pensionskonto Neu Steiermark

WinVetpro im Betriebsmodus Laptop

STLB-Bau Kundenmanager

Statistische Auswertung:

Dokumentation zur Versendung der Statistik Daten

Zugang zum Online-Portal mit Passwort Benutzeranleitung (Stand 01/2015)

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Sonderrundschreiben. Arbeitshilfe zu den Pflichtangaben in Immobilienanzeigen bei alten Energieausweisen

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Infos: / Tel:

Funktionaler Zusammenhang. Lehrplan Realschule

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Varianzanalyse (ANOVA: analysis of variance)

DAVID: und David vom Deutschlandlabor. Wir beantworten Fragen zu Deutschland und den Deutschen.

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Übungsblatt 1: a) 5. Aufgaben: Rohentwurf analoges Lehrbuch

Viele Bilder auf der FA-Homepage

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Handbuch ECDL 2003 Professional Modul 2: Tabellenkalkulation Arbeiten mit Pivot-Tabellen

Abb. 1 Einstellungen Supervisor Oprionen Gebäude-/Verteilertätigkeit

Transkript:

basierend auf H Schmid snlp 4 KollokaKonen Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) Basierend auf Kap 3 McEnery & Wilson (2001) & H Schmid snlp Vorlesungsskript Gertrud Faaβ Universität Stu^gart, InsKtut für maschinelle Sprachverarbeitung Azenbergstr. 12, 70174 Stu^gart 0711 685 81385 faaszgd@ims.uni stu^gart.de 1

Kollokationen (mögliche Kriterien I) feste Wortverbindungen: müssen beim Erwerb der Sprache erlernt werden fehlende Kompositionalität: Bedeutung ergibt sich nicht kompositional aus den Einzelbedeutungen der Bestandteile: auf die Palme bringen, mit den Wölfen heulen, Rede halten,...

Kollokationen (mögliche Kriterien II) fehlende Modifizierbarkeit: Im Auge behalten *In den Augen behalten Guten Morgen *Abfuhren erteilen...

Kollokationen (mögliche Kriterien III) fehlende Ersetzbarkeit: Teile können nicht gegen semantisch äquivalente Wörter ausgetauscht werden: *unter die Graberde bringen *sich in der Gruft umdrehen *steifer Wind *hohe Achtung

KollokaKonen (mögliche Kriterien IV) fehlende direkte Übersetzbarkeit eine Entscheidung treffen *to hit a decision Wer A sagt, muss auch B sagen = In for a penny, in for a pound (h^p://german.about.com/library/blredew_intro.htm)

Feststellbarkeit Es geht um Signifikanz! Unser Gehirn speichert Wortsequenzen ( Phraseologie) Mengen von Bedeutungsmöglichkeiten (ambiger) Wörter können aufgrund ihres Co Textes reduziert werden (sense disknckon) 6

Beispiele Häufigste Wortpaare in New York Times: FunkKonswörter : of the, in the, to the, on the,... AdjekKv Nomen: New York, United States, Los Angeles, last year, Saudi Arabia 7

Beispiele Abstand zwischen KollokaKonsbestandteilen kann groesser 1 sein: Abstand bis 5 bei Verb Nomen Paaren im Deutschen: spielen Rolle, sagen Mann, stellen Frage, sehen Seite, geben Grund, schüleln Kopf,... 8

StaKsKsche Tests Tests mutual informakon t test Chi square (χ 2 ) Test... 9

StaKsKsche Tests Tests Wortpaare sollten häufiger sein als aufgrund der Wahrscheinlichkeiten der Einzelwörter zu erwarten ist Nullhypothese: Es besteht keine Beziehung zwischen den Einzelwörtern 10

StaKsKsche Tests Grundsätzlich: Gesamtwahrscheinlichkeit ρ aller möglichen Testergebnisse berechnen und in Bezug zueinander setzen 11

Chi Square Test Chi-Square Test wird auf Kontingenz Tabellen angewendet Aufgabe: prüfe, ob new companies eine Kollokation ist? Zählen, wie oft new mit/ohne companies vorkommt und companies mit/ohne new im Bezug auf die Größe des Korpus (N) 12

Chi Square Test Chi-Square Test wird auf Kontingenz Tabellen angewendet w2 = new w2!=new sums w2 = companies 8 4667 4675 w2!= companies 15820 14287173 14302993 15828 14291840 13

StaKsKsche Tests χ 2 Test Jetzt müssen Summen aus allen Spalten und Zeilen gebildet und durch N geteilt werden 14

StaKsKsche Tests Kalkuliere χ 2 Summe (kalkulierten Werte Frequenzen) im Quadrat geteilt durch kalkulierte Werte 15

StaKsKsche Tests χ 2 muss nun in Bezug gesetzt werden mit dem sog. Freiheitsgrad (degree of freedom: df) = (R 1)*(C 1) = Anzahl Reihen 1 mul\pliziert mit der Anzahl der Zeilen 1. Unser Fall: (2 1)(2 1)=1 16

StaKsKsche Tests Pruefe in einer Chi Square Tabelle (Eingabe Chi Square und d) hlp://davidmlane.com/hyperstat/chi_square.html Was ist Signifikant? > 0.05? Andere Werte? Das muss in der Testphase festgelegt werden. 17

Referenzen McEnery & Wilson (2001). Corpus LinguisKcs (2 nd EdiKon). Edinburgh Textbooks in Empirical LinguisKcs. Edinburgh University Press. Jurafsky and MarKn (2008). Speech and Language Processing. 2 nd EdiKon. Upper Saddle River: PrenKce Hall, Kapitel 4.1 5 Helmut Schmid. StaKsKsche Methoden in der Maschinellen Sprachverarbeitung. Unveröffentlichtes Manuskript zur Lehrveranstaltung. h^p://davidmlane.com/hyperstat/chi_square.html perlscripts: u.a. h^p://search.cpan.org/~mikek/stakskcs DistribuKons 1.02/DistribuKons.pm 18