Linguistische Informatik
|
|
- Wilhelmine Waldfogel
- vor 7 Jahren
- Abrufe
Transkript
1 Linguistische Informatik Gerhard Heyer Universität Leipzig Institut für Informatik
2 Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz Parser Output: analysierter Satz 2
3 Statistische Aspekte von Sprache Die lexikalischen Einträge werden nicht gleich häufig verwendet Die grammatischen Regeln werden nicht gleich häufig verwendet Der Erwartungswert bestimmter Wortformen bzw. Wortformenkombinationen hängt ab von der verwendeten Fachsprache 3
4 Zipfsches Gesetz 2 George K. Zipf: Für natürliche Sprache gilt das Principle of Least Effort. Die am häufigsten gebrauchten Wörter sind meist sehr kurze, inhaltsleere Funktionswörter. Wortform Häufigkeit der die und in (vgl. Beispiel: 10 häufigste Wörter aus Projekt Deutscher Wortschatz) den von zu das mit sich
5 Beispiel Deutscher Wortschatz: Wortform Häufigkeit n Rang r r n sich immer Mio Medien Miete vorläufige Gilt Zipfsches Gesetz auch für Märchen Ali-Baba und die 40 Räuber? 5
6 frequency Sprachstatistik Zipf s law in detail List wordforms (types!) of a text by frequency and assign a rank such that the most frequent wordform has rank 1 Now, the rank of a wordform multiplied by its frequency is about constant (for the selected text corpus) r n k (with constant k dependent on selected text) i.e. we get a simple hyperbola n ~ k x 1/r or n ~ k x r -1 rank 6
7 Graphische Darstellung 7
8 Anwendungen Differenzanalyse Abschätzung über Anzahl an Wortformen, die n mal im Text vorkommen Abschätzung des Umfangs des Vokabulars Abschätzung des Zuwachses des Vokabulars, wenn sich Textmenge erhöht Analyse von Suchanfragen 8
9 Statistische Merkmale von Terminologie Fachtermini sind Wörter, die in Fachtexten einer Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten: 9
10 Differenzanalyse Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne. 10
11 Rangliste deutscher Wortformen (Deutscher Wortschatz 1-100) der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte 11
12 Rangliste deutscher Wortformen (Fachwortschatz SAP 1-100) die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim 12
13 Rangliste deutscher Wortformen (Differenzliste signifikanter Fachwortschatzterme SAP/Deutscher Wortschatz 1-30; Mindesthäufigkeitsklasse 8, Faktor 16) etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23),
14 Differenzanalyse Indexierung (mittels automatic term recognition) Beobachtung: domänenspezifische Terme treten in Texten dieses Fachgebiets häufiger auf, als in der allgemeinen Sprache Verwendung eines allgemeinen Korpus als reference corpus R (in unserem Fall: Deutscher Wortschatz) Domänenspezifischer Text T als Grundlage der ATR Identifiziere Wortformen w die signifikant häufiger in T als in R auftreten (cf. Witschel 2005) 14
15 Statistik der Termerkennung Grundlage ist ein statistitischer Test: Null-Hypothese: Die Wahrscheinlichkeit eines Auftretens von w ist gleich für T und R Schätze diese Wahrscheinlichkeiten als relative Häufigkeiten von beiden Textkorpora (maximum likelihood estimate) Berechne das Maß der Überraschung, wenn diese Werte unter der Null-Hypothese beobachtet werden. Beispiel: Poisson-Maß sig( w) k(log k log 1) log n k Häufigkeit von w in T np n Länge eines Textes T p relative Häufigk. von w in R 15
16 Application: Textprofiles of internet pages (homepage ASV) 16
17 Application: Textprofiles of internet pages (homepage ASV) 17
18 Ansätze zur Terminologie-Extraktion Drei Hauptrichtungen (fast alles für Englisch!!): Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter. 18
19 Link für automatische Terminologie-Extraktion ASV-Verfahren: 19
20 Zipfsches Gesetz: Formeln N Gesamtanzahl aller Wortformen des Textes (tokens) t Umfang des Vokabulars (types) n/n relative Häfigkeit der Wortformen, die n mal auftreten rn größter Rang derjenigen Wortformen, die genau n mal auftreten In Anzahl der Wortformen, die genau n mal auftreten Es gilt: rn n/n = c also: rn = c N/n (Konstante c ist textunabhängig, aber sprachabhängig) 20
21 Herleitung der Formeln 2 Für das Vokabular gilt: t ist so groß wie der größte Rang der häufigkeits-sortierten Liste. Falls Wörter mit Häufigkeit 1 vorkommen folgt damit: t = r1 = c N/1 = c N Für c gilt: c = r n/n (vgl. Formeln oben) = k/n (nach Zipfschem Gesetz) Nach den Daten des Projekts Deutscher Wortschatz gilt damit fürs Deutsche: c = /
22 Seltene Wörter Frequenz Anzahl Anteil Anzahl verschied. Wortformen (types) : Anzahl Wörter im Text (tokens) Beobachtungen: Es gibt viele extrem seltene Wörter. Ca. 65% der Wörter wurden nur einmal gesehen. Häufig begegnen uns neue Wörter. Wir können ca. jedes 70. Wort als neu erwarten. D.h. größerer Korpus liefert noch lange neue Wörter 22
23 Anteil von Wortformen, die nur 1 mal auftreten Für In gilt: In = rn rn+1 = c N/n - c N/(n+1) = cn/(n(n+1)) = t/(n(n+1)) Für I1 gilt insbesondere: I1 = t/2 Die hälfte des Vokabulars eines Textes tritt wahrscheinlich nur 1 mal auf. allgemein: Anteil der Wortformen, die genau n mal auftreten, am Vokabular eines Textes In/t = (t/(n(n+1))) / t = 1/(n(n+1)) 23
24 Textabdeckung Wenn wir nur N Wörter kennen, welcher Anteil von Text wird dadurch abgedeckt? N Textabdeckung (deutsch) Textabdeckung (englisch) 1 3 % 5 % % 23 % % 42 % % 65 % % 90 % % 99 % % 24
25 Wachstum des Vokabulars Heaps Law Das Wachstum des Vokabulars, wenn sich die Textmenge erhöht, läßt sich abschätzen mit: t = kn Typische Werte für die Parameter k und sind 20 < k < 100 und ~ 0,5. Für das Projekt Deutscher Wortschatz gilt k = 20 und = Voraussage: Bei Erweiterung der Textmenge wird etwa jedes 70. Wort zum ersten mal gesehen. 25
26 Wachstum des Vokabulars Heaps Law Hintergrund ist die Annahme, dass die einfachste Beziehung zwischen dem Textumfang und dem Vokabular in einer doppelt logarithmischen Skalierung linear ist. Es folgen 2 Konsequenzen: 1. Für das Textmengenwachstum gibt es keine Obergrenze 2. Das Vokabular für große Textkollektionen ist ebenfalls sehr groß 26
27 Weitere Zusammenhänge Beziehungen, die für den Großteil der Wortformen eines Textes gelten, wobei einzelne Wortformen zum Teil deutlich abweichen können: Bezeichne l die Länge einer Wortform, dann gilt: n ~ 1/l Bezeichne m die Anzahl der Bedeutungen einer Wortform, dann gilt: m ~ 1/ n Gesetzmäßigkeit ist nicht auf Verteilung von Wörtern in Texten beschränkt: Für Ordnung von amerikanischen Städte nach Einwohnerzahl gilt: Rang Einwohnerzahl konstant 27
28 Verbesserung Der Zusammenhang zwischen Rang und Häufigkeit wird für Wortformen mit sehr kleinem oder sehr großem Rang nur unzureichend durch die Formel n~1/r wiedergegeben. Im Diagramm mit logarithmisch skalierten Achsen weichen diese Wortformen stärker von der vorausgesagten Geraden ab. bessere Beschreibung liefert nach B. Mandelbrot: n ~ 1/(r+c 1 ) 1+c 2 bzw. (r+c 1 ) 1+c 2 n k (mit textabhängiger Konstante k) Parameter c 1 und c 2 ermöglichen Anpassung an die konkreten Daten. 28
29 Graphische Darstellung Daten: Projekt Deutscher Wortschatz; logarithmische Skalierung der Achsen! 29
30 Literaturhinweise Manning/Schütze, Statistical Natural Language Processing Heyer/Quasthoff/Wittig, Text Mining Wissensrohstoff Text 30
Linguistische Informatik
Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz
MehrSprachstatistik: Das Zipf sche Gesetz
Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik wittig@uni-leipzig.de Principle of Least Effort 2 George K. Zipf:
MehrLinguistische Informatik
Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Grammatik Lexikon Input: natürlichsprachlicher Satz
MehrEigenschaften von Texten
Eigenschaften von Texten 1 Statistische Eigenschaften von Text Wie ist die Häufigkeit verschiedener Wörter verteilt? Wie schnell wächst die Größe des Vokabulars mit der Größe eines Korpus? Solche Faktoren
MehrTerminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
MehrElementare Wahrscheinlichkeitslehre
Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?
MehrSoftware-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining
Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining Martin-Luther-Universität Halle/S. Halle/S., 2011/01/20 Natural Language
MehrAnalytische Statistik II
Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Grundproblem Generell sind wir nur selten in der Geographie in der Lage, Daten über die Grundgesamtheit zur Verfügung zu haben.
MehrMöglichkeiten der automatischen Sprachverarbeitung mit Django
Möglichkeiten der automatischen Sprachverarbeitung mit März 2009 / Leipzig / Python Stammtisch Möglichkeiten der automatischen Sprachverarbeitung mit Inhalt 1 2 3 4 Möglichkeiten der automatischen Sprachverarbeitung
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
Mehr4b. Wahrscheinlichkeit und Binomialverteilung
b. Wahrscheinlichkeit und Binomialverteilung Um was geht es? Häufigkeit in der die Fehlerzahl auftritt 9 6 5 3 2 2 3 5 6 Fehlerzahl in der Stichprobe Wozu dient die Wahrscheinlichkeit? Häfigkeit der Fehlerzahl
MehrMathematische und statistische Methoden I
Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrDeskriptive Statistik Kapitel IX - Kontingenzkoeffizient
Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient Georg Bol bol@statistik.uni-karlsruhe.de Markus Höchstötter hoechstoetter@statistik.uni-karlsruhe.de Agenda 1. Untersuchung der Abhängigkeit 2.
Mehr3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0.
Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzureichend beschrieben. Beispiel: Häufigkeitsverteilungen mit gleicher zentraler Tendenz: geringe Variabilität mittlere Variabilität
MehrKAPITEL 6. Nichtlineare Ausgleichsrechnung
KAPITEL 6 Nichtlineare Ausgleichsrechnung Beispiel 61 Gedämpfte Schwingung: u + b m u + D m u = 0, Lösungen haben die Form: u(t) = u 0 e δt sin(ω d t + ϕ 0 ) Modell einer gedämpften Schwingung y(t; x 1,
MehrExponentialfunktion, Logarithmus
Exponentialfunktion, Logarithmus. Die Exponentialfunktion zu einer Basis > 0 Bei Exponentialfunktionen ist die Basis konstant und der Exponent variabel... Die Exponentialfunktion zu einer Basis > 0. Sei
MehrNormalformen boolescher Funktionen
Normalformen boolescher Funktionen Jeder boolesche Ausdruck kann durch (äquivalente) Umformungen in gewisse Normalformen gebracht werden! Disjunktive Normalform (DNF) und Vollkonjunktion: Eine Vollkonjunktion
MehrKapitel 1: Deskriptive Statistik
Kapitel 1: Deskriptive Statistik Grafiken Mit Hilfe von SPSS lassen sich eine Vielzahl unterschiedlicher Grafiken für unterschiedliche Zwecke erstellen. Wir besprechen hier die zwei in Kapitel 1.1 thematisierten
MehrKapitel VI - Lage- und Streuungsparameter
Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel VI - Lage- und Streuungsparameter Markus Höchstötter Lehrstuhl für Statistik, Ökonometrie
MehrUE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 5. Asymptotische Laufzeitkomplexität Definition Regeln Beispiele
UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1 Übung 5 Asymptotische Laufzeitkomplexität Definition Regeln Beispiele Institut für Pervasive Computing Johannes Kepler Universität Linz Altenberger
Mehrn-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015
n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015 Statistische Modelle Wir möchten W.theorie verwenden, um ein Modell eines generativen Prozesses aus Beobachtungen
Mehr4 Effizienz und Komplexität 3.1 1
4 Effizienz und Komplexität 3.1 1 Effizienz (efficiency): auf den Ressourcen-Verbrauch bezogene Programmeigenschaft: hohe Effizienz bedeutet geringen Aufwand an Ressourcen. Typische Beispiele: Speichereffizienz
Mehr6.4 Der Kruskal-Wallis Test
6.4 Der Kruskal-Wallis Test Der Test von Kruskal und Wallis, auch H-Test genannt, ist ein Test, mit dem man die Verteilungen von Teilstichproben auf Unterschiede untersuchen kann. Bei diesem Test geht
Mehr4. Kumulierte Häufigkeiten und Quantile
4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 1 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen
MehrÜbungen mit dem Applet Vergleich von zwei Mittelwerten
Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung
Mehr825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170 e 500 e 443 e 608 e. Zeichnen Sie das Box-Plot. Sind in dieser Stichprobe Ausreißer vorhanden?
1. Aufgabe: Eine Bank will die jährliche Sparleistung eines bestimmten Kundenkreises untersuchen. Eine Stichprobe von 12 Kunden ergab folgende Werte: 825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170
MehrSTATISTISCHE METHODEN UND IHRE ANWENDUNGEN
STATISTISCHE METHODEN UND IHRE ANWENDUNGEN Von Dr. rer. nat. Erwin Kreyszig o. Professor für Statistik an der Universität Karlsruhe mit 82 Abbildungen und zahlreichen Tabellen Vierter, unveränderter Nachdruck
MehrWortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank
Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010
MehrSommer 2002 Stefan Langer CIS, Universität München.
Sommer 00 Stefan Langer CIS, Universität München stef@cis.uni-muenchen.de Sommersemester 00 Dozent: Stefan Langer 8. MAI 00: BLATT 1 1. Statistik und Computerlinguistik. Einige Grundbegriffe der deskriptiven
MehrKonfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005
Universität Bielefeld 13. Juni 2005 Einführung Einführung Wie kann die Kenntnis der Wahrscheinlichkeitsverteilung der Parameter einer Stichprobe dazu verhelfen auf die wahren Werte der Grundgesamtheit
MehrProbeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende
Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende im Sommersemester 2012 Prof. Dr. H. Küchenhoff, J. Brandt, G. Schollmeyer, G. Walter Aufgabe 1 Betrachten
MehrErstspracherwerb. Sprachentwicklung: Wortschatz
Erstspracherwerb Sprachentwicklung: Wortschatz I. Drei Hauptschritte in der lexikalischen Entwicklung 1. Allgemeine Informationen, Statistiken Grundwortschatz mit 16 Jahren: ~ 60.000 Wörter Voraussetzung:
MehrCox-Regression. Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells
Cox-Regression Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells In vielen Fällen interessiert, wie die Survivalfunktion durch Einflussgrößen beeinflusst
Mehr5 Kontinuierliches Wachstum
5 Kontinuierliches Wachstum Kontinuierlich meßbare Größe Wir betrachten nun eine Größe a, die man kontinuierlich messen kann. Den Wert von a zum Zeitpunkt t schreiben wir nun als a(t). Wir können jedem
MehrÜ b u n g s b l a t t 15
Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 2. 7. 2007 Ü b u n g s b l a t t 15 Hier ist zusätzliches Übungsmaterial zur Klausurvorbereitung quer durch die Inhalte der Vorlesung. Eine
MehrKapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert
Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht
Mehrx t2 y t = 160, y = 8, y y = 3400 t=1
Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
MehrWahrscheinlichkeitstheorie 2
Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):
MehrBiometrieübung 5 Spezielle Verteilungen. 1. Anzahl von weiblichen Mäusen in Würfen von jeweils 4 Mäusen
Biometrieübung 5 (Spezielle Verteilungen) - Aufgabe Biometrieübung 5 Spezielle Verteilungen Aufgabe 1. Anzahl von weiblichen Mäusen in Würfen von jeweils 4 Mäusen Anzahl weiblicher Mäuse (k) Anzahl Würfe
MehrAlternative Darstellung des 2-Stcihprobentests für Anteile
Alternative Darstellung des -Stcihprobentests für Anteile DCF CF Total n 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrDie Korrelation von Merkmalen
Die Korrelation von Merkmalen In der Analse von Datenmaterial ist eines der Hauptziele der Statistik eine Abhängigkeit bzw. einen Zusammenhang zwischen Merkmalen zu erkennen. Die Korrelation ermittelt
Mehr10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg
. Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments
MehrÜber den Autor 7. Teil Beschreibende Statistik 29
Inhaltsverzeichnis Über den Autor 7 Einführung Über dieses Buch - oder:»... für Dummies«verpflichtet! Wie man dieses Buch benutzt 22 Wie ich Sie mir vorstelle 22 Wie dieses Buch aufgebaut ist 23 Teil I:
MehrSimulation eines radioaktiven Zerfalls, Zerfallsfunktionen
Simulation eines radioaktiven Zerfalls, Zerfallsfunktionen Beobachtet wird der Zerfall des M&M-Isotops. Die M&M-Atome bestehen aus Schokolinsen, die auf einer Seite mit einem M markiert sind, die andere
MehrDifferenzengleichungen. und Polynome
Lineare Differenzengleichungen und Polynome Franz Pauer Institut für Mathematik, Universität Innsbruck Technikerstr. 13/7, A-600 Innsbruck, Österreich franz.pauer@uibk.ac.at 1 Einleitung Mit linearen Differenzengleichungen
MehrKombinatorik: Abzählverfahren (Teschl/Teschl 7) Summenregel. Allgemeiner
Kombinatorik: Abzählverfahren (Teschl/Teschl 7) Fragestellung: Wie viele verschiedene Möglichkeiten gibt es, Elemente auszuwählen, z. B. Anzahl verschiedener möglicher Passwörter, IPAdressen, Zahlenkombinationen
Mehr6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen
6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Bisher: Diskrete Zufallsvariablen,
Mehr3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen
3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 14. Mai 2008 1 Kollokationen
MehrKurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl
Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die
MehrDas Histogramm, bzw. Stabdiagramm / Histogramm / Balkendiagramm
Histogram / Histogramm / histogram Akademische Disziplin der Statistik/academic field of statistics/ la discipline statistique/estadística/disciplina academica della statistica deskriptive Statistik/descriptive
MehrLogik: aussagenlogische Formeln und Wahrheitstafeln
FH Gießen-Friedberg, Sommersemester 2010 Lösungen zu Übungsblatt 1 Diskrete Mathematik (Informatik) 7./9. April 2010 Prof. Dr. Hans-Rudolf Metz Logik: aussagenlogische Formeln und Wahrheitstafeln Aufgabe
MehrLean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***
Körperkraft [Nm] 0 50 100 150 200 250 0 20 40 60 80 Lean Body Mass [kg] Dieses Quiz soll Ihnen helfen, den R Output einer einfachen linearen Regression besser zu verstehen (s. Kapitel 5.4.1) Es wurden
MehrKollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik
Kollexem-Analyse SE: Quantitative Analyse linguistischer Variation Germanistik WS 2012/13 WS 2012/13 1 / 14 Heutige Sitzung 1 Einführung: Quantitative syntaktische Analyse am Beispiel der Kollexem-Analyse
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrAlternative Darstellung des 2-Stichprobentests für Anteile
Alternative Darstellung des -Stichprobentests für Anteile DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
MehrMasterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen.
Fach: Prüfer: Mikroökonometrie Prof. Regina T. Riphahn, Ph.D. Masterprüfung Vorbemerkungen: Bearbeitungszeit: 60 Minuten. Anzahl der Aufgaben: Bewertung: Erlaubte Hilfsmittel: Wichtige Hinweise: Die Klausur
MehrStatistische Analyse hydrologischer Daten (HW Berechnung)
Lehrstuhl für Hydrologie und Wasserwirtschaft BTU Cottbus Statistische Analyse hydrologischer Daten (HW Berechnung) Übung zur Hochwasserstatistik Datensatz: jährliche Maximalabflüsse der Spree in Cottbus
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
MehrNutzung der Oracle Database InMemory Option für SAP BW
Nutzung der Oracle Database InMemory Option für SAP BW Schlüsselworte Oracle, SAP-BW, InMemory, Star-Schema. Jörn Bartels Oracle München Einleitung In SAP BW wurde bisher ein erweitertes Snow Flake Schema
Mehrx(n x) cm 2 ) zweier Betonsorten wird überprüft. Dabei ergaben Sorte 1 185 186 184 186 185 187 186 187 185 Sorte 2 183 182 185 182 181 179
. Aufgabe: Zwei bis drei Millionen deutsche Haushalte sind überschuldet. Einer der Hauptgründe für die Überschuldung privater Haushalte ist eine gescheiterte Selbstständigkeit. In einer Stichprobe von
MehrStatistik. Ronald Balestra CH St. Peter
Statistik Ronald Balestra CH - 7028 St. Peter www.ronaldbalestra.ch 17. Januar 2010 Inhaltsverzeichnis 1 Statistik 1 1.1 Beschreibende Statistik....................... 1 1.2 Charakterisierung von Häufigkeitsverteilungen...........
MehrEigenschaften von Texten
Worthäufigkeite Eigeschafte vo Texte Eiige Wörter sid sehr gebräuchlich. 2 der häufigste Wörter (z.b. the, of ) köe ca. 0 % der Wortvorkomme ausmache. Die meiste Wörter sid sehr selte. Die Hälfte der Wörter
MehrBasis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Überlebenszeitanalyse
Basis-Kurs Statistik und SPSS für Mediziner Lösungen SPSS-Übung Überlebenszeitanalyse Mit Datensatz Daten_Übung_Überlebenszeitanalyse.sav 1) Zeichnen Sie die Kaplan-Meier-Kurven des progressionsfreien
MehrHypothesentests mit SPSS
Beispiel für eine zweifaktorielle Varianzanalyse mit Messwiederholung auf einem Faktor (univariate Lösung) Daten: POKIII_AG4_V06.SAV Hypothese: Die physische Attraktivität der Bildperson und das Geschlecht
MehrEine Einführung in R: Statistische Tests
I. Einführungsbeispiel II. Theorie: Statistische Tests III. Zwei Klassiker: t-test und Wilcoxon-Rangsummen - Test IV. t-test und Wilcoxon-Rangsummen - Test in R Eine Einführung in R: Statistische Tests
MehrEine Einführung in R: Statistische Tests
Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 9. Dezember 2009 Bernd Klaus, Verena Zuber
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
Mehra 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52
2 Häufigkeitsverteilungen 2.0 Grundbegriffe Ziel: Darstellung bzw. Beschreibung (Exploration) einer Variablen. Ausgangssituation: An n Einheiten ω 1,..., ω n sei das Merkmal X beobachtet worden. x 1 =
MehrAuswertung und Lösung
Körperkraft [Nm] 0 50 100 150 200 250 0 20 40 60 80 Lean Body Mass [kg] Dieses Quiz soll Ihnen helfen, den R Output einer einfachen linearen Regression besser zu verstehen (s. Kapitel 5.4.1) Es wurden
MehrGegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.
Aufgabe 1 (2 + 4 + 2 + 1 Punkte) Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen X und Y : { 2x + 2y für 0.5 x 0.5, 1 y 2 f(x, y) = 3 0 sonst. a) Berechnen
MehrSeminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrMessung von Rendite und Risiko. Finanzwirtschaft I 5. Semester
Messung von Rendite und Risiko Finanzwirtschaft I 5. Semester 1 Messung von Renditen Ergebnis der Anwendung der Internen Zinsfuß- Methode ist die Rentabilität des Projekts. Beispiel: A0-100.000 ZÜ1 54.000
MehrFunktionen mit mehreren Variablen. Voraussetzungen:
Funktionen mit mehreren Variablen Voraussetzungen: Grundlegende Kenntnisse über Ableiten (Zu inden in dem Artikel Dierential und Integralrechnung au www.antigauss.de), sowie eine Vorstellung davon, was
MehrFertilität und psychische Gesundheit im Alter
Fertilität und psychische Gesundheit im Alter Kai Eberhard Kruk MEA, Universität Mannheim MEA Jahreskonferenz, 30.11.2010 Mannheim Research Institute for the Economics of Aging www.mea.uni-mannheim.de
MehrModellieren von Natur
Modellieren von Natur Oliver Deussen Natürliche Objekte 1 bisher: Kombination relativ einfacher Primitive zur Generierung (geschlossener) glatter Oberflächen aber: Wie modelliert man natürliche Objekte?
MehrAlternative Darstellung des 2-Stichprobentests für Anteile
Alternative Darstellung des -Stichprobentests für Anteile DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut
MehrKreissektoren und Bogenmaß
M 10.1 Kreissektoren und Bogenmaß In einem Kreis mit Radius Mittelpunktswinkel : Länge des Kreisbogens gilt für einen Kreissektor mit Fläche des Kreissektors Das Bogenmaß eines Winkels ist die Länge des
MehrDiskriminatives syntaktisches Reranking für SMT
Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung
Mehr73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments
73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind
MehrSprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)
Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?
Mehr1. Grundbegri e der Stochastik
Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt
MehrHMMs und der Viterbi-Algorithmus
July 8, 2015 Das Problem Wir haben gesehen: wir können P( w q)p( q) ohne große Probleme ausrechnen ( w = b 1...b i, q = q 1...q i. P( w q)p( q) = π(q 1 )τ(b 1, q 1 )δ(q 1, q 2 )τ(b 2, q 2 )...δ(q i 1,
MehrDialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy
Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus
MehrStatistische Grundlagen I
Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.
MehrBachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
MehrBiometrische Planung von Versuchsvorhaben
Biometrische Planung von Versuchsvorhaben Einführung in das Prinzip der Lehrstuhl für Mathematik VIII Statistik http://statistik.mathematik.uni-wuerzburg.de/~hain Ziel des Vortrags Im nachfolgenden Vortrag
MehrEine Einführung in R: Statistische Tests
Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/
MehrTEIL 13: DIE EINFACHE LINEARE REGRESSION
TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen
MehrPhilipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler
Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung
MehrKünstliche Intelligenz Text Mining
Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch
Mehr