Linguistische Informatik
|
|
- Gertrud Knopp
- vor 5 Jahren
- Abrufe
Transkript
1 Linguistische Informatik Gerhard Heyer Universität Leipzig Institut für Informatik
2 Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz Parser Output: analysierter Satz 2
3 Statistische Aspekte von Sprache Die lexikalischen Einträge werden nicht gleich häufig verwendet Die grammatischen Regeln werden nicht gleich häufig verwendet Der Erwartungswert bestimmter Wortformen bzw. Wortformenkombinationen hängt ab von der verwendeten Fachsprache 3
4 Zipfsches Gesetz Wortformen (types!) eines Textes nach Häufigkeit ordnen und einen Rang zuordnen (das häufigste erhält Rang 1) Rang r einer Wortform in der Liste multipliziert mit seiner Häufigkeit n ist in etwa konstant. r n k (mit textabhängiger Konstante k) bzw. ausgedrückt durch n ~ 1/r 4
5 Zipfsches Gesetz 2 George K. Zipf: Für natürliche Sprache gilt das Principle of Least Effort. Die am häufigsten gebrauchten Wörter sind meist sehr kurze, inhaltsleere Funktionswörter. Wortform Häufigkeit der die und in (vgl. Beispiel: 10 häufigste Wörter aus Projekt Deutscher Wortschatz) den von zu das mit sich
6 Beispiel Deutscher Wortschatz: Wortform Häufigkeit n Rang r r n sich immer Mio Medien Miete vorläufige Gilt Zipfsches Gesetz auch für Märchen Ali-Baba und die 40 Räuber? 6
7 Graphische Darstellung 7
8 Anwendungen Differenzanalyse Abschätzung über Anzahl an Wortformen, die n mal im Text vorkommen Abschätzung des Umfangs des Vokabulars Abschätzung des Zuwachses des Vokabulars, wenn sich Textmenge erhöht Analyse von Suchanfragen 8
9 Statistische Merkmale von Terminologie Fachtermini sind Wörter, die in Fachtexten einer Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten: 9
10 Differenzanalyse Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne. 10
11 Rangliste deutscher Wortformen (Deutscher Wortschatz 1-100) der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte 11
12 Rangliste deutscher Wortformen (Fachwortschatz SAP 1-100) die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim 12
13 Rangliste deutscher Wortformen (Differenzliste signifikanter Fachwortschatzterme SAP/Deutscher Wortschatz 1-30; Mindesthäufigkeitsklasse 8, Faktor 16) etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23),
14 Differenzanalyse Indexierung (mittels automatic term recognition) Beobachtung: domänenspezifische Terme treten in Texten dieses Fachgebiets häufiger auf, als in der allgemeinen Sprache Verwendung eines allgemeinen Korpus als reference corpus R (in unserem Fall: Deutscher Wortschatz) Domänenspezifischer Text T als Grundlage der ATR Identifiziere Wortformen w die signifikant häufiger in T als in R auftreten (cf. Witschel 2005) 14
15 Statistik der Termerkennung Grundlage ist ein statistitischer Test: Null-Hypothese: Die Wahrscheinlichkeit eines Auftretens von w ist gleich für T und R Schätze diese Wahrscheinlichkeiten als relative Häufigkeiten von beiden Textkorpora (maximum likelihood estimate) Berechne das Maß der Überraschung, wenn diese Werte unter der Null-Hypothese beobachtet werden. Beispiel: Loglikelihood sig( w) k(log k log 1) log n k Häufigkeit von w in T np n Länge eines Textes T p relative Häufigk. von w in R 15
16 Ansätze zur Terminologie-Extraktion Drei Hauptrichtungen (fast alles für Englisch!!): Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter. 16
17 Link für automatische Terminologie-Extraktion ASV-Verfahren: 17
18 Zipfsches Gesetz: Formeln N Gesamtanzahl aller Wortformen des Textes (tokens) t Umfang des Vokabulars (types) n/n relative Häfigkeit der Wortformen, die n mal auftreten rn größter Rang derjenigen Wortformen, die genau n mal auftreten In Anzahl der Wortformen, die genau n mal auftreten Es gilt: rn n/n = c also: rn = c N/n (Konstante c ist textunabhängig, aber sprachabhängig) 18
19 Herleitung der Formeln 2 Für das Vokabular gilt: t ist so groß wie der größte Rang der häufigkeits-sortierten Liste. Falls Wörter mit Häufigkeit 1 vorkommen folgt damit: t = r1 = c N/1 = c N Für c gilt: c = r n/n (vgl. Formeln oben) = k/n (nach Zipfschem Gesetz) Nach den Daten des Projekts Deutscher Wortschatz gilt damit fürs Deutsche: c = /
20 Seltene Wörter Frequenz Anzahl Anteil Anzahl verschied. Wortformen (types) : Anzahl Wörter im Text (tokens) Beobachtungen: Es gibt viele extrem seltene Wörter. Ca. 65% der Wörter wurden nur einmal gesehen. Häufig begegnen uns neue Wörter. Wir können ca. jedes 70. Wort als neu erwarten. D.h. größerer Korpus liefert noch lange neue Wörter 20
21 Anteil von Wortformen, die nur 1 mal auftreten Für In gilt: In = rn rn+1 = c N/n - c N/(n+1) = cn/(n(n+1)) = t/(n(n+1)) Für I1 gilt insbesondere: I1 = t/2 Die hälfte des Vokabulars eines Textes tritt wahrscheinlich nur 1 mal auf. allgemein: Anteil der Wortformen, die genau n mal auftreten, am Vokabular eines Textes In/t = (t/(n(n+1))) / t = 1/(n(n+1)) 21
22 Textabdeckung Wenn wir nur N Wörter kennen, welcher Anteil von Text wird dadurch abgedeckt? N Textabdeckung (deutsch) Textabdeckung (englisch) 1 3 % 5 % % 23 % % 42 % % 65 % % 90 % % 99 % % 22
23 Wachstum des Vokabulars Das Wachstum des Vokabulars, wenn sich Textmenge erhöht, läßt sich abschätzen mit: t = kn Für Projekt Deutscher Wortschatz gilt k = 20 und = Voraussage: Bei Erweiterung der Textmenge wird etwa jedes 70. Wort zum ersten mal gesehen. 23
24 Weitere Zusammenhänge Beziehungen, die für den Großteil der Wortformen eines Textes gelten, wobei einzelne Wortformen zum Teil deutlich abweichen können: Bezeichne l die Länge einer Wortform, dann gilt: n ~ 1/l Bezeichne m die Anzahl der Bedeutungen einer Wortform, dann gilt: m ~ 1/ n Gesetzmäßigkeit ist nicht auf Verteilung von Wörtern in Texten beschränkt: Für Ordnung von amerikanischen Städte nach Einwohnerzahl gilt: Rang Einwohnerzahl konstant 24
25 Verbesserung Der Zusammenhang zwischen Rang und Häufigkeit wird für Wortformen mit sehr kleinem oder sehr großem Rang nur unzureichend durch die Formel n~1/r wiedergegeben. Im Diagramm mit logarithmisch skalierten Achsen weichen diese Wortformen stärker von der vorausgesagten Geraden ab. bessere Beschreibung liefert nach B. Mandelbrot: n ~ 1/(r+c 1 ) 1+c 2 bzw. (r+c 1 ) 1+c 2 n k (mit textabhängiger Konstante k) Parameter c 1 und c 2 ermöglichen Anpassung an die konkreten Daten. 25
26 Graphische Darstellung Daten: Projekt Deutscher Wortschatz; logarithmische Skalierung der Achsen! 26
27 Literaturhinweise Manning/Schütze, Statistical Natural Language Processing Heyer/Quasthoff/Wittig, Text Mining Wissensrohstoff Text 27
Linguistische Informatik
Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz
MehrLinguistische Informatik
Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Grammatik Lexikon Input: natürlichsprachlicher Satz
MehrSprachstatistik: Das Zipf sche Gesetz
Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik wittig@uni-leipzig.de Principle of Least Effort 2 George K. Zipf:
MehrTerminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
MehrEigenschaften von Texten
Eigenschaften von Texten 1 Statistische Eigenschaften von Text Wie ist die Häufigkeit verschiedener Wörter verteilt? Wie schnell wächst die Größe des Vokabulars mit der Größe eines Korpus? Solche Faktoren
MehrElementare Wahrscheinlichkeitslehre
Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?
MehrMöglichkeiten der automatischen Sprachverarbeitung mit Django
Möglichkeiten der automatischen Sprachverarbeitung mit März 2009 / Leipzig / Python Stammtisch Möglichkeiten der automatischen Sprachverarbeitung mit Inhalt 1 2 3 4 Möglichkeiten der automatischen Sprachverarbeitung
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrSommer 2002 Stefan Langer CIS, Universität München.
Sommer 00 Stefan Langer CIS, Universität München stef@cis.uni-muenchen.de Sommersemester 00 Dozent: Stefan Langer 8. MAI 00: BLATT 1 1. Statistik und Computerlinguistik. Einige Grundbegriffe der deskriptiven
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrSoftware-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining
Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining Martin-Luther-Universität Halle/S. Halle/S., 2011/01/20 Natural Language
MehrDiskriminatives syntaktisches Reranking für SMT
Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
MehrHypothesenbewertungen: Übersicht
Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung
MehrSTATISTISCHE METHODEN UND IHRE ANWENDUNGEN
STATISTISCHE METHODEN UND IHRE ANWENDUNGEN Von Dr. rer. nat. Erwin Kreyszig o. Professor für Statistik an der Universität Karlsruhe mit 82 Abbildungen und zahlreichen Tabellen Vierter, unveränderter Nachdruck
MehrÜbungen mit dem Applet Vergleich von zwei Mittelwerten
Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung
MehrBOXPLOT 1. Begründung. Boxplot A B C
BOXPLOT 1 In nachstehender Tabelle sind drei sortierte Datenreihen gegeben. Zu welchem Boxplot gehört die jeweilige Datenreihe? Kreuze an und begründe Deine Entscheidung! Boxplot A B C Begründung 1 1 1
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl
MehrDer χ2-test Der χ2-test
Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrDer χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)
Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln
MehrLösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK
Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über
MehrKünstliche Intelligenz Text Mining
Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von
MehrWahrscheinlichkeitstheorie 2
Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):
MehrCox-Regression. Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells
Cox-Regression Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells In vielen Fällen interessiert, wie die Survivalfunktion durch Einflussgrößen beeinflusst
MehrDr. W. Kuhlisch Dresden, Institut für Mathematische Stochastik
Dr. W. Kuhlisch Dresden, 12. 08. 2014 Institut für Mathematische Stochastik Klausur Statistik für Studierende der Fachrichtungen Hydrologie und Altlasten/Abwasser zugelassene Hilfsmittel: Taschenrechner
MehrÜbungsrunde 2, Gruppe 2 LVA , Übungsrunde 1, Gruppe 2, Markus Nemetz, TU Wien, 10/2006
1 1.2.3.4. 1.1 Angabe Übungsrunde 2, Gruppe 2 LVA 107.369, Übungsrunde 1, Gruppe 2, 24.10. Markus Nemetz, markus.nemetz@tuwien.ac.at, TU Wien, 10/2006 Bestimmen Sie für den Datensatz bulb.dat die Quartile,
MehrDialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy
Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrStatistische Analyse hydrologischer Daten (HW Berechnung)
Lehrstuhl für Hydrologie und Wasserwirtschaft BTU Cottbus Statistische Analyse hydrologischer Daten (HW Berechnung) Übung zur Hochwasserstatistik Datensatz: jährliche Maximalabflüsse der Spree in Cottbus
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr6.4 Der Kruskal-Wallis Test
6.4 Der Kruskal-Wallis Test Der Test von Kruskal und Wallis, auch H-Test genannt, ist ein Test, mit dem man die Verteilungen von Teilstichproben auf Unterschiede untersuchen kann. Bei diesem Test geht
MehrDeskriptive Statistik Erläuterungen
Grundlagen der Wirtschaftsmathematik und Statistik Erläuterungen Lernmaterial zum Modul - 40601 - der Fernuniversität Hagen 7 2.1 Einfache Lageparameter aus einer gegebenen Messreihe ablesen Erklärung
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
MehrBachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
MehrBasis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Überlebenszeitanalyse
Basis-Kurs Statistik und SPSS für Mediziner Lösungen SPSS-Übung Überlebenszeitanalyse Mit Datensatz Daten_Übung_Überlebenszeitanalyse.sav 1) Zeichnen Sie die Kaplan-Meier-Kurven des progressionsfreien
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrStatistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
MehrÜbungen mit dem Applet Zentraler Grenzwertsatz
Zentraler Grenzwertsatz 1 Übungen mit dem Applet Zentraler Grenzwertsatz 1 Statistischer Hintergrund... 1.1 Zentraler Grenzwertsatz... 1. Beispiel Würfeln... 1.3 Wahrscheinlichkeit und relative Häufigkeit...3
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
Mehr0 Einführung: Was ist Statistik
0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik Häufigkeitsverteilungen Statistische Kennwerte 3 Multivariate Statistik 4 Regression 5 Ergänzungen Deskriptive
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrWie liest man Konfidenzintervalle? Teil I. Premiu m
Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall
MehrStatistik für Bachelorund Masterstudenten
Walter Zucchini Andreas Schlegel Oleg Nenadic Stefan Sperlich Statistik für Bachelorund Masterstudenten Eine Einführung für Wirtschaftsund Sozialwissenschaftler 4y Springer 1 Der Zufall in unserer Welt
MehrBerechnung des LOG-RANK-Tests bei Überlebenskurven
Statistik 1 Berechnung des LOG-RANK-Tests bei Überlebenskurven Hans-Dieter Spies inventiv Health Germany GmbH Brandenburger Weg 3 60437 Frankfurt hd.spies@t-online.de Zusammenfassung Mit Hilfe von Überlebenskurven
MehrWahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019
Wahrscheinlichkeitsrechnung und Statistik 11. Vorlesung - 2018/2019 Quantil der Ordnung α für die Verteilung des beobachteten Merkmals X ist der Wert z α R für welchen gilt z 1 2 heißt Median. P(X < z
MehrLösung Übungsblatt 5
Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von
Mehr73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments
73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind
MehrMathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur
Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.
MehrKollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik
Kollexem-Analyse SE: Quantitative Analyse linguistischer Variation Germanistik WS 2012/13 WS 2012/13 1 / 14 Heutige Sitzung 1 Einführung: Quantitative syntaktische Analyse am Beispiel der Kollexem-Analyse
MehrDie ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.
.3. Stochastik Grundlagen Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist. Die RELATIVE HÄUFIGKEIT einer Merkmalsausprägung gibt an mit welchem Anteil
MehrStatistik II. Statistische Tests. Statistik II
Statistik II Statistische Tests Statistik II - 12.5.2006 1 Test auf Anteilswert: Binomialtest Sei eine Stichprobe unabhängig, identisch verteilter ZV (i.i.d.). Teile diese Stichprobe in zwei Teilmengen
MehrEin sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an.
2.5 Suchen Eine Menge S will nach einem Element durchsucht werden. Die Menge S ist statisch und S = n. S ist Teilmenge eines Universums auf dem eine lineare Ordnung definiert ist und soll so gespeichert
MehrKapitel 9: Verfahren für Nominaldaten
Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test 1 Zweidimensionaler und Vierfelder Chi²-Test 5 Literatur 6 Eindimensionaler Chi²-Test Berechnen der Effektgröße w² Die empirische Effektgröße
MehrText, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion
Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion Hans Friedrich Witschel Universität Leipzig, Institut für Informatik Augustusplatz 10-11, 04109 Leipzig witschel@informatik.uni-leipzig.de
MehrPhilipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler
Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung
MehrInhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...
I. Deskriptive Statistik 1 1. Einführung 3 1.1. Die Grundgesamtheit......................... 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................ 10
MehrEigenschaften von Texten
Worthäufigkeite Eigeschafte vo Texte Eiige Wörter sid sehr gebräuchlich. 2 der häufigste Wörter (z.b. the, of ) köe ca. 0 % der Wortvorkomme ausmache. Die meiste Wörter sid sehr selte. Die Hälfte der Wörter
MehrWahrscheinlichkeitsrechnung und Statistik
10. Vorlesung - 017 Quantil der Ordnung α für die Verteilung des beobachteten Merkmals X ist der Wert z α R für welchen gilt z 1 heißt Median. P(X < z α ) α P(X z α ). Falls X stetige zufällige Variable
MehrMathematischer Vorkurs für Physiker WS 2012/13: Vorlesung 1
TU München Prof. P. Vogl Mathematischer Vorkurs für Physiker WS 2012/13: Vorlesung 1 Komplexe Zahlen Das Auffinden aller Nullstellen von algebraischen Gleichungen ist ein Grundproblem, das in der Physik
MehrHMMs und der Viterbi-Algorithmus
July 8, 2015 Das Problem Wir haben gesehen: wir können P( w q)p( q) ohne große Probleme ausrechnen ( w = b 1...b i, q = q 1...q i. P( w q)p( q) = π(q 1 )τ(b 1, q 1 )δ(q 1, q 2 )τ(b 2, q 2 )...δ(q i 1,
Mehr5 Exkurs: Deskriptive Statistik
5 EXKURS: DESKRIPTIVE STATISTIK 6 5 Ekurs: Deskriptive Statistik Wir wollen zuletzt noch kurz auf die deskriptive Statistik eingehen. In der Statistik betrachtet man für eine natürliche Zahl n N eine Stichprobe
MehrBasisprüfung B. Sc. FS 2009
Basisprüfung B. Sc. Statistik und Wahrscheinlichkeitsrechnung FS 2009 (Als Tafelübung im FS 2011, Aufgabe 1c leicht abgeändert) Prof. Dr. M. H. Faber ETH Zürich Montag, 17. August 2009 14:00 16:00 Inhalt
MehrStatistik für Ingenieure und Naturwissenschaftler
Sheldon M. Ross Statistik für Ingenieure und Naturwissenschaftler 3. Auflage Aus dem Amerikanischen übersetzt von Carsten Heinisch ELSEVIER SPEKTRUM AKADEMISCHER VERLAG Spektrum Inhalt Vorwort zur dritten
Mehr3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen
3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 14. Mai 2008 1 Kollokationen
MehrStochastik für Ingenieure
Otto-von-Guericke-Universität Magdeburg Fakultät für Mathematik Institut für Mathematische Stochastik Stochastik für Ingenieure (Vorlesungsmanuskript) von apl.prof. Dr. Waltraud Kahle Empfehlenswerte Bücher:
MehrStatistik. Ronald Balestra CH St. Peter
Statistik Ronald Balestra CH - 7028 St. Peter www.ronaldbalestra.ch 17. Januar 2010 Inhaltsverzeichnis 1 Statistik 1 1.1 Beschreibende Statistik....................... 1 1.2 Charakterisierung von Häufigkeitsverteilungen...........
Mehr1. Grundbegri e der Stochastik
Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt
MehrStochastik Approximationen der Binomialverteilung
Stochastik Approximationen der Binomialverteilung Stefan Englert stefan.englert@gmx.net 21. April 2007 Inhaltsverzeichnis 1 Approximation von n! und b n,p (k) 2 2 Der Satz von de Moivre-Laplace 6 3 Die
MehrDr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung
Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer 014 Musterlösung 1. 8 Punkte) a) 1 Pt)Für das Komplement gilt PR A) = 1 PR c A) = 0.968. b) 1 Pt)Nach Definition der bedingten Wahrscheinlichkeit
MehrGrundkompetenzkatalog. Mathematik
Grundkompetenzkatalog Mathematik AG - Algebra und Geometrie AG 1.1 AG 1.2 AG 2.1 AG 2.2 AG 2.3 AG 2.4 AG 2.5 AG 3.1 AG 3.2 AG 3.3 Wissen über Zahlenmengen N, Z, Q, R, C verständig einsetzen Wissen über
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation
Mehr1 Univariate Statistiken
1 Univariate Statistiken Im ersten Kapitel berechnen wir zunächst Kenngrößen einer einzelnen Stichprobe bzw. so genannte empirische Kenngrößen, wie beispielsweise den Mittelwert. Diese können, unter gewissen
MehrBeispiel 6 (Einige Aufgaben zur Gleichverteilung)
Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß
MehrAlternative Darstellung des 2-Stcihprobentests für Anteile
Alternative Darstellung des -Stcihprobentests für Anteile DCF CF Total n 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut
MehrHashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung
Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://moves.rwth-aachen.de/teaching/ss-15/dsal/ 2 Effizienz
MehrEinführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl
Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Dozentin: Wiebke Petersen 3.12.2009 Wiebke Petersen Einführung CL (WiSe 09/10) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter.
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrAspekte des Vergleichs von Fach- und Normcorpora am Beispiel eines Fachcorpus aus der Automobiltechnik
Aspekte des Vergleichs von Fach- und Normcorpora am Beispiel eines Fachcorpus aus der Automobiltechnik Arbeitsmateriale Universität Leipzig ASV Juni 2002 Version Autor Qualitätskontrolle Datum Status 0.3
MehrGibt es einen Zusammenhang zwischen Merkmalen? Korrelationen
Arbeitsblatt SPSS Kapitel 8 Seite Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen Wie in allen Kapiteln gehen wir im Folgenden davon aus, dass Sie die Datei elporiginal.sav geöffnet haben.
MehrLV: Höhere und Angewandte Mathematik Teil: Statistik (Teil: Numerik&Simulation: Prof. Günter)
LV: Höhere und Angewandte Mathematik Teil: Statistik (Teil: Numerik&Simulation: Prof. Günter) Am Ende: Gemeinsame Klausur mit 2 Teilen, jeder Teil geht mit 50% in die Endnote ein. Teil (5 ECTS) Grabowski
MehrKinga Szűcs
Kinga Szűcs 25.10.2011 Die Schülerinnen und Schüler werten graphische Darstellungen und Tabellen von statistischen Erhebungen aus, planen statistische Erhebungen, sammeln systematisch Daten, erfassen sie
MehrTheorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte
Hochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann Probe-Klausur zur Vorlesung Ökonometrie Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte (die eigentliche Klausur wird
MehrHashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung
Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group https://moves.rwth-aachen.de/teaching/ss-18/dsal/ 2 Effizienz
MehrWir wollen nun die Behauptung beweisen, dass die Laufzeit von SELECT linear ist, also dass T (n) = O(n) gilt.
Abschätzung für die Rekursion von SELECT Wir wollen nun die Behauptung beweisen, dass die Laufzeit von SELECT linear ist, also dass T (n) = O(n) gilt. Wir nehmen erst einmal an, dass eine Konstante d existiert,
MehrChi Quadrat-Unabhängigkeitstest
Fragestellung 1: Untersuchung mit Hilfe des Chi-Quadrat-Unabhängigkeitstestes, ob zwischen dem Herkunftsland der Befragten und der Bewertung des Kontaktes zu den Nachbarn aus einem Anderen Herkunftsland
MehrCLab. Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT. Chunk Parsing. Universität Zürich. Institut für Computerlinguistik
CLab Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT Chunk Parsing Universität Zürich Institut für Computerlinguistik Prof. Dr. Michael Hess 1. Voraussetzungen 2 Sie sollten wissen,
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
MehrDemo-Text für STOCHASTIK. Tschebyscheff-Ungleichung. Einführung mit Anwendungsbeispielen. Datei Nr Friedrich W.
STOCHASTIK Tschebyscheff-Ungleichung Einführung mit Anwendungsbeispielen Datei Nr. 36111 Friedrich W. Buckel Stand 1. April 010 INTERNETBIBLIOTHEK FÜR SCHULMATHEMATIK www.mathe-cd.de Inhalt 1 Wiederholung:
MehrMasterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen.
Fach: Prüfer: Mikroökonometrie Prof. Regina T. Riphahn, Ph.D. Masterprüfung Vorbemerkungen: Bearbeitungszeit: 60 Minuten. Anzahl der Aufgaben: Bewertung: Erlaubte Hilfsmittel: Wichtige Hinweise: Die Klausur
MehrMusterlösung der Klausur vom 29. Juli 2003
Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.
Mehr