Linguistische Informatik

Größe: px
Ab Seite anzeigen:

Download "Linguistische Informatik"

Transkript

1 Linguistische Informatik Gerhard Heyer Universität Leipzig Institut für Informatik

2 Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz Parser Output: analysierter Satz 2

3 Statistische Aspekte von Sprache Die lexikalischen Einträge werden nicht gleich häufig verwendet Die grammatischen Regeln werden nicht gleich häufig verwendet Der Erwartungswert bestimmter Wortformen bzw. Wortformenkombinationen hängt ab von der verwendeten Fachsprache 3

4 Zipfsches Gesetz Wortformen (types!) eines Textes nach Häufigkeit ordnen und einen Rang zuordnen (das häufigste erhält Rang 1) Rang r einer Wortform in der Liste multipliziert mit seiner Häufigkeit n ist in etwa konstant. r n k (mit textabhängiger Konstante k) bzw. ausgedrückt durch n ~ 1/r 4

5 Zipfsches Gesetz 2 George K. Zipf: Für natürliche Sprache gilt das Principle of Least Effort. Die am häufigsten gebrauchten Wörter sind meist sehr kurze, inhaltsleere Funktionswörter. Wortform Häufigkeit der die und in (vgl. Beispiel: 10 häufigste Wörter aus Projekt Deutscher Wortschatz) den von zu das mit sich

6 Beispiel Deutscher Wortschatz: Wortform Häufigkeit n Rang r r n sich immer Mio Medien Miete vorläufige Gilt Zipfsches Gesetz auch für Märchen Ali-Baba und die 40 Räuber? 6

7 Graphische Darstellung 7

8 Anwendungen Differenzanalyse Abschätzung über Anzahl an Wortformen, die n mal im Text vorkommen Abschätzung des Umfangs des Vokabulars Abschätzung des Zuwachses des Vokabulars, wenn sich Textmenge erhöht Analyse von Suchanfragen 8

9 Statistische Merkmale von Terminologie Fachtermini sind Wörter, die in Fachtexten einer Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten: 9

10 Differenzanalyse Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne. 10

11 Rangliste deutscher Wortformen (Deutscher Wortschatz 1-100) der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte 11

12 Rangliste deutscher Wortformen (Fachwortschatz SAP 1-100) die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim 12

13 Rangliste deutscher Wortformen (Differenzliste signifikanter Fachwortschatzterme SAP/Deutscher Wortschatz 1-30; Mindesthäufigkeitsklasse 8, Faktor 16) etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23),

14 Differenzanalyse Indexierung (mittels automatic term recognition) Beobachtung: domänenspezifische Terme treten in Texten dieses Fachgebiets häufiger auf, als in der allgemeinen Sprache Verwendung eines allgemeinen Korpus als reference corpus R (in unserem Fall: Deutscher Wortschatz) Domänenspezifischer Text T als Grundlage der ATR Identifiziere Wortformen w die signifikant häufiger in T als in R auftreten (cf. Witschel 2005) 14

15 Statistik der Termerkennung Grundlage ist ein statistitischer Test: Null-Hypothese: Die Wahrscheinlichkeit eines Auftretens von w ist gleich für T und R Schätze diese Wahrscheinlichkeiten als relative Häufigkeiten von beiden Textkorpora (maximum likelihood estimate) Berechne das Maß der Überraschung, wenn diese Werte unter der Null-Hypothese beobachtet werden. Beispiel: Loglikelihood sig( w) k(log k log 1) log n k Häufigkeit von w in T np n Länge eines Textes T p relative Häufigk. von w in R 15

16 Ansätze zur Terminologie-Extraktion Drei Hauptrichtungen (fast alles für Englisch!!): Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter. 16

17 Link für automatische Terminologie-Extraktion ASV-Verfahren: 17

18 Zipfsches Gesetz: Formeln N Gesamtanzahl aller Wortformen des Textes (tokens) t Umfang des Vokabulars (types) n/n relative Häfigkeit der Wortformen, die n mal auftreten rn größter Rang derjenigen Wortformen, die genau n mal auftreten In Anzahl der Wortformen, die genau n mal auftreten Es gilt: rn n/n = c also: rn = c N/n (Konstante c ist textunabhängig, aber sprachabhängig) 18

19 Herleitung der Formeln 2 Für das Vokabular gilt: t ist so groß wie der größte Rang der häufigkeits-sortierten Liste. Falls Wörter mit Häufigkeit 1 vorkommen folgt damit: t = r1 = c N/1 = c N Für c gilt: c = r n/n (vgl. Formeln oben) = k/n (nach Zipfschem Gesetz) Nach den Daten des Projekts Deutscher Wortschatz gilt damit fürs Deutsche: c = /

20 Seltene Wörter Frequenz Anzahl Anteil Anzahl verschied. Wortformen (types) : Anzahl Wörter im Text (tokens) Beobachtungen: Es gibt viele extrem seltene Wörter. Ca. 65% der Wörter wurden nur einmal gesehen. Häufig begegnen uns neue Wörter. Wir können ca. jedes 70. Wort als neu erwarten. D.h. größerer Korpus liefert noch lange neue Wörter 20

21 Anteil von Wortformen, die nur 1 mal auftreten Für In gilt: In = rn rn+1 = c N/n - c N/(n+1) = cn/(n(n+1)) = t/(n(n+1)) Für I1 gilt insbesondere: I1 = t/2 Die hälfte des Vokabulars eines Textes tritt wahrscheinlich nur 1 mal auf. allgemein: Anteil der Wortformen, die genau n mal auftreten, am Vokabular eines Textes In/t = (t/(n(n+1))) / t = 1/(n(n+1)) 21

22 Textabdeckung Wenn wir nur N Wörter kennen, welcher Anteil von Text wird dadurch abgedeckt? N Textabdeckung (deutsch) Textabdeckung (englisch) 1 3 % 5 % % 23 % % 42 % % 65 % % 90 % % 99 % % 22

23 Wachstum des Vokabulars Das Wachstum des Vokabulars, wenn sich Textmenge erhöht, läßt sich abschätzen mit: t = kn Für Projekt Deutscher Wortschatz gilt k = 20 und = Voraussage: Bei Erweiterung der Textmenge wird etwa jedes 70. Wort zum ersten mal gesehen. 23

24 Weitere Zusammenhänge Beziehungen, die für den Großteil der Wortformen eines Textes gelten, wobei einzelne Wortformen zum Teil deutlich abweichen können: Bezeichne l die Länge einer Wortform, dann gilt: n ~ 1/l Bezeichne m die Anzahl der Bedeutungen einer Wortform, dann gilt: m ~ 1/ n Gesetzmäßigkeit ist nicht auf Verteilung von Wörtern in Texten beschränkt: Für Ordnung von amerikanischen Städte nach Einwohnerzahl gilt: Rang Einwohnerzahl konstant 24

25 Verbesserung Der Zusammenhang zwischen Rang und Häufigkeit wird für Wortformen mit sehr kleinem oder sehr großem Rang nur unzureichend durch die Formel n~1/r wiedergegeben. Im Diagramm mit logarithmisch skalierten Achsen weichen diese Wortformen stärker von der vorausgesagten Geraden ab. bessere Beschreibung liefert nach B. Mandelbrot: n ~ 1/(r+c 1 ) 1+c 2 bzw. (r+c 1 ) 1+c 2 n k (mit textabhängiger Konstante k) Parameter c 1 und c 2 ermöglichen Anpassung an die konkreten Daten. 25

26 Graphische Darstellung Daten: Projekt Deutscher Wortschatz; logarithmische Skalierung der Achsen! 26

27 Literaturhinweise Manning/Schütze, Statistical Natural Language Processing Heyer/Quasthoff/Wittig, Text Mining Wissensrohstoff Text 27

Linguistische Informatik

Linguistische Informatik Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz

Mehr

Linguistische Informatik

Linguistische Informatik Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Grammatik Lexikon Input: natürlichsprachlicher Satz

Mehr

Sprachstatistik: Das Zipf sche Gesetz

Sprachstatistik: Das Zipf sche Gesetz Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik wittig@uni-leipzig.de Principle of Least Effort 2 George K. Zipf:

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Eigenschaften von Texten

Eigenschaften von Texten Eigenschaften von Texten 1 Statistische Eigenschaften von Text Wie ist die Häufigkeit verschiedener Wörter verteilt? Wie schnell wächst die Größe des Vokabulars mit der Größe eines Korpus? Solche Faktoren

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Möglichkeiten der automatischen Sprachverarbeitung mit Django Möglichkeiten der automatischen Sprachverarbeitung mit März 2009 / Leipzig / Python Stammtisch Möglichkeiten der automatischen Sprachverarbeitung mit Inhalt 1 2 3 4 Möglichkeiten der automatischen Sprachverarbeitung

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Sommer 2002 Stefan Langer CIS, Universität München.

Sommer 2002 Stefan Langer CIS, Universität München. Sommer 00 Stefan Langer CIS, Universität München stef@cis.uni-muenchen.de Sommersemester 00 Dozent: Stefan Langer 8. MAI 00: BLATT 1 1. Statistik und Computerlinguistik. Einige Grundbegriffe der deskriptiven

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle

Mehr

Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining

Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining Martin-Luther-Universität Halle/S. Halle/S., 2011/01/20 Natural Language

Mehr

Diskriminatives syntaktisches Reranking für SMT

Diskriminatives syntaktisches Reranking für SMT Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

STATISTISCHE METHODEN UND IHRE ANWENDUNGEN

STATISTISCHE METHODEN UND IHRE ANWENDUNGEN STATISTISCHE METHODEN UND IHRE ANWENDUNGEN Von Dr. rer. nat. Erwin Kreyszig o. Professor für Statistik an der Universität Karlsruhe mit 82 Abbildungen und zahlreichen Tabellen Vierter, unveränderter Nachdruck

Mehr

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Übungen mit dem Applet Vergleich von zwei Mittelwerten Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung

Mehr

BOXPLOT 1. Begründung. Boxplot A B C

BOXPLOT 1. Begründung. Boxplot A B C BOXPLOT 1 In nachstehender Tabelle sind drei sortierte Datenreihen gegeben. Zu welchem Boxplot gehört die jeweilige Datenreihe? Kreuze an und begründe Deine Entscheidung! Boxplot A B C Begründung 1 1 1

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Der χ2-test Der χ2-test

Der χ2-test Der χ2-test Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest) Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Künstliche Intelligenz Text Mining

Künstliche Intelligenz Text Mining Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

Cox-Regression. Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells

Cox-Regression. Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells Cox-Regression Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells In vielen Fällen interessiert, wie die Survivalfunktion durch Einflussgrößen beeinflusst

Mehr

Dr. W. Kuhlisch Dresden, Institut für Mathematische Stochastik

Dr. W. Kuhlisch Dresden, Institut für Mathematische Stochastik Dr. W. Kuhlisch Dresden, 12. 08. 2014 Institut für Mathematische Stochastik Klausur Statistik für Studierende der Fachrichtungen Hydrologie und Altlasten/Abwasser zugelassene Hilfsmittel: Taschenrechner

Mehr

Übungsrunde 2, Gruppe 2 LVA , Übungsrunde 1, Gruppe 2, Markus Nemetz, TU Wien, 10/2006

Übungsrunde 2, Gruppe 2 LVA , Übungsrunde 1, Gruppe 2, Markus Nemetz, TU Wien, 10/2006 1 1.2.3.4. 1.1 Angabe Übungsrunde 2, Gruppe 2 LVA 107.369, Übungsrunde 1, Gruppe 2, 24.10. Markus Nemetz, markus.nemetz@tuwien.ac.at, TU Wien, 10/2006 Bestimmen Sie für den Datensatz bulb.dat die Quartile,

Mehr

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Statistische Analyse hydrologischer Daten (HW Berechnung)

Statistische Analyse hydrologischer Daten (HW Berechnung) Lehrstuhl für Hydrologie und Wasserwirtschaft BTU Cottbus Statistische Analyse hydrologischer Daten (HW Berechnung) Übung zur Hochwasserstatistik Datensatz: jährliche Maximalabflüsse der Spree in Cottbus

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Statistische Sprachmodelle

Statistische Sprachmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

6.4 Der Kruskal-Wallis Test

6.4 Der Kruskal-Wallis Test 6.4 Der Kruskal-Wallis Test Der Test von Kruskal und Wallis, auch H-Test genannt, ist ein Test, mit dem man die Verteilungen von Teilstichproben auf Unterschiede untersuchen kann. Bei diesem Test geht

Mehr

Deskriptive Statistik Erläuterungen

Deskriptive Statistik Erläuterungen Grundlagen der Wirtschaftsmathematik und Statistik Erläuterungen Lernmaterial zum Modul - 40601 - der Fernuniversität Hagen 7 2.1 Einfache Lageparameter aus einer gegebenen Messreihe ablesen Erklärung

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:

Mehr

Bachelorprüfung: Statistik (1 Stunde)

Bachelorprüfung: Statistik (1 Stunde) Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!

Mehr

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Überlebenszeitanalyse

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Überlebenszeitanalyse Basis-Kurs Statistik und SPSS für Mediziner Lösungen SPSS-Übung Überlebenszeitanalyse Mit Datensatz Daten_Übung_Überlebenszeitanalyse.sav 1) Zeichnen Sie die Kaplan-Meier-Kurven des progressionsfreien

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden

Mehr

Übungen mit dem Applet Zentraler Grenzwertsatz

Übungen mit dem Applet Zentraler Grenzwertsatz Zentraler Grenzwertsatz 1 Übungen mit dem Applet Zentraler Grenzwertsatz 1 Statistischer Hintergrund... 1.1 Zentraler Grenzwertsatz... 1. Beispiel Würfeln... 1.3 Wahrscheinlichkeit und relative Häufigkeit...3

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik Häufigkeitsverteilungen Statistische Kennwerte 3 Multivariate Statistik 4 Regression 5 Ergänzungen Deskriptive

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Wie liest man Konfidenzintervalle? Teil I. Premiu m Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall

Mehr

Statistik für Bachelorund Masterstudenten

Statistik für Bachelorund Masterstudenten Walter Zucchini Andreas Schlegel Oleg Nenadic Stefan Sperlich Statistik für Bachelorund Masterstudenten Eine Einführung für Wirtschaftsund Sozialwissenschaftler 4y Springer 1 Der Zufall in unserer Welt

Mehr

Berechnung des LOG-RANK-Tests bei Überlebenskurven

Berechnung des LOG-RANK-Tests bei Überlebenskurven Statistik 1 Berechnung des LOG-RANK-Tests bei Überlebenskurven Hans-Dieter Spies inventiv Health Germany GmbH Brandenburger Weg 3 60437 Frankfurt hd.spies@t-online.de Zusammenfassung Mit Hilfe von Überlebenskurven

Mehr

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019 Wahrscheinlichkeitsrechnung und Statistik 11. Vorlesung - 2018/2019 Quantil der Ordnung α für die Verteilung des beobachteten Merkmals X ist der Wert z α R für welchen gilt z 1 2 heißt Median. P(X < z

Mehr

Lösung Übungsblatt 5

Lösung Übungsblatt 5 Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von

Mehr

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments 73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind

Mehr

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.

Mehr

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik Kollexem-Analyse SE: Quantitative Analyse linguistischer Variation Germanistik WS 2012/13 WS 2012/13 1 / 14 Heutige Sitzung 1 Einführung: Quantitative syntaktische Analyse am Beispiel der Kollexem-Analyse

Mehr

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist. .3. Stochastik Grundlagen Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist. Die RELATIVE HÄUFIGKEIT einer Merkmalsausprägung gibt an mit welchem Anteil

Mehr

Statistik II. Statistische Tests. Statistik II

Statistik II. Statistische Tests. Statistik II Statistik II Statistische Tests Statistik II - 12.5.2006 1 Test auf Anteilswert: Binomialtest Sei eine Stichprobe unabhängig, identisch verteilter ZV (i.i.d.). Teile diese Stichprobe in zwei Teilmengen

Mehr

Ein sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an.

Ein sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an. 2.5 Suchen Eine Menge S will nach einem Element durchsucht werden. Die Menge S ist statisch und S = n. S ist Teilmenge eines Universums auf dem eine lineare Ordnung definiert ist und soll so gespeichert

Mehr

Kapitel 9: Verfahren für Nominaldaten

Kapitel 9: Verfahren für Nominaldaten Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test 1 Zweidimensionaler und Vierfelder Chi²-Test 5 Literatur 6 Eindimensionaler Chi²-Test Berechnen der Effektgröße w² Die empirische Effektgröße

Mehr

Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion

Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion Hans Friedrich Witschel Universität Leipzig, Institut für Informatik Augustusplatz 10-11, 04109 Leipzig witschel@informatik.uni-leipzig.de

Mehr

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung

Mehr

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken... I. Deskriptive Statistik 1 1. Einführung 3 1.1. Die Grundgesamtheit......................... 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................ 10

Mehr

Eigenschaften von Texten

Eigenschaften von Texten Worthäufigkeite Eigeschafte vo Texte Eiige Wörter sid sehr gebräuchlich. 2 der häufigste Wörter (z.b. the, of ) köe ca. 0 % der Wortvorkomme ausmache. Die meiste Wörter sid sehr selte. Die Hälfte der Wörter

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 10. Vorlesung - 017 Quantil der Ordnung α für die Verteilung des beobachteten Merkmals X ist der Wert z α R für welchen gilt z 1 heißt Median. P(X < z α ) α P(X z α ). Falls X stetige zufällige Variable

Mehr

Mathematischer Vorkurs für Physiker WS 2012/13: Vorlesung 1

Mathematischer Vorkurs für Physiker WS 2012/13: Vorlesung 1 TU München Prof. P. Vogl Mathematischer Vorkurs für Physiker WS 2012/13: Vorlesung 1 Komplexe Zahlen Das Auffinden aller Nullstellen von algebraischen Gleichungen ist ein Grundproblem, das in der Physik

Mehr

HMMs und der Viterbi-Algorithmus

HMMs und der Viterbi-Algorithmus July 8, 2015 Das Problem Wir haben gesehen: wir können P( w q)p( q) ohne große Probleme ausrechnen ( w = b 1...b i, q = q 1...q i. P( w q)p( q) = π(q 1 )τ(b 1, q 1 )δ(q 1, q 2 )τ(b 2, q 2 )...δ(q i 1,

Mehr

5 Exkurs: Deskriptive Statistik

5 Exkurs: Deskriptive Statistik 5 EXKURS: DESKRIPTIVE STATISTIK 6 5 Ekurs: Deskriptive Statistik Wir wollen zuletzt noch kurz auf die deskriptive Statistik eingehen. In der Statistik betrachtet man für eine natürliche Zahl n N eine Stichprobe

Mehr

Basisprüfung B. Sc. FS 2009

Basisprüfung B. Sc. FS 2009 Basisprüfung B. Sc. Statistik und Wahrscheinlichkeitsrechnung FS 2009 (Als Tafelübung im FS 2011, Aufgabe 1c leicht abgeändert) Prof. Dr. M. H. Faber ETH Zürich Montag, 17. August 2009 14:00 16:00 Inhalt

Mehr

Statistik für Ingenieure und Naturwissenschaftler

Statistik für Ingenieure und Naturwissenschaftler Sheldon M. Ross Statistik für Ingenieure und Naturwissenschaftler 3. Auflage Aus dem Amerikanischen übersetzt von Carsten Heinisch ELSEVIER SPEKTRUM AKADEMISCHER VERLAG Spektrum Inhalt Vorwort zur dritten

Mehr

3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen

3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen 3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 14. Mai 2008 1 Kollokationen

Mehr

Stochastik für Ingenieure

Stochastik für Ingenieure Otto-von-Guericke-Universität Magdeburg Fakultät für Mathematik Institut für Mathematische Stochastik Stochastik für Ingenieure (Vorlesungsmanuskript) von apl.prof. Dr. Waltraud Kahle Empfehlenswerte Bücher:

Mehr

Statistik. Ronald Balestra CH St. Peter

Statistik. Ronald Balestra CH St. Peter Statistik Ronald Balestra CH - 7028 St. Peter www.ronaldbalestra.ch 17. Januar 2010 Inhaltsverzeichnis 1 Statistik 1 1.1 Beschreibende Statistik....................... 1 1.2 Charakterisierung von Häufigkeitsverteilungen...........

Mehr

1. Grundbegri e der Stochastik

1. Grundbegri e der Stochastik Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt

Mehr

Stochastik Approximationen der Binomialverteilung

Stochastik Approximationen der Binomialverteilung Stochastik Approximationen der Binomialverteilung Stefan Englert stefan.englert@gmx.net 21. April 2007 Inhaltsverzeichnis 1 Approximation von n! und b n,p (k) 2 2 Der Satz von de Moivre-Laplace 6 3 Die

Mehr

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer 014 Musterlösung 1. 8 Punkte) a) 1 Pt)Für das Komplement gilt PR A) = 1 PR c A) = 0.968. b) 1 Pt)Nach Definition der bedingten Wahrscheinlichkeit

Mehr

Grundkompetenzkatalog. Mathematik

Grundkompetenzkatalog. Mathematik Grundkompetenzkatalog Mathematik AG - Algebra und Geometrie AG 1.1 AG 1.2 AG 2.1 AG 2.2 AG 2.3 AG 2.4 AG 2.5 AG 3.1 AG 3.2 AG 3.3 Wissen über Zahlenmengen N, Z, Q, R, C verständig einsetzen Wissen über

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation

Mehr

1 Univariate Statistiken

1 Univariate Statistiken 1 Univariate Statistiken Im ersten Kapitel berechnen wir zunächst Kenngrößen einer einzelnen Stichprobe bzw. so genannte empirische Kenngrößen, wie beispielsweise den Mittelwert. Diese können, unter gewissen

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

Alternative Darstellung des 2-Stcihprobentests für Anteile

Alternative Darstellung des 2-Stcihprobentests für Anteile Alternative Darstellung des -Stcihprobentests für Anteile DCF CF Total n 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut

Mehr

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://moves.rwth-aachen.de/teaching/ss-15/dsal/ 2 Effizienz

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Dozentin: Wiebke Petersen 3.12.2009 Wiebke Petersen Einführung CL (WiSe 09/10) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter.

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Aspekte des Vergleichs von Fach- und Normcorpora am Beispiel eines Fachcorpus aus der Automobiltechnik

Aspekte des Vergleichs von Fach- und Normcorpora am Beispiel eines Fachcorpus aus der Automobiltechnik Aspekte des Vergleichs von Fach- und Normcorpora am Beispiel eines Fachcorpus aus der Automobiltechnik Arbeitsmateriale Universität Leipzig ASV Juni 2002 Version Autor Qualitätskontrolle Datum Status 0.3

Mehr

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen Arbeitsblatt SPSS Kapitel 8 Seite Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen Wie in allen Kapiteln gehen wir im Folgenden davon aus, dass Sie die Datei elporiginal.sav geöffnet haben.

Mehr

LV: Höhere und Angewandte Mathematik Teil: Statistik (Teil: Numerik&Simulation: Prof. Günter)

LV: Höhere und Angewandte Mathematik Teil: Statistik (Teil: Numerik&Simulation: Prof. Günter) LV: Höhere und Angewandte Mathematik Teil: Statistik (Teil: Numerik&Simulation: Prof. Günter) Am Ende: Gemeinsame Klausur mit 2 Teilen, jeder Teil geht mit 50% in die Endnote ein. Teil (5 ECTS) Grabowski

Mehr

Kinga Szűcs

Kinga Szűcs Kinga Szűcs 25.10.2011 Die Schülerinnen und Schüler werten graphische Darstellungen und Tabellen von statistischen Erhebungen aus, planen statistische Erhebungen, sammeln systematisch Daten, erfassen sie

Mehr

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte Hochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann Probe-Klausur zur Vorlesung Ökonometrie Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte (die eigentliche Klausur wird

Mehr

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group https://moves.rwth-aachen.de/teaching/ss-18/dsal/ 2 Effizienz

Mehr

Wir wollen nun die Behauptung beweisen, dass die Laufzeit von SELECT linear ist, also dass T (n) = O(n) gilt.

Wir wollen nun die Behauptung beweisen, dass die Laufzeit von SELECT linear ist, also dass T (n) = O(n) gilt. Abschätzung für die Rekursion von SELECT Wir wollen nun die Behauptung beweisen, dass die Laufzeit von SELECT linear ist, also dass T (n) = O(n) gilt. Wir nehmen erst einmal an, dass eine Konstante d existiert,

Mehr

Chi Quadrat-Unabhängigkeitstest

Chi Quadrat-Unabhängigkeitstest Fragestellung 1: Untersuchung mit Hilfe des Chi-Quadrat-Unabhängigkeitstestes, ob zwischen dem Herkunftsland der Befragten und der Bewertung des Kontaktes zu den Nachbarn aus einem Anderen Herkunftsland

Mehr

CLab. Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT. Chunk Parsing. Universität Zürich. Institut für Computerlinguistik

CLab. Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT. Chunk Parsing. Universität Zürich. Institut für Computerlinguistik CLab Web-basiertes virtuelles Laboratorium zur Computerlinguistik LERNEINHEIT Chunk Parsing Universität Zürich Institut für Computerlinguistik Prof. Dr. Michael Hess 1. Voraussetzungen 2 Sie sollten wissen,

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Demo-Text für STOCHASTIK. Tschebyscheff-Ungleichung. Einführung mit Anwendungsbeispielen. Datei Nr Friedrich W.

Demo-Text für   STOCHASTIK. Tschebyscheff-Ungleichung. Einführung mit Anwendungsbeispielen. Datei Nr Friedrich W. STOCHASTIK Tschebyscheff-Ungleichung Einführung mit Anwendungsbeispielen Datei Nr. 36111 Friedrich W. Buckel Stand 1. April 010 INTERNETBIBLIOTHEK FÜR SCHULMATHEMATIK www.mathe-cd.de Inhalt 1 Wiederholung:

Mehr

Masterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen.

Masterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen. Fach: Prüfer: Mikroökonometrie Prof. Regina T. Riphahn, Ph.D. Masterprüfung Vorbemerkungen: Bearbeitungszeit: 60 Minuten. Anzahl der Aufgaben: Bewertung: Erlaubte Hilfsmittel: Wichtige Hinweise: Die Klausur

Mehr

Musterlösung der Klausur vom 29. Juli 2003

Musterlösung der Klausur vom 29. Juli 2003 Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.

Mehr