Linguistische Informatik

Größe: px
Ab Seite anzeigen:

Download "Linguistische Informatik"

Transkript

1 Linguistische Informatik Gerhard Heyer Universität Leipzig Institut für Informatik

2 Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz Parser Output: analysierter Satz 2

3 Statistische Aspekte von Sprache Die lexikalischen Einträge werden nicht gleich häufig verwendet Die grammatischen Regeln werden nicht gleich häufig verwendet Der Erwartungswert bestimmter Wortformen bzw. Wortformenkombinationen hängt ab von der verwendeten Fachsprache 3

4 Zipfsches Gesetz 2 George K. Zipf: Für natürliche Sprache gilt das Principle of Least Effort. Die am häufigsten gebrauchten Wörter sind meist sehr kurze, inhaltsleere Funktionswörter. Wortform Häufigkeit der die und in (vgl. Beispiel: 10 häufigste Wörter aus Projekt Deutscher Wortschatz) den von zu das mit sich

5 Beispiel Deutscher Wortschatz: Wortform Häufigkeit n Rang r r n sich immer Mio Medien Miete vorläufige Gilt Zipfsches Gesetz auch für Märchen Ali-Baba und die 40 Räuber? 5

6 frequency Sprachstatistik Zipf s law in detail List wordforms (types!) of a text by frequency and assign a rank such that the most frequent wordform has rank 1 Now, the rank of a wordform multiplied by its frequency is about constant (for the selected text corpus) r n k (with constant k dependent on selected text) i.e. we get a simple hyperbola n ~ k x 1/r or n ~ k x r -1 rank 6

7 Graphische Darstellung 7

8 Anwendungen Differenzanalyse Abschätzung über Anzahl an Wortformen, die n mal im Text vorkommen Abschätzung des Umfangs des Vokabulars Abschätzung des Zuwachses des Vokabulars, wenn sich Textmenge erhöht Analyse von Suchanfragen 8

9 Statistische Merkmale von Terminologie Fachtermini sind Wörter, die in Fachtexten einer Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten: 9

10 Differenzanalyse Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne. 10

11 Rangliste deutscher Wortformen (Deutscher Wortschatz 1-100) der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte 11

12 Rangliste deutscher Wortformen (Fachwortschatz SAP 1-100) die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim 12

13 Rangliste deutscher Wortformen (Differenzliste signifikanter Fachwortschatzterme SAP/Deutscher Wortschatz 1-30; Mindesthäufigkeitsklasse 8, Faktor 16) etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23),

14 Differenzanalyse Indexierung (mittels automatic term recognition) Beobachtung: domänenspezifische Terme treten in Texten dieses Fachgebiets häufiger auf, als in der allgemeinen Sprache Verwendung eines allgemeinen Korpus als reference corpus R (in unserem Fall: Deutscher Wortschatz) Domänenspezifischer Text T als Grundlage der ATR Identifiziere Wortformen w die signifikant häufiger in T als in R auftreten (cf. Witschel 2005) 14

15 Statistik der Termerkennung Grundlage ist ein statistitischer Test: Null-Hypothese: Die Wahrscheinlichkeit eines Auftretens von w ist gleich für T und R Schätze diese Wahrscheinlichkeiten als relative Häufigkeiten von beiden Textkorpora (maximum likelihood estimate) Berechne das Maß der Überraschung, wenn diese Werte unter der Null-Hypothese beobachtet werden. Beispiel: Poisson-Maß sig( w) k(log k log 1) log n k Häufigkeit von w in T np n Länge eines Textes T p relative Häufigk. von w in R 15

16 Application: Textprofiles of internet pages (homepage ASV) 16

17 Application: Textprofiles of internet pages (homepage ASV) 17

18 Ansätze zur Terminologie-Extraktion Drei Hauptrichtungen (fast alles für Englisch!!): Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter. 18

19 Link für automatische Terminologie-Extraktion ASV-Verfahren: 19

20 Zipfsches Gesetz: Formeln N Gesamtanzahl aller Wortformen des Textes (tokens) t Umfang des Vokabulars (types) n/n relative Häfigkeit der Wortformen, die n mal auftreten rn größter Rang derjenigen Wortformen, die genau n mal auftreten In Anzahl der Wortformen, die genau n mal auftreten Es gilt: rn n/n = c also: rn = c N/n (Konstante c ist textunabhängig, aber sprachabhängig) 20

21 Herleitung der Formeln 2 Für das Vokabular gilt: t ist so groß wie der größte Rang der häufigkeits-sortierten Liste. Falls Wörter mit Häufigkeit 1 vorkommen folgt damit: t = r1 = c N/1 = c N Für c gilt: c = r n/n (vgl. Formeln oben) = k/n (nach Zipfschem Gesetz) Nach den Daten des Projekts Deutscher Wortschatz gilt damit fürs Deutsche: c = /

22 Seltene Wörter Frequenz Anzahl Anteil Anzahl verschied. Wortformen (types) : Anzahl Wörter im Text (tokens) Beobachtungen: Es gibt viele extrem seltene Wörter. Ca. 65% der Wörter wurden nur einmal gesehen. Häufig begegnen uns neue Wörter. Wir können ca. jedes 70. Wort als neu erwarten. D.h. größerer Korpus liefert noch lange neue Wörter 22

23 Anteil von Wortformen, die nur 1 mal auftreten Für In gilt: In = rn rn+1 = c N/n - c N/(n+1) = cn/(n(n+1)) = t/(n(n+1)) Für I1 gilt insbesondere: I1 = t/2 Die hälfte des Vokabulars eines Textes tritt wahrscheinlich nur 1 mal auf. allgemein: Anteil der Wortformen, die genau n mal auftreten, am Vokabular eines Textes In/t = (t/(n(n+1))) / t = 1/(n(n+1)) 23

24 Textabdeckung Wenn wir nur N Wörter kennen, welcher Anteil von Text wird dadurch abgedeckt? N Textabdeckung (deutsch) Textabdeckung (englisch) 1 3 % 5 % % 23 % % 42 % % 65 % % 90 % % 99 % % 24

25 Wachstum des Vokabulars Heaps Law Das Wachstum des Vokabulars, wenn sich die Textmenge erhöht, läßt sich abschätzen mit: t = kn Typische Werte für die Parameter k und sind 20 < k < 100 und ~ 0,5. Für das Projekt Deutscher Wortschatz gilt k = 20 und = Voraussage: Bei Erweiterung der Textmenge wird etwa jedes 70. Wort zum ersten mal gesehen. 25

26 Wachstum des Vokabulars Heaps Law Hintergrund ist die Annahme, dass die einfachste Beziehung zwischen dem Textumfang und dem Vokabular in einer doppelt logarithmischen Skalierung linear ist. Es folgen 2 Konsequenzen: 1. Für das Textmengenwachstum gibt es keine Obergrenze 2. Das Vokabular für große Textkollektionen ist ebenfalls sehr groß 26

27 Weitere Zusammenhänge Beziehungen, die für den Großteil der Wortformen eines Textes gelten, wobei einzelne Wortformen zum Teil deutlich abweichen können: Bezeichne l die Länge einer Wortform, dann gilt: n ~ 1/l Bezeichne m die Anzahl der Bedeutungen einer Wortform, dann gilt: m ~ 1/ n Gesetzmäßigkeit ist nicht auf Verteilung von Wörtern in Texten beschränkt: Für Ordnung von amerikanischen Städte nach Einwohnerzahl gilt: Rang Einwohnerzahl konstant 27

28 Verbesserung Der Zusammenhang zwischen Rang und Häufigkeit wird für Wortformen mit sehr kleinem oder sehr großem Rang nur unzureichend durch die Formel n~1/r wiedergegeben. Im Diagramm mit logarithmisch skalierten Achsen weichen diese Wortformen stärker von der vorausgesagten Geraden ab. bessere Beschreibung liefert nach B. Mandelbrot: n ~ 1/(r+c 1 ) 1+c 2 bzw. (r+c 1 ) 1+c 2 n k (mit textabhängiger Konstante k) Parameter c 1 und c 2 ermöglichen Anpassung an die konkreten Daten. 28

29 Graphische Darstellung Daten: Projekt Deutscher Wortschatz; logarithmische Skalierung der Achsen! 29

30 Literaturhinweise Manning/Schütze, Statistical Natural Language Processing Heyer/Quasthoff/Wittig, Text Mining Wissensrohstoff Text 30

Linguistische Informatik

Linguistische Informatik Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz

Mehr

Sprachstatistik: Das Zipf sche Gesetz

Sprachstatistik: Das Zipf sche Gesetz Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik wittig@uni-leipzig.de Principle of Least Effort 2 George K. Zipf:

Mehr

Linguistische Informatik

Linguistische Informatik Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Grammatik Lexikon Input: natürlichsprachlicher Satz

Mehr

Eigenschaften von Texten

Eigenschaften von Texten Eigenschaften von Texten 1 Statistische Eigenschaften von Text Wie ist die Häufigkeit verschiedener Wörter verteilt? Wie schnell wächst die Größe des Vokabulars mit der Größe eines Korpus? Solche Faktoren

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining

Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining Software-gestütztes Arbeiten mit Historischen Texten Text Mining in den Geisteswissenschaften Information Retrieval & Text Mining Martin-Luther-Universität Halle/S. Halle/S., 2011/01/20 Natural Language

Mehr

Analytische Statistik II

Analytische Statistik II Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Grundproblem Generell sind wir nur selten in der Geographie in der Lage, Daten über die Grundgesamtheit zur Verfügung zu haben.

Mehr

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Möglichkeiten der automatischen Sprachverarbeitung mit Django Möglichkeiten der automatischen Sprachverarbeitung mit März 2009 / Leipzig / Python Stammtisch Möglichkeiten der automatischen Sprachverarbeitung mit Inhalt 1 2 3 4 Möglichkeiten der automatischen Sprachverarbeitung

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

4b. Wahrscheinlichkeit und Binomialverteilung

4b. Wahrscheinlichkeit und Binomialverteilung b. Wahrscheinlichkeit und Binomialverteilung Um was geht es? Häufigkeit in der die Fehlerzahl auftritt 9 6 5 3 2 2 3 5 6 Fehlerzahl in der Stichprobe Wozu dient die Wahrscheinlichkeit? Häfigkeit der Fehlerzahl

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient Georg Bol bol@statistik.uni-karlsruhe.de Markus Höchstötter hoechstoetter@statistik.uni-karlsruhe.de Agenda 1. Untersuchung der Abhängigkeit 2.

Mehr

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0.

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0. Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzureichend beschrieben. Beispiel: Häufigkeitsverteilungen mit gleicher zentraler Tendenz: geringe Variabilität mittlere Variabilität

Mehr

KAPITEL 6. Nichtlineare Ausgleichsrechnung

KAPITEL 6. Nichtlineare Ausgleichsrechnung KAPITEL 6 Nichtlineare Ausgleichsrechnung Beispiel 61 Gedämpfte Schwingung: u + b m u + D m u = 0, Lösungen haben die Form: u(t) = u 0 e δt sin(ω d t + ϕ 0 ) Modell einer gedämpften Schwingung y(t; x 1,

Mehr

Exponentialfunktion, Logarithmus

Exponentialfunktion, Logarithmus Exponentialfunktion, Logarithmus. Die Exponentialfunktion zu einer Basis > 0 Bei Exponentialfunktionen ist die Basis konstant und der Exponent variabel... Die Exponentialfunktion zu einer Basis > 0. Sei

Mehr

Normalformen boolescher Funktionen

Normalformen boolescher Funktionen Normalformen boolescher Funktionen Jeder boolesche Ausdruck kann durch (äquivalente) Umformungen in gewisse Normalformen gebracht werden! Disjunktive Normalform (DNF) und Vollkonjunktion: Eine Vollkonjunktion

Mehr

Kapitel 1: Deskriptive Statistik

Kapitel 1: Deskriptive Statistik Kapitel 1: Deskriptive Statistik Grafiken Mit Hilfe von SPSS lassen sich eine Vielzahl unterschiedlicher Grafiken für unterschiedliche Zwecke erstellen. Wir besprechen hier die zwei in Kapitel 1.1 thematisierten

Mehr

Kapitel VI - Lage- und Streuungsparameter

Kapitel VI - Lage- und Streuungsparameter Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel VI - Lage- und Streuungsparameter Markus Höchstötter Lehrstuhl für Statistik, Ökonometrie

Mehr

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 5. Asymptotische Laufzeitkomplexität Definition Regeln Beispiele

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 5. Asymptotische Laufzeitkomplexität Definition Regeln Beispiele UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1 Übung 5 Asymptotische Laufzeitkomplexität Definition Regeln Beispiele Institut für Pervasive Computing Johannes Kepler Universität Linz Altenberger

Mehr

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015 n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015 Statistische Modelle Wir möchten W.theorie verwenden, um ein Modell eines generativen Prozesses aus Beobachtungen

Mehr

4 Effizienz und Komplexität 3.1 1

4 Effizienz und Komplexität 3.1 1 4 Effizienz und Komplexität 3.1 1 Effizienz (efficiency): auf den Ressourcen-Verbrauch bezogene Programmeigenschaft: hohe Effizienz bedeutet geringen Aufwand an Ressourcen. Typische Beispiele: Speichereffizienz

Mehr

6.4 Der Kruskal-Wallis Test

6.4 Der Kruskal-Wallis Test 6.4 Der Kruskal-Wallis Test Der Test von Kruskal und Wallis, auch H-Test genannt, ist ein Test, mit dem man die Verteilungen von Teilstichproben auf Unterschiede untersuchen kann. Bei diesem Test geht

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 1 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen

Mehr

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Übungen mit dem Applet Vergleich von zwei Mittelwerten Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung

Mehr

825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170 e 500 e 443 e 608 e. Zeichnen Sie das Box-Plot. Sind in dieser Stichprobe Ausreißer vorhanden?

825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170 e 500 e 443 e 608 e. Zeichnen Sie das Box-Plot. Sind in dieser Stichprobe Ausreißer vorhanden? 1. Aufgabe: Eine Bank will die jährliche Sparleistung eines bestimmten Kundenkreises untersuchen. Eine Stichprobe von 12 Kunden ergab folgende Werte: 825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170

Mehr

STATISTISCHE METHODEN UND IHRE ANWENDUNGEN

STATISTISCHE METHODEN UND IHRE ANWENDUNGEN STATISTISCHE METHODEN UND IHRE ANWENDUNGEN Von Dr. rer. nat. Erwin Kreyszig o. Professor für Statistik an der Universität Karlsruhe mit 82 Abbildungen und zahlreichen Tabellen Vierter, unveränderter Nachdruck

Mehr

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010

Mehr

Sommer 2002 Stefan Langer CIS, Universität München.

Sommer 2002 Stefan Langer CIS, Universität München. Sommer 00 Stefan Langer CIS, Universität München stef@cis.uni-muenchen.de Sommersemester 00 Dozent: Stefan Langer 8. MAI 00: BLATT 1 1. Statistik und Computerlinguistik. Einige Grundbegriffe der deskriptiven

Mehr

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005 Universität Bielefeld 13. Juni 2005 Einführung Einführung Wie kann die Kenntnis der Wahrscheinlichkeitsverteilung der Parameter einer Stichprobe dazu verhelfen auf die wahren Werte der Grundgesamtheit

Mehr

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende im Sommersemester 2012 Prof. Dr. H. Küchenhoff, J. Brandt, G. Schollmeyer, G. Walter Aufgabe 1 Betrachten

Mehr

Erstspracherwerb. Sprachentwicklung: Wortschatz

Erstspracherwerb. Sprachentwicklung: Wortschatz Erstspracherwerb Sprachentwicklung: Wortschatz I. Drei Hauptschritte in der lexikalischen Entwicklung 1. Allgemeine Informationen, Statistiken Grundwortschatz mit 16 Jahren: ~ 60.000 Wörter Voraussetzung:

Mehr

Cox-Regression. Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells

Cox-Regression. Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells Cox-Regression Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells In vielen Fällen interessiert, wie die Survivalfunktion durch Einflussgrößen beeinflusst

Mehr

5 Kontinuierliches Wachstum

5 Kontinuierliches Wachstum 5 Kontinuierliches Wachstum Kontinuierlich meßbare Größe Wir betrachten nun eine Größe a, die man kontinuierlich messen kann. Den Wert von a zum Zeitpunkt t schreiben wir nun als a(t). Wir können jedem

Mehr

Ü b u n g s b l a t t 15

Ü b u n g s b l a t t 15 Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 2. 7. 2007 Ü b u n g s b l a t t 15 Hier ist zusätzliches Übungsmaterial zur Klausurvorbereitung quer durch die Inhalte der Vorlesung. Eine

Mehr

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht

Mehr

x t2 y t = 160, y = 8, y y = 3400 t=1

x t2 y t = 160, y = 8, y y = 3400 t=1 Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

Biometrieübung 5 Spezielle Verteilungen. 1. Anzahl von weiblichen Mäusen in Würfen von jeweils 4 Mäusen

Biometrieübung 5 Spezielle Verteilungen. 1. Anzahl von weiblichen Mäusen in Würfen von jeweils 4 Mäusen Biometrieübung 5 (Spezielle Verteilungen) - Aufgabe Biometrieübung 5 Spezielle Verteilungen Aufgabe 1. Anzahl von weiblichen Mäusen in Würfen von jeweils 4 Mäusen Anzahl weiblicher Mäuse (k) Anzahl Würfe

Mehr

Alternative Darstellung des 2-Stcihprobentests für Anteile

Alternative Darstellung des 2-Stcihprobentests für Anteile Alternative Darstellung des -Stcihprobentests für Anteile DCF CF Total n 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Die Korrelation von Merkmalen

Die Korrelation von Merkmalen Die Korrelation von Merkmalen In der Analse von Datenmaterial ist eines der Hauptziele der Statistik eine Abhängigkeit bzw. einen Zusammenhang zwischen Merkmalen zu erkennen. Die Korrelation ermittelt

Mehr

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg . Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments

Mehr

Über den Autor 7. Teil Beschreibende Statistik 29

Über den Autor 7. Teil Beschreibende Statistik 29 Inhaltsverzeichnis Über den Autor 7 Einführung Über dieses Buch - oder:»... für Dummies«verpflichtet! Wie man dieses Buch benutzt 22 Wie ich Sie mir vorstelle 22 Wie dieses Buch aufgebaut ist 23 Teil I:

Mehr

Simulation eines radioaktiven Zerfalls, Zerfallsfunktionen

Simulation eines radioaktiven Zerfalls, Zerfallsfunktionen Simulation eines radioaktiven Zerfalls, Zerfallsfunktionen Beobachtet wird der Zerfall des M&M-Isotops. Die M&M-Atome bestehen aus Schokolinsen, die auf einer Seite mit einem M markiert sind, die andere

Mehr

Differenzengleichungen. und Polynome

Differenzengleichungen. und Polynome Lineare Differenzengleichungen und Polynome Franz Pauer Institut für Mathematik, Universität Innsbruck Technikerstr. 13/7, A-600 Innsbruck, Österreich franz.pauer@uibk.ac.at 1 Einleitung Mit linearen Differenzengleichungen

Mehr

Kombinatorik: Abzählverfahren (Teschl/Teschl 7) Summenregel. Allgemeiner

Kombinatorik: Abzählverfahren (Teschl/Teschl 7) Summenregel. Allgemeiner Kombinatorik: Abzählverfahren (Teschl/Teschl 7) Fragestellung: Wie viele verschiedene Möglichkeiten gibt es, Elemente auszuwählen, z. B. Anzahl verschiedener möglicher Passwörter, IPAdressen, Zahlenkombinationen

Mehr

6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen

6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen 6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Bisher: Diskrete Zufallsvariablen,

Mehr

3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen

3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen 3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 14. Mai 2008 1 Kollokationen

Mehr

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die

Mehr

Das Histogramm, bzw. Stabdiagramm / Histogramm / Balkendiagramm

Das Histogramm, bzw. Stabdiagramm / Histogramm / Balkendiagramm Histogram / Histogramm / histogram Akademische Disziplin der Statistik/academic field of statistics/ la discipline statistique/estadística/disciplina academica della statistica deskriptive Statistik/descriptive

Mehr

Logik: aussagenlogische Formeln und Wahrheitstafeln

Logik: aussagenlogische Formeln und Wahrheitstafeln FH Gießen-Friedberg, Sommersemester 2010 Lösungen zu Übungsblatt 1 Diskrete Mathematik (Informatik) 7./9. April 2010 Prof. Dr. Hans-Rudolf Metz Logik: aussagenlogische Formeln und Wahrheitstafeln Aufgabe

Mehr

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 *** Körperkraft [Nm] 0 50 100 150 200 250 0 20 40 60 80 Lean Body Mass [kg] Dieses Quiz soll Ihnen helfen, den R Output einer einfachen linearen Regression besser zu verstehen (s. Kapitel 5.4.1) Es wurden

Mehr

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik Kollexem-Analyse SE: Quantitative Analyse linguistischer Variation Germanistik WS 2012/13 WS 2012/13 1 / 14 Heutige Sitzung 1 Einführung: Quantitative syntaktische Analyse am Beispiel der Kollexem-Analyse

Mehr

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle

Mehr

Alternative Darstellung des 2-Stichprobentests für Anteile

Alternative Darstellung des 2-Stichprobentests für Anteile Alternative Darstellung des -Stichprobentests für Anteile DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

Masterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen.

Masterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen. Fach: Prüfer: Mikroökonometrie Prof. Regina T. Riphahn, Ph.D. Masterprüfung Vorbemerkungen: Bearbeitungszeit: 60 Minuten. Anzahl der Aufgaben: Bewertung: Erlaubte Hilfsmittel: Wichtige Hinweise: Die Klausur

Mehr

Statistische Analyse hydrologischer Daten (HW Berechnung)

Statistische Analyse hydrologischer Daten (HW Berechnung) Lehrstuhl für Hydrologie und Wasserwirtschaft BTU Cottbus Statistische Analyse hydrologischer Daten (HW Berechnung) Übung zur Hochwasserstatistik Datensatz: jährliche Maximalabflüsse der Spree in Cottbus

Mehr

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl Einführung in die Computerlinguistik Tokenizer und mit Perl Dozentin: Wiebke Petersen 7.6.2010 Wiebke Petersen Einführung CL (SoSe 2010) 1 Tokenisierung Segmentierung von Flieÿtext in Wörter. Segmentierung

Mehr

Nutzung der Oracle Database InMemory Option für SAP BW

Nutzung der Oracle Database InMemory Option für SAP BW Nutzung der Oracle Database InMemory Option für SAP BW Schlüsselworte Oracle, SAP-BW, InMemory, Star-Schema. Jörn Bartels Oracle München Einleitung In SAP BW wurde bisher ein erweitertes Snow Flake Schema

Mehr

x(n x) cm 2 ) zweier Betonsorten wird überprüft. Dabei ergaben Sorte 1 185 186 184 186 185 187 186 187 185 Sorte 2 183 182 185 182 181 179

x(n x) cm 2 ) zweier Betonsorten wird überprüft. Dabei ergaben Sorte 1 185 186 184 186 185 187 186 187 185 Sorte 2 183 182 185 182 181 179 . Aufgabe: Zwei bis drei Millionen deutsche Haushalte sind überschuldet. Einer der Hauptgründe für die Überschuldung privater Haushalte ist eine gescheiterte Selbstständigkeit. In einer Stichprobe von

Mehr

Statistik. Ronald Balestra CH St. Peter

Statistik. Ronald Balestra CH St. Peter Statistik Ronald Balestra CH - 7028 St. Peter www.ronaldbalestra.ch 17. Januar 2010 Inhaltsverzeichnis 1 Statistik 1 1.1 Beschreibende Statistik....................... 1 1.2 Charakterisierung von Häufigkeitsverteilungen...........

Mehr

Eigenschaften von Texten

Eigenschaften von Texten Worthäufigkeite Eigeschafte vo Texte Eiige Wörter sid sehr gebräuchlich. 2 der häufigste Wörter (z.b. the, of ) köe ca. 0 % der Wortvorkomme ausmache. Die meiste Wörter sid sehr selte. Die Hälfte der Wörter

Mehr

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Überlebenszeitanalyse

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Überlebenszeitanalyse Basis-Kurs Statistik und SPSS für Mediziner Lösungen SPSS-Übung Überlebenszeitanalyse Mit Datensatz Daten_Übung_Überlebenszeitanalyse.sav 1) Zeichnen Sie die Kaplan-Meier-Kurven des progressionsfreien

Mehr

Hypothesentests mit SPSS

Hypothesentests mit SPSS Beispiel für eine zweifaktorielle Varianzanalyse mit Messwiederholung auf einem Faktor (univariate Lösung) Daten: POKIII_AG4_V06.SAV Hypothese: Die physische Attraktivität der Bildperson und das Geschlecht

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests I. Einführungsbeispiel II. Theorie: Statistische Tests III. Zwei Klassiker: t-test und Wilcoxon-Rangsummen - Test IV. t-test und Wilcoxon-Rangsummen - Test in R Eine Einführung in R: Statistische Tests

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 9. Dezember 2009 Bernd Klaus, Verena Zuber

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52 2 Häufigkeitsverteilungen 2.0 Grundbegriffe Ziel: Darstellung bzw. Beschreibung (Exploration) einer Variablen. Ausgangssituation: An n Einheiten ω 1,..., ω n sei das Merkmal X beobachtet worden. x 1 =

Mehr

Auswertung und Lösung

Auswertung und Lösung Körperkraft [Nm] 0 50 100 150 200 250 0 20 40 60 80 Lean Body Mass [kg] Dieses Quiz soll Ihnen helfen, den R Output einer einfachen linearen Regression besser zu verstehen (s. Kapitel 5.4.1) Es wurden

Mehr

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst. Aufgabe 1 (2 + 4 + 2 + 1 Punkte) Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen X und Y : { 2x + 2y für 0.5 x 0.5, 1 y 2 f(x, y) = 3 0 sonst. a) Berechnen

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester Messung von Rendite und Risiko Finanzwirtschaft I 5. Semester 1 Messung von Renditen Ergebnis der Anwendung der Internen Zinsfuß- Methode ist die Rentabilität des Projekts. Beispiel: A0-100.000 ZÜ1 54.000

Mehr

Funktionen mit mehreren Variablen. Voraussetzungen:

Funktionen mit mehreren Variablen. Voraussetzungen: Funktionen mit mehreren Variablen Voraussetzungen: Grundlegende Kenntnisse über Ableiten (Zu inden in dem Artikel Dierential und Integralrechnung au www.antigauss.de), sowie eine Vorstellung davon, was

Mehr

Fertilität und psychische Gesundheit im Alter

Fertilität und psychische Gesundheit im Alter Fertilität und psychische Gesundheit im Alter Kai Eberhard Kruk MEA, Universität Mannheim MEA Jahreskonferenz, 30.11.2010 Mannheim Research Institute for the Economics of Aging www.mea.uni-mannheim.de

Mehr

Modellieren von Natur

Modellieren von Natur Modellieren von Natur Oliver Deussen Natürliche Objekte 1 bisher: Kombination relativ einfacher Primitive zur Generierung (geschlossener) glatter Oberflächen aber: Wie modelliert man natürliche Objekte?

Mehr

Alternative Darstellung des 2-Stichprobentests für Anteile

Alternative Darstellung des 2-Stichprobentests für Anteile Alternative Darstellung des -Stichprobentests für Anteile DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut

Mehr

Kreissektoren und Bogenmaß

Kreissektoren und Bogenmaß M 10.1 Kreissektoren und Bogenmaß In einem Kreis mit Radius Mittelpunktswinkel : Länge des Kreisbogens gilt für einen Kreissektor mit Fläche des Kreissektors Das Bogenmaß eines Winkels ist die Länge des

Mehr

Diskriminatives syntaktisches Reranking für SMT

Diskriminatives syntaktisches Reranking für SMT Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung

Mehr

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments 73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind

Mehr

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW) Martin Kappus (ZHAW) Ablauf: Warum sprechen wir heute über maschinelle Übersetzung? Geschichte und Ansätze Eingabe-/Ausgabemodi und Anwendungen 2 WARUM SPRECHEN WIR HEUTE ÜBER MASCHINELLE ÜBERSETZUNG?

Mehr

1. Grundbegri e der Stochastik

1. Grundbegri e der Stochastik Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt

Mehr

HMMs und der Viterbi-Algorithmus

HMMs und der Viterbi-Algorithmus July 8, 2015 Das Problem Wir haben gesehen: wir können P( w q)p( q) ohne große Probleme ausrechnen ( w = b 1...b i, q = q 1...q i. P( w q)p( q) = π(q 1 )τ(b 1, q 1 )δ(q 1, q 2 )τ(b 2, q 2 )...δ(q i 1,

Mehr

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus

Mehr

Statistische Grundlagen I

Statistische Grundlagen I Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.

Mehr

Bachelorprüfung: Statistik (1 Stunde)

Bachelorprüfung: Statistik (1 Stunde) Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!

Mehr

Biometrische Planung von Versuchsvorhaben

Biometrische Planung von Versuchsvorhaben Biometrische Planung von Versuchsvorhaben Einführung in das Prinzip der Lehrstuhl für Mathematik VIII Statistik http://statistik.mathematik.uni-wuerzburg.de/~hain Ziel des Vortrags Im nachfolgenden Vortrag

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/

Mehr

TEIL 13: DIE EINFACHE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen

Mehr

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung

Mehr

Künstliche Intelligenz Text Mining

Künstliche Intelligenz Text Mining Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von

Mehr

Statistische Sprachmodelle

Statistische Sprachmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch

Mehr