Künstliche Intelligenz Text Mining

Größe: px
Ab Seite anzeigen:

Download "Künstliche Intelligenz Text Mining"

Transkript

1 Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

2 Data Mining Sammelbegriff für die Extraktion von Mustern aus strukturiert vorliegenden Daten, bspw. durch Klassifikation Clustering Anwendungsgebiete des Data Minings sind u.a.: Customer Relationship Management Überwachung DNA Analyse

3 Textmining Kombiniert Ansätze aus u.a. Data Mining, maschinellem Lernen, Sprachverarbeitung und Wissensmanagement. Mit [ ] Text Mining werden computergestützte Verfahren für die semantische Analyse von Texten bezeichnet, welche die automatische bzw. semiautomatische Strukturierung von Texten, insbesondere sehr großen Mengen von Texten, unterstützen. (Heyer et al., 2006, S. 3)

4 Text Mining: Anwendungen Filterung und Verteilung von Mails Erstellung firmen- oder fachspezifischer Glossare Automatisches Zusammenfassen von Texten Web Data Mining, bspw. Markt- und Produktanalyse Sentiment Analyse ( Gefühlserkennung )

5 Text Mining: Voraussetzungen geeignete Korpora Heterogen bzgl. Art, Herkunft, oder Thematik der Texte (je nach Anwendungsfall) Vorverarbeitung, bspw. Tokenisierung Stemming

6 Kollokationen

7 Kollokationen A collocation is an expression consisting of two or more words that correspond to some conventional way of saying things. (Manning/Schuetze, S.151) Collocations of a given word are statements of the habitual or customary places of that word (Firth 1957:181) Within the area of corpus linguistics, collocation is defined as a sequence of words or terms which cooccur more often than would be expected by chance. (Wikipedia:Collocation)

8 Kollokationen: Beispiele Eigennamen: Angela Merkel, Universität zu Köln Idiome: ins Gras beißen, vor die Hunde gehen Assoziative Kollokationen (N+N): Haus & Tür, Tatort & Mörder Prädikative Kollokationen (V+N): Medaille gewinnen, Fahrrad fahren Attributive Kollokationen (A+N): schwarzer Tag, harte Drogen

9 Kollokationen: Eigenschaften Kompositionalität Kollokationen sind (eher) nicht kompositionell. schwarzer Tag vs. schwarzer Vogel Substituierbarkeit Bestandteile von Kollokationen lassen sich nicht austauschen. schwarzer Tag vs. gelber Tag Modifizierbarkeit Modifizierung/Ergänzung um weiteres lexikalisches Material ist schwer bzw. unmöglich. schwarzer Tag vs. langweiliger schwarzer Tag

10 Kollokationen: Anwendungsfälle Sprachgenerierung und Parsing (z.b. maschinelle Übersetzung) ins Gras beißen to bite the dust Lexikographie Automatische Identifizierung erwähnenswerter Kollokationen Generierung von Stichwort-Listen

11 Heutiges Beispiel Korpus: ca unstrukturiert vorliegende Zeitungstexte, insgesamt etwa 1,4 Millionen Wörter. Vorverarbeitung: Tokenisierung mit Java's build-in- Werkzeugen (sehr primitiv) Ziele: Extraktion möglicher benachbarter 2-Wort- Kollokationen (Bigramme) Möglichst gute Bewertung der Kollokationen Zuweisen der Kollokationen zu den einzelnen Dokumenten.

12 Vorgehensweise Wie ließe sich eine einfache Suche nach Kollokationen implementieren?

13 Vorgehensweise Wie ließe sich eine einfache Suche nach Kollokationen implementieren? 1. Erstellen einer Liste aller Bigramme: Hans Müller liest Zeitung. Hans Müller schläft wird zu [Hans, Müller] [Müller, liest] [liest, Zeitung] [Zeitung, Hans] [Hans, Müller] [Müller, schläft] 2. Sortieren der Liste nach Häufigkeit Beispiel 1

14 Ergebnis Die ermittelten Kollokationen sind leider etwas inhaltsleer... Spontane Lösungsvorschläge? [in der] 3996 [in den] 2165 [für die] 2146 [und die] 1319 [mit dem] 1306 [auf die] 1252 [an der] 1201 [in die] 1192 [mit der] 1171 [von der] 1146 [bei der] 999 [über die] 972 [sich die] 964 [aus dem] 914 [dass die] 901 [auf den] 857

15 1. Verbesserung Wie vorher, aber unter Verwendung einer Liste, die unerwünschte Wörter enthält ( Stopword-Liste ). Beispiel 2

16 Ergebnis Deutlich besser, aber... Manchmal sind Stoppwörter relevant ( auf Schalke ) Stoppwörter sind sprachoder domänenspezifisch Die Ergebnisse könnten grundsätzlich noch besser sein [Millionen Mark] 381 [vergangenen Jahr] 296 [Milliarden Euro] 258 [Millionen DM] 247 [Milliarden DM] 223 [New York] 201 [Millionen Euro] 178 [Milliarden Dollar] 122 [Millionen Dollar] 111 [Milliarden Mark] 109 [Gerhard Schröder] 108 [vergangenen Jahres] 107 [FC Bayern] 95 [Foto dpa] 94

17 Häufigkeit Mittelwert - Abweichung Sinnvoller als eine reine Häufigkeitsanalyse wäre es, nur die Bigramme zu berücksichtigen, die auffällig häufig vorkommen. Was aber ist auffällig häufig, und was ist unauffällig häufig?

18 Testverfahren für Hypothesen Hypothesentest zur Ermittlung der Nichtzufälligkeit: 1) Aufstellen einer Nullhypothese (H0) 2) Postulieren des Signifikanzniveaus 3) Ermitteln der Wahrscheinlichkeit, dass H0 zutrifft. 4) Bestätigen/Verwerfen von H0 H0 in unserem Fall: Es besteht keine Abhängigkeit zwischen den Wortauftritten (Unabhängigkeitsannahme) P(w 1 w 2 )= P(w 1 )P(w 2 )

19 T-Test Maß für den Unterschied zwischen beobachteten und vorhergesagten Werten H0: Sample stammt aus einer Grundgesamtheit mit Normalverteilung und Mittelwert μ: Je höher der Wert für t, desto unwahrscheinlicher ist H0.

20 T-Test : Ermittelte Vorkommen eines Bigrams Erwartete Vorkommen eines Bigrams σ: Standardabweichung Ν: Anzahl aller Bigramme

21 T-Test: Vereinfachung Die Standardabweichung ist unbekannt, kann aber durch s 2 = (1- ) ersetzt werden. s 2 = (1- ) Beispiel 3

22 Chi-Square-Test (χ2) Idee: Vergleich von beobachteten Vorkommen mit beobachteten Nicht-Vorkommen. Sollte eine große Abweichung auftreten, handelt es sich um eine Kollokation.

23 Chi-Square-Test (χ2): Beispiel Jede Hypothese (wie bspw. new Companies ) lässt sich zu anderen Hypothesen in Bezug setzen. w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines)

24 Chi-Square-Test (χ2): Beispiel Jede Hypothese (wie bspw. new Companies ) lässt sich zu anderen Hypothesen in Bezug setzen. w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines) Die Werte der einzelnen Zellen lassen sich einfach berechnen: C(new) = , C(companies) = 4.675, C(new companies) = 8, Anzahl der Tokens = C(? companies) = C(companies) C(new companies) =

25 Chi-Square-Test (χ2): Formel O: Beobachteter Wert E: Erwarteter Wert (Nullhypothese) Wie wird E berechnet?, 2 =, ij (O ij - E ij ) 2 E ij

26 Chi-Square-Test (χ2): Formel O: Beobachteter Wert E: Erwarteter Wert (Nullhypothese) Wie wird E berechnet? 2 = ij (O ij - E ij ) 2 E ij w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines) E 11 = O 11 + O 12 * O 11 + O 21 * N = ca. 5.2 N N

27 Chi-Square-Test (χ2): Formel Für 2x2-Tabellen etwas einfacher : 2 = N(O 11 * O 22 - O 12 * O 21 ) 2 (O 11 + O 12 )*(O 11 + O 21 )*(O 12 + O 22 )*(O 21 + O 22 ) w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines) Beispiel

Anpassungstests VORGEHENSWEISE

Anpassungstests VORGEHENSWEISE Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz Grundlage: Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz Die Testvariable T = X µ 0 S/ n genügt der t-verteilung mit n 1 Freiheitsgraden. Auf der Basis

Mehr

Jost Reinecke. 7. Juni 2005

Jost Reinecke. 7. Juni 2005 Universität Bielefeld 7. Juni 2005 Testtheorie Test für unabhängige Stichproben Test für abhängige Stichproben Testtheorie Die Testtheorie beinhaltet eine Reihe von Testverfahren, die sich mit der Überprüfung

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Chi-Quadrat Verfahren

Chi-Quadrat Verfahren Chi-Quadrat Verfahren Chi-Quadrat Verfahren werden bei nominalskalierten Daten verwendet. Die einzige Information, die wir bei Nominalskalenniveau zur Verfügung haben, sind Häufigkeiten. Die Quintessenz

Mehr

Opinion Mining Herausforderungen und Anwendung in der Politik

Opinion Mining Herausforderungen und Anwendung in der Politik Opinion Mining Herausforderungen und Anwendung in der Politik 28.09.2011 Umut Yilmaz Inhaltsübersicht 1. Einführung 2. Grundlagen 3. Anwendung in der Politik 4. Anwendungsbeispiel 5. Fazit 2 1. Einführung

Mehr

Statistik II: Signifikanztests /1

Statistik II: Signifikanztests /1 Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test

Mehr

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C). Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Aus praktischen Gründen

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Übungen mit dem Applet Vergleich von zwei Mittelwerten Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung

Mehr

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren Hypothesenprüfung Teil der Inferenzstatistik Befaßt sich mit der Frage, wie Hypothesen über eine (in der Regel unbekannte) Grundgesamtheit an einer Stichprobe überprüft werden können Behandelt werden drei

Mehr

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36) Statistik I Sommersemester 2009 Statistik I I (1/36) Wiederholung Grenzwertsatz Konfidenzintervalle Logik des 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Statistik I I (2/36) Zum Nachlesen Agresti/Finlay: Kapitel 6+7

Mehr

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

THEMA: STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN TORSTEN SCHOLZ WEBINAR@LUNCHTIME THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ EINLEITENDES BEISPIEL SAT: Standardisierter Test, der von Studienplatzbewerbern an amerikanischen Unis gefordert

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

Wissenschaftliche Nachrichten: https://www.bmbf.gv.at/schulen/sb/wina/wina.html Vol. 131/2006, 19-21

Wissenschaftliche Nachrichten: https://www.bmbf.gv.at/schulen/sb/wina/wina.html Vol. 131/2006, 19-21 Der T-Test in Excel NORBERT BRUNNER und MANFRED KÜHLEITNER Ein häufiges Problem ist der Vergleich eines beobachteten Stichprobenmittelwerts mit einem Sollwert. Dabei wird der T-Test angewandt. Wir zeigen

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

10. Die Normalverteilungsannahme

10. Die Normalverteilungsannahme 10. Die Normalverteilungsannahme Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Bisher haben wir vorausgesetzt, daß die Beobachtungswerte normalverteilt sind. In diesem Fall kann man

Mehr

Unterschiedshypothesen Vergleiche von Häufigkeiten bzw. Mittelwerten zwischen (mindestens) zwei Gruppen Zusammenhangshypothesen Korrelationsanalysen

Unterschiedshypothesen Vergleiche von Häufigkeiten bzw. Mittelwerten zwischen (mindestens) zwei Gruppen Zusammenhangshypothesen Korrelationsanalysen Statistische Überprüfung von Hypothesen Hypothesen sind allgemeine Aussagen über Zusammenhänge zwischen empirischen und logischen Sachverhalten.Allgemein bezeichnet man diejenigen Aussagen als Hypothesen,

Mehr

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus

Mehr

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Statistische Auswertungen mit R Universität Kassel, FB 07 Wirtschaftswissenschaften Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Beispiele 8. Sitzung Konfidenzintervalle, Hypothesentests > # Anwendungsbeispiel

Mehr

Testen von Hypothesen:

Testen von Hypothesen: Testen von Hypothesen: Ein Beispiel: Eine Firma produziert Reifen. In der Entwicklungsabteilung wurde ein neues Modell entwickelt, das wesentlich ruhiger läuft. Vor der Markteinführung muss aber auch noch

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, June 11, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte

Mehr

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen Induktive Statistik Prof. Dr. W.-D. Heller

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

1 Dichte- und Verteilungsfunktion

1 Dichte- und Verteilungsfunktion Tutorium Yannick Schrör Klausurvorbereitungsaufgaben Statistik Lösungen Yannick.Schroer@rub.de 9.2.26 ID /455 Dichte- und Verteilungsfunktion Ein tüchtiger Professor lässt jährlich 2 Bücher drucken. Die

Mehr

8. Konfidenzintervalle und Hypothesentests

8. Konfidenzintervalle und Hypothesentests 8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Grundlagen der Statistik

Grundlagen der Statistik Grundlagen der Statistik Übung 15 009 FernUniversität in Hagen Alle Rechte vorbehalten Fachbereich Wirtschaftswissenschaft Übersicht über die mit den Übungsaufgaben geprüften Lehrzielgruppen Lehrzielgruppe

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Statistik II für Betriebswirte Vorlesung 1

Statistik II für Betriebswirte Vorlesung 1 Statistik II für Betriebswirte Vorlesung 1 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 19. Oktober 2016 Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung

Mehr

3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft

3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft 3. Das Prüfen von Hypothesen Hypothese?! Stichprobe 3.1. Signifikanztests in der Wirtschaft Prüfung, ob eine (theoretische) Hypothese über die Verteilung eines Merkmals X und ihre Parameter mit einer (empirischen)

Mehr

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse

Mehr

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation

Mehr

Grenzen für x -s-regelkarten

Grenzen für x -s-regelkarten Normalverteilte Fertigung: Stichproben aus der Fertigung: σ σ Eine normalverteilte Fertigung hat den Mittelwert µ und die Standardabweichung σ. Stichproben aus der Fertigung haben zufällig abweichende

Mehr

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es beim radioaktiven Zerfall, zwischen 100 und 110 Zerfälle

Mehr

Schließende Statistik

Schließende Statistik Schließende Statistik Die schließende Statistik befasst sich mit dem Rückschluss von einer Stichprobe auf die Grundgesamtheit (Population). Die Stichprobe muss repräsentativ für die Grundgesamtheit sein.

Mehr

Hypothesentests mit SPSS. Beispiel für einen t-test

Hypothesentests mit SPSS. Beispiel für einen t-test Beispiel für einen t-test Daten: museum-f-v04.sav Hypothese: Als Gründe, in ein Museum zu gehen, geben mehr Frauen als Männer die Erweiterung der Bildung für Kinder an. Dies hängt mit der Geschlechtsrolle

Mehr

Lösungen zu den Übungsaufgaben in Kapitel 10

Lösungen zu den Übungsaufgaben in Kapitel 10 Lösungen zu den Übungsaufgaben in Kapitel 10 (1) In einer Stichprobe mit n = 10 Personen werden für X folgende Werte beobachtet: {9; 96; 96; 106; 11; 114; 114; 118; 13; 14}. Sie gehen davon aus, dass Mittelwert

Mehr

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese: 2.4.1 Grundprinzipien statistischer Hypothesentests Hypothese: Behauptung einer Tatsache, deren Überprüfung noch aussteht (Leutner in: Endruweit, Trommsdorff: Wörterbuch der Soziologie, 1989). Statistischer

Mehr

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 4.1 4. Statistische Entscheidungsverfahren Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Beispiel:

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.

Mehr

Allgemeines zu Tests. Statistische Hypothesentests

Allgemeines zu Tests. Statistische Hypothesentests Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Hypothesentesten, Fehlerarten und Güte 2 Literatur Kreyszig: Statistische Methoden und ihre Anwendungen, 7.

Mehr

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße DAS THEMA: INFERENZSTATISTIK III INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße Inferenzstatistik für Lagemaße Standardfehler

Mehr

Test auf Varianzgleichheit (F-Test) (einseitiger Test!!)

Test auf Varianzgleichheit (F-Test) (einseitiger Test!!) T-Tests in Excel T-Tests in Excel Test auf Varianzgleichheit (F-Test) (einseitiger Test!!)! Annahmen:! Unabhängige Stichproben! Normalverteilte Grundgesamtheiten H0 : σx = σ y; H0 : σx > σ y Sx σ x F =

Mehr

R. Brinkmann Seite

R. Brinkmann  Seite R. Brinkmann http://brinkmann-du.de Seite 1 24.2.214 Grundlagen zum Hypothesentest Einführung: Wer Entscheidungen zu treffen hat, weiß oft erst im nachhinein ob seine Entscheidung richtig war. Die Unsicherheit

Mehr

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Induktive Statistik Prof. Dr. W.-D.

Mehr

ANalysis Of VAriance (ANOVA) 2/2

ANalysis Of VAriance (ANOVA) 2/2 ANalysis Of VAriance (ANOVA) 2/2 Markus Kalisch 22.10.2014 1 Wdh: ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor X). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich

Mehr

Chi Quadrat-Unabhängigkeitstest

Chi Quadrat-Unabhängigkeitstest Fragestellung 1: Untersuchung mit Hilfe des Chi-Quadrat-Unabhängigkeitstestes, ob zwischen dem Herkunftsland der Befragten und der Bewertung des Kontaktes zu den Nachbarn aus einem Anderen Herkunftsland

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Kurze Zusammenfassung der letzten Vorlesung Schätzung und Modellentwicklung Überblick Statistische Signifikanztests

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 19. Januar 2011 1 Nichtparametrische Tests Ordinalskalierte Daten 2 Test für ein Merkmal mit nur zwei Ausprägungen

Mehr

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente... Inhaltsverzeichnis 0 Einführung 1 1 Zufallsvorgänge und Wahrscheinlichkeiten 5 1.1 Zufallsvorgänge.......................... 5 1.1.1 Ergebnismengen..................... 6 1.1.2 Ereignisse und ihre Verknüpfung............

Mehr

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH

SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH GERHARD SVOLBA COMPETENCE CENTER ANALYTICS WIEN, 17. NOVEMBER 2015 SAS CONTEXTUAL ANALYSIS 14.1 EIN BLICK IN DIE PRODUKTBESCHREIBUNG

Mehr

Forschungsmethodik II Mag.rer.nat. M. Kickmeier-Rust Karl-Franzens-Universität Graz. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser

Forschungsmethodik II Mag.rer.nat. M. Kickmeier-Rust Karl-Franzens-Universität Graz. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser Kolmogorov-Smirnov-Test Forschungsmethodik II Mag.rer.nat. M. Kickmeier-Rust Karl-Franzens-Universität Graz 1 Kolmogorov- Smirnov Test Andrei Nikolajewitsch Kolmogorov * 25.4.1903-20.10.1987 2 Kolmogorov-

Mehr

Analytische Statistik II

Analytische Statistik II Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Das Testen von Hypothesen Während die deskriptive Statistik die Stichproben nur mit Hilfe quantitativer Angaben charakterisiert,

Mehr

5.7 Chi-Quadrat Tests für diskrete Daten

5.7 Chi-Quadrat Tests für diskrete Daten 5.7 Chi-Quadrat Tests für diskrete Daten Gegeben seien Zähldaten wie X i = Anzahl Fälle in der Klasse i. Wie testen wir, ob diese Daten mit einem Modell konsistent sein? 5.7.1 Beispiele (1) Ist die Anzahl

Mehr

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 Wahrscheinlichkeit und Sprache Ausgangsfrage: Nächstes Wort vorhersagen. Sprache als Zufallsprozess: Für jede

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird. Stichprobenumfang Für die Fragestellung auf Gleichheit von ein oder zwei Stichproben wird auf Basis von Hypothesentests der notwendige Stichprobenumfang bestimmt. Deshalb werden zunächst die Grundlagen

Mehr

Hypothesentest, ein einfacher Zugang mit Würfeln

Hypothesentest, ein einfacher Zugang mit Würfeln R. Brinkmann http://brinkmann-du.de Seite 4..4 ypothesentest, ein einfacher Zugang mit Würfeln Von einem Laplace- Würfel ist bekannt, dass bei einmaligem Wurf jede einzelne der Zahlen mit der Wahrscheinlichkeit

Mehr

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Text Mining und Textzusammenfassung Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Übersicht 1. Definition 2. Prozessablauf 3. Textzusammenfassung 4. Praxisbeispiel Definition Text Mining is the art

Mehr

Korpuslinguistik. Definitionsversuch. Beispiel: Volk (2006) Was haben wir da gemacht? Prof. Dr. Tibor Kiss WS 2007/08

Korpuslinguistik. Definitionsversuch. Beispiel: Volk (2006) Was haben wir da gemacht? Prof. Dr. Tibor Kiss WS 2007/08 Definitionsversuch Korpuslinguistik Prof. Dr. Tibor Kiss WS 2007/08 Sprachwissenschaftliches Institut The main requirements for Statistical NLP work are computers, corpora, and software. knowledge of some

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Hä?! Ich gebe dir zwei Beispiele, schau einfach mal! Kapitel 5: Berechnen wir die Wahrscheinlichkeit!

Hä?! Ich gebe dir zwei Beispiele, schau einfach mal! Kapitel 5: Berechnen wir die Wahrscheinlichkeit! Jetzt kommen wir zum Hauptgang des heutigen Tages! Endlich, ich hab Hunger! Der Bereich zwischen der Kurve und der x-achse kann als Prozentsatz und Wahrscheinlichkeit betrachtet werden beides! Hä?! o dw

Mehr

THEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN " TORSTEN SCHOLZ

THEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN  TORSTEN SCHOLZ W THEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN " TORSTEN SCHOLZ HERZLICH WILLKOMMEN BEI W Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Training Dr. Torsten Scholz

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert 0. Das eigentliche Forschungsziel ist: Beweis der eigenen Hypothese H 1 Dafür muss Nullhypothese H 0 falsifiziert werden können Achtung!

Mehr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p

Mehr

Angewandte Statistik 3. Semester

Angewandte Statistik 3. Semester Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/

Mehr

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,

Mehr

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2013 Aufgabe 1 In einer Urne

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

VO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft , Informations- und Wissensmanagement Zentrum für Translationswissenschaft Grundlagen und Definitionen Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache.

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Schwierigkeitsbestimmung von C-Test-Lücken. Lisa Beinborn Assozierte Doktorandin UKP-DIPF UKP Lab, TU Darmstadt 09 July 2013

Schwierigkeitsbestimmung von C-Test-Lücken. Lisa Beinborn Assozierte Doktorandin UKP-DIPF UKP Lab, TU Darmstadt 09 July 2013 Schwierigkeitsbestimmung von C-Test-Lücken Lisa Beinborn Assozierte Doktorandin UKP-DIPF UKP Lab, TU Darmstadt 09 July 2013 Virtualisierung vereinfacht individuelle Förderung Anpassung von Lernmaterialien

Mehr

Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen)

Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) basierend auf H Schmid snlp 4 KollokaKonen Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) Basierend auf Kap 3 McEnery & Wilson (2001) & H Schmid snlp Vorlesungsskript

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

Kapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests

Kapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests Kapitel 10 Mittelwert-Tests 10.1 Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests 10.1 Einstichproben- Mittelwert-Tests 10.1.1 Einstichproben- Gauß-Test Dichtefunktion der Standard-Normalverteilung

Mehr

Sentiment Analysis. Eine Einführung. Robert Remus 1 rremus@informatik.uni-leipzig.de. Fakultät für Mathematik und Informatik Universität Leipzig

Sentiment Analysis. Eine Einführung. Robert Remus 1 rremus@informatik.uni-leipzig.de. Fakultät für Mathematik und Informatik Universität Leipzig Sentiment Analysis Eine Einführung Robert Remus 1 rremus@informatik.uni-leipzig.de 1 Abteilung Automatische Sprachverarbeitung Fakultät für Mathematik und Informatik Universität Leipzig Seminar Anwendungen

Mehr

10,24 ; 10,18 ; 10,28 ; 10,25 ; 10,31.

10,24 ; 10,18 ; 10,28 ; 10,25 ; 10,31. Bei einer Flaschenabfüllanlage ist die tatsächliche Füllmenge einer Flasche eine normalverteilte Zufallsvariable mit einer Standardabweichung = 3 [ml]. Eine Stichprobe vom Umfang N = 50 ergab den Stichprobenmittelwert

Mehr

Der Zentrale Grenzwertsatz

Der Zentrale Grenzwertsatz QUALITY-APPS Applikationen für das Qualitätsmanagement Der Zentrale Grenzwertsatz Autor: Dr. Konrad Reuter Für ein Folge unabhängiger Zufallsvariablen mit derselben Verteilung und endlichem Erwartungswert

Mehr

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Statistische Auswertung in der Betriebsprüfung

Statistische Auswertung in der Betriebsprüfung Dr. Harald Krehl Der Einsatz verteilungsbezogener Verfahren Der Einsatz verteilungsbezogener Verfahren etwa des Benford- Newcomb Verfahrens oder der Normalverteilung bzw. der LogNormalverteilung in der

Mehr

Statistische Tests für unbekannte Parameter

Statistische Tests für unbekannte Parameter Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung

Mehr

11. Nichtparametrische Tests

11. Nichtparametrische Tests 11. Nichtparametrische Tests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 In Kapitel 8 und 9 haben wir vorausgesetzt, daß die Beobachtungswerte normalverteilt sind. In diesem Fall kann

Mehr

Überblick Hypothesentests bei Binomialverteilungen (Ac)

Überblick Hypothesentests bei Binomialverteilungen (Ac) Überblick Hypothesentests bei Binomialverteilungen (Ac) Beim Testen will man mit einer Stichprobe vom Umfang n eine Hypothese H o (z.b.p o =70%) widerlegen! Man geht dabei aus von einer Binomialverteilung

Mehr

e) Beim klassischen Signifikanztest muß die Verteilung der Prüfgröße unter der Nullhypothese

e) Beim klassischen Signifikanztest muß die Verteilung der Prüfgröße unter der Nullhypothese 9 Hypothesentests 1 Kapitel 9: Hypothesentests A: Übungsaufgaben: [ 1 ] Bei Entscheidungen über das Ablehnen oder Nichtablehnen von Hypothesen kann es zu Irrtümern kommen. Mit α bezeichnet man dabei die

Mehr

Einführung in die Induktive Statistik: Testen von Hypothesen

Einführung in die Induktive Statistik: Testen von Hypothesen Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte

Mehr

Statistik 2 RE Statistik f. Soziologen Klausur MÄRZ 2009 LÖSUNGSVORSCHLAG

Statistik 2 RE Statistik f. Soziologen Klausur MÄRZ 2009 LÖSUNGSVORSCHLAG 1. Familie Feuerstein kauft sich ein neues Auto, vorher aber lassen sie ihr altes verschrotten. Auf dem Weg dorthin werden sie in einer Wohnstrasse, wo nur 30 km/h erlaubt sind, geblitzt. Als sie ihre

Mehr

Inferenzstatistik Vortrag: Alpha und Beta Fehler

Inferenzstatistik Vortrag: Alpha und Beta Fehler Inferenzstatistik Vortrag: Alpha und Beta Fehler Dresden, 18.11.08 01 Fehlerquelle Hypothesen Unbekannte Wirklichkeit H0 ist richtig H0 ist falsch Schlussfolgerung aus dem Test unserer Stichprobe Ho annehmen

Mehr

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die

Mehr

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen - nominal, ordinal, metrisch In SPSS: - Einfache -> Mittelwerte vergleichen -> Einfaktorielle - Mehrfaktorielle -> Allgemeines lineares Modell -> Univariat In SPSS: -> Nichtparametrische Tests -> K unabhängige

Mehr