Künstliche Intelligenz Text Mining
|
|
- Kasimir Giese
- vor 6 Jahren
- Abrufe
Transkript
1 Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
2 Data Mining Sammelbegriff für die Extraktion von Mustern aus strukturiert vorliegenden Daten, bspw. durch Klassifikation Clustering Anwendungsgebiete des Data Minings sind u.a.: Customer Relationship Management Überwachung DNA Analyse
3 Textmining Kombiniert Ansätze aus u.a. Data Mining, maschinellem Lernen, Sprachverarbeitung und Wissensmanagement. Mit [ ] Text Mining werden computergestützte Verfahren für die semantische Analyse von Texten bezeichnet, welche die automatische bzw. semiautomatische Strukturierung von Texten, insbesondere sehr großen Mengen von Texten, unterstützen. (Heyer et al., 2006, S. 3)
4 Text Mining: Anwendungen Filterung und Verteilung von Mails Erstellung firmen- oder fachspezifischer Glossare Automatisches Zusammenfassen von Texten Web Data Mining, bspw. Markt- und Produktanalyse Sentiment Analyse ( Gefühlserkennung )
5 Text Mining: Voraussetzungen geeignete Korpora Heterogen bzgl. Art, Herkunft, oder Thematik der Texte (je nach Anwendungsfall) Vorverarbeitung, bspw. Tokenisierung Stemming
6 Kollokationen
7 Kollokationen A collocation is an expression consisting of two or more words that correspond to some conventional way of saying things. (Manning/Schuetze, S.151) Collocations of a given word are statements of the habitual or customary places of that word (Firth 1957:181) Within the area of corpus linguistics, collocation is defined as a sequence of words or terms which cooccur more often than would be expected by chance. (Wikipedia:Collocation)
8 Kollokationen: Beispiele Eigennamen: Angela Merkel, Universität zu Köln Idiome: ins Gras beißen, vor die Hunde gehen Assoziative Kollokationen (N+N): Haus & Tür, Tatort & Mörder Prädikative Kollokationen (V+N): Medaille gewinnen, Fahrrad fahren Attributive Kollokationen (A+N): schwarzer Tag, harte Drogen
9 Kollokationen: Eigenschaften Kompositionalität Kollokationen sind (eher) nicht kompositionell. schwarzer Tag vs. schwarzer Vogel Substituierbarkeit Bestandteile von Kollokationen lassen sich nicht austauschen. schwarzer Tag vs. gelber Tag Modifizierbarkeit Modifizierung/Ergänzung um weiteres lexikalisches Material ist schwer bzw. unmöglich. schwarzer Tag vs. langweiliger schwarzer Tag
10 Kollokationen: Anwendungsfälle Sprachgenerierung und Parsing (z.b. maschinelle Übersetzung) ins Gras beißen to bite the dust Lexikographie Automatische Identifizierung erwähnenswerter Kollokationen Generierung von Stichwort-Listen
11 Heutiges Beispiel Korpus: ca unstrukturiert vorliegende Zeitungstexte, insgesamt etwa 1,4 Millionen Wörter. Vorverarbeitung: Tokenisierung mit Java's build-in- Werkzeugen (sehr primitiv) Ziele: Extraktion möglicher benachbarter 2-Wort- Kollokationen (Bigramme) Möglichst gute Bewertung der Kollokationen Zuweisen der Kollokationen zu den einzelnen Dokumenten.
12 Vorgehensweise Wie ließe sich eine einfache Suche nach Kollokationen implementieren?
13 Vorgehensweise Wie ließe sich eine einfache Suche nach Kollokationen implementieren? 1. Erstellen einer Liste aller Bigramme: Hans Müller liest Zeitung. Hans Müller schläft wird zu [Hans, Müller] [Müller, liest] [liest, Zeitung] [Zeitung, Hans] [Hans, Müller] [Müller, schläft] 2. Sortieren der Liste nach Häufigkeit Beispiel 1
14 Ergebnis Die ermittelten Kollokationen sind leider etwas inhaltsleer... Spontane Lösungsvorschläge? [in der] 3996 [in den] 2165 [für die] 2146 [und die] 1319 [mit dem] 1306 [auf die] 1252 [an der] 1201 [in die] 1192 [mit der] 1171 [von der] 1146 [bei der] 999 [über die] 972 [sich die] 964 [aus dem] 914 [dass die] 901 [auf den] 857
15 1. Verbesserung Wie vorher, aber unter Verwendung einer Liste, die unerwünschte Wörter enthält ( Stopword-Liste ). Beispiel 2
16 Ergebnis Deutlich besser, aber... Manchmal sind Stoppwörter relevant ( auf Schalke ) Stoppwörter sind sprachoder domänenspezifisch Die Ergebnisse könnten grundsätzlich noch besser sein [Millionen Mark] 381 [vergangenen Jahr] 296 [Milliarden Euro] 258 [Millionen DM] 247 [Milliarden DM] 223 [New York] 201 [Millionen Euro] 178 [Milliarden Dollar] 122 [Millionen Dollar] 111 [Milliarden Mark] 109 [Gerhard Schröder] 108 [vergangenen Jahres] 107 [FC Bayern] 95 [Foto dpa] 94
17 Häufigkeit Mittelwert - Abweichung Sinnvoller als eine reine Häufigkeitsanalyse wäre es, nur die Bigramme zu berücksichtigen, die auffällig häufig vorkommen. Was aber ist auffällig häufig, und was ist unauffällig häufig?
18 Testverfahren für Hypothesen Hypothesentest zur Ermittlung der Nichtzufälligkeit: 1) Aufstellen einer Nullhypothese (H0) 2) Postulieren des Signifikanzniveaus 3) Ermitteln der Wahrscheinlichkeit, dass H0 zutrifft. 4) Bestätigen/Verwerfen von H0 H0 in unserem Fall: Es besteht keine Abhängigkeit zwischen den Wortauftritten (Unabhängigkeitsannahme) P(w 1 w 2 )= P(w 1 )P(w 2 )
19 T-Test Maß für den Unterschied zwischen beobachteten und vorhergesagten Werten H0: Sample stammt aus einer Grundgesamtheit mit Normalverteilung und Mittelwert μ: Je höher der Wert für t, desto unwahrscheinlicher ist H0.
20 T-Test : Ermittelte Vorkommen eines Bigrams Erwartete Vorkommen eines Bigrams σ: Standardabweichung Ν: Anzahl aller Bigramme
21 T-Test: Vereinfachung Die Standardabweichung ist unbekannt, kann aber durch s 2 = (1- ) ersetzt werden. s 2 = (1- ) Beispiel 3
22 Chi-Square-Test (χ2) Idee: Vergleich von beobachteten Vorkommen mit beobachteten Nicht-Vorkommen. Sollte eine große Abweichung auftreten, handelt es sich um eine Kollokation.
23 Chi-Square-Test (χ2): Beispiel Jede Hypothese (wie bspw. new Companies ) lässt sich zu anderen Hypothesen in Bezug setzen. w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines)
24 Chi-Square-Test (χ2): Beispiel Jede Hypothese (wie bspw. new Companies ) lässt sich zu anderen Hypothesen in Bezug setzen. w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines) Die Werte der einzelnen Zellen lassen sich einfach berechnen: C(new) = , C(companies) = 4.675, C(new companies) = 8, Anzahl der Tokens = C(? companies) = C(companies) C(new companies) =
25 Chi-Square-Test (χ2): Formel O: Beobachteter Wert E: Erwarteter Wert (Nullhypothese) Wie wird E berechnet?, 2 =, ij (O ij - E ij ) 2 E ij
26 Chi-Square-Test (χ2): Formel O: Beobachteter Wert E: Erwarteter Wert (Nullhypothese) Wie wird E berechnet? 2 = ij (O ij - E ij ) 2 E ij w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines) E 11 = O 11 + O 12 * O 11 + O 21 * N = ca. 5.2 N N
27 Chi-Square-Test (χ2): Formel Für 2x2-Tabellen etwas einfacher : 2 = N(O 11 * O 22 - O 12 * O 21 ) 2 (O 11 + O 12 )*(O 11 + O 21 )*(O 12 + O 22 )*(O 21 + O 22 ) w1 = new w2 = companies 8 (new companies) w2!= companies (z.b. new machines) w1!= new 4667 (z.b. old companies) (z.b. old machines) Beispiel
Anpassungstests VORGEHENSWEISE
Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel
MehrText-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrZweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz
Grundlage: Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz Die Testvariable T = X µ 0 S/ n genügt der t-verteilung mit n 1 Freiheitsgraden. Auf der Basis
MehrJost Reinecke. 7. Juni 2005
Universität Bielefeld 7. Juni 2005 Testtheorie Test für unabhängige Stichproben Test für abhängige Stichproben Testtheorie Die Testtheorie beinhaltet eine Reihe von Testverfahren, die sich mit der Überprüfung
MehrVektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
MehrChi-Quadrat Verfahren
Chi-Quadrat Verfahren Chi-Quadrat Verfahren werden bei nominalskalierten Daten verwendet. Die einzige Information, die wir bei Nominalskalenniveau zur Verfügung haben, sind Häufigkeiten. Die Quintessenz
MehrOpinion Mining Herausforderungen und Anwendung in der Politik
Opinion Mining Herausforderungen und Anwendung in der Politik 28.09.2011 Umut Yilmaz Inhaltsübersicht 1. Einführung 2. Grundlagen 3. Anwendung in der Politik 4. Anwendungsbeispiel 5. Fazit 2 1. Einführung
MehrStatistik II: Signifikanztests /1
Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test
MehrPrüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).
Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Aus praktischen Gründen
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
MehrÜbungen mit dem Applet Vergleich von zwei Mittelwerten
Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung
MehrHypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren
Hypothesenprüfung Teil der Inferenzstatistik Befaßt sich mit der Frage, wie Hypothesen über eine (in der Regel unbekannte) Grundgesamtheit an einer Stichprobe überprüft werden können Behandelt werden drei
MehrWiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)
Statistik I Sommersemester 2009 Statistik I I (1/36) Wiederholung Grenzwertsatz Konfidenzintervalle Logik des 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Statistik I I (2/36) Zum Nachlesen Agresti/Finlay: Kapitel 6+7
MehrTHEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ
WEBINAR@LUNCHTIME THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ EINLEITENDES BEISPIEL SAT: Standardisierter Test, der von Studienplatzbewerbern an amerikanischen Unis gefordert
MehrHypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests
ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen
MehrWissenschaftliche Nachrichten: https://www.bmbf.gv.at/schulen/sb/wina/wina.html Vol. 131/2006, 19-21
Der T-Test in Excel NORBERT BRUNNER und MANFRED KÜHLEITNER Ein häufiges Problem ist der Vergleich eines beobachteten Stichprobenmittelwerts mit einem Sollwert. Dabei wird der T-Test angewandt. Wir zeigen
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
Mehr10. Die Normalverteilungsannahme
10. Die Normalverteilungsannahme Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Bisher haben wir vorausgesetzt, daß die Beobachtungswerte normalverteilt sind. In diesem Fall kann man
MehrUnterschiedshypothesen Vergleiche von Häufigkeiten bzw. Mittelwerten zwischen (mindestens) zwei Gruppen Zusammenhangshypothesen Korrelationsanalysen
Statistische Überprüfung von Hypothesen Hypothesen sind allgemeine Aussagen über Zusammenhänge zwischen empirischen und logischen Sachverhalten.Allgemein bezeichnet man diejenigen Aussagen als Hypothesen,
MehrDialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy
Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus
MehrDipl.-Volksw. Markus Pullen Wintersemester 2012/13
Statistische Auswertungen mit R Universität Kassel, FB 07 Wirtschaftswissenschaften Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Beispiele 8. Sitzung Konfidenzintervalle, Hypothesentests > # Anwendungsbeispiel
MehrTesten von Hypothesen:
Testen von Hypothesen: Ein Beispiel: Eine Firma produziert Reifen. In der Entwicklungsabteilung wurde ein neues Modell entwickelt, das wesentlich ruhiger läuft. Vor der Markteinführung muss aber auch noch
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, June 11, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrMathematische und statistische Methoden II
Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte
MehrKapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen Induktive Statistik Prof. Dr. W.-D. Heller
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen
Mehr1 Dichte- und Verteilungsfunktion
Tutorium Yannick Schrör Klausurvorbereitungsaufgaben Statistik Lösungen Yannick.Schroer@rub.de 9.2.26 ID /455 Dichte- und Verteilungsfunktion Ein tüchtiger Professor lässt jährlich 2 Bücher drucken. Die
Mehr8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrGrundlagen der Statistik
Grundlagen der Statistik Übung 15 009 FernUniversität in Hagen Alle Rechte vorbehalten Fachbereich Wirtschaftswissenschaft Übersicht über die mit den Übungsaufgaben geprüften Lehrzielgruppen Lehrzielgruppe
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrStatistik II für Betriebswirte Vorlesung 1
Statistik II für Betriebswirte Vorlesung 1 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 19. Oktober 2016 Prof. Dr. Hans-Jörg Starkloff Statistik II für Betriebswirte Vorlesung
Mehr3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft
3. Das Prüfen von Hypothesen Hypothese?! Stichprobe 3.1. Signifikanztests in der Wirtschaft Prüfung, ob eine (theoretische) Hypothese über die Verteilung eines Merkmals X und ihre Parameter mit einer (empirischen)
MehrInhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden
Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse
MehrBayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008
Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation
MehrGrenzen für x -s-regelkarten
Normalverteilte Fertigung: Stichproben aus der Fertigung: σ σ Eine normalverteilte Fertigung hat den Mittelwert µ und die Standardabweichung σ. Stichproben aus der Fertigung haben zufällig abweichende
MehrBeispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es
Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es beim radioaktiven Zerfall, zwischen 100 und 110 Zerfälle
MehrSchließende Statistik
Schließende Statistik Die schließende Statistik befasst sich mit dem Rückschluss von einer Stichprobe auf die Grundgesamtheit (Population). Die Stichprobe muss repräsentativ für die Grundgesamtheit sein.
MehrHypothesentests mit SPSS. Beispiel für einen t-test
Beispiel für einen t-test Daten: museum-f-v04.sav Hypothese: Als Gründe, in ein Museum zu gehen, geben mehr Frauen als Männer die Erweiterung der Bildung für Kinder an. Dies hängt mit der Geschlechtsrolle
MehrLösungen zu den Übungsaufgaben in Kapitel 10
Lösungen zu den Übungsaufgaben in Kapitel 10 (1) In einer Stichprobe mit n = 10 Personen werden für X folgende Werte beobachtet: {9; 96; 96; 106; 11; 114; 114; 118; 13; 14}. Sie gehen davon aus, dass Mittelwert
Mehr2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:
2.4.1 Grundprinzipien statistischer Hypothesentests Hypothese: Behauptung einer Tatsache, deren Überprüfung noch aussteht (Leutner in: Endruweit, Trommsdorff: Wörterbuch der Soziologie, 1989). Statistischer
MehrEntscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten
Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 4.1 4. Statistische Entscheidungsverfahren Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Beispiel:
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.
MehrAllgemeines zu Tests. Statistische Hypothesentests
Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrBrückenkurs Statistik für Wirtschaftswissenschaften
Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München
MehrProf. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006
Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Hypothesentesten, Fehlerarten und Güte 2 Literatur Kreyszig: Statistische Methoden und ihre Anwendungen, 7.
MehrINFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße
DAS THEMA: INFERENZSTATISTIK III INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße Inferenzstatistik für Lagemaße Standardfehler
MehrTest auf Varianzgleichheit (F-Test) (einseitiger Test!!)
T-Tests in Excel T-Tests in Excel Test auf Varianzgleichheit (F-Test) (einseitiger Test!!)! Annahmen:! Unabhängige Stichproben! Normalverteilte Grundgesamtheiten H0 : σx = σ y; H0 : σx > σ y Sx σ x F =
MehrR. Brinkmann Seite
R. Brinkmann http://brinkmann-du.de Seite 1 24.2.214 Grundlagen zum Hypothesentest Einführung: Wer Entscheidungen zu treffen hat, weiß oft erst im nachhinein ob seine Entscheidung richtig war. Die Unsicherheit
MehrKapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung Induktive Statistik Prof. Dr. W.-D.
MehrANalysis Of VAriance (ANOVA) 2/2
ANalysis Of VAriance (ANOVA) 2/2 Markus Kalisch 22.10.2014 1 Wdh: ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor X). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich
MehrChi Quadrat-Unabhängigkeitstest
Fragestellung 1: Untersuchung mit Hilfe des Chi-Quadrat-Unabhängigkeitstestes, ob zwischen dem Herkunftsland der Befragten und der Bewertung des Kontaktes zu den Nachbarn aus einem Anderen Herkunftsland
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Kurze Zusammenfassung der letzten Vorlesung Schätzung und Modellentwicklung Überblick Statistische Signifikanztests
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 19. Januar 2011 1 Nichtparametrische Tests Ordinalskalierte Daten 2 Test für ein Merkmal mit nur zwei Ausprägungen
Mehr1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...
Inhaltsverzeichnis 0 Einführung 1 1 Zufallsvorgänge und Wahrscheinlichkeiten 5 1.1 Zufallsvorgänge.......................... 5 1.1.1 Ergebnismengen..................... 6 1.1.2 Ereignisse und ihre Verknüpfung............
MehrSAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH
SAS CONTEXTUAL ANALYSIS IN ACTION ERFAHRUNGEN AUS EINEM EIN SELBSTVERSUCH GERHARD SVOLBA COMPETENCE CENTER ANALYTICS WIEN, 17. NOVEMBER 2015 SAS CONTEXTUAL ANALYSIS 14.1 EIN BLICK IN DIE PRODUKTBESCHREIBUNG
MehrForschungsmethodik II Mag.rer.nat. M. Kickmeier-Rust Karl-Franzens-Universität Graz. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser
Kolmogorov-Smirnov-Test Forschungsmethodik II Mag.rer.nat. M. Kickmeier-Rust Karl-Franzens-Universität Graz 1 Kolmogorov- Smirnov Test Andrei Nikolajewitsch Kolmogorov * 25.4.1903-20.10.1987 2 Kolmogorov-
MehrAnalytische Statistik II
Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Das Testen von Hypothesen Während die deskriptive Statistik die Stichproben nur mit Hilfe quantitativer Angaben charakterisiert,
Mehr5.7 Chi-Quadrat Tests für diskrete Daten
5.7 Chi-Quadrat Tests für diskrete Daten Gegeben seien Zähldaten wie X i = Anzahl Fälle in der Klasse i. Wie testen wir, ob diese Daten mit einem Modell konsistent sein? 5.7.1 Beispiele (1) Ist die Anzahl
Mehrn-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014
n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 Wahrscheinlichkeit und Sprache Ausgangsfrage: Nächstes Wort vorhersagen. Sprache als Zufallsprozess: Für jede
MehrWeb Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion
Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische
MehrAussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.
Stichprobenumfang Für die Fragestellung auf Gleichheit von ein oder zwei Stichproben wird auf Basis von Hypothesentests der notwendige Stichprobenumfang bestimmt. Deshalb werden zunächst die Grundlagen
MehrHypothesentest, ein einfacher Zugang mit Würfeln
R. Brinkmann http://brinkmann-du.de Seite 4..4 ypothesentest, ein einfacher Zugang mit Würfeln Von einem Laplace- Würfel ist bekannt, dass bei einmaligem Wurf jede einzelne der Zahlen mit der Wahrscheinlichkeit
MehrText Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer
Text Mining und Textzusammenfassung Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer Übersicht 1. Definition 2. Prozessablauf 3. Textzusammenfassung 4. Praxisbeispiel Definition Text Mining is the art
MehrKorpuslinguistik. Definitionsversuch. Beispiel: Volk (2006) Was haben wir da gemacht? Prof. Dr. Tibor Kiss WS 2007/08
Definitionsversuch Korpuslinguistik Prof. Dr. Tibor Kiss WS 2007/08 Sprachwissenschaftliches Institut The main requirements for Statistical NLP work are computers, corpora, and software. knowledge of some
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrHä?! Ich gebe dir zwei Beispiele, schau einfach mal! Kapitel 5: Berechnen wir die Wahrscheinlichkeit!
Jetzt kommen wir zum Hauptgang des heutigen Tages! Endlich, ich hab Hunger! Der Bereich zwischen der Kurve und der x-achse kann als Prozentsatz und Wahrscheinlichkeit betrachtet werden beides! Hä?! o dw
MehrTHEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN " TORSTEN SCHOLZ
W THEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN " TORSTEN SCHOLZ HERZLICH WILLKOMMEN BEI W Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Training Dr. Torsten Scholz
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrKATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert
KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert 0. Das eigentliche Forschungsziel ist: Beweis der eigenen Hypothese H 1 Dafür muss Nullhypothese H 0 falsifiziert werden können Achtung!
Mehrk np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr
Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p
MehrAngewandte Statistik 3. Semester
Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen
MehrEine Einführung in R: Statistische Tests
Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/
MehrStatistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe
Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,
MehrKlausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1
Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2013 Aufgabe 1 In einer Urne
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrVO 340088 Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft
, Informations- und Wissensmanagement Zentrum für Translationswissenschaft Grundlagen und Definitionen Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache.
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrSchwierigkeitsbestimmung von C-Test-Lücken. Lisa Beinborn Assozierte Doktorandin UKP-DIPF UKP Lab, TU Darmstadt 09 July 2013
Schwierigkeitsbestimmung von C-Test-Lücken Lisa Beinborn Assozierte Doktorandin UKP-DIPF UKP Lab, TU Darmstadt 09 July 2013 Virtualisierung vereinfacht individuelle Förderung Anpassung von Lernmaterialien
MehrMaschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen)
basierend auf H Schmid snlp 4 KollokaKonen Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) Basierend auf Kap 3 McEnery & Wilson (2001) & H Schmid snlp Vorlesungsskript
MehrWahrscheinlichkeitstheorie und Statistik vom
INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen
MehrKapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests
Kapitel 10 Mittelwert-Tests 10.1 Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests 10.1 Einstichproben- Mittelwert-Tests 10.1.1 Einstichproben- Gauß-Test Dichtefunktion der Standard-Normalverteilung
MehrSentiment Analysis. Eine Einführung. Robert Remus 1 rremus@informatik.uni-leipzig.de. Fakultät für Mathematik und Informatik Universität Leipzig
Sentiment Analysis Eine Einführung Robert Remus 1 rremus@informatik.uni-leipzig.de 1 Abteilung Automatische Sprachverarbeitung Fakultät für Mathematik und Informatik Universität Leipzig Seminar Anwendungen
Mehr10,24 ; 10,18 ; 10,28 ; 10,25 ; 10,31.
Bei einer Flaschenabfüllanlage ist die tatsächliche Füllmenge einer Flasche eine normalverteilte Zufallsvariable mit einer Standardabweichung = 3 [ml]. Eine Stichprobe vom Umfang N = 50 ergab den Stichprobenmittelwert
MehrDer Zentrale Grenzwertsatz
QUALITY-APPS Applikationen für das Qualitätsmanagement Der Zentrale Grenzwertsatz Autor: Dr. Konrad Reuter Für ein Folge unabhängiger Zufallsvariablen mit derselben Verteilung und endlichem Erwartungswert
MehrBachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.
München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrStatistische Auswertung in der Betriebsprüfung
Dr. Harald Krehl Der Einsatz verteilungsbezogener Verfahren Der Einsatz verteilungsbezogener Verfahren etwa des Benford- Newcomb Verfahrens oder der Normalverteilung bzw. der LogNormalverteilung in der
MehrStatistische Tests für unbekannte Parameter
Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung
Mehr11. Nichtparametrische Tests
11. Nichtparametrische Tests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 In Kapitel 8 und 9 haben wir vorausgesetzt, daß die Beobachtungswerte normalverteilt sind. In diesem Fall kann
MehrÜberblick Hypothesentests bei Binomialverteilungen (Ac)
Überblick Hypothesentests bei Binomialverteilungen (Ac) Beim Testen will man mit einer Stichprobe vom Umfang n eine Hypothese H o (z.b.p o =70%) widerlegen! Man geht dabei aus von einer Binomialverteilung
Mehre) Beim klassischen Signifikanztest muß die Verteilung der Prüfgröße unter der Nullhypothese
9 Hypothesentests 1 Kapitel 9: Hypothesentests A: Übungsaufgaben: [ 1 ] Bei Entscheidungen über das Ablehnen oder Nichtablehnen von Hypothesen kann es zu Irrtümern kommen. Mit α bezeichnet man dabei die
MehrEinführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
MehrStatistik 2 RE Statistik f. Soziologen Klausur MÄRZ 2009 LÖSUNGSVORSCHLAG
1. Familie Feuerstein kauft sich ein neues Auto, vorher aber lassen sie ihr altes verschrotten. Auf dem Weg dorthin werden sie in einer Wohnstrasse, wo nur 30 km/h erlaubt sind, geblitzt. Als sie ihre
MehrInferenzstatistik Vortrag: Alpha und Beta Fehler
Inferenzstatistik Vortrag: Alpha und Beta Fehler Dresden, 18.11.08 01 Fehlerquelle Hypothesen Unbekannte Wirklichkeit H0 ist richtig H0 ist falsch Schlussfolgerung aus dem Test unserer Stichprobe Ho annehmen
MehrKurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl
Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die
MehrZusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen
- nominal, ordinal, metrisch In SPSS: - Einfache -> Mittelwerte vergleichen -> Einfaktorielle - Mehrfaktorielle -> Allgemeines lineares Modell -> Univariat In SPSS: -> Nichtparametrische Tests -> K unabhängige
Mehr