5. Statistische Assoziationspaare / Kollokationen (weitgehend nach

Größe: px
Ab Seite anzeigen:

Download "5. Statistische Assoziationspaare / Kollokationen (weitgehend nach"

Transkript

1 03. JULI 006: BLATT 9 5. Statistische Assoziationsaare / Kollokationen (eitgehend nach Manning/Schütze, Terminologie Im olgenden Kaitel verenden ir olgende Begrie: Wortaar Ein Wortaar ist ein Paar aus zei Wörtern bz. Wortormen. Bigramm Ein Bigramm ist ein Wortaar aus zei im Text direkt aueinanderolgenden Wörtern oder Wortormen. Assoziationsaar Ein Assoziationsaar ist ein Paar aus zei Wörtern bz. Wortormen, die statistisch assoziiert sind. Weiter unten erden ir verschiedene Maße kennen lernen, um die Assoziiertheit zu berechnen. Fenster Im Zusammenhang mit der Extraktion von Wortaaren aus Korora verstehe ich unter einem Fenster den Bereich, innerhalb dessen zei Wörter als Wortaar angesehen erden. Im Falle der Extraktion von Bigrammen hat das Fenster die Größe zei - d.h. es erden stets nur Wörter betrachtet, die direkt aueinander olgen. Komositionalität Semantische Eigenschat eines Syntagmas: die Bedeutung des gesamten Ausdrucks ergibt sich systematisch aus der Bedeutung der Komonenten. So ist ein kranker Raucher ein Raucher der krank ist, ein starker Raucher aber ist nicht ein Raucher der stark ist - sondern ein Raucher der sehr viel raucht; d.h. der Ausdruck starker Raucher ist nicht voll komositionell; das Nomen Raucher behält aber seinen Bedeutung, eshalb ir hier von einem semikomositionellen Ausdruck srechen. Der Ausdruck rotes Tuch in der nicht-örtlichen Bedeutung ist nicht komositionell, da es sich dabei eder um ein Tuch, noch um einen roten Gegenstand handelt. Kollokationen Semikomositionelle Ausdrücke ie starker Raucher und Stützverbkonstruktionen ie Kritik üben erden als Kollokationen bezeichnet; dabei ird der semantisch nicht verschobene Begri als Kollokant htt://.cis.uni-muenchen.de/kurse/stean/statistik_so06

2 03. Juli 006: Blatt 30 (Raucher; Kritik der semantisch reduzierte Ausdruck als Kollokat bezeichnet. Der Begri der Kollokation hat allerdings unterschiedlichste Deinitionen und ird teileise in der Literatur auch ür Assoziationsaare allgemein verendet. 5.. Übersicht Statistische Assoziationsaare sind Paare von Wörtern oder Wortormen, die häuig gemeinsam autreten. Die linguistischen Phänomene, die sich in Assoziationsaaren niederschlagen, sind in olgender Tabelle augelistet: Phänomen Wortarten (V: Verb, N: Nomen, A: Adjektiv, Ad: Adverb Selektionsräerenzen in reien Syntagmen Verb-Argument VN Attribute in NPn AN Semikomositionelle Bildungen (Kollokationen im linguistischen Sinn: Stützverbkonstruktionen VN Funktionsverbgeüge VN semantisch reduzierte Attribute AN in NPn Adverbiale Idiome (nicht-komositionell Beisiel aschen Wäsche schöner Auslug üben Kritik in Gang bringen starker Raucher kli und klar verbal NPn adverbial satzertig (Srichörter VN, AN... AN, NN AA, AdAd, AN... Alle lesen Leviten; Ko verdrehen rotes Tuch, Hinz Kunz Jacke ie Hose Morgenstund Gold Mund Tabelle : Linguistische Phänomene, die Assoziationsaaren zugrunde liegen Zur Bestimmung von Assoziationsaaren erden Textkorora statistisch ausgeertet. Dabei sind olgende Parameter relevant: Srechstunde nach Vereinbarung

3 03. JULI 006: BLATT 3 Fensterty und -größe: Assoziationsaare erden innerhalb eines Fensters im Korus ermittelt. Das Fenster hängt ab von der verügbaren Inormation (z.b.: ist das Korus gearst? sind Satzgrenzen markiert? und vom Ty von Assoziationsaaren, die extrahiert erden sollen. Ein Fenster kann z.b. sein: o Satz, Teilsatz oder andere Syntagmen (z.b. NP, Verbalhrase; o N Wörter nach links bz. rechts (z.b. Wort nach links zur Ermittlung von Adjektiv-Nomen-Paaren oder 0 Wörter nach links und rechts ür Ermittlung von Verb-Nomen-Paaren. Was ird ermittelt? Statistische Assoziation zischen Grundormen oder Vollormen o Für die Ermittlung von Assoziationsaaren von Vollormen ist keine Lemmatisierung notendig und es können olglich keine Fehler in der Grundormenreduzierung unterlauen; allerdings ist die benötigte Datenmenge höher. o Die Grundormenreduzierung ist vor allem ür Lexeme mit zahlreichen verschiedenen Wortormen (v.a. Verben, Adjektive sinnvoll, da damit verschiedene Formen der selben Konstruktion au eine Grundorm abgebildet erden und die Chance erhöhen, dass auch ür seltenere Assoziationsaare genug Daten geunden erden. Zur Lemmatisierung ist ein Vollormenlexikon oder ein Modul zur morhologischen Analyse erorderlich. Korusgröße (in Wörtern, bz. Zahl aller extrahieren Bigramme Häuigkeit jeder Wortorm im Text bz. in der Wortaarliste (bz. bei Ermittlung von Grundormen: Häuigkeit jeder Grundorm. Häuigkeit jedes Wortaares im Text bz. in der Wortaarliste (Wortaare können sein: Wortaare von Wortormen oder Grundormen. Die meisten statistischen Tests können mit diesen Parametern durchgeührt erden; ür einige komlexere Tests kann noch die Varianz und die Verteilung der Wortormen/Lemmata im Korus eine Rolle sielen. Hier die Tabelle mit einigen gängigen statistischen Werten. Dabei ist: i die Häuigkeit der Wortorm oder des Lemmas i in der Wortaarliste i;j ist die Häuigkeit des Wortaars i, j N die Zahl aller Wortaare htt://.cis.uni-muenchen.de/kurse/stean/statistik_so06

4 03. Juli 006: Blatt 3 Statistischer Wert Formel relative (i;j /N Wortaarrequenz Mutual Inormation Allgemein Im Fall von Wortaaren I( A ; A ( A A = log ( A * ( A (, * N I ( ; = log ( * ( Anmerkung Je häuiger die Einzelörter, desto eher ist auch dieser Wert hoch. Ergibt zu hohe Werte ür Wortaare aus häuigen Wörter, auch enn sie überhaut nicht assoziiert sind Problematisch ür seltene Wortaare (hier ist der MI- Wert zu hoch; Wortaare mit Frequenz3 sollten daher herausgeiltert erden t-test Allgemein t = x i; j m s i; N i; j j Herleitung s..u. Im Fall von Wortaaren Chi-Quadrat-Test t = i; j χ = ( O i * N i; j + O j N *( O * O OO ( O + O ( O + O ( O + O Log-Likelihood Tabelle Assoziationsmaße 5.3. Der T-test Der T-Wert (T-Score ist ein Maß ür die Signiikanz einer Abeichung eines Werts vom Erartungsert. Im Falle von Assoziationsaaren in einem Korus misst er die Signiikanz der Abeichung der tatsächlichen Häuigkeit des Wortaars von der Häuigkeit, die zu erarten äre, enn die beiden Wörter zuällig über das Korus verteilt ären. Die olgende Formel ist die allgemeine Form ür den T-Test. Srechstunde nach Vereinbarung

5 03. JULI 006: BLATT 33 X ist der Mittelert der Stichrobe m ist der Mittelert der Reerenzstichrobe s ist die Varianz - um den t-test anenden zu können, sollte die Varianz in der Stichrobe und der Reerenzstichrobe in eta gleich sein. N ist die Größe der Stichrobe. t = x i; j m s i; N i; j j Der t-wert muss dann anhand einer Tabelle interretiert erden. Bei einer hohen Zahl N kann olgende Tabelle benutzt erden. Wahrscheinlichkeit, dass die Abeichung l zuällig zustande kommt T-Test Wert Tabelle 3 : T-Test-Tabelle 5.3. Beisiel - Wortlänge Nehmen ir an, die durchschnittliche Wortlänge in einem großen Korus (0 Mio. Wörter mit Texten aller Art sind 5 Buchstaben. Wir haben nun einen kleinen linguistischen Fachtext aus dem Korus vor uns. Dieser Text enthält 00 Wörter und die durchschnittliche Wortlänge ist 7 Buchstaben, die Varianz der Wortlänge in diesem Text ist 4,0. Unsere Hyothese ist nun olgende: diese Abeichung ist nicht zuällig - linguistische Texte (oder dieser Text hat eine größere durchschnittliche Wortlänge und die geundene Abeichung ist tatsächlich signiikant. Die Gegenhyothese: der Mittelert eicht hier nur zuällig ab, und die Abeichung ist im Rahmen des Normalen bei solch einer Stichrobe. Versuchen ir nun diese Formel ür unsere Zecke zu verenden: X ist der Mittelert im linguistischen Text, also 7 m ist der angenommene Mittelert ür die Gegenhyothese, also 5 s ist 4,0 N ist die Größe der Stichrobe, also 00 Dann ist der T-Wert (7-5/Wurzel(4/00 = / (/5 = 0. htt://.cis.uni-muenchen.de/kurse/stean/statistik_so06

6 03. Juli 006: Blatt 34 Das heißt nun, die Wahrscheinlichkeit, dass diese Abeichung zuällig ist, ist esentlich kleiner als 0,00 (eniger Promille Übertragung au Assoziationsaare Wie enden ir nun den T-Test au Assoziationsaare an? Nehmen ir an, ir haben aus einem Korus Million Wortaare der Form extrahiert. Wir interessieren uns nun ür das Wortaar i j Die Häuigkeit (i ist 00 Die Häuigkeit (j ist 00 Die Häuigkeit (i;j ist 0. N = Million Unsere Hyothese: das Wortaar i,j hat eine Häuigkeit, die signiikant höher ist, als der Erartungsert, alls alle Wörter zuällig über das Korus verteilt ären. Statistische Vorannahmen Die durchgeührte Zählung ist ein Bernoulli-Exeriment (ein Exeriment mit den Ausgängen 0 oder. steht ür: ein Wortaar ist das untersuchte Wortaar i,j 0 steht ür: ein Wortaar ist nicht das gesuchte Wortaar. Was ist nun der Mittelert ür die tatsächliche Verteilung, also x? Dieser ist ( i, j (Häuigkeit des Wortaars geteilt durch die Menge der Wortaare N. ( i, j / N = 0/ Million = / (Dieser Wert ist also einach die relative Häuigkeit h(i,j; bz. die Wahrscheinlichkeit, dass ein zuällig herausgegrienes Wortaar genau das untersuchte Wortaar ist Was äre nun der Mittelert bei einer zuälligen Verteilung? Ganz einach. Wenn Wort i 00 mal im Korus vorkommt, und j ebenalls, dann ist die Wahrscheinlichkeit, bz. h( jeeils / Die Wahrscheinlichkeit, dass ein Wortaar aus, besteht ist also /0 000 * /0 000, das ist /00 Millionen. Die erartete Häuigkeit in allen Bigrammen ( Million äre also /00 - der erartete Mittelert somit / 00 Millionen. Was ist nun die Varianz der Stichrobe? Die Varianz ist bekanntlich die Summe der Quadrate aller Abeichungen vom Mittelert / Stichrobengröße, in unserem Fall: Srechstunde nach Vereinbarung

7 03. JULI 006: BLATT 35 * (- h t = + ( * h N steht hier ür ( i, j ; h steht hier ür die h( i, j Warum? Der Mittelert ist h (Zahl der Treer geteilt durch N Die Abeichung vom Mittelert ür alle Werte (Bigramm tritt au ist also -h, im Quadrat (- h. Diese Abeichung tritt mal au. Die Abeigung vom Mittelert ür alle Werte 0 ist h, im Quadrat h. Diese Abeichung tritt N- mal au. Setzt man /N = h lässt sich die Formel umormen: h-h +h 3 + (h /N Bei sehr kleinen h ist h, h 3 und h /N in dieser Formel vernachlässigbar klein, und der Wert kann mit h aroximiert erden - diesen Wert setzen ir als Varianz ein. Damit kommen ir au die olgende Formel: t = h ; h * h i j h i; j N i j Im Ergebnis gibt dies ür unsere Beisielzahlen oben ca 3,6 - ir können also (s.tabelle 3 recht sicher sein, hier ein signiikantes Paar, srich ein Assoziationsaar, vor uns zu haben Mutual Inormation Mutual Inormation ist ein Maß ür die Assoziation zeier Zuallsvariablen aus der Inormationstheorie. Die hier vorgestellte Formel berechnet allerdings nur die unkteise Mutual Inormation (ointise mutual inormation ür einen bestimmten Wert einer Zuallsvariablen, d.h. ür zei Elementarereignisse. Die Formel ür die MI von zei Ereignissen A und A ist die olgende: ( A A I( A ; A = log ( A * ( A D.h. Die Mutual Inormation errechnet sich aus zei Wahrscheinlichkeiten: a der tatsächlichen Wahrscheinlichkeit dass beide Ereignisse gemeinsam autreten. b aus der Wahrscheinlichkeit, die ein gemeinsames Autreten hätte, gegeben, die beiden Ereignisse sind unabhängig. Der Logarithmus dient htt://.cis.uni-muenchen.de/kurse/stean/statistik_so06

8 03. Juli 006: Blatt 36 dazu, die Werte, die zischen 0 und unendlich liegen, mit dem neutralen Punkt bei, au eine Skala abzubilden, die ihren neutralen Punkt bei 0 hat, und au der ositive Werte Assoziiertheit bedeuten. Die MI ist das einachste und au Anhieb einsichtigste Maß zur Errechnung von Assoziationsaaren. Zur Errechnung von Assoziationsaaren nehmen ir olgendes an: Es handelt sich um ein Bernouilli-Exeriment (s.o. ( = h(; d.h. die Wahrscheinlichkeit eines Wortes ist gleich der relativen Häuigkeit (, = h(,. Die entsrechenden Werte müssen dann nur noch in die obige Formel eingesetzt erden. Die MI bringt als Assoziationsmaß die Schierigkeit mit sich, dass sie die Signiikanz nicht berücksichtigt. Dies ist v.a. ür Bigramme mit niedriger Häuigkeit (insbesondere Häuigkeit roblematisch Chi-Quadrat-Test Der Chi-Quadrat-Test ist ein Hyothesentest, der sich besonders gut dazu eignet, erartete Häuigkeiten mit tatsächlich beobachteten Häuigkeiten zu vergleichen. Er berechnet die Signiikanz der Abeichung einer Menge von Zuallsvariablen von einem hyothetisch angenommenen Wert. In unserem Fall sind ie bei den bisher genannten Tests - die tatsächlichen Häuigkeiten die Wortaarhäuigkeiten im Korus, ährend die hyothetischen Häuigkeiten die Bigrammrequenzen sind, die anzunehmen ären unter der Bedingung, dass die Verteilung der Wörter im Korus zuällig ist. Die Werte zur Durchührung des Chi-Quadrat-Tests sind die Häuigkeitsaulistungen in einer Kreuztabelle. Im Falle von Wortaarhäuigkeiten ergibt sich olgende Tabelle mit zei Zeilen und zei Salten der Frequenzen aller möglicher Kombinationen aus zei Wörtern und : ~ ~ ~ ~ ~~ Tabelle 4 Kreuztabelle der tatsächlichen Frequenzen ür eine gegebene Wortkombination Es ist deutlich, dass die hier verendeten Werte sich aus den bisher verendeten Frequenzen von Einzelörtern und Wortaaren im t-test und der Mutual Inormation ableiten lassen, enn man berücksichtigt, dass die Summe der ersten Salte die Frequenz von, die Summe der ersten Zeile die Srechstunde nach Vereinbarung

9 03. JULI 006: BLATT 37 Frequenz von ist. Damit lassen sich aus, und, soie N (Zahl der Wortaare alle Werte der Tabelle berechnen. Wesentlich bei der Beurteilung der Ergebnisse des X-Quadrat-Tests sind die so genannten Freiheitsgrade, d.h. die Zahl der Parameter die im angenommenen Bezugsrahmen variieren können. Unter der Annahme, dass N, und nicht variieren, ist es in der gegebenen Tabelle nur möglich, einen Parameter zu ändern - die Frequenz alle anderen Frequenzen ergeben sich dann in Abhängigkeit aus diesem Wert und den Rahmenbedingungen, d.h. der Beurteilung des Chi-Quadrat-Test-Werts liegt der Freiheitsgrad zu Grunde. Die Formel ür die Berechnung des Chi-Quadrat-Wertes ist nun sehr einach (vgl. Manning/Schütze 999: 69: χ ( O E ij = ij i, j E ij Hier sind i und j die Indizes ür die Felder in der Tabelle d.h. es ird über alle Felder in der Kreuztabelle ausummiert - in unserem Falle ür die Werte, ~, ~, ~~. Dabei sind die Oij-Werte jeeils die tatsächlich observierten Werte, die Eij-Werte die Erartungserte unter der Prämisse, dass das Vorkommen von und unabhängig ist. Diese Erartungserte lassen sich nun sehr einach berechnen: Fest gegeben sind N, und. Die Wahrscheinlichkeit ür das Autreten von, unter der Prämisse der Unabhängigkeit urde bereits ür die anderen statistischen Werte berechnet und ist E = /N * /N. Daraus ergibt sich ür unser Korus als angenommene durchschnittliche Häuigkeit ür, in einem Korus der Größe N unter der Prämisse der Unabhängigkeit der Wert E, = E * N. Daraus lassen sich nun all anderen Werte der Kreuztabelle ür die Hyothese der Unabhängkeit ableiten: ~ * /N -( * /N ~ -( * /N N--+ ( * /N Tabelle 5 Kreuztabelle der angenommenen Frequenzen ür eine gegebene Wortkombination unter der Prämisse der Unabhängigkeit Da sich die Werte ür die angenommene Unabhängkeit der Ergebnisse aus den tatsächlich vorhandenen Werten berechnen lassen aus dem obigen olgt dass - E, = /N * /N.* N lässt sich nun auch der chi-quadrat-wert aus den gegebenen Werten in der Tabelle berechnen. Durch eine Umormung der oben genannten Formel ür den Chi-Quadrat-Test erhält man: htt://.cis.uni-muenchen.de/kurse/stean/statistik_so06

10 03. Juli 006: Blatt 38 χ = ( O + O N *( O * O OO ( O + O ( O + O ( O + O (vgl. Manning Schütze 999: 70. Mit dem hieraus errechneten Wert muss nun ie beim T-Test augrund einer Tabelle die Signiikanz der Abeichung der tatsächlichen Werte von den Erartungserten ermittelt erden. Um Deutlichkeit zu erlangen, ie sich der errechnete Wert verhält ist es sinnvoll sich einige Extrembeisiele zu betrachten, ür die eine linguistische Intuition besteht. Bei der Mutual Inormation hatten ir bereits gesehen, dass der Wert entgegegen den Erartungen, die ir an einen Assoziationsert zeier Wörter stellen bei gleich bleibender Koruslänge ür ein Wortaar aus zei Wörtern, die nur innerhalb des Wortaars d.h. in keinem anderen Wortaar autritt mit steigender Frequenz des Wortaars tatsächlich sinkt. In der Kreuztabelle sind in diesem Falle zei Werte gleich 0 Wie verhält es sich nun der Chi-Quadrat-Wert in diesem Fall? ~, 0 ~ 0 N-, Tabelle 6 Kreuztabelle der angenommenen Frequenzen ür eine gegebene Wortkombination ür ein Wortaar aus zei Wörtern, die stets gemeinsam autreten Für die Formel ergibt sich damit durch die Einsetzung des Wertes 0 ür die Werte olgende Vereinachung, enn alle Produkte, die Null ergeben, eggelassen erden: N *( O * O χ = ( O ( O ( O ( O Durch Kürzung ergibt sich der Wert N d.h. das Ergebnis des Chi-Quadrat-Test ist in diesem Fall völlig unabhängig von der Häuigkeit der Wörter. Dies ist ür die Extraktion von Assoziationsaaren ebenalls nicht otimal an sich äre es ünschensert, dass häuigere Paare in diesem Fall etas höher geichtet ürden Log-Likelihood Augrund der Unzureichendheiten bei der Berechnung von Assoziiertheit zischen Wörtern über die Mutual Inormation, den T-Test, den Chi-Quadrat-Test, und anderen bis dahin vorgeschlagene Assoziationsmaße schlägt Dunning (993 als Assoziationsmaß die log-likelihood (Log- Wahrscheinlichkeit vor. Der Ausgangsunkt seiner Argumentation ür dieses Assoziationsmaß ist die Tatsache, dass die meisten der anhand von Korora untersuchten Phänomene sich mit seltenen Srechstunde nach Vereinbarung

11 03. JULI 006: BLATT 39 Ereignissen beschätigen, die meisten vorgeschlagenen statistischen Maße sich aber nicht dazu eignen, die Signiikanz seltener Ereignisse korrekt zu erassen, und insbesondere nicht zum Vergleich von seltenen Ereignissen mit häuigeren, as zu einer Überbeertung von Wortaaren mit geringer Frequenz ührt. Dies ist leicht nachvollziehbar, enn man die Erörterung der Extremälle ür die Mutual Inormation und den Chi-Quadrat-Test betrachtet. Hier konnte ja in den vorangehenden Abschnitten bereits gezeigt erden, dass seltene Bigramme tatsächlich einen zu hohen Assoziationsert erhalten. Der Log-Likehood-Wert vergleicht die Wahrscheinlichkeiten zeier Hyothesen. Als Datengrundlage des Log-Likelihood-Tests dienen die olgenden Werte die sich iederum aus der bereits ür den Chi-Quadrat-Test herangezogenen Kreuztabelle ergeben:,: Die Zahl der Wortaare aus Wort und Wort,~: Die Zahl der Wortaare mit Wort ohne Wort o (hieraus: =,~+, N: die Zahl aller Wortaare In unserem Fall beginnen ir mit der olgenden Annahme: die Zahlen in der Kreuztabelle (s.o. beim Chi- Square-Test lassen sich esentlich besser erklären unter der Annahme, dass ( ~ und ( ungleich sind das also die Distribution des Wortes nicht von der Tatsache abhängt, ob es vor autritt oder nicht. Unter der Gegenannahme äre ( ~ = ( d.h. die beiden Wahrscheinlichkeiten ären gleich. Formalisieren ir die beiden Hyothesen: Hyothese : Die Frequenzen der Wortaare der Art, und,~ im Korus ergeben sich aus der bedingten Wahrscheinlichkeit des Wortes ( und der bedingten Wahrscheinlichkeit ( ~, obei beide Wahrscheinlichkeiten unterschiedlich sind. Hyothese 0: Die Frequenz der Wortaare ergibt sich aus der allgemeinen Wahrscheinlichkeit des Autretens (, d.h. ( = ( ~ und damit =(. Die Wahrscheinlichkeiten ür die tatsächlich beobachteten Frequenzen,: und ~, lasen sich nun au der Basis der olgenden Formel ür die Wahrscheinlichkeit von Binomialverteilungen ür Bernoulli-Exerimente errechnen: Zur Erinnerung: Die Binomialahrscheinlichkeit ist die Wahrscheinlichkeit, dass ein bestimmtes Ereignis in einer Kette von Bernoulli-Versuchen also von Zuallsexeriment mit zei möglichen Ergebnissen bei n Versuchen k- htt://.cis.uni-muenchen.de/kurse/stean/statistik_so06

12 03. Juli 006: Blatt 40 Srechstunde nach Vereinbarung k n k k n n k P = (, ; ( Hier ist: k :Zahl der Treer, in unserem Fall, Zahl der Autreten von (in einem Fall mit bz. ohne n : Zahl der Versuche, in unserem Fall, Zahl der Wortaare mit bz. ohne : Wahrscheinlichkeit ür das Autreten eines Treers, in unserem Falle das Autreten von. Die Wahrscheinlichkeit, dass genau (, mal vor dem Wort autritt ist dann, unter Verendung der bedingten Wahrscheinlichkeit ür, zu errechnen als P(,,,. Die Wahrscheinlichkeit, dass das genau,~ mal in anderen Kontexten autritt ist: P(,~, ~, ~. Die Wahrscheinlichkeit, dass beide Werte gemeinsam autreten ist das Produkt beider Wahrscheinlichkeiten. Der analoge Wert ird nun berechnet unter der Annahme, dass und ~ = sind, d.h. ir berechnen das Produkt, obei ir als Wahrscheinlichkeit die Wahrscheinlichkeit des Wortes setzen: P(,,,.* P(,~, ~,. unter Hyothese ist die Wahrscheinlichkeit ür die beobachteten Frequenzen ür gegeben bz. nicht gegeben : P((,,, * P((,~,(~,. unter Hyothese 0 ist die Wahrscheinlichkeit ür die beobachteten Frequenzen ür mit bz. ohne : P((,,,.* P((,~,(~, Der maximale Wert beider Wahrscheinlichkeiten soll nun verglichen erden. Dazu erden die beiden Werte in einem Bruch zueinander in Relation gesetzt dies ist der Likelihood-Bruch: =,~ ~,~,,,~ ~,~,, ~ ( * ( max ( * ( max,~ ~, ~ ~,~ ~,, λ Nun lässt sich zeigen, dass die maximalen Wahrscheinlichkeiten sich setzen lassen als die tatsächlich beobachteten Wahrscheinlichkeiten (d.h. relativen Häuigkeiten im gegebenen Korus. Das heißt, die mal autritt. In unserem Fall ird die Wahrscheinlichkeit berechnet, dass ein Wort in n Bigrammen k-mal zu inden ist, und dies unter verschiedenen Parameterannahmen ür (der Wahrscheinlichkeit ür ein Einzelereignis.

13 03. JULI 006: BLATT 4 höchste Wahrscheinlichkeit ür die gegebene Verteilung ird dann erzielt, enn man die tatsächliche Wahrscheinlichkeit bz. die relative Häuigkeit im Korus anschaut. Das heißt: Die maximal bedingte Wahrscheinlichkeit unter den Daten im gegebenen Korus - genauer: die Wahrscheinlichkeit des Autretens von vor errechnet sich olgendermaßen: ( =, / (. Die maximale bedingte Wahrscheinlichkeit ~, genauer: die bedingte Wahrscheinlichkeit des Autretens von vor allen anderen Wörtern als. Sie ist ( ~ =,~/N, Die maximale bedingte Wahrscheinlichkeit von ist die Wahrscheinlichkeit im Korus an sich, dh. h Diese beiden Wahrscheinlichkeiten erden nun über den Likelihood-Bruch in Relation zueinander gesetzt ir lassen einach das "max" eg, und nehmen ür die bisher hyothetischen Wahrscheinlichkeiten die tatsächlichen Wahrscheinlichkeiten an. Da die N über X Ausdrücke oben ie unten gleich sind, lässt sich dieser Bruch erreulichereise olgendermaßen kürzen: λ =,, ( (,, * *, ~, ~ ~ ( ( ~, ~ ~ ~, ~ Nun haben ir den Wert des Wahrscheinlichkeitsbruchesberechnet, der iedergibt, ie viel ahrscheinlicher die NULL-Hyothese als unsere Annahme ist. Tatsächlich ist allerdings der Wert -log interessant, da dieser sich in der Chi-Quadrat-Tabelle nachschlagen lässt, um die Wahrscheinlichkeit der Zuälligkeit der Abeichung nachzurüen. Will man diesen Wert berechnen, ird der Bruch durch die Logarithmierung zur Dierenz, ir erhalten dann:,,,~ ~,~ log λ = log( *( + log( *( ~ ~,,,~ ~,~ (log *( log( *( Anzumerken zu diesem Maß:. die Werte ür seltene Wortaare sind eniger stark geichtet. Häuige Wortaare erden damit stärker geichtet.. Nur ür Wortaare mit einer Häuigkeit 5 ührt dies zu einer entscheidenden Herunterstuung des Werts gegenüber anderen Assoziationsmaßen htt://.cis.uni-muenchen.de/kurse/stean/statistik_so06

14 03. Juli 006: Blatt 4 3. der Wert ird ebenalls hoch ür statistische disassoziierte Wortaare d.h. Wortaare aus Wörtern, die mit hoher Signiikanz nicht gemeinsam autreten. Diese müssen mit Hile eines Wertes, der Abeichung nach oben von Abeichung nach untern unterscheidet, aussortiert erden 4. denselben Eekt ie durch die Berechnung dieses statistisch etas auendigen Wertes kann man durch eine ad-hoc Reduzierung des Assoziationserts seltener Bigramme ür einache Assoziationsmaße erreichen 5.7. Weitere Assoziationsmaße Es gibt noch einige eitere Assoziationsmaße - ür eine Übersicht s. Manning-Schütze, Kaitel 5. Srechstunde nach Vereinbarung

1 Extraktion von Verb-Nomen-Konstruktionen aus Korpora

1 Extraktion von Verb-Nomen-Konstruktionen aus Korpora 1 Extraktion von Verb-Nomen-Konstruktionen aus Korora 1.1 Statistische Wortassoziationen in Textkorora Au Firth (1957) geht die bereits in Kaitel zei zitierte Aussage zurück, dass Eigenschaten eines Wortes

Mehr

5. AUSSAGENLOGIK: SEMANTIK

5. AUSSAGENLOGIK: SEMANTIK 5. AUSSAGENLOGIK: SEMANTIK 5.1 Charakteristische Wahrheitstaeln 5.2 Wahrheitsertzuordnung I 5.3 Die Konstruktion von Wahrheitstaeln 5.4 Wahrheit und Falschheit unter einer Wahrheitsertzuordnung 5.5 Wahrheitsbedingungen

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Thema: Leistung und Höchstgeschwindigkeit, short-cut Methode

Thema: Leistung und Höchstgeschwindigkeit, short-cut Methode achbeitrag ür.motor-talk.de von Jürgen Tiegs Thema: Leistung und Höchstgeschindigkeit, short-cut Methode Wie viel Leistung muss mein ahrzeug haben um eine Geschindigkeit von xy Km/h zu erreichen? Mein

Mehr

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt. Bivariate Analyse: Tabellarische Darstellung: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt. Beispiel: Häufigkeitsverteilung

Mehr

1. Ziehg.: N M. falls nicht-rote K. in 1. Ziehg. gezogen

1. Ziehg.: N M. falls nicht-rote K. in 1. Ziehg. gezogen 6.4 Hyergeometrische Verteilung Gegeben ist eine Urne, die mit N Kugeln gefüllt ist. Es seien M dieser Kugeln rot und N-M Kugeln nicht rot. Wir entnehmen n Kugeln, d.h. eine Stichrobe des Umfangs n. Dabei

Mehr

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO Bivariater Zusammenhang in der Mehrfeldertafel PEΣO 9. November 2001 Bivariate Häufigkeitsverteilungen in Mehrfeldertabellen In der Mehrfeldertabelle werden im Gegensatz zur Vierfeldertabelle keine dichotomen

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 11. November 2010 1 Erwartungswert und Varianz Erwartungswert Varianz und Streuung Rechenregeln Binomialverteilung

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 4B a.) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Mit "Deskriptive Statistiken", "Kreuztabellen " wird die Dialogbox "Kreuztabellen" geöffnet. POL wird in das Eingabefeld von

Mehr

Statistik I für Betriebswirte Vorlesung 14

Statistik I für Betriebswirte Vorlesung 14 Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli

Mehr

Leiten Sie die Kleinstquadrateschätzer für und β im einfachen linearen Modell aus dem

Leiten Sie die Kleinstquadrateschätzer für und β im einfachen linearen Modell aus dem Lehrstuhl ür Statistik und emp. Wirtschatsorschung, Pro. R. T. Riphahn, Ph.D. Bachelorprüung Praxis der Empirischen Wirtschatsorschung im SS 008 Augabe : [8 Punkte] Leiten Sie die Kleinstquadrateschätzer

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit 3 Bedingte Wahrscheinlichkeit, Unabhängigkeit Bisher : (Ω, A, P) zur Beschreibung eines Zufallsexperiments Jetzt : Zusatzinformation über den Ausgang des Experiments, etwa (das Ereignis) B ist eingetreten.

Mehr

4 Logik 4.1 Aussagenlogik

4 Logik 4.1 Aussagenlogik 4 Logik 4.1 Aussagenlogik Mod - 4.1 Kalkül zum logischen Schließen. Grundlagen: Aristoteles 384-322 v. Chr. Aussagen: Sätze, die prinzipiell als ahr oder alsch angesehen erden können. z. B.: Es regnet.,

Mehr

Unabhängigkeit KAPITEL 4

Unabhängigkeit KAPITEL 4 KAPITEL 4 Unabhängigkeit 4.1. Unabhängigkeit von Ereignissen Wir stellen uns vor, dass zwei Personen jeweils eine Münze werfen. In vielen Fällen kann man annehmen, dass die eine Münze die andere nicht

Mehr

7.5 Erwartungswert, Varianz

7.5 Erwartungswert, Varianz 7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k

Mehr

1 Dichte- und Verteilungsfunktion

1 Dichte- und Verteilungsfunktion Tutorium Yannick Schrör Klausurvorbereitungsaufgaben Statistik Lösungen Yannick.Schroer@rub.de 9.2.26 ID /455 Dichte- und Verteilungsfunktion Ein tüchtiger Professor lässt jährlich 2 Bücher drucken. Die

Mehr

Quantiative Methoden B Chi 2 -Verfahren 1. Einleitung

Quantiative Methoden B Chi 2 -Verfahren 1. Einleitung Quantiative Methoden B Chi -Verahren 1 Einleitung Chi -Verahren (χ ) (Bortz Kapitel.3.) sind eine übergeordnete Bezeichnung ür alle diejenigen Verahren, die als statistische Kennwerte Häuigkeiten zur Grundlagen

Mehr

Chi-Quadrat Verfahren

Chi-Quadrat Verfahren Chi-Quadrat Verfahren Chi-Quadrat Verfahren werden bei nominalskalierten Daten verwendet. Die einzige Information, die wir bei Nominalskalenniveau zur Verfügung haben, sind Häufigkeiten. Die Quintessenz

Mehr

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister Quantitative Auswertung II Korpuslinguistik Heike Zinsmeister 16.12.2011 Unterschiedstest Fall 1: unabhängige Stichproben Daten eine unabhängige Variable auf Nominal- oder Kategorialniveau eine abhängige

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p

Mehr

Kapitel XI - Operationscharakteristik und Gütefunktion

Kapitel XI - Operationscharakteristik und Gütefunktion Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XI - Operationscharakteristik und Gütefunktion Induktive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo

Mehr

Chi Quadrat-Unabhängigkeitstest

Chi Quadrat-Unabhängigkeitstest Fragestellung 1: Untersuchung mit Hilfe des Chi-Quadrat-Unabhängigkeitstestes, ob zwischen dem Herkunftsland der Befragten und der Bewertung des Kontaktes zu den Nachbarn aus einem Anderen Herkunftsland

Mehr

Doppelwurf mit idealen Würfeln. Beobachtet wird, ob die Augensumme eine Primzahl ist. (Die Reihenfolge interessiert uns nicht.)

Doppelwurf mit idealen Würfeln. Beobachtet wird, ob die Augensumme eine Primzahl ist. (Die Reihenfolge interessiert uns nicht.) Lösungen zu den Aufgaben Teil 3 Doppelurf mit idealen Würfeln. Beobachtet ird, ob die Augensumme eine Primzahl ist. (Die Reihenfolge interessiert uns nicht.) Hier gibt es mehrere passende Augenkombinationen:

Mehr

Ein- und Zweistichprobentests

Ein- und Zweistichprobentests (c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Ein- Zweistichprobentests Worum geht es in diesem Modul? Wiederholung: allgemeines Ablaufschema eines Tests Allgemeine Voraussetzungen

Mehr

Grundlagen der Programmierung

Grundlagen der Programmierung GdP2 Slide 1 Grundlagen der Programmierung Vorlesung 2 Sebastian Ianoski FH Wedel GdP2 Slide 2 Beispiel ür eine Programmveriikation Gegeben sei olgender Algorithmus: i (x>0) ((y+x) 0) then z := x y else

Mehr

Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26)

Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26) Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26 Ein Wahrscheinlichkeitsraum (Ω, P ist eine Menge Ω (Menge aller möglichen Ausgänge eines Zufallsexperiments: Ergebnismenge versehen mit einer Abbildung

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Was sind Zusammenhangsmaße?

Was sind Zusammenhangsmaße? Was sind Zusammenhangsmaße? Zusammenhangsmaße beschreiben einen Zusammenhang zwischen zwei Variablen Beispiele für Zusammenhänge: Arbeiter wählen häufiger die SPD als andere Gruppen Hochgebildete vertreten

Mehr

Beweis: Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass

Beweis: Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass Beweis: Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass f Z (z) = Pr[Z = z] = x W X Pr[X + Y = z X = x] Pr[X = x] = x W X Pr[Y = z x] Pr[X = x] = x W X f X (x) f Y (z x). Den Ausdruck

Mehr

Abb lokales Maximum und Minimum

Abb lokales Maximum und Minimum .13 Lokale Extrema, Monotonie und Konvexität Wir kommen nun zu den ersten Anwendungen der Dierentialrechnung. Zwischen den Eigenschaten einer Funktion, dem Verlau des zugehörigen Graphen und den Ableitungen

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen

3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen 3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 14. Mai 2008 1 Kollokationen

Mehr

Grundlagen der Theoretischen Informatik

Grundlagen der Theoretischen Informatik FH Wedel Pro. Dr. Sebastian Ianoski GTI21 Folie 1 Grundlagen der Theoretischen Inormatik Sebastian Ianoski FH Wedel Kap. 2: Logik, Teil 2.1: Aussagenlogik FH Wedel Pro. Dr. Sebastian Ianoski GTI21 Folie

Mehr

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3. 2 Wahrscheinlichkeitstheorie Beispiel. Wie wahrscheinlich ist es, eine Zwei oder eine Drei gewürfelt zu haben, wenn wir schon wissen, dass wir eine ungerade Zahl gewürfelt haben? Dann ist Ereignis A das

Mehr

Berechnung des LOG-RANK-Tests bei Überlebenskurven

Berechnung des LOG-RANK-Tests bei Überlebenskurven Statistik 1 Berechnung des LOG-RANK-Tests bei Überlebenskurven Hans-Dieter Spies inventiv Health Germany GmbH Brandenburger Weg 3 60437 Frankfurt hd.spies@t-online.de Zusammenfassung Mit Hilfe von Überlebenskurven

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen Noémie Becker & Dirk Metzler http://evol.bio.lmu.de/_statgen 7. Juni 2013 1 Binomialverteilung 2 Normalverteilung 3 T-Verteilung

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Klausur zu Physik1 für B_WIng(v201)

Klausur zu Physik1 für B_WIng(v201) M. Anders Wedel, den 13.08.07 Klausur zu Physik1 ür B_WIng(v201) Klausurdatum: 16.2.07, 14:00, Bearbeitungszeit: 90 Minuten Achtung! Es ird nur geertet, as Sie au diesen Blättern oder angeheteten Leerseiten

Mehr

Modell der Bevölkerungsvorausberechnungen

Modell der Bevölkerungsvorausberechnungen Statistisches undesamt Modell der evölkerunsvorausberechnunen 200 Erschienen am 22.07.20 überarbeitet am 24.07.204 Stand: 200 Fachliche Inormationen zu dieser Veröentlichun können Sie direkt beim Statistischen

Mehr

Vertiefung des Funktionsbegriffs. 1. Grundlagen Erläutern Sie folgende Fachbegriffe und Gleichungen:

Vertiefung des Funktionsbegriffs. 1. Grundlagen Erläutern Sie folgende Fachbegriffe und Gleichungen: Vertieung des s Lösungen 1. Grundlagen Erläutern Sie olgende Fachbegrie und Gleichungen: a) Variable: Platzhalter ür eine unbekannte Zahl b) Parameter: ein veränderliches Element ( beliebig, aber est )

Mehr

Mann-Whitney-U-Test für zwei unabhängige Stichproben

Mann-Whitney-U-Test für zwei unabhängige Stichproben Mann-Whitney-U-Test für zwei unabhängige Stichproben Wir haben bis jetzt einen einzigen Test für unabhängige Stichproben kennen gelernt, nämlich den T-Test. Wie wir bereits wissen, sind an die Berechnung

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. TU München, Fakultät für Inforatik Lehrstuhl III: Datenbanksystee Prof. Alfons Keper, Ph.D. Blatt Nr. 11 Übung zur Vorlesung Grundlagen: Datenbanken i WS15/16 Harald Lang, Linnea Passing (gdb@in.tu.de)

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Noémie Becker & Dirk Metzler 31. Mai 2016 Inhaltsverzeichnis 1 Binomialverteilung 1 2 Normalverteilung 2 3 T-Verteilung

Mehr

Diskrete Verteilungen

Diskrete Verteilungen KAPITEL 6 Disrete Verteilungen Nun werden wir verschiedene Beispiele von disreten Zufallsvariablen betrachten. 1. Gleichverteilung Definition 6.1. Eine Zufallsvariable X : Ω R heißt gleichverteilt (oder

Mehr

GRUNDLAGEN DER ANALYSIS, TOPOLOGIE UND GEOMETRIE (WWU 2016) 45

GRUNDLAGEN DER ANALYSIS, TOPOLOGIE UND GEOMETRIE (WWU 2016) 45 GRUNDLAGEN DER ANALSIS, TOPOLOGIE UND GEOMETRIE (WWU 2016) 45 16. ÜBERLAGERUNGEN UND HOCHHEBUNGSSÄTZE Überlagerungen sind ein mächtiges Werkzeug zur Berechnung von Fundamentalgruen. In den olgenden ca.

Mehr

Klausur zu Physik1 für B_WIng(v201)

Klausur zu Physik1 für B_WIng(v201) M. Anders Wedel, den 02.09.09 Klausur zu Physik1 ür B_WIng(v201) Klausurdatum: 28.8.09, 15:00, Bearbeitungszeit: 90 Minuten Achtung! Es ird nur geertet, as Sie au diesen Blättern oder angeheteten Leerseiten

Mehr

2.1 Beschreibung von Mengen 2.2 Formale Logik 2.3 Beziehungen zwischen Mengen 2.4 Mengenoperationen

2.1 Beschreibung von Mengen 2.2 Formale Logik 2.3 Beziehungen zwischen Mengen 2.4 Mengenoperationen 2. Mengen 2.1 Beschreibung von Mengen 2.2 Formale Logik 2.3 Beziehungen zischen Mengen 2.4 Mengenoperationen 2. Mengen GM 2-1 Wozu Mengen? In der Mathematik Au dem Mengenbegri kann man die gesamte Mathematik

Mehr

Aufgaben zu Kapitel 9

Aufgaben zu Kapitel 9 Aufgaben zu Kapitel 9 Aufgabe 1 Für diese Aufgabe benötigen Sie den Datensatz Nominaldaten.sav. a) Sie arbeiten für eine Marktforschungsfirma und sollen überprüfen, ob die in diesem Datensatz untersuchte

Mehr

Einführung in die Wahrscheinlichkeitsrechnung

Einführung in die Wahrscheinlichkeitsrechnung Einführung in die Wahrscheinlichkeitsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Wahrscheinlichkeitsrechnung

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Rasch, Friese, Hofmann & Naumann (006). Quantitative Methoden. Band (. Auflage). Heidelberg: Springer. Kapitel 5: Einfaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung

Mehr

3. Prozesse mit kontinuierlicher Zeit

3. Prozesse mit kontinuierlicher Zeit 3. Prozesse mit kontinuierlicher Zeit 3.1 Einführung Wir betrachten nun Markov-Ketten (X(t)) t R +. 0 Wie beim Übergang von der geometrischen zur Exponentialverteilung können wir uns auch hier einen Grenzprozess

Mehr

Bivariate Zusammenhänge

Bivariate Zusammenhänge Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

VU mathematische methoden in der ökologie: räumliche verteilungsmuster 1/5 h.lettner /

VU mathematische methoden in der ökologie: räumliche verteilungsmuster 1/5 h.lettner / VU mathematische methoden in der ökologie: räumliche verteilungsmuster / h.lettner / Analyse räumlicher Muster und Verteilungen Die Analyse räumlicher Verteilungen ist ein zentrales Gebiet der ökologischen

Mehr

Zufallsvariablen [random variable]

Zufallsvariablen [random variable] Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden

Mehr

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen. Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.

Mehr

Vorkurs Mathematik. Ein kompakter Leitfaden. Bearbeitet von Joachim Erven, Matthias Erven, Josef Hörwick

Vorkurs Mathematik. Ein kompakter Leitfaden. Bearbeitet von Joachim Erven, Matthias Erven, Josef Hörwick Vorkurs Mathematik Ein kompakter Leitaden Bearbeitet von Joachim Erven, Matthias Erven, Jose Hörick 4., korr. u. er. Aul. 2003. Taschenbuch. IX, 260 S. Paperback ISBN 978 3 486 58986 3 Format (B x L):

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

ÜBUNG ZUM GRUNDKURS LOGIK WS 2015/16 GÜNTHER EDER

ÜBUNG ZUM GRUNDKURS LOGIK WS 2015/16 GÜNTHER EDER ÜBUNG ZUM GRUNDKURS LOGIK WS 2015/16 GÜNTHER EDER SPARSAMKEIT BEI DER WAHL DER JUNKTOREN Wie sich mit Wahrheitstaeln zeigen lässt, benötigen wir nicht gar nicht alle Junktoren die oiziell in unserer Sprache

Mehr

Satz 18 (Satz von der totalen Wahrscheinlichkeit)

Satz 18 (Satz von der totalen Wahrscheinlichkeit) Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigen wir: Satz 18 (Satz von der totalen Wahrscheinlichkeit) Die Ereignisse A 1,..., A n seien paarweise disjunkt und es gelte

Mehr

Probleme bei kleinen Stichprobenumfängen und t-verteilung

Probleme bei kleinen Stichprobenumfängen und t-verteilung Probleme bei kleinen Stichprobenumfängen und t-verteilung Fassen wir zusammen: Wir sind bisher von der Frage ausgegangen, mit welcher Wahrscheinlichkeit der Mittelwert einer empirischen Stichprobe vom

Mehr

Statistiktraining im Qualitätsmanagement

Statistiktraining im Qualitätsmanagement Gerhard Linß Statistiktraining im Qualitätsmanagement ISBN-0: -446-75- ISBN-: 978--446-75-4 Leserobe Weitere Informationen oder Bestellungen unter htt://www.hanser.de/978--446-75-4 sowie im Buchhandel

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

DWT 334/460 csusanne Albers

DWT 334/460 csusanne Albers Die Wahrscheinlichkeit fur den Fehler 1. Art wird mit bezeichnet, und man spricht deshalb gelegentlich vom -Fehler. heit auch Signikanzniveau des Tests. In der Praxis ist es ublich, sich ein Signikanzniveau

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 5. Übungsblatt Aufgabe 1: Covering-Algorithmus und Coverage-Space Visualisieren Sie den Ablauf des Covering-Algorithmus

Mehr

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 / Aufgabenblock 3 Aufgabe ) A sei das Ereignis: schwerer Verkehrsunfall B sei das Ereignis: Alkohol ist im Spiel Herr Walker betrachtet die Wahrscheinlichkeit P(B A) = 0.3 und errechnet daraus P(-B A) =

Mehr

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97. Aufgabenblock 4 Aufgabe ) Da s = 8. cm nur eine Schätzung für die Streuung der Population ist, müssen wir den geschätzten Standardfehler verwenden. Dieser berechnet sich als n s s 8. ˆ = = =.88. ( n )

Mehr

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003 Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003. Eine seltene Krankheit trete mit Wahrscheinlichkeit : 0000 auf. Die bedingte Wahrscheinlichkeit, dass ein bei einem Erkrankten durchgeführter

Mehr

Skizze zur Veranschaulichung der Legendretransformation

Skizze zur Veranschaulichung der Legendretransformation 9 Die thermodynamischen Funktionen G und H Ehe das Schema des vorherigen Abschnittes zur Konstruktion weiterer thermodynamischer Potentiale zu Ende gebracht wird, kurz einige Erläuterungen zur Legendretransformation.

Mehr

1 Zahlentheorie. 1.1 Kongruenzen

1 Zahlentheorie. 1.1 Kongruenzen 3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern

Mehr

Skript und Begleitmaterial. Statistische Methoden in der Sprachverarbeitung

Skript und Begleitmaterial. Statistische Methoden in der Sprachverarbeitung Skript und Begleitmaterial Statistische Methoden in der Sprachverarbeitung Sommer 006 Clemens Marschner Stefan Langer Fast Search&Transfer Email: auf Anfrage Vorbemerkung Dieses Skript entstand vom Sommersemester

Mehr

Basiswissen Daten und Zufall Seite 1 von 8 1 Zufallsexperiment Ein Zufallsexperiment ist ein Versuchsaufbau mit zufälligem Ausgang, d. h. das Ergebnis kann nicht vorhergesagt werden. 2 Ergebnis (auch Ausgang)

Mehr

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A Prüfung aus Statistik 1 für SoziologInnen- Gruppe A 26. Juni 2012 Gesamtpunktezahl =80 Prüfungsdauer: 2 Stunden 1) Wissenstest (maximal 20 Punkte) Lösungen Kreuzen ( ) Sie die jeweils richtige Antwort

Mehr

Anpassungstests VORGEHENSWEISE

Anpassungstests VORGEHENSWEISE Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei

Mehr

Hausaufgabe 7 Abgabe am oder am in der Übung

Hausaufgabe 7 Abgabe am oder am in der Übung Stochasti, Sommersemester 04 Hausaufgabe 7 Abgabe am 6.5. oder am.5. in der Übung Prof. Dr. I. Veselić Dr. M. Tautenhahn, Dr. C. Schumacher Aufgabe. Sei a (0, /). Die Wahrscheinlicheit p, dass eine Familie

Mehr

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate

Mehr

Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen)

Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) basierend auf H Schmid snlp 4 KollokaKonen Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) Basierend auf Kap 3 McEnery & Wilson (2001) & H Schmid snlp Vorlesungsskript

Mehr

1 Die vier Sätze von LIOUVILLE

1 Die vier Sätze von LIOUVILLE Vortrag zum Seminar Elliptische Funktionen und elliptische Kurven, 3.06.005 Marcel Carduck Es sei stets Ω ein Gitter in C und (ω 1, ω ) eine Basis von Ω. Weiter bezeichne P := (u; ω 1, ω ) := {u + λ 1

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Timo Alt 1. DRK-Blutspendedienst Rheinland-Pfalz und Saarland gemeinnützige Gesellschaft mit beschränkter Haftung

Timo Alt 1. DRK-Blutspendedienst Rheinland-Pfalz und Saarland gemeinnützige Gesellschaft mit beschränkter Haftung Statistisches Verfahren zur Prozessüberwachung gemäß Kapitel 3 der Hämotherapierichtlinien für nicht bestrahlte leukozytenreduzierte Erythrozytenkonzentrate, hergestellt im DRK Blutspendedienst West Timo

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Statistische Tests für unbekannte Parameter

Statistische Tests für unbekannte Parameter Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung

Mehr

Einfache Varianzanalyse für unabhängige Stichproben

Einfache Varianzanalyse für unabhängige Stichproben Einfache Varianzanalyse für unabhängige Stichproben VARIANZANALYSE Die Varianzanalyse ist das dem t-test entsprechende Mittel zum Vergleich mehrerer (k 2) Stichprobenmittelwerte. Sie wird hier mit VA abgekürzt,

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Zufallsvariable Erinnerung: Merkmal, Merkmalsausprägung Deskriptive Statistik:

Mehr

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist. .3. Stochastik Grundlagen Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist. Die RELATIVE HÄUFIGKEIT einer Merkmalsausprägung gibt an mit welchem Anteil

Mehr

falls rote Kugel im 1. Zug gezogen Die Ziehungen sind daher nicht unabhängig voneinander. Damit liegt kein Bernoulli-Prozess

falls rote Kugel im 1. Zug gezogen Die Ziehungen sind daher nicht unabhängig voneinander. Damit liegt kein Bernoulli-Prozess 6.4 Hypergeometrische Verteilung Gegeben ist eine Urne, die mit N Kugeln gefüllt ist. Es seien M dieser Kugeln rot und N-M Kugeln sind nicht rot. Wir entnehmen n Kugeln, d.h. Stichproben vom Umfang n.

Mehr

GEOMETRISCHE OPTIK VORBEREITUNG

GEOMETRISCHE OPTIK VORBEREITUNG Mtknr.: 5380 GEOMETRISCHE OPTIK VORBEREITUNG 0. Vorbemerkungen. S.. Brennweitenbestimmung.. Brennweite mit Lineal.. S.3/4. Besselverahren. S.4/5.3 Abbéverahren.. S.5/6. Aubau optischer Instrumente.. Keplersches

Mehr

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit 121 Zwei kategoriale Merkmale Homogenität Unabhängigkeit 122 Beispiel Gründe für die Beliebtheit bei Klassenkameraden 478 neun- bis zwölfjährige Schulkinder in Michigan, USA Grund für Beliebtheit weiblich

Mehr

2 Aufgaben aus [Teschl, Band 2]

2 Aufgaben aus [Teschl, Band 2] 20 2 Aufgaben aus [Teschl, Band 2] 2.1 Kap. 25: Beschreibende Statistik 25.3 Übungsaufgabe 25.3 a i. Arithmetisches Mittel: 10.5 ii. Median: 10.4 iii. Quartile: x 0.25 Y 4 10.1, x 0.75 Y 12 11.1 iv. Varianz:

Mehr