Wir werden uns im Folgenden auf die beiden wichtigsten und schwierigsten Gruppen beschränken: die Phraseme und die Kollokationen.

Größe: px
Ab Seite anzeigen:

Download "Wir werden uns im Folgenden auf die beiden wichtigsten und schwierigsten Gruppen beschränken: die Phraseme und die Kollokationen."

Transkript

1 (Wählen Sie nun "Drucken" aus dem Datei-Menü Ihres Browsers;) 10 - Multi-word terms Mehrgliedrige lexikalische Einheiten Zusammenfassung: In dieser Kurseinheit werden wir die Handhabung, d.h. die Erkennung und lexikographische Behandlung von mehrgliedrigen lexikalischen Einheiten darstellen. Wir werden uns nach einer allgemeineren Übersicht auf Kollokationen und Phraseme konzentrieren Übersicht über das Thema und Klassifikation von MLE Allgemeine Übersicht und Klassifikation Einleitung Wir haben bereits in Kapitel 9 von den paradigmatischen und den syntagmatischen Relationen gesprochen, durch welche sich die Bedeutung lexikalischer Zeichen zumindest teilweise bestimmen lässt. Nachdem wir in Kurseinheit 6 - in Zusammenhang mit GermaNet - ausführlich auf die paradigmatischen, nämlich lexikalisch-semantischen und konzeptuellen, Relationen zwischen sprachlichen Zeichen eingegangen sind, wollen wir in dieser Lehreinheit auf einige syntagmatische Relationen zu sprechen kommen. Wenn wir von einem Modell ausgehen, in dem sprachliche Zeichen, allenfalls eingeschränkt durch ihre syntaktische Kombinierbarkeit, frei distribuiert auftreten können, dann beschreiben wir im Folgenden für einzelne sprachliche Zeichen oder auch für Klassen sprachlicher Zeichen typische Distributionsbeschränkungen. Diese sind aber wiederum so idiosynkratisch, dass sie im Lexikon beschrieben werden sollten. Wir knüpfen damit an den letzten Abschnitt der Kurseinheit 9 an, in dem aus der Sicht der lexikalischen Akquisition Selektionsbeschränkungen als eine Form der Distributionsbeschränkung für lexikalische Zeichen beschrieben wurden. Gegenstände dieser Kurseinheit sind die syntakto-semantische Beziehung der Kollokation, die wir zwischen Paaren von lexikalischen Zeichen ansetzen wollen, und die etwas weiter gefasste, vor allem statistisch definierte Beziehung der Kookkurrenz. Wir werden uns außerdem mit Phrasemen befassen, die eine Klasse komplexer Lexeme darstellen. Das Charakteristische an Phrasemen ist, dass sie eine Gesamtbedeutung haben, die aus den Bedeutungen der einzelnen Konstituenten nicht erschließbar ist. Darüber hinaus sind viele Phraseme syntaktisch nicht wohlgeformt Begriffsdefinition(en) Verschiedentlich wurden und werden die hier beschriebenen lexikalischen Kombinationen unter dem Begriff "Mehrwortlexeme" zusammengefasst. Der Begriff "Mehrwortlexem" ist allerdings problematisch. Wenn wir uns an der terminologischen Unterscheidung zwischen Zeichenkette, (Text-)Wort und lexikalische Einheit orientieren, die wir in Kurseinheit 9 eingeführt haben, dann können wir einzelne Bestandteile von Mehrwortlexemen (z.b. unikale Komponenten wie gäbe in gang und gäbe ) nicht als Textwörter bezeichnen, da sie keine eigene Bedeutung tragen (außerhalb dieses komplexen Lexems). Man spricht deshalb besser von mehrgliedrigen lexikalischen Einheiten (MLE). Die Glieder können dabei einmal Morphe sein, wie bei den meisten deutschen Komposita (vgl. Zahn-bürste) oder aber Zeichenketten, wie bei vielen englischen oder spanischen Komposita (vgl. tooth brush, cepillo de dientes). Wenn wir von Zeichenketten reden, ersparen wir uns die auf jeden Fall schwierige Entscheidung, ob diese, wenn sie ein mehrgliedriges Lexem instantiieren, wirklich Wörter in dem von uns bestimmten Sinn sind Klassifikation Wir wollen die Klasse der mehrgliedrigen lexikalischen Einheiten (MLE) weiter untergliedern. Die verschiedenen Arten von MLE werden sowohl in Printwörterbüchern als auch in elektronischen Wörterbüchern unterschiedlich behandelt, wobei sich bei einigen Arten spezifische Unterschiede der Repräsentation in beiden Medien ergeben. Wir unterscheiden also: Phraseme (engl.: idioms). Die Gesamtbedeutung des Zeichens ist nicht aus den Bedeutungen seiner Teile erschließbar. Kollokationen. Die Bedeutung von Kollokationen ist in fast allen Fällen aus den Bedeutungen ihrer Bestandteile erschließbar. Das Besondere und Idiosynkratische dieser Konstruktionen besteht darin, dass meistens zwei lexikalische Zeichen eine Kombination bilden, die andere, theoretisch mögliche Kombinationen zwischen synonymen lexikalischen Zeichen ausschließen oder markiert erscheinen lassen (z.b. deutsch schütteres Haar = englisch thin hair). mehrgliedrige Komposita. Diese findet man im Englischen und in den romanischen Sprachen, selten im Deutschen. Einige Komposita sind transparent, also aus ihren Bestandteilen erschließbar (tooth brush), andere sind dies nicht. Phrasale Verben und Partikelverben. Verben dieser Klasse bestehen aus einem Basisverb und einem Funktionswort oder Adverb (englisch (to) throw up; deutsch aufstoßen). Während diese lexikalischen Zeichen in der deutschen Tradition einelementig repräsentiert werden, werden im Englischen Verb und Partikel beim Ansetzen einer Grundform getrennt. Mehrgliedrige Funktionswörter. Lexikalische Zeichen dieser Klasse bestehen aus Folgen von Präpositionen, Adverbien etc. Diese Bestandteile müssen im Text nicht unmittelbar aufeinander folgen (vgl. deutsch um NP(gen) willen) Wir werden uns im Folgenden auf die beiden wichtigsten und schwierigsten Gruppen beschränken: die Phraseme und die Kollokationen. (Anmerkung: in diesem Semester werden wir uns ausschließlich mit den Kollokationen beschäftigen.) Kollokationen in der linguistischen Theorie Kollokationen in der linguistischen Theorie 1 of :37

2 Kollokationen Wir werden im Folgenden drei unterschiedliche Auffassungen von Kollokationen darstellen: 1. Die Auffassung des britischen Kontextualismus, vor allem vertreten durch R. Firth (vgl. Firth, 1957; Firth, 1968a; Firth, 1968b) 2. Die Auffassung der kontinentaleuropäischen (Meta)-Lexikographie, vertreten hier durch die Schriften von Hausmann (vgl. Hausmann, 1985) 3. die Auffassung von Kollokationen als "Lexical Functions", die Mel uk im Rahmen seiner Meaning-Text-Theory entwickelt hat (vgl. Mel cuk, 1998, Wanner, Mel cuk, 1996). Wir werden dabei so wenig wie möglich auf den jeweiligen sprachtheoretischen Rahmen eingehen, sondern uns auf die jeweilige Auffassung von "Kollokation" und die praktischen Folgen dieser Sichtweise im Kontext der Computerlexikographie konzentrieren. Der weitere theoretische Hintergrund kann aus den oben angegebenen Texten erschlossen werden Der britische Kontextualismus Die linguistische Forschung des britischen Kontextualismus ist stark empirisch ausgerichtet. Im Mittelpunkt der Untersuchung steht der Text. Ein wichtiger Gegenstand der Untersuchung sind Wörter. Dabei werden Wörter einerseits, aus paradigmatischer Perspektive, als Systemwörter charakterisiert, andererseits, aus syntagmatischer Perspektive, als Strukturwörter. Dieser Zusammenhang soll in Abbildung 1 verdeutlicht werden. W1 und W2 stehen als Strukturwörter in einer syntagmatischen Beziehung zueinander (in unserem Beispiel: harte Währung ). W1 kann zugleich als Systemwort betrachtet werden (hier: S2) und steht mit anderen Systemwörtern in einer paradigmatischen Beziehung (S1, S3, S4, in unserem Beispiel: stabile, feste, solide). Das Interesse des Kontextualismus liegt eindeutig auf den syntagmatischen Beziehungen zwischen Strukturwörtern. So heißt es bei Firth programmatisch: "I propose to split up meaning or function into a series of component functions. Each function will be defined as the use of some language form or element in relation to some context. Meaning, that is to say, is to be regarded as a complex of contextual relations, and phonetics, grammar, lexicography and semantics each handles its own components of the complex in its appropriate contexts." Firth, 1968a, S. 24 Der Begriff der Kollokation bleibt dabei erstaunlich unscharf: "The habitual collocations in which words under study appear are quite simply the mere word accompaniment, the other word-material in which they are most commonly or most characteristically embedded..." Firth, 1968b, S. 180 Im Prinzip kann in einem Text von 101 Wörtern jedes Wort mit jedem eine Kollokation bilden, was 5500 Kollokationen entspricht. Dass dieses Verfahren so weder linguistisch noch lexikographisch operationalisierbar ist, liegt auf der Hand. In der Praxis werden Kollokationen deshalb so bestimmt, dass die in einem Text enthaltenen Strukturwörter direkt aufeinander folgen müssen oder dass ein einzelnes Strukturwort zur Ausgangseinheit bestimmt wird und die für die Beschreibung seiner kollokativen Bedeutung als wichtig erachteten Strukturwörter hinzugenommen werden (vgl hierzu Lehr, 1996, S. 22f). Firth selber schränkt seinen Begriff der Kollokation durch das Prädikt "habitual" ein (s. das Zitat oben; danach wäre die in Abb. 1 hervorgehobene Verbindung von W1 und W2 habituell). Ein anderer Vertreter des Kontextualismus bringt einen quantitativen Aspekt hinein: "In this study we are only concerned with the first category which we shall call co-occurrents in the narrow sense of collocations which are statistically positive and extremely relevant." Geffroy, Lafon, Seidel, Tournier, 1973, S. 115 Wie wir später sehen werden ist der Begriff der "Signifikanz" des Kovorkommens zweier Textwörter statistisch auf verschiedene Weisen operationalisierbar. Zugleich ist uns mit dem Term co-occurence (deutsch: Kovorkommen) ein Mittel zur weiteren Differenzierung gegeben. "Kollokation" qualifiziert danach ein Wortpaar, das in statistisch signifikanter Weise zusammen vorkommt. Aber nicht jedes signifikant kovorkommende Wortpaar ist eine Kollokation. Die weitere linguistische Qualifikation leistet z.b. der Ansatz von Hausmann, den wir im nächsten Ansatz vorstellen werden. Zunächst wollen wir jedoch auf einige weitere Präzisierungen im Umfeld des Kontextualismus eingehen. Greenbaum (s. Greenbaum, 1970) möchte syntaktische Beziehungen zwischen den Kollokationspartnern berücksichtigt wissen: "A more valuable, if more modest, contribution might be made to the study of collocations if a relatively homogenous class of items were selected and an investigation undertaken of the collocation of each item in the class with other items that are related syntactically in a given way." Greenbaum, 1970, S. 13 Die ursprünglich ungerichtete Beziehung der beiden Kollokationspartner zueinander wird später als gerichtet betrachtet. So unterscheidet z.b. Sinclair zwischen node und collocate. Wir werden diesem Vorschlag bei Hausmann wiederbegegnen. Die Idee der Klassifizierung von lexikalischen Einheiten nach Ähnlichkeiten in ihrem "collocational range" wird im Konzept der lexical sets wiederaufgenommen 2 of :37

3 (vgl. Sinclair, 1991 und Abbildung 2). Weitghend ungeklärt bleibt die Frage, welcher Grad der Ähnlichkeit des Kontextes für die Etablierung eines "lexical set" vorausgesetzt werden muss Hausmann und die deutsche / französische Lexikographie Sowohl in der Praxis als auch in der Theorie hat Franz Josef Hausmann sich vor allem in der deutschen und romanischen Lexikographie einen Namen gemacht. Sein Ansatz, Kollokationen zu bestimmen und zu beschreiben stützt sich stark auf die linguistische Theorie der Romanistik, z.b. auf Coseriu. Kollokationen sind nach seiner Auffassung nicht ein Phänomen der parole, also des empirisch erfassbaren Sprachgebrauchs, sondern, in der Terminologie Coserius, der Norm. Sie sind damit einen Abstraktionsschritt höher angesiedelt als im britischen Kontextualismus. Hausmann richtet sich denn auch gegen den britischen Kontextualismus und dessen Frequenzfetischismus. Kollokationen, die seiner Meinung nach interessant und deshalb verzeichnenswert sind, können in Texten selten auftreten (wir werden aber später sehen, dass es durchaus statistische Verfahren gibt, die diesen Zusammenhang berücksichtigen). Hausmann führt den Unterschied zwischen Basis und Kollokator ein. Zwischen diesen beiden Elementen besteht eine gerichtete Beziehung; die Basis bestimmt den Kollokator. Welche Konsequenzen für die Lexikografie das hat, wollen wir an dem Beispiel der Kollokation schütteres Haar erläutern. Wenn ein Sprecher oder Schreiber einen Text produzieren möchte, dann ist ihm daran gelegen zu erfahren, welche Prädikate dem Gegenstand "Haar(e)" sprachlich zugeschrieben werden können ( lang, kurz, blond, rot, braun, graumeliert, strähnig, voll, dicht, schütter etc.). Dieser potenzielle Benutzer eines Wörterbuchs wird bei der Basis (Haar) nachschlagen, um Unsicherheiten bei der Wortwahl zu klären. Wenn jemand hingegen einen Text liest, dann wird er vermutlich über das Wort schütter stolpern und unter diesem Stichwort nachschlagen, um eine lexikalische Lücke zu schließen. Je nach Verwendungszweck eines Wörterbuches müssen Kollokationen also an unterschiedlichen Stellen eingeordnet werden. Um diesen wörterbuchpraktischen bzw. wörterbuchkritischen Aspekt, und um die Verbesserung der lexikographischen Praxis, geht es Hausmann Kollokationen als "Lexical Functions" Die Behandlung von Kollokationen als lexikalischen Funktionen erfolgt im Rahmen der "Meaning Text Theory". Wir werden nicht weiter auf diesen theoretischen Rahmen eingehen. Dieser ist z.b. in Mel cuk, 1981 dargestellt. Seinen lexikographischen Niederschlag fand und findet dieser theoretische Ansatz in den "Explanatory Combinatorial Dictionaries" (ECD), die für das Russische und für das Französische erschienen sind (vgl. Mel cuk, Zolkovskij (Hrsg.), , Mel cuk (Hrsg.), ). Diese Wörterbücher stellen gewisermaßen einen Typus in der Mitte zwischen dem traditionellen Printwörterbuch und einer lexikalischen Ressource für NLP dar. Zwar sind die o.g. Wörterbücher als Printwörterbücher erschienen. Die lexikographischen Beschreibungen sind aber so stark formalisiert, dass sie einen überaus geübten und eingearbeiteten Benutzer voraussetzen. Andererseits ist diese starke Formalisierung ein Aspekt, der diese Ressourcen für die maschinelle Verarbeitung interessant macht. Der Artikel "Colère" (s. Abbildung 3) mag diesen Aspekt veranschaulichen. 3 of :37

4 Ein Eintrag im ECD besteht aus einer semantischen Zone mit den semantischen Kommentaren, einer syntaktischen Zone, in der Rektionsverhältnisse ("Government Patterns") spezifiziert werden, und einer Beschreibung der lexikalischen Kookkurrenz (vgl. Wanner, Mel cuk, 1996, Abschnitt 2). Der uns hier interessierende "kombinatorische" Askpekt der lexikalischen Beschreibung ist Gegenstand des dritten Bereichs der lexikalischen Beschreibung. Der Anspruch hier ist kein geringerer als eine systematische Abdeckung der Kovorkommens-Restriktionen, die für ein Lexem gelten. Diese Restriktionen sind nun genau eine alternative Formulierung für das Kollokationspotenzial eines Lexems. Das Mittel hierfür ist eine begrenzte Menge von lexikalischen Funktionen, wobei es neben einer kleinen Anzahl von Standard-Funktionen noch eine offene Erweiterungsklasse (non-standard lexical functions) gibt. Die formale Definition einer lexikalischen Funktion ist wie folgt: "An LF f is a dependency that associates with a Lexeme L, called the keyword of f, a set of (quasi-)synonymous lexemes {L(i)}, called the value of f; an L(i) expresses - with respect to L - an abstract meaning which corresponds to f." Wanner, Mel cuk, 1996 Wenn man die Terminologien der drei Ansätze vergleicht, dann entspricht dem "keyword" in diesem Kontext der "collocator" oder die Kollokationsbasis und der Lexemmenge L(i), die hier der Wert der Funktion genannt wird, entspricht die Kollokantenmenge. Das Neue und Interessante des "Lexical Function"-Ansatzes ist genau die Tatsache, dass Gruppen von Kollokanten im Hinblick auf ihre Funktion, die sie in Bezug zur Kollokationsbasis ausüben, zusammengefasst werden. Man beachte aber auch hier die konzeptuelle Nähe zu den "lexical sets" bei John Sinclair. Bei diesen geht die Perspektive allerdings von den Kollokationsbasen aus. Die Standardfunktionen sind, z.b. im Vorwort des "Dictionnaire explicatif et combinatoire du français contemporain", definiert. Die Definition zur Funktion "Magn" etwa lautet wie folgt: "Magn: provides for its keyword (which is a lexeme with a scalable meaning) an adjectival or adverbial phrase that expresses the meaning intense(ly) " Wanner, Mel cuk, 1996 Wir haben die Lexikalische Funktion Magn in dem Artikel in Abbildung 3 markiert. Lexikalische Funktionen können kombiniert und konfiguriert werden, so dass sich aus dem Basisvokabular von ca. 60 Standardfunktionen ein weit größeres Inventar von Funktionen bilden lässt. Die Datenquellen, die mit dem beschriebenen Instrumentarium entwickelt wurden, also die vorhandenen Wörterbücher, sind eine nützliche Quelle für die Sprachproduktion: Man hat, von der gewünschten Funktion eines Kollokanten ausgehend, Zugriff auf die sprachlichen Einheiten, die diese Funktion in Bezug auf das Basiswort erfüllen Extraktion von Kollokationen - quantitative Aspekte - 4 of :37

5 10.3 Extraktion von Kollokationen - quantitative Aspekte Einführung In den verschiedenen linguistischen und lexikographischen Theorien, die Kollokationen beschreiben, tauchen immer wieder Prädikationen auf, über die wir in den letzten Abschnitten erfahren haben, dass diese sich quantitativ und statistisch operationalisieren lassen. Wir haben zugleich festgestellt, dass sich der Begriff der Kollokation nicht vollständig quantitativ herleiten lässt. Auch aus diesem Grunde haben wir den Term Kovorkommen eingeführt. Dieser lässt sich zusammen mit weiteren Prädikationen (z.b. signifikant) auf verschiedene Weise quantifizieren. Wir werden im Folgenden auf einige bisher angewendete Verfahren eingehen, wobei wir uns an Kapitel 5 von "Foundations of Statistical Language Processing" (Manning, Schütze, 1999) orientieren Frequenz von Bigrammen oder Trigrammen Dieses recht einfache Verfahren wird wie folgt auf ein Textkorpus angewendet. Man zerlegt die Textbasis in Bigramme bzw. Trigramme (in desem Fall Folgen von zwei oder drei Zeichenketten), filtert aus diesen Bi-/Trigrammen die Zeichenketten heraus, in denen das zu untersuchende Wort (oder eine Wortform des zu untersuchenden Lemmas) vorkommt und ordnet diese Ketten nach der Häufigkeit des Vorkommens in der Textbasis. Man hat auf diese Weise Gruppen - Paare, Tripel - von unmittelbar aufeinander folgenden Wörtern bzw. lexikalischen Zeichen im Blick. Der Recall dieses Verfahrens ist nur dann gut, wenn sich die strukturelle Beziehung zwischen Kollokant und Kollokator in deren räumlicher Nähe niederschlägt wie z.b. bei Adjektiv-Substantivpaaren. Die Precision dürfte eher gering ausfallen, da auch Wortpaare hoch gewertet werden, die lexikographisch uninteressant sind. Dies ist z.b. bei hochfrequenten Kollokanten (der, und etc.) der Fall. Da diese generell häufig vorkommen, werden sie wahrscheinlich auch im Umfeld des Kollokators vorkommen. Mit anderen Worten: Die globale Frequenz der Kollokanten wird nicht berücksichtigt und gewichtet. Die folgenden Beispiele zeigen die Kollokanten des Kollokators essen, einmal in unbereinigter, einmal in manuell bereinigter Form. Liste vorangehender Kollokanten zu "essen" - unbereinigt Liste vorangehender Kollokanten zu "essen" - manuell bereinigt Liste folgender Kollokanten zu "essen" - unbereinigt Liste folgender Kollokanten zu "essen" - manuell bereinigt Durchschnitt und Varianz In der zweiten Versuchsanordnung wird ein Fenster von Wörtern um ein Schlüsselwort herum betrachtet. Jedes Textwort innerhalb dieses Fensters wird als Kollokator betrachtet. Es wird nicht nur die Häufigkeit des Kovorkommens von Schlüsselwort und Umgebungswort betrachtet, sondern auch die räumliche Distanz der beiden zueinander in jedem Beleg. Über allen Distanzwerten werden für jedes Paar der Mittelwert und die Varianz berechnet. Der Varianzwert ist der Indikator für die Güte einer Verbindung. Je niedriger die Varianz, desto konstanter der Abstand von Schlüsselwort und Umgebungswort. Wenn die Varianz niedrig ist, dann gibt der Mittelwert die "typische Position" des Umgebungswortes im Verhältnis zum Schlüsselwort an. Ist die Varianz groß, dann ist der Mittelwert ohne Belang. Das Verfahren oder Maß wurde von Smadja eingeführt und ist in Smadja, 1992 beschrieben. Die folgende Tabelle enthält die Umgebungs"werte" der Kollokanten des Kollokators Mäusen. Liste von Kollokanten zu Mäusen und deren Verteilungsmuster Man sieht, dass das Verteilungsmuster von von, mit den unspezifisch ist, wohingegen die Kollokanten Menschen, transgenen, zerfressen eine klare Präferenz für eine Position aufweisen. Wir haben damit aber noch nichts über weitere linguistische Kriterien gesagt, die diese Kollokanten in Verbindung mit Mäusen zu einer Kollokation im engeren Sinn qualifizieren könnten Testverfahren Was wir eigentlich wissen wollen ist nicht, ob zwei Wörter in einem Korpus oft miteinander vorkommen, sondern, ob sie deutlich öfter vorkommen als sie das täten, wenn alle Wörter zufällig verteilt wären ("more often than chance"). Die Annahme (Hypothese H(0)) ist die, dass das Vorkommen der zwei untersuchten Wörter unabhängig voneinander ist: (H(0)) P(w(1),w(2)) = P(w1)P(w2) für zwei Wörter w1 und w2 Es wird die "Sicherheit" bestimmt, mit der diese Hypothese zurückgewiesen werden kann. Wir werden uns im Folgenden einige Testverfahren ansehen Der t-test Es werden Mittelwert und Varianz einer Stichprobe untersucht unter der Hypothese, dass diese Stichprobe aus einer zugrundeliegenden Verteilung mit dem Mittelwert stammt. Der ermittelte Kennwert t der tatsächlich beobachteten Verteilung gibt an, wie wahrscheinlich es ist, dass die Stichprobe aus der zugrunde liegenden Verteilung stammt. Interpretation: Es geht nur die Varianz der Stichprobe in die Berechnung von t ein. Je größer die Varianz, umso kleiner t. Je größer die Abweichung der beiden Mittelwerte von einander, umso größer ist t. Je größer t, um so sicherer können wir sein, dass die Stichprobe nicht aus der zugrunde liegenden Verteilung stammt, d.h. die Wahrscheinlichkeit, dass diese Behauptung falsch ist, sinkt. Bezogen auf unser Beispiel bedeutet das: Der t-test berücksichtigt die Anzahl der Kovorkommen zweier Wörter w1 und w2 (f(w1, w2)) relativ zur Gesamtzahl der Vorkommen beider einzelner Wörter. Der t-test eignet sich besonders gut dafür, zwei Verteilungen miteinander zu vergleichen. 5 of :37

6 In diese Gleichung (s. Manning, Schütze, 1999, S. 167) gehen die Varianzen beider Verteilungen ein. Anwendung dieses Verfahrens ist die Ermittlung von Differenzen im "collocational range" zweier bedeutungsähnlicher Wörter (und damit auch die Ermittlung subtiler Bedeutungsdifferenzen). Church et al. etwa verwenden das Verfahren, um die idiosynkratischen Differenzen im Kollokantenpotenzial der bedeutungsnahen Adjektive strong und powerful zu beschreiben (vgl. Church, Gale, Hanks, Hindle, 1991). Ein Beispiel aus dem Deutschen sind die beiden Substantive Handeln und Tun. Wenn man das Kollokantenpotenzial der beiden lexikalischen Zeichen vergleicht, dann wird man feststellen, dass Tun negativere Kollokanten (verbrecherisch, hinterhältig ) an sich bindet als Handeln (verantwortungsvoll, überlegt) Der chi-quadrat Test Der chi-quadrat-test basiert auf einer Binomialverteilung. Das klassische Beispiel für diese Verteilung ist der wiederholte Wurf einer Münze. Für jedes Ereignis in einer Folge von Ereignissen wird festgestellt, welcher von zwei Klassen es zugeordnet werden kann. Beim Münzwurf sind die beiden Klassen zum Beispiel "Kopf" und "Zahl". Übertragen auf die Beobachtung des Vorkommens eines Wortes in einer Textbasis lässt sich dies so formulieren: für jedes Textwort wird festgestellt, ob es sich um das gesuchte Wort handelt oder nicht. Da es sich hier um Paare von Textwörtern handelt, die wir beobachten anhand der Fragestellung, ob ihr tatsächliches Ko-Vorkommen ihr erwartetes Ko-Vorkommen signifikant übersteigt, haben wir es mit vier verschiedenen möglichen Ergebnissen zu tun. In einem festen Kontext, zum Beispiel einem "Fenster" von fünf Textwörtern, kommen w1 und w2 gemeinsam vor (das uns interessierende Kovorkommen) kommt w1 vor, nicht aber w2 kommt w2 vor, nicht aber w1 kommen weder w1 noch w2 vor Die Ergebnisse kann man in eine Vierfeldertafel eintragen. Das abstrakte Schema einer Vierfeldertafel ist in Abbildung 6 dargestellt. Neben den vier Feldern mit den Vorkommenshäufigkeiten bzw. Wahrscheinlichkeiten der vier möglichen Kombinationen enthält die Tafel Randsummen, zu denen jeweils zwei Werte (einer Spalte oder Zeile) aufaddiert sind. Wir haben den chi-square Test einmal auf eine Paar von Textwörtern angewendet, das wir bereits an anderer Stelle gründlicher untersucht haben (Kapitel 5.2 in Lemnitzer, 1997). Es handelt sich um die Wörter harten und Bandagen. Die möglichen Kombinationen sind in diesem Fall (11) harte + Bandagen (12) harte + nicht(bandagen) (21) nicht(harte) + Bandagen (22) nicht(harte) + nicht(bandagen) Dabei ergab sich folgende Verteilung, die durch die Vierfeldertafel in Abbildung 7 dargestellt wird. Setzt man die Werte in die Formel in Abbildung 8 ein, dann erhält man einen Wert von ,5. Der Wert ist wie folgt zu interpretieren: je höher er ist, umso stärker weicht die beobachtete Verteilung (hier das Kovorkommen der beiden Ereignisse) von einer zufälligen Verteilung der Daten ab. Ein entscheidender Nachteil für die Anwendung dieses Tests in unseren Szenarien ist, dass er "störanfällig" ist und verzerrte Ergebnisse wiedergeben kann, wenn in einer oder mehreren Zellen sehr kleine Werte stehen. Wie wir oben gesehen haben, fallen in den Bereich der Kollokationen aber auch Paare von Textwörtern, die relativ selten vorkommen. Wer sich weitergehend für diese Teststatistik interessiert, denen sei das Chi-square Tutorial von Prof. Connor-Linton empfohlen Likelihood ratios Die maximum likelihood ratio ist ein Wert, der das Verhältnis zweier Ereignisräume zueinander ausdrückt - den gesamten Parameterraum und einen Teil dieses Raums. Es wird gegen die Hypothese der Gleichverteilung in beiden Räumen geprüft. Er baut ebenfalls auf der Vierfeldertafel auf. Der Test ist verlässlicher als der soeben beschriebene, vor allem wenn sehr kleine Zahlen in einigen Zellen stehen. Die Funktion ist asymptotisch chi-quadrat verteilt. Anders ausgedrückt kann so auf die Gleichheit der zweier Binomialverteilungen zugrunde liegenden Parameter geprüft werden. " Ähnlich kann auch die Gleichheit der Parameter p(j) von s Binomialverteilungen B(n(j),p(j)) getestet werden. Dazu schreibe man in die erste Zeile einer 2 x s-tafel jeweils die Anzahl der Erfolge v(j)... und in die zweite Zeile die Anzahl der Misserfolge n(j) - v(j). Der Test auf Unabhängigkeit in dieser Kontingenztafel bedeutet dann gerade das Testen der Hypothese H(0): p(1) =... p(n)" Hartung, 1993, S. 496 Dies kann man für eine Vierfeldertafel mit der folgenden Gleichung ausdrücken (Abbildung 9): 6 of :37

7 Meine eigenen Untersuchungen haben ergeben, dass man mithilfe der maximum likelihood ratio verlässliche und intuitiv einleuchtende Ordnungsstatistiken über den Kollokanten eines Kollokators erreicht. Auf die Problematik von Konfidenzwerten für Tests werden wir weiter unten näher eingehen Mutual information Das ursprüngliche Anwendungsfeld dieses Verfahrens sind Messungen über zwei Zufallsvariablen. Die Kennziffer quantifiziert die Größe, um die unsere Unsicherheit über die Verteilung der möglichen Ausprägungen einer Zufallsvariable abnimmt, wenn wir die Verteilung der jeweils anderen Zufallsvariablen kennen. Das Maß ist symmetrisch. ("It is the reduction in uncertainty of one random variable due to knowing about another" [Manning, Schütze, 1999, S. 66]). Dieser generelle Ansatz kann wie folgt auf unsere Fragestellung nach der Kollokabilität von zwei beliebigen Textwörtern übertragen werden: Zwei Textwörter sind desto enger aufeinander bezogen, je mehr Informationen wir aus den Vorkommen des einen Textwortes über das Vorkommen des anderen Textwortes entnehmen können. Als Findeprozedur für Kollokationen wird allerdings die spezifischere "pointwise mutual information" zwischen zwei Ereignissen als Maß angewendet. Gemeinhin wird dieser Wert in bits gemessen, also mit logarithmus zur Basis 2. Man kann nun recht einfach zeigen, dass dieses Maß seltene Ereignisse bevorzugt: Zwei Ereignisse x und y, die jeweils nur einmal beobachtet werden, dann aber gemeinsam, haben den größten Kennwert, nämlich einen der etwa dem Logarithmus dualis von T entspricht (T sei hier die Größe des untersuchten Korpus). Diese Bevorzugung seltener Ereignisse führt auch dazu, dass, aus der Sicht der Kollokationssuche, "uninteresting correspondendes" bevorzugt werden (vgl. Manning, Schütze, 1999, S. 179). Abbildung 10 zeigt die MI-Formel: Wenn man die Frequenzen als Schätzer für die Wahrscheinlichkeiten einsetzt, erhält man: In dem Falle, dass die Vorkommensfrequenz immer 1 ist (also: a und b kommen im Korpus je einmal vor und in diesem einen Fall gemeinsam), dann erhält man, wie man durch Umformung zeigen kann, als Maximalwert den Logarithmus dualis von T. Fazit: MI ist ein gutes Maß für statistische Unabhängigkeit, aber ein schlechtes für statistische Abhängigkeit. Um die Unterschiede deutlich zu machen, zeigen wir zum Schluss eine Liste von Kollokanten zur Basis essen. Die Kollokanten sind geordnet nach den Kennziffern, die einmal mittels des "likelihood ratio"-verfahrens ermittelt wurden (Liste 1), und zum anderen mittels des mutual information index (Liste 2). Liste 1 ("maximum likelihood ratio")liste 2 ("mutual information index") Ordnungs- vs. Teststatistiken Die hier beschriebenen statistischen Testverfahren gehen von bestimmten Verteilungshypothesen aus. Die wichtigste und kritischste Annahme ist die, dass die Wörter in den beobachteten Texten zufällig verteilt sind. Von dieser Annahme ausgehend werden die Abweichungen in den tatsächlich aufgetretenen Verteilungen beobachtet. Der Sinn einer Teststatistik ist nun der, einen Schwellenwert festzulegen. Wird dieser überschritten, dann kann man mit einer bestimmten Sicherheit sagen, dass die beobachtete Stichprobe nicht mit der Grundgesamtheit, für die diese Verteilungsannahme postuliert wird, übereinstimmt. Die Abweichung ist "signifikant". Es ist aber bekannt, dass die meisten Texte kein Produkt von Zufallsprozessen sind. Legt man nun ein gängiges Konfidenzintervall zugrunde, dann sind fast alle beobachteten Erscheinungen "signifikant abweichend" von der hypostasierten Grundgesamtheit. Teststatistiken sind deshalb als solche nicht geeignet, um den Ereignisraum schlüssig in "interessante" und "nicht interessante" Phänomene aufzuteilen. Mit ihrer Hilfe gelingt es aber, eine Ordnung in die große Zahl kovorkommender Textwörter zu bringen. Sie sind deshalb als Ordnungsstatistiken eine große Hilfe, den Weizen von der Spreu zu trennen bzw. die Aufmerksamkeit der Lexikographen auf die Phänomene zu lenken, die interessant und verzeichnenswert sein dürften Übung - Übung zu Kurseinheit Vergleichen Sie Zerniks Auffassung, dass die Kombinationen eines lexikalischen Zeichens mit anderen lexikalischen Zeichens keine Schlüsse über die Bedeutung dieses lexikalischen Zeichen erlauben (Zernik 1991a, S. 19f, der Text wurde als Lektüre in Kureinheit 9 empfohlen), mit der berühmten Aussage des britischen Linguisten Firth: "you shall know a word by the company it keeps". Welche unterschiedlichen Auffassungen über die Bedeutung eines Wortes kommen in diesen beiden Aussagen zum Ausdruck? Welcher der beiden Positionen würden Sie eher zustimmen? Mel cuk führt in seinem Inventar lexikalischer Funktionen auch die Funktionen "Incep" ( ~ einsetzen, beginnen) und "Fin" (~ aufhören, zu Ende gehen) auf. Die Lexikalische Funktion "Magn" ist bereits im Lehrtext beschrieben worden. Wenn sie diese drei Lexikalischen Funktionen auf die folgenden Lexeme anwenden: Wut, Ärger, Lust, Freude, Wind, welche Kollokatoren können Sie nennen, die diese Funktion(en) erfüllen (Hinweis: wenn Sie dies wünschen, dann können Sie die Funktionen auch auf die englischen Äquivalente der genannten Lexema anwenden) Bibliographie - 7 of :37

8 Church, Kenneth Ward/Gale, William/Hanks, Patrick/Hindle, Donald, "Using statistics in lexical analysisin: Exploiting On-Line Resources to Build a Lexicon".New York:Lawrence Erlbaum, Firth, John Rupert, "Modes of Meaningin: Papers in Linguistics ".London:Longmans, Firth, John Rupert, "Descriptive Linguistics and the Study of Englishin: Selected papers of J.R. Firth ".London:Longmans, 1968a. Firth, John Rupert, "A synopsis of Linguistic Theoryin: Selected papers of J.R. Firth ".London:Longmans, 1968b. Geffroy, Annie/Lafon, P./Seidel, Gill/Tournier, M., "Lexicometric Analysis of Co-occurrencesin: The Computer and Literary Studies".Edinburgh, Greenbaum, Sydney, "Verb-Intensifier Collocations in English. An experimental approach".den Haag and Paris, Hartung, Joachim, "Statistik. Lehr- und Handbuch der angewandten Statistik". München and Wien, Hausmann, Franz Josef, "Kollokationen im deutschen Wörterbuch. Ein Beitrag zur Theorie des lexikographischen Beispielsin: Lexikographie und Grammatik. Akten des Essener Kolloquiums zur Grammatik im Wörterbuch, ".Tübingen:Niemeyer, Lehr, Andrea, "Kollokationen in maschinenlesbaren Korpora. Ein operationales Analysemodell zum Aufbau lexikalischer Netze".Tübingen:Niemeyer, Lemnitzer, Lothar, "Extraktion komplexer Lexeme aus Textkorpora".Niemeyer, Tübingen, Manning, Christopher D./Schütze, Hinrich, "Foundations of Statistical Natural Language Processing".Cambridge (Mass.) and London, The M.I.T. Press, Mel cuk, Igor A./Zolkovskij, A. K. (Hrsg.), "Explanatory Combinatorial Dictionary of Modern Russian".Wien:Wiener Slawistischer Almanach, Mel cuk, Igor A. (Hrsg.), "Dictionnaire explicatif et combinatoire du francais contemporain. 3 Vol.".Montreal: Presse de l Universite de Montreal, Mel cuk, Igor A., "Meaning-text Models: a Recent Trend in Soviet Linguistics", Mel cuk, Igor A., "Collocations and Lexical Functionsin: Phraseology: Theory, Analysis, and Applications".Oxford:Clarendon Press, Sinclair, John, "Corpus, Concordance, Collocation".Oxford, Smadja, Frank, "{XTRACT}: An Overview", Wanner, Leo/Mel cuk, Igor A., "Lexical Co-occurrence and Lexical Inheritance. Emotion Lexemes in German: {A} Lexicographic Case Studyin: Lexical Functions in Lexicography and Natural Language Processing".Amsterdam:Benjamins, of :37

Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils

Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils Isabel Fuhrmann, Alexander Geyken, Lothar Lemnitzer Zentrum Sprache Berlin-Brandenburgische Akademie der Wissenschaften

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Sommer 2002 Stefan Langer CIS, Universität München.

Sommer 2002 Stefan Langer CIS, Universität München. Sommer 00 Stefan Langer CIS, Universität München stef@cis.uni-muenchen.de Sommersemester 00 Dozent: Stefan Langer 8. MAI 00: BLATT 1 1. Statistik und Computerlinguistik. Einige Grundbegriffe der deskriptiven

Mehr

Korpuslinguistik Grundlagen Korpusrecherchemethoden

Korpuslinguistik Grundlagen Korpusrecherchemethoden Wortgruppenanalyse Korpuslinguistik Grundlagen Cluster Als Cluster sollen hier Ketten von sprachlichen Einheiten bezeichnet werden. In er sprach vor einem großen Publikum ist spr ein Konsonantencluster

Mehr

Kookkurrenzanalyse Einführung

Kookkurrenzanalyse Einführung Einführung Kookkurenzanalyse die grundlegende Idee 1) Beobachtung: In einem Korpus tritt Wort X 1000mal auf, Wort Y 100mal, Wort Z 10mal. 2) Wahrscheinlichkeit: Die Kombination XY ist 10mal so wahrscheinlich

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister Quantitative Auswertung II Korpuslinguistik Heike Zinsmeister 16.12.2011 Unterschiedstest Fall 1: unabhängige Stichproben Daten eine unabhängige Variable auf Nominal- oder Kategorialniveau eine abhängige

Mehr

Ein- und Zweistichprobentests

Ein- und Zweistichprobentests (c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Ein- Zweistichprobentests Worum geht es in diesem Modul? Wiederholung: allgemeines Ablaufschema eines Tests Allgemeine Voraussetzungen

Mehr

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie

KL WS 03/04 - Anke Lüdeling. Gliederung. Polysemie. Systematische Polysemie KL WS 03/04 - Anke Lüdeling Arbeitsgruppe Miniprojekt 1: Lexikalische Semantik Kann man systematische Polysemie kontextuell (automatisch) bestimmen? Anne Urbschat Ruprecht v.waldenfels Jana Drescher Emil

Mehr

= 0.445, also annähernd die Hälfte aller Männer zugelassen 557

= 0.445, also annähernd die Hälfte aller Männer zugelassen 557 1 Einleitung Es soll anhand des UCBAdmissions Datensatzes die Frage beantwortet werden, ob bei der Zulassung von Studenten Frauen benachteiligt werden. Die Stichprobe lautet zunächst # Daten (UCB

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen

Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen Wichtige Tatsachen und Formeln zur Vorlesung Mathematische Grundlagen für das Physikstudium 3 Franz Embacher http://homepage.univie.ac.at/franz.embacher/

Mehr

Konkretes Durchführen einer Inferenzstatistik

Konkretes Durchführen einer Inferenzstatistik Konkretes Durchführen einer Inferenzstatistik Die Frage ist, welche inferenzstatistischen Schlüsse bei einer kontinuierlichen Variablen - Beispiel: Reaktionszeit gemessen in ms - von der Stichprobe auf

Mehr

FH- Management & IT. Constantin von Craushaar FH-Management & IT Statistik Angewandte Statistik (Übungen)

FH- Management & IT. Constantin von Craushaar FH-Management & IT Statistik Angewandte Statistik (Übungen) FH- Management & IT Folie 1 Rückblick Häufigkeiten berechnen Mittelwerte berechnen Grafiken ausgeben Grafiken anpassen und als Vorlage abspeichern Variablenoperationen Fälle vergleichen Fälle auswählen

Mehr

3. Grundbegriffe der Wahrscheinlichkeitstheorie

3. Grundbegriffe der Wahrscheinlichkeitstheorie 03. JULI 2006: BLATT 17 3. Grundbegriffe der Wahrscheinlichkeitstheorie (v.a. nach Manning/Schütze: 40ff und Fahrmeir /Künstler/Pigeot/Tutz: 171ff) Übersicht Um entscheiden zu können, ob eine statistische

Mehr

Künstliche Intelligenz Text Mining

Künstliche Intelligenz Text Mining Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von

Mehr

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik

Kollexem-Analyse. SE: Quantitative Analyse linguistischer Variation WS 2012/13. Germanistik Kollexem-Analyse SE: Quantitative Analyse linguistischer Variation Germanistik WS 2012/13 WS 2012/13 1 / 14 Heutige Sitzung 1 Einführung: Quantitative syntaktische Analyse am Beispiel der Kollexem-Analyse

Mehr

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest) Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt

Mehr

Der χ2-test Der χ2-test

Der χ2-test Der χ2-test Der χ 2 -Test Überblick Beim χ 2 -Test handelt es sich um eine Familie ähnlicher Tests, die bei nominal- oder ordinalskalierten Merkmalen mit zwei oder mehr Ausprägungen angewendet werden können. Wir behandeln

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

Wie liest man Konfidenzintervalle? Teil II. Premiu m

Wie liest man Konfidenzintervalle? Teil II. Premiu m Wie liest man Konfidenzintervalle? Teil II Premiu m - Hintergrund Anderer Wahrscheinlichkeitsbegriff subjektiver Wahrscheinlichkeitsbegriff Beispiel: Was ist die Wahrscheinlichkeit dafür, dass ein Patient

Mehr

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Bivariater Zusammenhang in der Vierfeldertafel PEΣO Bivariater Zusammenhang in der Vierfeldertafel PEΣO 12. Oktober 2001 Zusammenhang zweier Variablen und bivariate Häufigkeitsverteilung Die Bivariate Häufigkeitsverteilung gibt Auskunft darüber, wie zwei

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Wie liest man Konfidenzintervalle? Teil I. Premiu m Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 13. Juli 2011 Ziel der Vorlesung Vermittlung von Grundkenntnissen der Statistik, Simulationstechnik und numerischen Methoden (Algorithmen) Aufgabe:

Mehr

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19 Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist

Mehr

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments 73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind

Mehr

Proseminarvortrag: Kollokationen. Kollokationen. Referat von Marin Puhr-Westerheide am

Proseminarvortrag: Kollokationen. Kollokationen. Referat von Marin Puhr-Westerheide am 3.06.004 Proseminarvortrag: Kollokationen Kollokationen Referat von Marin Puhr-Westerheide am 08.06.04 3.06.004 Proseminarvortrag: Kollokationen -The t Inhalt Einführung Frequency Mean and Hypothesis The

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p

Mehr

Statistik, Geostatistik

Statistik, Geostatistik Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.

Mehr

Prüfung aus Statistik 2 für SoziologInnen

Prüfung aus Statistik 2 für SoziologInnen Prüfung aus Statistik 2 für SoziologInnen 26. Jänner 2008 Gesamtpunktezahl =80 Name in Blockbuchstaben: Matrikelnummer: SKZ: 1) Bei einer Erhebung über den Beliebtheitsgrad von Politikern wurden n=400

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind. Bsp 1) Die Wahrscheinlichkeit dafür, dass eine Glühbirne länger als 200 Stunden brennt, beträgt 0,2. Wie wahrscheinlich ist es, dass von 10 Glühbirnen mindestens eine länger als 200 Stunden brennt? (Berechnen

Mehr

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,

Mehr

VU mathematische methoden in der ökologie: räumliche verteilungsmuster 1/5 h.lettner /

VU mathematische methoden in der ökologie: räumliche verteilungsmuster 1/5 h.lettner / VU mathematische methoden in der ökologie: räumliche verteilungsmuster / h.lettner / Analyse räumlicher Muster und Verteilungen Die Analyse räumlicher Verteilungen ist ein zentrales Gebiet der ökologischen

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

Argumentstrukturalternanzen Diathesen

Argumentstrukturalternanzen Diathesen Diathesen Diathesen (in einem weiten Sinn) können als regelhafte Operation auf Valenzrahmen verstanden werden, die einen Typ von Valenzrahmen Vr1 in einen Typ von Valenzrahmen Vr2 verändern. (In einem

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1 Mathematische Grundlagen III Informationstheorie 20 Juni 20 / Informationstheorie Ein Gerüst, um über den Informationsgehalt von (linguistischen) Ereignissen nachzudenken Einige Beispiele für Anwendungen:

Mehr

Analytische Statistik II

Analytische Statistik II Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Das Testen von Hypothesen Während die deskriptive Statistik die Stichproben nur mit Hilfe quantitativer Angaben charakterisiert,

Mehr

Demo-Text für STOCHASTIK. Tschebyscheff-Ungleichung. Einführung mit Anwendungsbeispielen. Datei Nr Friedrich W.

Demo-Text für   STOCHASTIK. Tschebyscheff-Ungleichung. Einführung mit Anwendungsbeispielen. Datei Nr Friedrich W. STOCHASTIK Tschebyscheff-Ungleichung Einführung mit Anwendungsbeispielen Datei Nr. 36111 Friedrich W. Buckel Stand 1. April 010 INTERNETBIBLIOTHEK FÜR SCHULMATHEMATIK www.mathe-cd.de Inhalt 1 Wiederholung:

Mehr

Grundlagen sportwissenschaftlicher Forschung Inferenzstatistik 2

Grundlagen sportwissenschaftlicher Forschung Inferenzstatistik 2 Grundlagen sportwissenschaftlicher Forschung Inferenzstatistik 2 Dr. Jan-Peter Brückner jpbrueckner@email.uni-kiel.de R.216 Tel. 880 4717 Statistischer Schluss Voraussetzungen z.b. bzgl. Skalenniveau und

Mehr

So berechnen Sie einen Schätzer für einen Punkt

So berechnen Sie einen Schätzer für einen Punkt htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Deskriptive Statistik: Beschreibung (Tabellen,

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:

Mehr

Einführung in die Wahrscheinlichkeitsrechnung

Einführung in die Wahrscheinlichkeitsrechnung Einführung in die Wahrscheinlichkeitsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Wahrscheinlichkeitsrechnung

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Modul G.1 WS 07/08: Statistik

Modul G.1 WS 07/08: Statistik Modul G.1 WS 07/08: Statistik 10.01.2008 1 2 Test Anwendungen Der 2 Test ist eine Klasse von Verfahren für Nominaldaten, wobei die Verteilung der beobachteten Häufigkeiten auf zwei mehrfach gestufte Variablen

Mehr

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung - wahrer Sachverhalt: Palette ist gut Palette ist schlecht Entscheidung des Tests: T K; Annehmen von H0 ("gute Palette") positive T > K; Ablehnen von H0 ("schlechte Palette") negative Wahrscheinlichkeit

Mehr

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ). Aufgaben 1. Bei den folgenden 10 Fragen ist jeweils genau eine Antwort richtig. Es gibt pro richtig beantwortete Frage 1 Punkt und pro falsche Antwort 1/2 Punkt Abzug. Minimal erhält man für die gesamte

Mehr

Kookkurrenzanalyse Noch einmal: Grundlagen

Kookkurrenzanalyse Noch einmal: Grundlagen Noch einmal: Grundlagen Methodologische Basis der Ermittlung sprachlicher Strukturen über kontextbestimmtes Kookkurrenzverhalten: ausreichend große Korpora statistische korpuslinguistische Methoden nachträgliche

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest

5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest Empirische Wirtschaftsforschung Prof. Dr. Ralf Runde 5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest Ein wesentliches Merkmal nichtparametrischer Testverfahren ist, dass diese im Allgemeinen weniger

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau

Mehr

Modelle diskreter Zufallsvariablen

Modelle diskreter Zufallsvariablen Statistik 2 für SoziologInnen Modelle diskreter Zufallsvariablen Univ.Prof. Dr. Marcus Hudec Zufallsvariable Eine Variable (Merkmal) X, deren numerische Werte als Ergebnisse eines Zufallsvorgangs aufgefasst

Mehr

Ergebnisse VitA und VitVM

Ergebnisse VitA und VitVM Ergebnisse VitA und VitVM 1 Basisparameter... 2 1.1 n... 2 1.2 Alter... 2 1.3 Geschlecht... 5 1.4 Beobachtungszeitraum (von 1. Datum bis letzte in situ)... 9 2 Extraktion... 11 3 Extraktionsgründe... 15

Mehr

Alternative Darstellung des 2-Stcihprobentests für Anteile

Alternative Darstellung des 2-Stcihprobentests für Anteile Alternative Darstellung des -Stcihprobentests für Anteile DCF CF Total n 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut

Mehr

SS 2017 Torsten Schreiber

SS 2017 Torsten Schreiber 173 Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Wird die Anordnung von unterschiedlichen Objekten eines Experiments untersucht, so handelt es sich um eine. Möchte man die Anzahl der möglichen

Mehr

Der χ 2 -Test (Chiquadrat-Test)

Der χ 2 -Test (Chiquadrat-Test) Der χ 2 -Test (Chiquadrat-Test) Der Grundgedanke Mit den χ 2 -Methoden kann überprüft werden, ob sich die empirischen (im Experiment beobachteten) Häufigkeiten einer nominalen Variable systematisch von

Mehr

Biometrieübung 11 Kontingenztafeln

Biometrieübung 11 Kontingenztafeln Biometrieübung 11 (Kontingenztafeln) - Aufgabe Biometrieübung 11 Kontingenztafeln Aufgabe 1 2x2-Kontingenztafeln 100 weibliche Patienten sind mit einer konventionellen Therapie behandelt worden 85 Patientinnen

Mehr

Medizinisches Beispiel

Medizinisches Beispiel Problemstellung Stimmen zwei oder mehrere Beobachter in ihrer Einschätzung überein? (im engl.: rater agreement oder interrater agreement) Beispiel: Zwei Professoren beurteilen die Referate oder Seminararbeiten

Mehr

Aufgaben zu Kapitel 9

Aufgaben zu Kapitel 9 Aufgaben zu Kapitel 9 Aufgabe 1 Für diese Aufgabe benötigen Sie den Datensatz Nominaldaten.sav. a) Sie arbeiten für eine Marktforschungsfirma und sollen überprüfen ob die in diesem Datensatz untersuchte

Mehr

Hypothesentests. Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht.

Hypothesentests. Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht. Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht. Wissenschaftliche Vorgehensweise beim Hypothesentest Forscher formuliert eine Alternativhypothese H 1 (die neue Erkenntnis, die

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Einfaktorielle Varianzanalyse

Einfaktorielle Varianzanalyse Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel

Mehr

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 1 4. Basiskonzepte der induktiven

Mehr

4.1. Nullhypothese, Gegenhypothese und Entscheidung

4.1. Nullhypothese, Gegenhypothese und Entscheidung rof. Dr. Roland Füss Statistik II SS 8 4. Testtheorie 4.. Nullhypothese, Gegenhypothese und Entscheidung ypothesen Annahmen über die Verteilung oder über einzelne arameter der Verteilung eines Merkmals

Mehr

Statistik Einführung // Kategoriale Daten 10 p.2/26

Statistik Einführung // Kategoriale Daten 10 p.2/26 Statistik Einführung Kategoriale Daten Kapitel 10 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Leydold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Kategoriale Daten

Mehr

Aufgaben zu Kapitel 8

Aufgaben zu Kapitel 8 Aufgaben zu Kapitel 8 Aufgabe 1 a) Berechnen Sie einen U-Test für das in Kapitel 8.1 besprochene Beispiel mit verbundenen Rängen. Die entsprechende Testvariable punkte2 finden Sie im Datensatz Rangdaten.sav.

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 5. Übungsblatt Aufgabe 1: Covering-Algorithmus und Coverage-Space Visualisieren Sie den Ablauf des Covering-Algorithmus

Mehr

STATISTISCHE METHODEN UND IHRE ANWENDUNGEN

STATISTISCHE METHODEN UND IHRE ANWENDUNGEN STATISTISCHE METHODEN UND IHRE ANWENDUNGEN Von Dr. rer. nat. Erwin Kreyszig o. Professor für Statistik an der Universität Karlsruhe mit 82 Abbildungen und zahlreichen Tabellen Vierter, unveränderter Nachdruck

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg 2 R. 06-206 (Persike) R. 06-214 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

Kapitel 13. Grundbegriffe statistischer Tests

Kapitel 13. Grundbegriffe statistischer Tests Kapitel 13 Grundbegriffe statistischer Tests Oft hat man eine Vermutung über die Verteilung einer Zufallsvariablen X. Diese Vermutung formuliert man als Hypothese H 0.Sokönnte man daran interessiert sein

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Alternative Darstellung des 2-Stichprobentests für Anteile

Alternative Darstellung des 2-Stichprobentests für Anteile Alternative Darstellung des -Stichprobentests für Anteile DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Lexikalisch-semantische Disambiguierung mit WordNet

Lexikalisch-semantische Disambiguierung mit WordNet Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische

Mehr

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten

Mehr

Konzept diskreter Zufallsvariablen

Konzept diskreter Zufallsvariablen Statistik 1 für SoziologInnen Konzept diskreter Zufallsvariablen Univ.Prof. Dr. Marcus Hudec Beispiel: Zufallsvariable 3 Münzen werden unabhängig voneinander geworfen. Jede Münze kann entweder Kopf oder

Mehr

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36) Statistik I Sommersemester 2009 Statistik I I (1/36) Wiederholung Grenzwertsatz Konfidenzintervalle Logik des 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Statistik I I (2/36) Zum Nachlesen Agresti/Finlay: Kapitel 6+7

Mehr

Prüfung aus Statistik 2 für SoziologInnen

Prüfung aus Statistik 2 für SoziologInnen Prüfung aus Statistik 2 für SoziologInnen 11. Oktober 2013 Gesamtpunktezahl =80 Name in Blockbuchstaben: Matrikelnummer: Wissenstest (maximal 16 Punkte) Kreuzen ( ) Sie die jeweils richtige Antwort an.

Mehr

Welche der folgenden Aussagen ist/sind richtig? Kreuzen Sie bitte jede zutreffende Aussage an.

Welche der folgenden Aussagen ist/sind richtig? Kreuzen Sie bitte jede zutreffende Aussage an. AUFGABE 1) Z-TRANSFORMATION (4 PUNKTE) Welche der folgenden Aussagen ist/sind richtig? Kreuzen Sie bitte jede zutreffende Aussage an. Eine z-transformierte Verteilung hat einen Mittelwert von 0 und eine

Mehr

Statistik für Ingenieure und Naturwissenschaftler

Statistik für Ingenieure und Naturwissenschaftler Sheldon M. Ross Statistik für Ingenieure und Naturwissenschaftler 3. Auflage Aus dem Amerikanischen übersetzt von Carsten Heinisch ELSEVIER SPEKTRUM AKADEMISCHER VERLAG Spektrum Inhalt Vorwort zur dritten

Mehr

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Aufgabe 1: Wieviele der folgenden Variablen sind quantitativ stetig? Schulnoten, Familienstand, Religion, Steuerklasse, Alter, Reaktionszeit, Fahrzeit,

Mehr

Tutorial: Anpassungstest

Tutorial: Anpassungstest Tutorial: Anpassungstest An einem Institut gibt es vier UniversitätslehrerInnen, die auch Diplomarbeiten betreuen. Natürlich erfordert die Betreuung einer Diplomarbeit einiges an Arbeit und Zeit und vom

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen Proportions-Tests Proportions Tests Proportions Test können in zwei Fällen benutzt werden Vergleich von beobachteten vs. erwarteten Proportionen Test der Unabhängigkeit von 2 Faktoren kann auch zum Vergleich

Mehr

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente... Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,

Mehr

Wissenschaftliches Schreiben. Recherche- und Schreibseminar Melanie Seiß

Wissenschaftliches Schreiben. Recherche- und Schreibseminar Melanie Seiß Wissenschaftliches Schreiben Recherche- und Schreibseminar Melanie Seiß Inhalt Wissenschaftliche Arbeit Nach Beendigung der Vorarbeit: Gliederung und Literatur mit DozentIn besprechen vor Beginn des Schreibens:

Mehr

7. Kollokationen. 7.1 Begriffsklärung. 7.2 Häufigkeit - Mittelwert - Varianz

7. Kollokationen. 7.1 Begriffsklärung. 7.2 Häufigkeit - Mittelwert - Varianz 7. Kollokationen 7.1 Begriffsklärung 7.1 Begriffsklärung - You shall know a word by the company it keeps (Firth 1957) - Assoziationstests: blond fällen wiehern bellen abbauen spielen haben Haar [Mensch,

Mehr

Korpusanalyse am IDS Die Kookkurrenzanalyse

Korpusanalyse am IDS Die Kookkurrenzanalyse Korpusanalyse am IDS Die am IDS Zugang zur des IDS: über die Webschnittstelle von COSMAS II über den Client von COSMAS II über die Kookkurrenzdatenbank Die IDS- ist seit 1995 online zugänglich. Stefan

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen

Mehr

Einleitung. Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal

Einleitung. Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal Definitionen von Korpuslinguistik und das Repräsentativitätsmerkmal Einleitung 1. Einleitung 2. Definitionen von Korpuslinguistik 2.1 Entstehung 2.1.1 : korpusbasiert vs. korpusgestützt 2.1.2 Generative

Mehr