6. Probabilistische Retrievalmodelle. Norbert Fuhr

Größe: px
Ab Seite anzeigen:

Download "6. Probabilistische Retrievalmodelle. Norbert Fuhr"

Transkript

1 6. Probabilistische Retrievalmodelle Norbert Fuhr

2 Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD : dm D D D : Anfragebeschreibung Dokumentbeschreibung R: Relevanzskala ϱ: Retrievalfunktion

3 Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion q k Q: qk T : Menge von Anfragerepräsentation Fragetermen d m D: dm T : Menge von Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match ϱ COORD (q k, d m ) = q T k d T m Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu ϱ BIR (q k, d m ) = t i q T k d T m c ik

4 Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1. Anwendung des Bayes schen Theorems: P(a b) = P(a, b) P(b) = P(b a) P(a), P(b) 2. Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y) = P(y) P(ȳ) = P(y) 1 P(y).

5 Herleitung des BIR-Modells Abschätzung von O(R q k, d T m ) = Chance, dass ein Dokument mit einer Menge von Termen d T m relevant zur Anfrage q k ist Repräsentation des Dokuments d m als Vektor mit binären Komponenten x = (x 1,..., x n ) wobei x i = { 1, falls ti d T m 0, sonst Anwenden des Bayes schen Theorems: O(R q k, x) = P(R q k, x) P( R q k, x) = P(R q k) P( R q k ) P( x R, q k) P( x R, q k ) P( x q k) P( x q k ) P(R q k ): Wahrscheinlichkeit, dass ein arbiträres Dokument relevant ist zu q k P( x m R, q k ): Wahrscheinlichkeit, dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x m R, q k ): Wahrscheinlichkeit, dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt

6 Annahme der Linked dependence : P( x R, q k ) P( x R, q k ) = n i=1 P(x i R, q k ) P(x i R, q k ) O(R q k, x) = O(R q k ) n i=1 P(x i R, q k ) P(x i R, q k ) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: O(R q k, x) = O(R q k ) x i =1 P(x i =1 R, q k ) P(x i =1 R, q k ) x i =0 p ik = P(x i =1 R, q k ): Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt. q ik = P(x i =1 R, q k ): Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt P(x i =0 R, q k ) P(x i =0 R, q k ).

7 Annahme, dass p ik = q ik für alle t i / q T k O(R q k, d T m ) = O(R q k ) = O(R q k ) t i ɛd T m q T k = O(R q k ) t i ɛd T m q T k t i ɛd T m q T k 1 p ik 1 q ik t i ɛd T m q T k p ik q ik p ik q ik t i ɛq T k \d T m t i ɛd T m q T k t i ɛq T k \d T m 1 p ik 1 q ik 1 p ik 1 q ik 1 q ik 1 p ik p ik (1 q ik ) q ik (1 p ik ) t i ɛq T k 1 p ik 1 q ik Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q k für unterschiedliche Dokumente nicht konstant Betrachte daher nur dieses Produkt für das Ranking

8 Übergang zum Logarithmus (ordnungserhaltend): c ik = log p ik(1 q ik ) q ik (1 p ik ) Retrievalfunktion: ϱ BIR (q k, d m ) = c ik t i ɛd T m q T k

9 Anwendung des BIR-Modells Parameterabschätzung für q ik q ik = P(x i =1 R, q k ): (Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente Größe der Kollektion N Kollektionsgröße n i # Dokumente mit dem Term t i q ik = n i N

10 Parameterabschätzung für p ik p ik = P(x i =1 R, q k ): (Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle p ik s Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) c ik = log p 1 p + log 1 q ik q ik = c p + log N n i n i ϱ IDF (q k, d m ) = t i q T k d T m (c p + log N n i n i ) oft benutzt: p = 0.5 c p = 0

11 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa ) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r: # als relevant beurteilte Dokumente zur Anfrage q k r i : # relevante Dokumente mit dem Term t i p ik = P(t i R, q k ) r i r verbesserte Abschätzungen (mehr in späterem Abschnitt): p ik r i r + 1

12 Beispiel für BIR d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0

13 Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion möglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz

14 Entscheidungstheoretische Rechtfertigung des PRP C: Kosten für Retrieval eines nicht-relevanten Dokumentes C: Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments d j : EC(q, d j ) = C P(R q, d j ) + C(1 P(R q, d j )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r(i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i EC(q, l) = EC(q, d r(1), d r(2),..., d r(l) ) l = EC(q, d r(i) ) i=1 Mimimale Gesamtkosten minimiere l i=1 EC(q, d r(i)) r(i) sollte Dokumente nach aufsteigenden Kosten sortieren

15 Entscheidungstheoretische Regel: EC(q, d r(i) ) EC(q, d r(i+1) ) C P(R q, d r(i) ) + C(1 P(R q, d r(i) )) C P(R q, d r(i+1) ) + C ( 1 P(R q, d r(i+1) ) ) (da C < C): P(R q, d r(i) ) P(R q, d r(i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz!

16 Rechtfertigung über Effektivitätsmaße für je zwei Ereignisse a, b, liefert das Bayes sche Theorem die folgenden monotonen Transformationen von P(a b): (siehe Herleitung des BIR-Modells) O(a b) = P(b a)p(a) P(b ā)p(ā) log O(a b) = log P(b a) + log O(a) P(b ā) logit P(a b) = log P(b a) + logit P(a) P(b ā) mit logit P(x) = log O(x)

17 ρ = P(gef. Dokument rel. Dokument) φ = P(gef. Dokument nichtrel. Dokument) π = P(rel. Dokument gef. Dokument) γ = P(rel. Dokument) ρ(d i ) = P(Dokument ist d i rel. Dokument) φ(d i ) = P(Dokument ist d i nichtrel. Dokument) π(d i ) = P(rel. Dokument Dokument ist d i ) (Wahrscheinlichkeit der Relevanz) S Menge der gefundenen Dokumente

18 ρ = d i S ρ(d i ) φ = d i S φ(d i ) logit π(d i ) = log ρ(d i) φ(d i ) + logit γ ρ(d i ) = x i φ(d i ) mit x i = exp(logit π(d i ) logit γ)

19 1. Abbruch vorgegeben durch φ (Fallout) φ = d i S φ(d i ) ρ = d i S ρ(d i ) = d i S φ(d i ) exp(logit π(d i ) logit γ) maximiere ρ (Recall) durch Hinzunahme der Dokumente mit den höchsten Werten für π(d i ) ˆ= ordne nach Wahrscheinlichkeit der Relevanz 2. Abbruch durch # Dokumente gefunden maximiere erwarteten Recall, minimiere erwarteten Fallout 3. Abbruch vorgegeben durch ρ (Recall) minimiere Fallout

20 logit π = log(ρ/φ) + logit γ 4. erwartete Precision wird für gegebenen Recall / Fallout / # gefundener Dokumente maximiert

21 PRP für mehrwertige Relevanzskalen n Relevanzwerte R 1 < R 2 <... < R n entsprechende Kosten für das Retrieval eines Dokuments: C 1, C 2,..., C n. ordne Dokumente nach ihren erwarteten Kosten EC(q, d m ) = n C l P(R l q, d m ). l=1 Vergleich mit dem binären Fall: nicht-binäre Skala entspricht eher dem Benutzerempfinden n 1 Schätzungen P(R l q, d m ) werden benötigt Kostenfaktoren C l müssen bekannt sein widerspricht bisher experimentellen Ergebnissen

22 Kombination von probabilistischen und Fuzzy-Retrieval Fuzzy-Retrieval: benutzt Grad der Relevanz statt binärer Skala System versucht Grad der Relevanz für ein Anfrage-Dokument-Paar zu berechnen Kombination: kontinuierliche Relevanzskala: r ɛ[0, 1] ersetze Wahrscheinlichkeitsverteilung P(R l q, d m ) durch Dichtefunktion p(r q, d m ) ersetze Kostenfaktoren C l durch Kostenfunktion c(r).

23 Konzeptuelles Modell Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR

24 Repräsentationen und Beschreibungen im BIR-Modell Anfragerepräsentationen q k = (q T k, qj k ): Menge von Anfragetermen q T k + Menge von Rlevanzurteilen q J k = {(d m, r(d m, q k ))} Anfragebeschreibungen q D k = {(t i, c ik )}: Menge der Anfrageterme mit zugehörigen Gewichten Dokumentenrepräsentation d m = d T m Menge der Terme Dokumentenbeschreibung d D m = Dokumentenrepräsentation d T m

25 Entwicklungsrichtungen für probabilistische IR-Modelle: 1. Optimierung der Retrievalqualität für feste Repräsentationen (z.b. durch andere Abhängigkeitsannahmen als im BIR-Modell) 2. Modelle für detaillierte Repräsentationen (z.b. Dokumente als Multimengen von Termen, Phrasen zusätzlich zu Worten)

26 Parameterlernen im IR terms terms terms documents d documents documents learning q learning application appli cation learning application queries queries queries query related learning document related learning description related learning Lernansätze im IR

27 Ereignisraum Ereignisraum: Q D einzelnes Element: Frage-Dokument-Paar (q k, d m ) alle Elemente sind gleichwahrscheinlich Relevanzurteile (q k, d m )ɛr Relevanzurteile für verschiedene Dokumente bzgl. der gleichen Anfrage sind unabhängig voneinander Wahrscheinlichkeit der Relevanz P(R q k, d m ): Wahrscheinlichkeit, dass ein Element (q k, d m ) relevant ist betrachte Kollektionen als Ausschnitt von möglicherweise unendlichen Mengen schlechte Repräsentation von gefundenen Objekten: eine einzelne Repräsentation kann für mehrere verschiedene Objekte stehen

28 D Q q k q k d m d m Ereignisraum der Relevanzmodelle

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen. Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich

Mehr

Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion

Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Norbert Gövert 1 Universität Dortmund Zusammenfassung Eines der zentralen robleme auf dem Gebiet des Information Retrieval in

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18 Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive

Mehr

2 Volltext-Suchmaschinen

2 Volltext-Suchmaschinen 2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval

Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval Martin Eisenhardt, Wolfgang Müller, Andreas Henrich LS AI 1, Universität Bayreuth martin.eisenhardt@uni-bayreuth.de Abstract: Spektrale Bloomfilter

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Darstellung der Methodik in TREC und TREC-basierte Evaluierung

Darstellung der Methodik in TREC und TREC-basierte Evaluierung Darstellung der Methodik in TREC und TREC-basierte Evaluierung Martin Jansson Philip Korte Lukas Wozniak 13. November 2005 Jansson, Korte, Wozniak 1 Inhaltsverzeichnis Was ist TREC? Die Ziele der Konferenz

Mehr

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Binäre Suchbäume (binary search trees, kurz: bst)

Binäre Suchbäume (binary search trees, kurz: bst) Binäre Suchbäume (binary search trees, kurz: bst) Datenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer: Binärbaum T mit n := M Knoten Jeder Knoten v von T ist mit einer Zahl m v M markiert.

Mehr

Black Jack - Kartenzählen

Black Jack - Kartenzählen Black Jack - Kartenzählen Michael Gabler 24.01.2012 Literatur: N. Richard Werthamer: Risk and Reward - The Science of Casino Blackjack, Springer Black Jack - Kartenzählen 1 Wie zähle ich Karten? Historisches

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Ähnlichkeitssuche auf XML-Daten

Ähnlichkeitssuche auf XML-Daten Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen

Mehr

Mathematische Melodieanalyse - Ein Streifzug

Mathematische Melodieanalyse - Ein Streifzug RMA - MuWi UHH WS 05/06 Mathematische Melodieanalyse - Ein Streifzug Universität Hamburg Mathematische Melodieanalyse - Einleitung Mathematische Melodieanalyse befasst sich mit der algorithmischen Analyse

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Melikka Khosh-Niat Matthias Jordan 23. Mai 3. Juni 2011 Lösungen: Upload bis 3. Juni 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme Quelle: TREC homepage http://www.nist.gov/nlpir IR 209 IR 210 Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) TREC (Text REtrieval Conferences) Leitung: Donna Harman offiziell

Mehr

Information Retrieval

Information Retrieval Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Informationstheorethisches Theorem nach Shannon

Informationstheorethisches Theorem nach Shannon Informationstheorethisches Theorem nach Shannon Beispiel zum Codierungsaufwand - Wiederholung: Informationstheorethisches Modell (Shannon) Sei x eine Aussage. Sei M ein Modell Wieviele Bits sind aussreichend,

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

Formale Methoden II. Gerhard Jäger. SS 2008 Universität Bielefeld. Teil 8, 11. Juni 2008. Formale Methoden II p.1/30

Formale Methoden II. Gerhard Jäger. SS 2008 Universität Bielefeld. Teil 8, 11. Juni 2008. Formale Methoden II p.1/30 Formale Methoden II SS 2008 Universität Bielefeld Teil 8, 11. Juni 2008 Gerhard Jäger Formale Methoden II p.1/30 Beispiele Anmerkung: wenn der Wahrheitswert einer Formel in einem Modell nicht von der Belegungsfunktion

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen SVM Textkategorisierung Katharina Morik, Claus Weihs LS 8 Informatik 24.5.2011 1 von 46 Gliederung LS 8 Informatik 1 Web Mining Information Retrieval 2 Textklassifikation

Mehr

Datenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer:

Datenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer: Binäre Suchbäume (binary search trees, kurz: bst) Datenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer: Binärbaum T mit n := M Knoten Jeder Knoten v von T ist mit einer Zahl m v M markiert.

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz 02_Grundlagen Lucene Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz Was ist Lucene? (1) Apache Lucene is a high-performance, full-featured text search engine library written

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung 5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Abschnitt: Algorithmendesign und Laufzeitanalyse

Abschnitt: Algorithmendesign und Laufzeitanalyse Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Beispiel. Bsp.: Betrachte Schlussweise in: (3) folgt aus (1) und (2), siehe z.b. Resolutionsregel. was ist mit folgender Schlußweise:

Beispiel. Bsp.: Betrachte Schlussweise in: (3) folgt aus (1) und (2), siehe z.b. Resolutionsregel. was ist mit folgender Schlußweise: Theoretische Informatik: Logik, M. Lange, FB16, Uni Kassel: 5.4 Prädikatenlogik mit Gleichheit Resolution 192 Beispiel Bsp.: Betrachte Schlussweise in: 1 Wenn es regnet, dann wird die Straße nass. R N

Mehr

Entwurf und Implementierung einer XML-Volltext-Suchmaschine

Entwurf und Implementierung einer XML-Volltext-Suchmaschine Technische Universität Kaiserslautern Fachbereich Informatik AG Datenbanken und Informationssysteme Prof. Dr.-Ing. Dr. h.c. Theo Härder Entwurf und Implementierung einer XML-Volltext-Suchmaschine Diplomarbeit

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Anfrage Erweiterung 03.11.2011 Jan Schrader

Anfrage Erweiterung 03.11.2011 Jan Schrader Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager Website-Suche mit OpenText Web Site Management Frank Steffen - Senior Product Manager Inhalt Überblick Konzepte der Suchmaschinenanbindung Verity K2 Anbindung Der neue OT Search Engine Connector Federated

Mehr

Approximationsalgorithmen: Klassiker I. Kombinatorische Optimierung Absolute Gütegarantie Graph-Coloring Clique Relative Gütegarantie Scheduling

Approximationsalgorithmen: Klassiker I. Kombinatorische Optimierung Absolute Gütegarantie Graph-Coloring Clique Relative Gütegarantie Scheduling Approximationsalgorithmen: Klassiker I Kombinatorische Optimierung Absolute Gütegarantie Graph-Coloring Clique Relative Gütegarantie Scheduling VO Approximationsalgorithmen WiSe 2011/12 Markus Chimani

Mehr

Industrie- und Handelskammer Stuttgart

Industrie- und Handelskammer Stuttgart Industrie- und Handelskammer Stuttgart SUCHMASCHINEN-OPTIMIERUNG die vorderen Plätze bei Google, Yahoo & Co 1. Über Beyond Media 2. Erste Schritte 3. freundliche 4. Arbeitsweise 5. Bewertungsmethoden 6.

Mehr

Data- und Text Mining. 2014 Prof. A. Müller, PMP FH Kaiserslautern

Data- und Text Mining. 2014 Prof. A. Müller, PMP FH Kaiserslautern Data- und Text Mining 2014 FH Kaiserslautern Text Mining - Grundlagen Indexierung Data-Structure inverted file Algorithmen Statistische Indexierung Zipf sche Gesetz Termhäufigkeiten Vektor-basierte Suche

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Property Testing in Graphen mit beschränktem Maximalgrad

Property Testing in Graphen mit beschränktem Maximalgrad Property Testing in Graphen mit beschränktem Maximalgrad Björn Schümann Seminar Graphentheorie und Kombinatorik WS 2007-08 Inhaltsverzeichnis 1 Einleitung 2 2 Allgemeine Aussagen zum Property Testing 3

Mehr

Datenbanken und Informationssysteme

Datenbanken und Informationssysteme Datenbanken und Informationssysteme Information Retrieval: Konzepte und Beispiele Burkhardt Renz Fachbereich MNI TH Mittelhessen Wintersemester 2015/16 Übersicht Konzepte des Information Retrieval Architektur

Mehr

Alles nur Google? Das Innenleben der Suchmaschinen

Alles nur Google? Das Innenleben der Suchmaschinen Alles nur Google? Das Innenleben der Suchmaschinen Prof. Dr. Klaus Meyer-Wegener Friedrich-Alexander-Universität Technische Fakultät Institut für Informatik 1. Das World-wide Web (WWW) oft auch "Internet"

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Web Information Retrieval. Web Information Retrieval. Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Das World Wide Web

Web Information Retrieval. Web Information Retrieval. Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Das World Wide Web Web Information Retrieval Web Information Retrieval Ingo Frommholz / Norbert Fuhr 30. Januar 2012 Informationssuche im Web Browsing und Suche Beispiel einer Web-Suchmaschine: Google Hypertext und Web IR

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Gliederung Vorlesung Maschinelles Lernen SVM Textkategorisierung 1 Web Mining Information Retrieval Katharina Morik, Claus Weihs 24.5.2011 2 Textklassifikation 3 Verwendung des Modells zur Textklassifikation

Mehr

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses. XI. Binomialverteilung ================================================================== 11.1 Definitionen -----------------------------------------------------------------------------------------------------------------

Mehr

Information Retrieval in XML- Dokumenten

Information Retrieval in XML- Dokumenten Inhalt Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de I. Einführung II. III. IV. IR-Konzepte für XML XIRQL HyREX-Retrievalengine V. Zusammenfassung und

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Endliche Automaten zur Erkennung von Stoppwörtern

Endliche Automaten zur Erkennung von Stoppwörtern Endliche Automaten zur Erkennung von Stoppwörtern Vortrag von Christian Schwarz & Andreas Beyer im Seminar FSM zur Spracherkennung 06.07.2009 DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter

Mehr

Wintersemester 2008/2009

Wintersemester 2008/2009 Fakultät für Informatik LS VI Information Engineering Prof. Dr. G. Kern-Isberner Patrick Krümpelmann, Jan-Hendrik Lochner, Max Vorderstemann Probeklausur zur Vorlesung Darstellung, Verarbeitung und Erwerb

Mehr

Klausur für Studiengänge INF und IST

Klausur für Studiengänge INF und IST Familienname: Matrikelnummer: Studiengang: (bitte ankreuzen) INF IST MED Vorname: Email-Adresse: Immatrikulationsjahr: Klausur für Studiengänge INF und IST sowie Leistungsschein für Studiengang Medieninformatik

Mehr

Vorlesung. Informationsökonomik und die Theorie der Firma

Vorlesung. Informationsökonomik und die Theorie der Firma Vorlesung Informationsökonomik und die Theorie der Firma Ulrich Schwalbe Universität Hohenheim 5. Vorlesung 28.11.2007 Ulrich Schwalbe (Universität Hohenheim) Informationsökonomik 5. Vorlesung 28.11.2007

Mehr

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist Frage Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist k a F (x) =1 k>0,x k x Finden Sie den Erwartungswert und den Median der Dichte für a>1. (Bei

Mehr

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Das Briefträgerproblem

Das Briefträgerproblem Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................

Mehr

16. All Pairs Shortest Path (ASPS)

16. All Pairs Shortest Path (ASPS) . All Pairs Shortest Path (ASPS) All Pairs Shortest Path (APSP): Eingabe: Gewichteter Graph G=(V,E) Ausgabe: Für jedes Paar von Knoten u,v V die Distanz von u nach v sowie einen kürzesten Weg a b c d e

Mehr

Sitzung 9: XML Retrieval. Folien übersetzt nach Hinrich Schütze and Chris>na Lioma h@p://nlp.stanford.edu/ir- book/newslides.html

Sitzung 9: XML Retrieval. Folien übersetzt nach Hinrich Schütze and Chris>na Lioma h@p://nlp.stanford.edu/ir- book/newslides.html Sitzung 9: XML Retrieval Folien übersetzt nach Hinrich Schütze and Chris>na Lioma h@p://nlp.stanford.edu/ir- book/newslides.html 1 Overview Einführung Basis XML Konzepte Herausforderungen XML IR Vektorraummodell

Mehr

Internet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April 2015. 1. Einführung

Internet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April 2015. 1. Einführung Einführung nternet-suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Web-Suche nternet-suche 4 / 1 Produktsuche in nternet-shops ntranet-suche 5 / 1 6 / 1 Suche in Online-Publikationen Suche

Mehr

4. Dynamische Optimierung

4. Dynamische Optimierung 4. Dynamische Optimierung Allgemeine Form dynamischer Optimierungsprobleme 4. Dynamische Optimierung Die dynamische Optimierung (DO) betrachtet Entscheidungsprobleme als eine Folge voneinander abhängiger

Mehr

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und

Mehr

Theorien für die Darstellung von Unsicherheit Ein Vergleich der Wahrscheinlichkeits-, Möglichkeits- und Dempster-Shafer Theorie

Theorien für die Darstellung von Unsicherheit Ein Vergleich der Wahrscheinlichkeits-, Möglichkeits- und Dempster-Shafer Theorie Theorien für die Darstellung von Unsicherheit Ein Vergleich der Wahrscheinlichkeits-, Möglichkeits- und Dempster-Shafer Theorie Johannes Leitner Inhalt I Modellierung von Unschärfe Unscharfe Mengen Unscharfe

Mehr

Internet-Suchmaschinen 1. Einführung

Internet-Suchmaschinen 1. Einführung Internet-Suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Einführung Internet-Suche Internet-Suche Beispiele Web-Suche 4 / 1 Internet-Suche Beispiele Produktsuche in Internet-Shops 5 / 1 Internet-Suche

Mehr

Kapitel 3: Etwas Informationstheorie

Kapitel 3: Etwas Informationstheorie Stefan Lucks 3: Informationstheorie 28 orlesung Kryptographie (SS06) Kapitel 3: Etwas Informationstheorie Komplexitätstheoretische Sicherheit: Der schnellste Algorithmus, K zu knacken erfordert mindestens

Mehr

im folgenden eine ausführliche Keyword-Analyse von cosmobutler.com.

im folgenden eine ausführliche Keyword-Analyse von cosmobutler.com. www.seosuisse.ch info@seosuisse.ch Zilmattweg 1 6403 Küssnacht Aug 15, 2014 Ihre persönliche Keyword-Analyse für cosmobutler.com Sehr geehrter Herr Beninca im folgenden eine ausführliche Keyword-Analyse

Mehr

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell

Mehr

Grundlagen des Multimediaretrievals

Grundlagen des Multimediaretrievals Grundlagen des Multimediaretrievals Vorlesung im Wintersemester 2005/2006 Prof. Dr. Michael Clausen Priv Doz. Dr. Frank Kurth Dr. Meinard Müller Institut für Informatik III Römerstraße 164 Rheinische Friedrich-Wilhelms-Universität

Mehr

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Computerlinguistik im Service Management eine neue Suche für TOPdesk Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk

Mehr

Der Nutzen von Webkommentaren für das keyword-basierte Multimedia-Retrieval

Der Nutzen von Webkommentaren für das keyword-basierte Multimedia-Retrieval Bauhaus-Universität Weimar Fakultät Medien Studiengang Mediensysteme Der Nutzen von Webkommentaren für das keyword-basierte Multimedia-Retrieval Masterarbeit Steffen Becker Matrikelnummer 51448 Geboren

Mehr

Soziale Netze erkennen und nutzen

Soziale Netze erkennen und nutzen Soziale Netze erkennen und nutzen Web-basierte soziale Netzwerke (Services) Katharina Böhnke 2005-01-19 Seminar Innovative IR-Verfahren Online Communities Friendster & Co. Soziale Netzwerke Web-basierte

Mehr

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Wahrscheinlichkeitstheorie Was will die Sozialwissenschaft damit? Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Auch im Alltagsleben arbeiten wir mit Wahrscheinlichkeiten, besteigen

Mehr

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density» & Karl Kratz Das ist. Jana ist Diplom- Mathematikerin und Controlling-Leiterin bei der Innovation Group AG. Ihr

Mehr

Formelsammlung Mathematik

Formelsammlung Mathematik Formelsammlug Mathematik 1 Fiazmathematik 1.1 Reterechug Sei der Zissatz p%, der Zisfaktor q = 1 + p 100. Seie R die regelmäßig zu zahlede Rate, die Laufzeit. Edwert: Barwert: achschüssig R = R q 1 q 1

Mehr

Bestimmung einer ersten

Bestimmung einer ersten Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,

Mehr

Künstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Künstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Künstliche Intelligenz Unsicherheit Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Rückblick Agent in der Wumpuswelt konnte Entscheidungen

Mehr

Einführung in die Tensorrechnung

Einführung in die Tensorrechnung 1. Definition eines Tensors Tensoren sind Grössen, mit deren Hilfe man Skalare, Vektoren und weitere Grössen analoger Struktur in ein einheitliches Schema zur Beschreibung mathematischer und physikalischer

Mehr

Extrema von Funktionen in zwei Variablen

Extrema von Funktionen in zwei Variablen Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen in zwei Variablen Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,

Mehr

Maximizing the Spread of Influence through a Social Network

Maximizing the Spread of Influence through a Social Network 1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2

Mehr

Datenbank- Recherche. SS 2015 8. Veranstaltung 18. Juni 2015. Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.

Datenbank- Recherche. SS 2015 8. Veranstaltung 18. Juni 2015. Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis. Datenbank- Recherche SS 2015 8. Veranstaltung 18. Juni 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz- InsFtut für SozialwissenschaJen 2 Themen der heu2gen

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr