Kapitel IR:III (Fortsetzung)

Größe: px
Ab Seite anzeigen:

Download "Kapitel IR:III (Fortsetzung)"

Transkript

1 Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches Modell IR:III-19 Retrieval Models STEIN

2 Klassische Retrieval-Modelle Taxonomie von Retrieval-Modellen unmittelbare Verwendung von Dokumenttermen Bool'sches Model Fuzzy-Set-Modell Vektorraummodell probabilistische Modelle (BIR, NBIR, Poisson, etc.) Retrieval- Modell verborgene Variablen, Konzepte algebraisches Modell Inferenznetzwerkmodelle generative Sprachmodelle (statistische Sprachmodelle) Reihenfolge-, Strukturinformation Suffix-Modell Textstrukturmodelle spezielle linguistische Merkmale Wortklassenmodelle Prinzip, Paradigma, linguistische Theorie IR:III-20 Retrieval Models STEIN

3 Klassische Retrieval-Modelle Die klassischen Retrieval-Modelle abstrahieren ein Dokument d D zu einer unstrukturierten Menge von Indextermen, die sich quasi unmittelbar und automatisch aus d gewinnen lassen. Die Dokumentrepräsentation d eines Dokumentes d besteht aus gewichteten Indextermen, die aus d stammen. Unterscheidung der klassischen Retrieval-Modelle: 1. Art und Weise, wie sich Gewichte w i für die Indexterme t i berechnen. 2. Art und Weise, wie formalisierte Anfragen q konstruierbar sind. 3. Art und Weise, wie sich die Retrieval-Funktion ρ R (q, d) berechnet. 4. Art und Weise, wie die Menge relevanter Dokumente R konstruiert wird. IR:III-21 Retrieval Models STEIN

4 Bool sches Modell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Nomen eines Korpus in ihrer Grundform die Menge der Indexterme T = {t 1,..., t m }. Die Repräsentation d eines Dokumentes d ist eine Abbildung von T nach {0, 1}, wobei d(w) = 1 bzw. d(w) = 0 als Term in d vorhanden bzw. nicht vorhanden interpretiert wird. Formalisierte Anfragenmenge Q. Eine formalisierte Anfrage q Q entspricht einer logischen Formel über dem Alphabet Σ = T, in der die Junktoren,, und Klammern verwendet werden können. Retrieval-Funktion ρ R. Die Dokumentrepräsentation d eines Dokumentes d induziert eine Interpretation I d für q; man setzt ρ R (q, d) = I d (q). Gilt ρ R (q, d) = 1, wird das Dokument d Element der Antwortmenge R. IR:III-22 Retrieval Models STEIN

5 Bool sches Modell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Nomen eines Korpus in ihrer Grundform die Menge der Indexterme T = {t 1,..., t m }. Die Repräsentation d eines Dokumentes d ist eine Abbildung von T nach {0, 1}, wobei d(w) = 1 bzw. d(w) = 0 als Term in d vorhanden bzw. nicht vorhanden interpretiert wird. Formalisierte Anfragenmenge Q. Eine formalisierte Anfrage q Q entspricht einer logischen Formel über dem Alphabet Σ = T, in der die Junktoren,, und Klammern verwendet werden können. Retrieval-Funktion ρ R. Die Dokumentrepräsentation d eines Dokumentes d induziert eine Interpretation I d für q; man setzt ρ R (q, d) = I d (q). Gilt ρ R (q, d) = 1, wird das Dokument d Element der Antwortmenge R. IR:III-23 Retrieval Models STEIN

6 Bool sches Modell Retrieval-Funktion ρ R t 1 t 2 (1, 0, 0) (0, 1, 0) t 3 (0, 0, 1) Welche Anfrage ist illustriert? IR:III-24 Retrieval Models STEIN

7 Bool sches Modell Retrieval-Funktion ρ R t 1 t 2 (1, 0, 0) (0, 1, 0) t 3 (0, 0, 1) Welche Anfrage ist illustriert? q = (t 1 t 2 t 3 ) (t 1 t 2 t 3 ) (t 1 t 2 t 3 ) t 1 (t 2 t 3 ) IR:III-25 Retrieval Models STEIN

8 Bool sches Modell Beispiel Dokumentrepräsentation: d = { (chrysler, 1), (deal, 1), (usa, 1), (china, 0), (cat, 0), (sales, 1), (dog, 0),... } Formalisierte Anfrage: q = usa (dog cat) (usa dog) (usa cat) (usa dog cat) (usa dog cat) (usa dog cat) Induzierte Interpretation: I d (q) = 1, wegen I d (usa) = 1, I d (dog) = 0 und I d (cat) = 0. IR:III-26 Retrieval Models STEIN

9 Bemerkungen: Das Zeichen steht für ist logisch äquivalent mit. Was bedeutet die logische Äquivalenz? IR:III-27 Retrieval Models STEIN

10 Bool sches Modell Diskussion Vorteile: Mächtigkeit: Prinzipiell kann mit einer Bool schen Anfrage jede beliebige Teilmenge von Dokumenten aus einer Kollektion selektiert werden. einfache und genaue Implementierbarkeit Nachteile: die Schwarz-Weiß-Aufteilung in die Menge R (bzw. R) der relevanten (bzw. nicht-relevanten) Dokumente ist zu streng keine Ordung auf der Antwortmenge R hinsichtlich der Relevanz die Größe der Antwortmenge ist schwierig zu kontrollieren keine Möglichkeit zur Gewichtung von Fragetermen umständliche Formulierung von Anfragen schlechte Retrieval-Qualität IR:III-28 Retrieval Models STEIN

11 Vektorraummodell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Wortsstämme aller Nicht-Stopworte eines Korpus die Menge der Indexterme T = {t 1,..., t m }. Der Wertebereich der Termgewichte ist R; für die Gewichtsberechnung existieren verschiedene Konzepte. Formalisierte Anfragenmenge Q. Eine formale Anfrage q Q hat den gleichen Aufbau wie eine Dokumentrepräsentation d D. Retrieval-Funktion ρ R. Dokumentrepräsentationen und formalisierte Fragen werden als Punkte eines orthonormalen Vektorraums interpretiert, der durch die Terme aufgespannt wird. Wichtige Ansätze zur Berechnung von ρ R sind das cos-ähnlichkeitsmaß und die euklidische Distanz. IR:III-29 Retrieval Models STEIN

12 Vektorraummodell Dokumentmodell D, Q, ρ R [allgemeines Dokumentmodell] Dokumentrepräsentationen D. Typischerweise bilden die Wortsstämme aller Nicht-Stopworte eines Korpus die Menge der Indexterme T = {t 1,..., t m }. Der Wertebereich der Termgewichte ist R; für die Gewichtsberechnung existieren verschiedene Konzepte. Formalisierte Anfragenmenge Q. Eine formale Anfrage q Q hat den gleichen Aufbau wie eine Dokumentrepräsentation d D. Retrieval-Funktion ρ R. Dokumentrepräsentationen und formalisierte Fragen werden als Punkte eines orthonormalen Vektorraums interpretiert, der durch die Terme aufgespannt wird. Wichtige Ansätze zur Berechnung von ρ R sind das cos-ähnlichkeitsmaß und die euklidische Distanz. IR:III-30 Retrieval Models STEIN

13 Bemerkungen: Das Vektorraummodel wurde 1983 in dem Retrieval-System SMART in der Arbeitsgruppe von Gerhard Salton an der Cornell University eingesetzt. Die Entwicklungen und Überlegungen von Saltons Arbeitsgruppe reichen viele Jahre zurück. IR:III-31 Retrieval Models STEIN

14 Vektorraummodell Retrieval-Funktion ρ R Definition des Skalarproduktes a T b zwischen zwei Vektoren a und b, mit ϕ als Winkel zwischen a und b : cos(ϕ) = a T b = a b cos(ϕ) a T b a b IR:III-32 Retrieval Models STEIN

15 Vektorraummodell Retrieval-Funktion ρ R Definition des Skalarproduktes a T b zwischen zwei Vektoren a und b, mit ϕ als Winkel zwischen a und b : cos(ϕ) = a T b = a b cos(ϕ) a T b a b Normalisiert man a und b hier bezeichnet als a und b gilt: a T b cos(ϕ) = a b = (a ) T b n = (a ) T b = a a b i b i i=1 D, Q, ρ R mit cos-ähnlichkeitsmaß: Definition von ρ R (q, d) als cos(ϕ), mit ϕ als Winkel zwischen q und d. IR:III-33 Retrieval Models STEIN

16 Vektorraummodell Retrieval-Funktion ρ R play d 1 ϕ d 2 boy father IR:III-34 Retrieval Models STEIN

17 Vektorraummodell Beispiel d 1 = chrysler w 1 usa w 2 cat w 3 dog w 4 mouse w 5 = chrysler 1 usa 4 cat 3 dog 7 mouse 5 d 1 = chrysler 0.1 usa 0.4 cat 0.3 dog 0.7 mouse 0.5, d 2 = chrysler 0.4 usa 0.1 cat 0.7 dog 0.5 mouse 0.3 Der Winkel ϕ zwischen d 1 und d 2 ist etwa 38, cos(ϕ) IR:III-35 Retrieval Models STEIN

18 Vektorraummodell Retrieval-Modell R Zur Berechnung der Termgewichte w im Vektorraummodell hat sich der tf-idf-ansatz bewährt [Sparck-Jones] : 1. In Dokument d j ist die Bedeutung eines Terms t i proportional zu seiner Häufigkeit. term frequency tf(t i, d j ); sie bezeichnet die Häufigkeit des Vorkommens von Term t i in Dokument d j. 2. Auf einen Korpus bezogen ist die Bedeutung eines Terms t i umgekehrt proportional zur Anzahl df(t i ) (document frequency) derjenigen Dokumente, die den Term t i beinhalten. inverse document frequency idf(t i ): n + 1 idf(t i ) = log( 2 df(t i ) + 1 ) n bezeichne die Anzahl der Dokumente in dem betrachteten Korpus. IR:III-36 Retrieval Models STEIN

19 Vektorraummodell Retrieval-Modell R Zur Berechnung der Termgewichte w im Vektorraummodell hat sich der tf-idf-ansatz bewährt [Sparck-Jones] : 1. In Dokument d j ist die Bedeutung eines Terms t i proportional zu seiner Häufigkeit. term frequency tf(t i, d j ); sie bezeichnet die Häufigkeit des Vorkommens von Term t i in Dokument d j. 2. Auf einen Korpus bezogen ist die Bedeutung eines Terms t i umgekehrt proportional zur Anzahl df(t i ) (document frequency) derjenigen Dokumente, die den Term t i beinhalten. inverse document frequency idf(t i ): n + 1 idf(t i ) = log( 2 df(t i ) + 1 ) n bezeichne die Anzahl der Dokumente in dem betrachteten Korpus. IR:III-37 Retrieval Models STEIN

20 Bemerkungen: Idee hinter idf(t): Ein Term t, der nur in wenigen Dokumenten vorkommt, besitzt hohes Diskriminierungspotential. Vergleiche das Konzept der Stopwort-Elimination hiermit. Zur Berechnung des Gewichts eines Terms t wird das Produkt aus tf(t) und idf(t) verwendet. IR:III-38 Retrieval Models STEIN

21 Vektorraummodell Retrieval-Modell R n + 1 Verlauf der Funktion idf(t) = ln( ) für Korpusgröße n = 100. df(t) + 1 idf(t) df(t) IR:III-39 Retrieval Models STEIN

22 Vektorraummodell Diskussion Vorteile: Termwichtung verbessert die Retrieval-Performanz Im Gegensatz zur Schwarz-Weiß-Situation beim Bool schen Modell erlaubt das partielle Matching ein Retrieval von Dokumenten, die die Bedingungen in den Anfragen approximieren. Die Retrieval-Funktion ρ R definiert eine Rangordnung unter den gefundenen Dokumente bzgl. ihrer Ähnlichkeit zur der Anfrage. Nachteile: Indexterme werden als voneinander unabhängig angesehen IR:III-40 Retrieval Models STEIN

23 Vektorraummodell Clusteranalyse im Vektorraum Cluster/Category A Cluster/Category B 1. Auswahl einer Retrieval-Funktion ρ R 2. Berechnung der Distanzmatrix mit Clusterabstandsmaß d C z. B. als 1 ρ R 3. Berechnung eines Clusterings C IR:III-41 Retrieval Models STEIN

24 Vektorraummodell Clusteranalyse im Vektorraum hierarchisch iterativ agglomerativ divisiv exemplarbasiert austauschbasiert Single-Link, Group Average Min-Cut-Analyse k-means, k-medoid Kerninghan-Lin Cluster- Analyse dichtebasiert punktdichtebasiert anziehungsbasiert DBSCAN MajorClust metasuchegesteuert gradientengesteuert konkurrenzgesteuert Simulated Annealing genetische Algorithmen statistisch Gauß-mischverteilt... IR:III-42 Retrieval Models STEIN

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Informationsverwaltung als selbstorganisierendes

Informationsverwaltung als selbstorganisierendes Informationsverwaltung als selbstorganisierendes und kontext-basiertes System Kerstin Schmidt, Competence Center Wirtschaftsinformatik, Hochschule München Prof. Dr. Peter Mandl, Competence Center Wirtschaftsinformatik,

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Ähnlichkeitssuche auf XML-Daten

Ähnlichkeitssuche auf XML-Daten Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

2 Volltext-Suchmaschinen

2 Volltext-Suchmaschinen 2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie

Mehr

Text Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai 2010 1 / 37

Text Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai 2010 1 / 37 Gliederung Text Mining OS Datamining SS 10 Thomas Boy 25. Mai 2010 1 / 37 Gliederung 1 Gliederung 2 Einleitung Motivation Konkretisierung 3 Allgemeines Definiton Text Mining Ablaufschema 4 Anwendungen

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density» & Karl Kratz Das ist. Jana ist Diplom- Mathematikerin und Controlling-Leiterin bei der Innovation Group AG. Ihr

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Cluster-Labeling. Masterarbeit

Cluster-Labeling. Masterarbeit Bauhaus-Universität Weimar Fakultät Medien Studiengang Mediensysteme Cluster-Labeling Paradigmen und Validierung Masterarbeit Dennis Hoppe Matrikelnummer 30090 Geboren am 14. April 1983 in Hameln 1. Gutachter:

Mehr

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen. Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich

Mehr

Entwurf und Implementierung einer XML-Volltext-Suchmaschine

Entwurf und Implementierung einer XML-Volltext-Suchmaschine Technische Universität Kaiserslautern Fachbereich Informatik AG Datenbanken und Informationssysteme Prof. Dr.-Ing. Dr. h.c. Theo Härder Entwurf und Implementierung einer XML-Volltext-Suchmaschine Diplomarbeit

Mehr

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009

tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 tf/idf computation Florian Thomas, Christian Reß Map/Reduce Algorithms on Hadoop 6. Juli 2009 1 tf/idf computation Was ist tf/idf? Verschiedene Implementierungen Map/Reduce-Aufbau Implementierungsbesonderheiten

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Data- und Text Mining. 2014 Prof. A. Müller, PMP FH Kaiserslautern

Data- und Text Mining. 2014 Prof. A. Müller, PMP FH Kaiserslautern Data- und Text Mining 2014 FH Kaiserslautern Text Mining - Grundlagen Indexierung Data-Structure inverted file Algorithmen Statistische Indexierung Zipf sche Gesetz Termhäufigkeiten Vektor-basierte Suche

Mehr

Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Clustering mit dem K-Means-Algorithmus (Ein Experiment) Clustering mit dem K-Means- (Ein Experiment) Andreas Runk 7. März 2013 Index 1 2 3 4 5 Andreas Runk Clustering mit dem K-Means- 2/40 Ziele: des K-Means Finde/erstelle geeignetes Testcorpus möglichst gute

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen. Lucene Hilfe Begriffe Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen. Ein einzelner Begriff ist ein einzelnes

Mehr

Einführung in die Fuzzy Logic

Einführung in die Fuzzy Logic Einführung in die Fuzzy Logic Entwickelt von L. Zadeh in den 60er Jahren Benutzt unscharfe (fuzzy) Begriffe und linguistische Variablen Im Gegensatz zur Booleschen Logik {0,} wird das ganze Intervall [0,]

Mehr

Large-Scale Image Search

Large-Scale Image Search Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Mehr

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. 5. Suchmaschinen. Herausforderungen beim Web Information Retrieval

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. 5. Suchmaschinen. Herausforderungen beim Web Information Retrieval 5. Suchmaschinen Herausforderungen beim Web Information Retrieval 5. Suchmaschinen Herausforderungen beim Web Information Retrieval Architektur von Suchmaschinen Spezielle Bewertungsfunktionen Information

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr

Zusammenfassung. 1 Wir betrachten die folgende Signatur F = {+,,, 0, 1} sodass. 3 Wir betrachten die Gleichungen E. 4 Dann gilt E 1 + x 1

Zusammenfassung. 1 Wir betrachten die folgende Signatur F = {+,,, 0, 1} sodass. 3 Wir betrachten die Gleichungen E. 4 Dann gilt E 1 + x 1 Zusammenfassung Zusammenfassung der letzten LV Einführung in die Theoretische Informatik Woche 7 Harald Zankl Institut für Informatik @ UIBK Wintersemester 2014/2015 1 Wir betrachten die folgende Signatur

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der

Mehr

Semantic Web Technologies I!

Semantic Web Technologies I! www.semantic-web-grundlagen.de Semantic Web Technologies I! Lehrveranstaltung im WS11/12! Dr. Elena Simperl! DP Dr. Sebastian Rudolph! M.Sc. Anees ul Mehdi! www.semantic-web-grundlagen.de Logik Grundlagen!

Mehr

Text Mining. Peter Kolb 25.6.2012

Text Mining. Peter Kolb 25.6.2012 Text Mining Peter Kolb 25.6.2012 Übersicht Big Data Information Retrieval vs. Text Mining Anwendungen Dokumentenähnlichkeit Termähnlichkeit Merkmalsauswahl und -Gewichtung Kategorisierung Clustering Big

Mehr

5. Aussagenlogik und Schaltalgebra

5. Aussagenlogik und Schaltalgebra 5. Aussagenlogik und Schaltalgebra Aussageformen und Aussagenlogik Boolesche Terme und Boolesche Funktionen Boolesche Algebra Schaltalgebra Schaltnetze und Schaltwerke R. Der 1 Aussagen Information oft

Mehr

1. Grundlegende Konzepte von Information Retrieval Systemen

1. Grundlegende Konzepte von Information Retrieval Systemen 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval 1. Grundlegende Konzepte von Information Retrieval Systemen Charakterisierung des Begriffs Information Retrieval Beispiele

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Information Retrieval

Information Retrieval Information Retrieval Bisher: Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse Neu: Die Informationen liegen in Datensammlungen

Mehr

Information Retrieval Modelle und neue Technologien. Stand : Februar 2006

Information Retrieval Modelle und neue Technologien. Stand : Februar 2006 Information Retrieval Modelle und neue Technologien Stand : Februar 2006 Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell besteht aus

Mehr

Grundlagen der Theoretischen Informatik - Sommersemester 2012. Übungsblatt 1: Lösungsvorschläge

Grundlagen der Theoretischen Informatik - Sommersemester 2012. Übungsblatt 1: Lösungsvorschläge Lehrstuhl für Softwaretechnik und Programmiersprachen Professor Dr. Michael Leuschel Grundlagen der Theoretischen Informatik - Sommersemester 2012 Übungsblatt 1: Lösungsvorschläge Disclaimer: Bei Folgendem

Mehr

Technische Universität Chemnitz. Fakultät für Informatik. Professur Medieninformatik. Diplomarbeit. von Jens Kürsten Matrikelnr.

Technische Universität Chemnitz. Fakultät für Informatik. Professur Medieninformatik. Diplomarbeit. von Jens Kürsten Matrikelnr. Technische Universität Chemnitz Fakultät für Informatik Professur Medieninformatik Diplomarbeit von Jens Kürsten Matrikelnr. 24538 Systematisierung und Evaluierung von Clustering-Verfahren im Information

Mehr

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an 9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf

Mehr

Mathematik I für Wirtschaftswissenschaftler

Mathematik I für Wirtschaftswissenschaftler 1 Mathematik I für Wirtschaftswissenschaftler Lösungsvorschläge zur Klausur am 01.08.2003. Bitte unbedingt beachten: a) Verlangt und gewertet werden alle vier gestellten Aufgaben. Alle Aufgaben sind gleichwertig.

Mehr

Information Retrieval in XML- Dokumenten

Information Retrieval in XML- Dokumenten Inhalt Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de I. Einführung II. III. IV. IR-Konzepte für XML XIRQL HyREX-Retrievalengine V. Zusammenfassung und

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl

Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl Universität ulm Seminar Data Mining Seminararbeit über Text Mining Matthias Stöckl 1 Inhaltsverzeichnis: 1. Einführung 2. Grundlagen 3. Erschließung des Dokumenteninhaltes 3.1. Schlüsselwortextraktion

Mehr

Clustering von Dokumenten (k-means, HCL)

Clustering von Dokumenten (k-means, HCL) Clustering von Dokumenten (k-means, HCL) Jonas Wolz Universität Ulm Zusammenfassung Ein Überblick über das Clustering von Dokumenten. Außerdem werden zwei dafür verwendete Algorithmen vorgestellt (k-means

Mehr

Alles nur Google? Das Innenleben der Suchmaschinen

Alles nur Google? Das Innenleben der Suchmaschinen Alles nur Google? Das Innenleben der Suchmaschinen Prof. Dr. Klaus Meyer-Wegener Friedrich-Alexander-Universität Technische Fakultät Institut für Informatik 1. Das World-wide Web (WWW) oft auch "Internet"

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine Prof. Dr. Peter Becker FH Bonn-Rhein-Sieg Fachbereich Informatik peter.becker@fh-bonn-rhein-sieg.de Vortrag im Rahmen des Studieninformationstags

Mehr

Fixpunktsemantik logischer Programme Pascal Hitzler Juli 1997 Kurzuberblick im Rahmen der Vorlesung Einfuhrung in Prolog von T. Cornell im Sommersemester 1997 an der Universitat Tubingen. Beweise sind

Mehr

Entwicklung eines korrekten Übersetzers

Entwicklung eines korrekten Übersetzers Entwicklung eines korrekten Übersetzers für eine funktionale Programmiersprache im Theorembeweiser Coq Thomas Strathmann 14.01.2011 Gliederung 1 Einleitung

Mehr

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha Vorgetragen von Matthias Altmann Mehrfache Datenströme Beispiel Luft und Raumfahrttechnik: Space Shuttle

Mehr

Methoden zur sprachübergreifenden Plagiaterkennung

Methoden zur sprachübergreifenden Plagiaterkennung Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik Fachgebiet Wissensbasierte Systeme Masterarbeit zur Erlangung des Grades Master of Science Methoden zur sprachübergreifenden

Mehr

Binäre Suchbäume (binary search trees, kurz: bst)

Binäre Suchbäume (binary search trees, kurz: bst) Binäre Suchbäume (binary search trees, kurz: bst) Datenstruktur zum Speichern einer endlichen Menge M von Zahlen. Genauer: Binärbaum T mit n := M Knoten Jeder Knoten v von T ist mit einer Zahl m v M markiert.

Mehr

Kapitel 13: Information-Retrieval Modelle

Kapitel 13: Information-Retrieval Modelle Kapitel : Information- Modelle Zielsetzung Information (IR) warum hier Thema? Wichtiges Teilgebiet von Informationssystemen, Überblick, besseres Verständnis von Informationssystemen ; Begrifflichkeiten

Mehr

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Informationen im Internet zu finden ist ein Kinderspiel! Wer sich für die Entwicklung des Ozonlochs interessiert, gibt auf

Mehr

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Computerlinguistik im Service Management eine neue Suche für TOPdesk Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk

Mehr

Such- und Klassifizierungsstrategien in elektronischen Produktkatalogen

Such- und Klassifizierungsstrategien in elektronischen Produktkatalogen Such- und Klassifizierungsstrategien in elektronischen Produktkatalogen Stefan Naumann, Rolf Krieger, Norbert Kuhn, Cordula Schürmann, Christian Sommer Institut für Softwaresysteme in Wirtschaft, Umwelt

Mehr

Bitte unbedingt beachten: a) Gewertet werden alle acht gestellten Aufgaben.

Bitte unbedingt beachten: a) Gewertet werden alle acht gestellten Aufgaben. Mathematik I für Wirtschaftswissenschaftler Klausur für alle gemeldeten Fachrichtungen außer Immobilientechnik und Immobilienwirtschaft am 9..9, 9... Bitte unbedingt beachten: a) Gewertet werden alle acht

Mehr

Datenbanken und Informationssysteme

Datenbanken und Informationssysteme Datenbanken und Informationssysteme Information Retrieval: Konzepte und Beispiele Burkhardt Renz Fachbereich MNI TH Mittelhessen Wintersemester 2015/16 Übersicht Konzepte des Information Retrieval Architektur

Mehr

u + v = v + u. u + (v + w) = (u + v) + w. 0 V + v = v + 0 V = v v + u = u + v = 0 V. t (u + v) = t u + t v, (t + s) u = t u + s u.

u + v = v + u. u + (v + w) = (u + v) + w. 0 V + v = v + 0 V = v v + u = u + v = 0 V. t (u + v) = t u + t v, (t + s) u = t u + s u. Universität Stuttgart Fachbereich Mathematik Prof. Dr. C. Hesse PD Dr. P. H. Lesky Dipl. Math. D. Zimmermann Msc. J. Köllner FAQ 3 Höhere Mathematik I 4..03 el, kyb, mecha, phys Vektorräume Vektorräume

Mehr

Programmierung und Modellierung

Programmierung und Modellierung Programmierung und Modellierung Terme, Suchbäume und Pattern Matching Martin Wirsing in Zusammenarbeit mit Moritz Hammer SS 2009 2 Inhalt Kap. 7 Benutzerdefinierte Datentypen 7. Binärer Suchbaum 8. Anwendung:

Mehr

Eine vorprozessierte Variante von Scatter/Gather

Eine vorprozessierte Variante von Scatter/Gather Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Ausarbeitung zum Blockseminar Invisible Web Eine vorprozessierte Variante von

Mehr

Information Retrieval [IR 4]

Information Retrieval [IR 4] Information Retrieval [IR 4] Übungen und Wiederholungsfragen zur Prüfungsvorbereitung Winfried Gödert / Klaus Lepsky 21. Oktober 2015 Institut für Informationswissenschaft Fachhochschule Köln Claudiusstraße

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen SVM Textkategorisierung Katharina Morik, Claus Weihs LS 8 Informatik 24.5.2011 1 von 46 Gliederung LS 8 Informatik 1 Web Mining Information Retrieval 2 Textklassifikation

Mehr

Cluster-basiertes Browsing in Peer-to-Peer-Netzen

Cluster-basiertes Browsing in Peer-to-Peer-Netzen Diplomarbeit Cluster-basiertes Browsing in Peer-to-Peer-Netzen André Nurzenski Diplomarbeit im Vertiefungsgebiet Unterstützende Informationssysteme des Studiengangs Angewandte Informatik an der Universität

Mehr

Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion

Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Evaluierung eines entscheidungstheoretischen Modells zur Datenbankselektion Norbert Gövert 1 Universität Dortmund Zusammenfassung Eines der zentralen robleme auf dem Gebiet des Information Retrieval in

Mehr

Kapitel 15: Differentialgleichungen

Kapitel 15: Differentialgleichungen FernUNI Hagen WS 00/03 Kapitel 15: Differentialgleichungen Differentialgleichungen = Gleichungen die Beziehungen zwischen einer Funktion und mindestens einer ihrer Ableitungen herstellen. Kommen bei vielen

Mehr

Logik für Informatiker

Logik für Informatiker Logik für Informatiker 2. Aussagenlogik Teil 3 30.04.2012 Viorica Sofronie-Stokkermans Universität Koblenz-Landau e-mail: sofronie@uni-koblenz.de 1 Letztes Mal Aussagenlogik Syntax: welche Formeln? Semantik:

Mehr

Maximizing the Spread of Influence through a Social Network

Maximizing the Spread of Influence through a Social Network 1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2

Mehr

Text Mining. http://www.know-center.at/swat. Michael Granitzer mgrani@know-center.at. Know-Center - gefördert im Programm IWM TU Graz

Text Mining. http://www.know-center.at/swat. Michael Granitzer mgrani@know-center.at. Know-Center - gefördert im Programm IWM TU Graz Text Mining Michael Granitzer mgrani@know-center.at /swat Know-Center - gefördert im Programm IWM TU Graz Inhalt Ein paar Zahlen zur Motivation Vorverarbeitung von Texten Vektorraummodell Maschinelle Lernmethoden

Mehr

A.1 Schaltfunktionen und Schaltnetze

A.1 Schaltfunktionen und Schaltnetze Schaltfunktionen und Schaltnetze A. Schaltfunktionen und Schaltnetze 22 Prof. Dr. Rainer Manthey Informatik II Bedeutung des Binärsystems für den Rechneraufbau Seit Beginn der Entwicklung von Computerhardware

Mehr

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser

Mehr

Programmcode muss in englischer Sprache verfasst sein. Achten Sie auf fehlerfrei kompilierenden Programmcode 1

Programmcode muss in englischer Sprache verfasst sein. Achten Sie auf fehlerfrei kompilierenden Programmcode 1 Programmieren Sommersemester 2014 Forschungsgruppe Verikation trit Algorithmik http://baldur.iti.kit.edu/programmieren Dr. Carsten Sinz Markus Iser Abschlussaufgabe 1 Ausgabe: 04.08.2014 13:00 Abgabe:

Mehr

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung 5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen

Mehr

1 Aussagenlogik und Mengenlehre

1 Aussagenlogik und Mengenlehre 1 Aussagenlogik und engenlehre 1.1 engenlehre Definition (Georg Cantor): nter einer enge verstehen wir jede Zusammenfassung von bestimmten wohl unterschiedenen Objekten (m) unserer Anschauung oder unseres

Mehr

Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval

Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval Spektrale Bloom-Filter für Peer-to-Peer Information Retrieval Martin Eisenhardt, Wolfgang Müller, Andreas Henrich LS AI 1, Universität Bayreuth martin.eisenhardt@uni-bayreuth.de Abstract: Spektrale Bloomfilter

Mehr

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x

Mehr

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden IR im Web 9. IR im Web bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden müssen Einführung in Information Retrieval 394 Probleme verteilte Daten: Daten sind auf vielen

Mehr

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie und, oder, nicht, wenn... dann zwischen atomaren und komplexen Sätzen. I. Aussagenlogik 2.1 Syntax Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen. Sätze selbst sind entweder wahr oder falsch. Ansonsten

Mehr

Suchmaschinen. Heiko Fröhlich. 29. Juni 2005. Ausarbeitung zum Proseminar Text Mining an der Uni Ulm SS2005. 1 Aufgabe von Suchmaschinen 2

Suchmaschinen. Heiko Fröhlich. 29. Juni 2005. Ausarbeitung zum Proseminar Text Mining an der Uni Ulm SS2005. 1 Aufgabe von Suchmaschinen 2 Suchmaschinen Heiko Fröhlich 29. Juni 2005 Ausarbeitung zum Proseminar Text Mining an der Uni Ulm SS2005 Inhaltsverzeichnis 1 Aufgabe von Suchmaschinen 2 2 Gewöhnliche Suchmaschinen wie z.b Google 2 2.1

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining 1 Volltextsuche und Text Mining Datum: 22.12.2009 Seminar: Einführung in die Computerlinguistik Referenten: Cornelia Baldauf, Valentin Heinz, Adriana Kosior 2 Agenda 1. Einführung a) Volltextsuche b) Text

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust. Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn

Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust. Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn Analyse dichtebasierter Clusteralgorithmen am Beispiel von DBSCAN und MajorClust Michael Busch Studienarbeit WS 2004/2005 Universität Paderborn 22. März 2005 ii Analyse dichtebasierter Clusteralgorithmen

Mehr

Mathematischer Vorkurs für Physiker WS 2009/10

Mathematischer Vorkurs für Physiker WS 2009/10 TU München Prof. Dr. P. Vogl, Dr. S. Schlicht Mathematischer Vorkurs für Physiker WS 2009/10 Vorlesung 1, Montag vormittag Vektoralgebra Ein Vektor lässt sich geometrisch als eine gerichtete Strecke darstellen,

Mehr