IR Seminar SoSe 2012 Martin Leinberger
|
|
- Willi Ziegler
- vor 6 Jahren
- Abrufe
Transkript
1 IR Seminar SoSe 2012 Martin Leinberger
2 Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite Seite Meistens 1 relevantes Ergebnis ausreichend Oder Anfrage wird neu formuliert 2
3 Meistens müssen also nicht alle relevanten Ergebnisse gefunden werden Es reicht die Top-K Ergebnisse zu finden Die k Ergebnisse mit dem besten Retrieval Wert Wie kann das effizient geschehen? 3
4 4
5 System enthält Dokumente Hauptsächlich Terme von Interesse Invertierter Index als Suchbaum Für jeden Term wird Postingliste erstellt Enthält Referenz (zb Dok-Id) auf Dokumente in denen der Term vorkommt Term und seine Postingliste wird in Invertierten Index abgelegt 5
6 Invertierter Index bildet also Terme auf Listen ab Quelle: Web Information Retrieval Vorlesung, SoSe
7 Praxis: Listen und Terme sind attributiert Sind also eher Tupel Meistens Gewichte mit Aussage über Wichtigkeit des Terms in Dokument zb Termfrequenz Listen können sortiert sein Dokumenten-Id Werten wie Termfrequenz 7
8 Quelle: Web Information Retrieval Vorlesung, SoSe
9 Retrievalfunktion berechnet Relevanz von Dokument bzgl Anfrage (Retrievalwert) Aggregiert Werte aus Postinglisten Benutzt die Postinglisten von für Anfrage wichtigen Termen Kosinusmaß (Vektorraum-Modell) BM-25 (Probabilistisches IR) 9
10 Üblicherweise sollte Retrievalfunktion monoton sein f x 1,, x m f x 1,, x m wenn x i x i für jedes i Wenn ein Dokument geringere Termgewichte für jeden Term hat, ist der Relevanzwert auch geringer Einzige Voraussetzung, genaue Funktion für hier vorgestellte Algorithmen unwichtig 10
11 Ergebnis ist Teilmenge der Dokumente Tupel aus Dokument und Retrievalwert Zurückgegeben werden Dokumente deren Relevanzwert über einem Grenzwert liegen Im Top-K Retrieval: Grenzwert ist Relevanzwert des k-ten Ergebnisses Im Normalfall unbekannt 11
12 12
13 Jeder Term aus Anfrage wird nacheinander bearbeitet Retrievalwert für Dokument wird nach und nach vervollständigt (Akkumulator) Liste für jeden Term muss vollständig durchlaufen werden Für jedes gesehene Dokument muss Variable angelegt werden 13
14 Alle gesehenen Dokumente müssen sortiert werden Danach kann auf Top-K Dokumente zugegriffen werden 14
15 Jedes Dokument wird vollständig berechnet Erst dann wird das nächste begonnen Listen für Term sollten nach Dokument-Id sortiert sein Können parallel durchlaufen werden 15
16 Listen müssen wieder vollständig durchlaufen werden Aber: Nur k Variablen benötigt Wenn Retrievalwert für Dokument fertig berechnet: Minimum der k besten Dokumente suchen Falls Retrievalwert größer wird, Minimum ersetzt Abschließend müssen die k Dokumente sortiert werden 16
17 Der Datenkorpus kann sehr groß werden Listen haben Millionen von Einträgen Liste komplett durchlaufen dauert sehr lange Variable für jeden Eintrag? Prinzipiell muss ein Weg für den early-out gefunden werden 17
18 18
19 Algorithmen kommen von Multimedia DBs Vereinen unterschiedliche Datenquellen Videos, Bilder, Nutzen gleiche Datenstrukturen wie IR Eigenschaften haben Listen zugeordnet Listen enthalten Referenzen auf Objekte und deren Eigenschaftswert 19
20 Listen dürfen nicht ganz gelesen werden Gute Ergebnisse haben hohe Werte (Termgewichte) Forderung: Listen sind nach Termgewicht sortiert Monotonie der Retrievalfunktion ausnutzen 20
21 Unterscheidung in Sequential und Random Access Sequential Access bedeutet auf Eintrag in Liste zuzugreifen Sehr schnell Random Access bedeutet auf Eigenschaftswert von Dokument zuzugreifen mal teurer als sequentieller Zugriff 21
22 22
23 Implementiert in IBM Garlic (experimentelle Multimedia Datenbank) Grundidee: Sammle so viele hochwertige Dokumente wie nötig Benötigt beliebig viele Variablen 23
24 1 Greife parallel auf Listen zu (sequentiell) Speichere jedes neu gefundene Dokument Update bereits bekannte Wiederhole bis k Dokumente in allen Listen vorkamen (betrachtete Dokumente = Menge H) 2 Finde fehlende Gewichte mit Random Accesses 3 Gebe Top-K Dokumente und ihre Gewichte zurück 25
25 Folgt offensichtlich aus Monotonie Ist Dokument nicht in H müssen alle Werte kleiner sein als die der k Dokumente, die in allen Listen waren Also kann der Retrieval Wert nicht höher sein 26
26 Gesucht ist Top 2 Retrieval-/Aggregationsfunktion ist sum() Dokumente haben 2 Terme 27
27 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 09) (a, 085) (b, 07) ID a d A 1 09 A 2 Sum(A 1,A 2 ) 09 (d, 05) (c, 02) 28
28 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 09) (a, 085) (b, 07) ID a d b A A 2 Sum(A 1,A 2 ) (d, 05) (c, 02) 29
29 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) ID a d b c A A 2 Sum(A 1,A 2 ) 2 Objekte in allen Listen gefunden 30
30 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) ID a d b c A A 2 Sum(A 1,A 2 ) Herausfinden der restlichen Eigenschaften (Random Access) 31
31 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 06) (d, 09) (a, 085) (b, 07) (c, 02) ID a d b c A A Sum(A 1,A 2 ) Berechnen der Werte, Rückgabe der besten 2 32
32 33
33 Grundidee: Berechne Grenzwert, ab dem keine besseren Dokumente auftreten können Berechne finalen Retrievalwert sofort Benötigt nur k Variablen 34
34 1 Expandiere alle Listen parallel Finde für neue Dokumente alle fehlenden Eigenschaften (Random Access) Berechne Retrievalwert 2 Finde Werte der letzten gesehenen Dokumente aus jeder Liste Ist eine obere Grenze (Sortierung) Berechne davon den aggregierten Wert (Grenzwert τ) 3 Wiederhole bis min k Dokumente gefunden wurden, deren Wert τ ist 35
35 Kann ein Dokument z mit Termen x 1,, x m besser sein als ein Dokument y in Ergebnismenge? Wir haben z noch nicht betrachtet Ansonsten wäre es ein Kandidat für die Ergebnismenge gewesen Also muss x i x i für jedes i gelten (x i = beobachtetes Minimum) Also f z = f x 1,, x m f x 1,, x m = τ Also f y τ f(z) 36
36 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 09) (a, 085) (b, 07) ID a d A A Sum(A 1,A 2 ) Zugriff auf erste Einträge Herausfinden der restlichen Werte per Random Access (d, 05) (c, 02) τ = sum 09; 09 = 18 37
37 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) ID a b A A Sum(A 1,A 2 ) Da der Wert von b größer als der von d ist, wird d entfernt a ist bereits bekannt τ = sum 08; 085 =
38 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) ID a b A A Sum(A 1,A 2 ) Da c kleiner als b ist, wird c nicht aufgenommen τ = sum 072; 07 = 1 42 Da alle Objekte in Ergebnismenge τ sind, terminiert der Algorithmus 39
39 40
40 Wann ist der optimale Zeitpunkt für ein RA? Nächster Eintrag könnte fehlende Eigenschaft haben (verschwendet) Oder erst Eintrag 1000 Einträge weiter Strategien: Ein RA erlaubt nach C sequentiellen Zugriffen RAs erlaubt nachdem alle Top-K Dokumente gefunden und Kosten für RA Kosten für sequentiellen Zugriff 41
41 Was ist, wenn RAs nicht möglich? 2 Ansätze um ohne RAs auszukommen Mehr sequentielle Zugriffe akzeptieren Nicht mehr den finalen Retrievalwert fordern Auch wenn Dokumente nur teilweise bekannt sind, lässt sich Grenzwert finden Allerdings dann eher (unsortierte) Menge der Top-K Dokumente 42
42 43
43 Threshold Algorithmus ohne Random Accesses Berechnet nur die Menge der Top-K Dokumente ohne finalen Retrieval Wert hat nur temporären Retrieval Wert Reihenfolge möglich, indem man nach Top-1 sucht, dann nach Top-2, Benötigt beliebig viele Variablen 44
44 Benutzt worst und best score für Dokumente Worst score: nur bekannte Gewichte (Rest 0) Best score: für unbekannte Gewichte wird beobachtetes Minimum in Listen angenommen Abbruchbedingung: Wenn worst score der Top-K besser ist als best score des Rests 45
45 1 Expandiere alle Listen gleichzeitig Update Termgewichte der Dokumente 2 Merke Gewicht des letzten gesehenen Dokuments aus jeder Liste Berechne best und worst score für jedes gesehene Dokument 3 Wiederhole bis worst score der Top-K besser ist als best Score der sonstigen gefundenen Dokumenten 46
46 Menge ist Ergebnis T k = {R 1,, R k } R gehört nicht dazu Damit das sein kann muss gelten, dass b R w(r i ) Wir wissen, dass b R f R und w R i f(r i ) Also ist f R f(r i ) 47
47 L 1 L 2 (a, 09) (d, 09) (b, 08) (a, 085) worst = sum(09, 0) TOP-K ID worst best = sum(09,09) best (c, 072) (b, 07) a (d, 05) (c, 02) d Kandidaten ID worst best 48
48 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) worst = sum(09, 0) ID a d TOP-K worst best ID worst best b Kandidaten best = sum(09, 08) 49
49 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) TOP-K ID worst best a d Kandidaten ID worst best b c
50 L 1 L 2 (a, 09) (b, 08) (c, 072) (d, 05) (d, 09) (a, 085) (b, 07) (c, 02) TOP-K ID worst best a b Kandidaten ID worst best d c Worst Score der Top-K ist besser als best score der Kandidaten => Terminiert 51
51 52
52 Aus Zeitgründen leider hier nicht vollständig vorgestellt In der Ausarbeitung jedoch vorgestellt Grundidee: Greife so lange sequentiell zu bis k Dokumente vollständig bekannt sind Benutze Minima aus Listen als obere Grenze um temporären Retrievalwert zu berechnen 53
53 Dokument kann ausgegeben werden wenn Es vollständig bekannt ist Kein besseres Dokument mit unbekannten Werten mehr existiert Funktioniert da sich Retrievalwert immer nur verschlechtern kann Nutzer kann schon mit Dokumenten arbeiten obwohl Algorithmus noch nicht terminiert 54
54 63
55 Alle vorgestellten Algorithmen versuchen möglichst früh zu terminieren Nutzen Sortierung und Monotonie aus Random Accesses sind problematisches Thema Beschleunigen sie oder verlangsamen sie? Welche Listen sollten zuerst expandiert werden? 64
56 Anderer Ansatz sind Approximation Algorithms Wir fordern bisher die k Dokumente mit bestem Retrievalwert Nutzer interessiert Retrievalwert nicht, sondern nur Relevanz Ein relevantes Dokument oft schon ausreichend 65
57 Forderung ist zu strikt Nutzer merkt nicht ob Ergebnis wirklich k Dokumente mit bestem Retrievalwert sind Es reichen die ungefähren Top-K Nicht nötig die wirklichen Top-K Ergebnisse zu finden 66
58 Vielen Dank für die Aufmerksamkeit! 67
Inverted Files for Text Search Engines
Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung
MehrEffiziente Algorithmen
Effiziente Algorithmen Aufgabe 5 Gruppe E Martin Schliefnig, 0160919 Christoph Holper, 9927191 Ulrike Ritzinger, 0125779 1. Problemstellung Gegeben ist eine Datei, die eine Million reelle Zahlen enthält.
Mehr1 Boolesches Retrieval (2)
2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des
MehrÜbung zu Einführung in die Informatik # 10
Übung zu Einführung in die Informatik # 10 Tobias Schill tschill@techfak.uni-bielefeld.de 15. Januar 2016 Aktualisiert am 15. Januar 2016 um 9:58 Erstklausur: Mi, 24.02.2016 von 10-12Uhr Aufgabe 1* a),
Mehr(27 - Selbstanordnende lineare Listen)
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 - Selbstanordnende lineare Listen) Prof. Dr. Susanne Albers Problemstellung Gegeben sei eine Menge von Objekten (Schlüsseln), auf die mit zeitlich
MehrGrundlagen der Programmierung
Grundlagen der Programmierung Algorithmen und Datenstrukturen Die Inhalte der Vorlesung wurden primär auf Basis der angegebenen Literatur erstellt. Darüber hinaus sind viele Teile direkt aus der Vorlesung
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
MehrÜbungsaufgaben mit Lösungsvorschlägen
Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Wintersemester 2013/14 1. Vorlesung Kapitel 1: Sortieren Prof. Dr. Alexander Wolff Lehrstuhl für Informatik I Das Problem Eingabe Gegeben: eine Folge A = a 1, a 2,..., a
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
MehrEinführung in die Informatik I Kapitel II.3: Sortieren
1 Einführung in die Informatik I Kapitel II.3: Sortieren Prof. Dr.-Ing. Marcin Grzegorzek Juniorprofessur für Mustererkennung im Institut für Bildinformatik Department Elektrotechnik und Informatik Fakultät
MehrAbgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:
TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 2 Prof. Dr. Helmut Seidl, S. Pott,
MehrDatenstrukturen & Algorithmen
Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrErfolgreich suchen im Internet
Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität
MehrIndexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.
Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:
MehrCAS genesisworld.exchange connect Abgleich von Adressen und Terminen
Abgleich von Adressen und Terminen Stand Juni 2004 Was ist CAS genesisworld.exchange connect? Inhalt 1 Was ist CAS genesisworld.exchange connect?... 3 2 Systemvoraussetzungen... 5 2.1 Software...5 2.2
MehrBranch-and-Bound. Wir betrachten allgemein Probleme, deren Suchraum durch Bäume dargestellt werden kann. Innerhalb des Suchraums suchen wir
Effiziente Algorithmen Lösen NP-vollständiger Probleme 289 Branch-and-Bound Wir betrachten allgemein Probleme, deren Suchraum durch Bäume dargestellt werden kann. Innerhalb des Suchraums suchen wir 1.
Mehr5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen
5. Suchmaschinen Herausforderungen beim Web Information Retrieval 5. Suchmaschinen 5. Suchmaschinen Herausforderungen beim Web Information Retrieval Verweisstrukturen haben eine wichtige Bedeutung Spamming
MehrTextdokument-Suche auf dem Rechner Implementierungsprojekt
Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick
MehrKapitel 8: Physischer Datenbankentwurf
8. Physischer Datenbankentwurf Seite 1 Kapitel 8: Physischer Datenbankentwurf Speicherung und Verwaltung der Relationen einer relationalen Datenbank so, dass eine möglichst große Effizienz der einzelnen
MehrSortierverfahren für Felder (Listen)
Sortierverfahren für Felder (Listen) Generell geht es um die Sortierung von Daten nach einem bestimmten Sortierschlüssel. Es ist auch möglich, daß verschiedene Daten denselben Sortierschlüssel haben. Es
MehrVom Leichtesten zum Schwersten Sortieralgorithmen
Aktivität 7 Vom Leichtesten zum Schwersten Sortieralgorithmen Zusammenfassung Häufig verwendet man Computer dazu Listen von Elementen in eine bestimmte Ordnung zu bringen. So kann man beispielsweise Namen
Mehr5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c)
5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c) mit V = {1,...,n} und E {(v, w) 1 apple v, w apple n, v 6= w}. c : E!
MehrAlgorithmen & Programmierung. Rekursive Funktionen (1)
Algorithmen & Programmierung Rekursive Funktionen (1) Berechnung der Fakultät Fakultät Die Fakultät N! einer nichtnegativen ganzen Zahl N kann folgendermaßen definiert werden: d.h. zur Berechnung werden
MehrÜbersicht. Datenstrukturen und Algorithmen Vorlesung 5: Rekursionsgleichungen (K4) Übersicht. Binäre Suche. Joost-Pieter Katoen. 20.
Übersicht Datenstrukturen und Algorithmen Vorlesung 5: (K4) Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://www-i2.informatik.rwth-aachen.de/i2/dsal12/ 20.
MehrDokumentation Authentische Strukturdaten
Dokumentation Version 1.1 Version 1.0 Seite 1/18 31.10.2008 Inhaltsverzeichnis 1. Allgemeines...3 1.1 Phasenmodell...3 1.1.1 Phase I...3 1.1.2 Phase II...3 1.1.3 Phase III...3 1.2 Datenaktualität...3 2.
MehrTechnische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen
Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen 186.172 Algorithmen und Datenstrukturen 1 VL 4.0 Übungsblatt 4 für die Übung
MehrLineare Algebra II 5. Übungsblatt
Lineare Algebra II Übungsblatt Fachbereich Mathematik SS Prof Dr Kollross / Mai Susanne Kürsten Tristan Alex Gruppenübung Aufgabe G (Algebraisch abgeschlossener Körper) Ein Körper heißt algebraisch abgeschlossen,
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrPrototypische Komponenten eines Information Retrieval Systems: Vektormodell
Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003
MehrNichtlineare Optimierung ohne Nebenbedingungen
Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrVorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14
Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14
MehrGrundlagen der Künstlichen Intelligenz
Grundlagen der Künstlichen Intelligenz 9. Klassische Suche: Baumsuche und Graphensuche Malte Helmert Universität Basel 13. März 2015 Klassische Suche: Überblick Kapitelüberblick klassische Suche: 5. 7.
MehrRanking by Reordering Tobias Joppen
Ranking by Reordering Tobias Joppen 09.07.2014 Fachbereich Informatik Knowledge Engineering Prof. Johannes Fürnkranz 1 Überblick Einleitung Rank-differential Methode Idee Problemdefinition Beispiel Vereinfachung
MehrTheoretische Informatik Kap 1: Formale Sprachen/Automatentheorie
Gliederung der Vorlesung. Grundbegriffe. Formale Sprachen/Automatentheorie.. Grammatiken.2..3. Kontext-freie Sprachen 2. Berechnungstheorie 2.. Berechenbarkeitsmodelle 2.2. Die Churchsche These 2.3. Unentscheidbarkeit
MehrSuchmaschinenalgorithmen. Vortrag von: Thomas Müller
Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:
Mehr1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben?
Die Themen 1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben? Er sollte von wirklichen Zufallsgeneratoren nicht unterscheidbar sein?! Eine viel zu starke Forderung: Stattdessen sollte ein
MehrKlausur Informatik B April Teil I: Informatik 3
Informatik 3 Seite 1 von 8 Klausur Informatik B April 1998 Teil I: Informatik 3 Informatik 3 Seite 2 von 8 Aufgabe 1: Fragekatalog (gesamt 5 ) Beantworten Sie folgende Fragen kurz in ein oder zwei Sätzen.
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrDas Briefträgerproblem
Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................
MehrEinführung in Heuristische Suche
Einführung in Heuristische Suche Beispiele 2 Überblick Intelligente Suche Rundenbasierte Spiele 3 Grundlagen Es muss ein Rätsel / Puzzle / Problem gelöst werden Wie kann ein Computer diese Aufgabe lösen?
MehrKapitel 2: Analyse der Laufzeit von Algorithmen Gliederung
Gliederung 1. Motivation / Einordnung / Grundlagen 2. Analyse der Laufzeit von Algorithmen 3. Untere Schranken für algorithmische Probleme 4. Sortier- und Selektionsverfahren 5. Paradigmen des Algorithmenentwurfs
MehrAnwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen
Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung
MehrUniversität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme
Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar
MehrAlgorithmen und Datenstrukturen. Große Übung vom 29.10.09 Nils Schweer
Algorithmen und Datenstrukturen Große Übung vom 29.10.09 Nils Schweer Diese Folien Braucht man nicht abzuschreiben Stehen im Netz unter www.ibr.cs.tu-bs.de/courses/ws0910/aud/index.html Kleine Übungen
MehrZugriff auf Matrizen. Anhängen von Elementen. Punktweise Operatoren. Vektoren und Matrizen in MATLAB II
Zugriff auf Matrizen. Anhängen von Elementen. Punktweise Operatoren. Vektoren und Matrizen in MATLAB II Matrixzugriff Wir wollen nun unsere Einführung in die Arbeit mit Vektoren und Matrizen in MATLAB
Mehr8 Euklidische Vektorräume und Fourierreihen
Mathematik für Ingenieure II, SS 9 Dienstag 7.7 $Id: fourier.te,v 1.6 9/7/7 13:: hk Ep $ $Id: diff.te,v 1. 9/7/7 16:13:53 hk Ep $ 8 Euklidische Vektorräume und Fourierreihen 8.4 Anwendungen auf Differentialgleichungen
MehrFrequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
MehrAusgangspunkt: punktförmige hochdimensionale Feature-Objekte
Baumverfahren Ausgangspunkt: punktförmige hochdimensionale Feature-Objekte B-Baum eindimensional Abbildung eines mehrdimensionalen Raums auf eine Dimension im Allgemeinen nicht distanzerhaltend möglich
MehrViews in SQL. 2 Anlegen und Verwenden von Views 2
Views in SQL Holger Jakobs bibjah@bg.bib.de, holger@jakobs.com 2010-07-15 Inhaltsverzeichnis 1 Wozu dienen Views? 1 2 Anlegen und Verwenden von Views 2 3 Schreibfähigkeit von Views 3 3.1 Views schreibfähig
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
Mehr1. Aufgabe [2 Punkte] Seien X, Y zwei nicht-leere Mengen und A(x, y) eine Aussageform. Betrachten Sie die folgenden Aussagen:
Klausur zur Analysis I svorschläge Universität Regensburg, Wintersemester 013/14 Prof. Dr. Bernd Ammann / Dr. Mihaela Pilca 0.0.014, Bearbeitungszeit: 3 Stunden 1. Aufgabe [ Punte] Seien X, Y zwei nicht-leere
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens aw@awilkens.com Überblick Grundlagen Definitionen Elementare Datenstrukturen Rekursionen Bäume 2 1 Datenstruktur Baum Definition eines Baumes
MehrVorkurs Informatik WiSe 15/16
Konzepte der Informatik Dr. Werner Struckmann / Stephan Mielke, Jakob Garbe, 16.10.2015 Technische Universität Braunschweig, IPS Inhaltsverzeichnis Suchen Binärsuche Binäre Suchbäume 16.10.2015 Dr. Werner
MehrSQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT
SQL SQL SELECT Anweisung Mit der SQL SELECT-Anweisung werden Datenwerte aus einer oder mehreren Tabellen einer Datenbank ausgewählt. Das Ergebnis der Auswahl ist erneut eine Tabelle, die sich dynamisch
Mehr5. Suchmaschinen Herausforderungen beim Web Information Retrieval. 5. Suchmaschinen. Herausforderungen beim Web Information Retrieval
5. Suchmaschinen Herausforderungen beim Web Information Retrieval 5. Suchmaschinen Herausforderungen beim Web Information Retrieval Architektur von Suchmaschinen Spezielle Bewertungsfunktionen Information
MehrKürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik
Kürzeste Wege in Graphen Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik Gliederung Einleitung Definitionen Algorithmus von Dijkstra Bellmann-Ford Algorithmus Floyd-Warshall Algorithmus
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Datenstrukturen: Anordnung von Daten, z.b. als Liste (d.h. in bestimmter Reihenfolge) Beispiel: alphabetisch sortiertes Wörterbuch... Ei - Eibe - Eidotter... als Baum (d.h.
MehrHöhere Mathematik für Physiker II
Universität Heidelberg Sommersemester 2013 Wiederholungsblatt Übungen zur Vorlesung Höhere Mathematik für Physiker II Prof Dr Anna Marciniak-Czochra Dipl Math Alexandra Köthe Fragen Machen Sie sich bei
MehrDer linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v)
Ein Baum T mit Knotengraden 2, dessen Knoten Schlüssel aus einer total geordneten Menge speichern, ist ein binärer Suchbaum (BST), wenn für jeden inneren Knoten v von T die Suchbaumeigenschaft gilt: Der
MehrBestimmung einer ersten
Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,
MehrKapitel 9. Komplexität von Algorithmen und Sortieralgorithmen
1 Kapitel 9 Komplexität von Algorithmen und Sortieralgorithmen Ziele 2 Komplexität von Algorithmen bestimmen können (in Bezug auf Laufzeit und auf Speicherplatzbedarf) Sortieralgorithmen kennenlernen:
MehrIndexstrukturen in XML
Seminar XML und Datenbanken Indexstrukturen in XML Vanessa Schäfer 07.02.2003 Übersicht Einführung Indexstrukturen in XML Ein Vergleich SphinX vs. Lore Zusammenfassung und Ausblick Seminar XML und Datenbanken
MehrSuchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06.
Suchen, um zu finden Sta,s,k BRD (Quelle: Comscore, 2013) Steffen- Peter Ballstaedt 24.6.2015 etwa 6 Milliarden Suchanfragen pro Monat etwa 2.500 Anfragen pro Sekunde 96% der Suchanfragen über Google Beziehungsgeflecht
Mehr3.2 Lineare Optimierung (Entscheidungen unter Sicherheit)
3. Lineare Optimierung (Entscheidungen unter Sicherheit) Betrachtet wird hier der Fall Θ = (bzw. die Situation u(a, ϑ) bzw. l(a,ϑ) konstant in ϑ Θ für alle a A). Da hier keine Unsicherheit über die Umweltzustände
MehrFelder. November 5, 2014
Felder Universität Bielefeld AG Praktische Informatik November 5, 2014 Felder: Datenstrukturen mit konstantem Zugriff Felder nennt man auch, Vektoren, Matrizen,... Konstanter Zugriff heisst: Zugriff auf
MehrMaximizing the Spread of Influence through a Social Network
1 / 26 Maximizing the Spread of Influence through a Social Network 19.06.2007 / Thomas Wener TU-Darmstadt Seminar aus Data und Web Mining bei Prof. Fürnkranz 2 / 26 Gliederung Einleitung 1 Einleitung 2
MehrÜbersicht. 4.1 Ausdrücke. 4.2 Funktionale Algorithmen. 4.3 Anweisungen. 4.4 Imperative Algorithmen Variablen und Konstanten. 4.4.
Übersicht 4.1 Ausdrücke 4.2 Funktionale Algorithmen 4.3 Anweisungen 4.4 Imperative Algorithmen 4.4.1 Variablen und Konstanten 4.4.2 Prozeduren 4.4.3 Verzweigung und Iteration 4.4.4 Globale Größen Einführung
Mehr1 topologisches Sortieren
Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung
MehrÜber die Bedeutung der zwei Zahlen m und x 1 für das Aussehen des Graphen wird an anderer Stelle informiert.
Lineare Funktionen - Term - Grundwissen Woran erkennt man, ob ein Funktionsterm zu einer Linearen Funktion gehört? oder Wie kann der Funktionsterm einer Linearen Funktion aussehen? Der Funktionsterm einer
MehrTechnische Universität München Zentrum Mathematik. Übungsblatt 7
Technische Universität München Zentrum Mathematik Mathematik (Elektrotechnik) Prof. Dr. Anusch Taraz Dr. Michael Ritter Übungsblatt 7 Hausaufgaben Aufgabe 7. Für n N ist die Matrix-Exponentialfunktion
MehrAlgorithmen und Datenstrukturen 2-2. Seminar -
Algorithmen und Datenstrukturen 2-2. Seminar - Dominic Rose Bioinformatics Group, University of Leipzig Sommersemster 2010 Outline 2. Übungsserie: 3 Aufgaben, insgesamt 30 Punkte A4 Flußnetzwerk, Restgraphen
MehrProbeklausur zur Vorlesung Berechenbarkeit und Komplexität
RWTH Aachen Lehrgebiet Theoretische Informatik Reidl Ries Rossmanith Sanchez Tönnis WS 2012/13 Probeklausur 25.01.2013 Probeklausur zur Vorlesung Berechenbarkeit und Komplexität Aufgabe 1 (1+2+6+3 Punkte)
MehrHandshake von SIM und GSM Basisstation
Handshake von SIM und GSM Basisstation Prüfungsvorleistung im Rahmen der Vorlesung Chipkarten SS 05 Inhalt GSM und Sicherheit Sicherheitsdienste GSM Algo Authentifizierung PDU (herausgenommen) GSM und
Mehr3. Musterlösung. Problem 1: Boruvka MST
Universität Karlsruhe Algorithmentechnik Fakultät für Informatik WS 06/07 ITI Wagner. Musterlösung Problem : Boruvka MST pt (a) Beweis durch Widerspruch. Sei T MST von G, e die lokal minimale Kante eines
MehrFrage 8.3. Wozu dienen Beweise im Rahmen einer mathematischen (Lehramts-)Ausbildung?
8 Grundsätzliches zu Beweisen Frage 8.3. Wozu dienen Beweise im Rahmen einer mathematischen (Lehramts-)Ausbildung? ˆ Mathematik besteht nicht (nur) aus dem Anwenden auswendig gelernter Schemata. Stattdessen
MehrR-Baum R + -Baum X-Baum M-Baum
R-Baum und Varianten R-Baum R + -Baum X-Baum M-Baum staab@uni-koblenz.de 1 R-Baum R-Baum: Guttman 1984 Erweiterung B-Baum um mehrere Dimensionen Standardbaum zur Indexierung im niedrigdimensionalen Raum
MehrWeb Data Mining. Alexander Hinneburg Sommersemester 2007
Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining
MehrVervollständigung Lateinischer Quadrate
Vervollständigung Lateinischer Quadrate Elisabeth Schmidhofer 01.12.2013 Inhaltsverzeichnis 1 Vorwort 3 2 Einleitung 4 2.1 Beispele.............................................. 4 3 Lateinische Quadrate
MehrUnterscheidung: Workflowsystem vs. Informationssystem
1. Vorwort 1.1. Gemeinsamkeiten Unterscheidung: Workflowsystem vs. Die Überschneidungsfläche zwischen Workflowsystem und ist die Domäne, also dass es darum geht, Varianten eines Dokuments schrittweise
MehrAnmerkungen zur Übergangsprüfung
DM11 Slide 1 Anmerkungen zur Übergangsprüfung Aufgabeneingrenzung Aufgaben des folgenden Typs werden wegen ihres Schwierigkeitsgrads oder wegen eines ungeeigneten fachlichen Schwerpunkts in der Übergangsprüfung
MehrGesucht und Gefunden: Die Funktionsweise einer Suchmaschine
Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine Prof. Dr. Peter Becker FH Bonn-Rhein-Sieg Fachbereich Informatik peter.becker@fh-bonn-rhein-sieg.de Vortrag im Rahmen des Studieninformationstags
MehrInstitut fu r Informatik
Technische Universita t Mu nchen Institut fu r Informatik Lehrstuhl fu r Bioinformatik Einfu hrung in die Programmierung fu r Bioinformatiker Prof. B. Rost, L. Richter WS 2013 Aufgabenblatt 3 18. November
MehrAlgorithmen II Vorlesung am
Algorithmen II Vorlesung am 0..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum
Mehr3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.
3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen
MehrDomain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing
SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0
MehrMengenvergleiche: Alle Konten außer das, mit dem größten Saldo.
Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten
MehrLenstras Algorithmus für Faktorisierung
Lenstras Algorithmus für Faktorisierung Bertil Nestorius 9 März 2010 1 Motivation Die schnelle Faktorisierung von Zahlen ist heutzutage ein sehr wichtigen Thema, zb gibt es in der Kryptographie viele weit
MehrMATHEMATIK. Name: Vorname: maximale Punkte 1 a), b) 4 2 a), b), c) 6 3 a), b) Gesamtpunktzahl 38. Die Experten: 1.
Berufsmaturität Kanton Glarus Aufnahmeprüfung 2013 Kaufmännische Berufsfachschule Glarus Kaufmännische Richtung MATHEMATIK Name: Vorname: Note Aufgabe Nr. Teilaufgaben erreichte Punkte maximale Punkte
MehrDokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrWeb Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion
Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische
Mehr6. Flüsse und Zuordnungen
6. Flüsse und Zuordnungen In diesem Kapitel werden Bewertungen von Kanten als maximale Kapazitäten interpretiert, die über solch eine Kante pro Zeiteinheit transportiert werden können. Wir können uns einen
MehrMATHEMATIK FÜR WIRTSCHAFTSWISSENSCHAFTLER MUSTERLÖSUNG 3. TEST
Privatdozent Dr. C. Diem diem@math.uni-leipzig.de http://www.math.uni-leipzig.de/ diem/wiwi MATHEMATIK FÜR WIRTSCHAFTSWISSENSCHAFTLER MUSTERLÖSUNG 3. TEST Es folgt eine Musterlösung zusammen mit Anleitungen
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrGuten Morgen und Willkommen zur Saalübung!
Guten Morgen und Willkommen zur Saalübung! 1 Wie gewinnt man ein Spiel? Was ist ein Spiel? 2 Verschiedene Spiele Schach, Tic-Tac-Toe, Go Memory Backgammon Poker Nim, Käsekästchen... 3 Einschränkungen Zwei
MehrMining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?
Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori
Mehr1 Zahlentheorie. 1.1 Kongruenzen
3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern
Mehr