Eine Beispieldatenbank enthält folgende Datensätze (Signatur wurde mit gegebener Signaturfunktion berechnet): Signatur (S D ) t1 t2 t3 t4 t5 t6 t7

Größe: px
Ab Seite anzeigen:

Download "Eine Beispieldatenbank enthält folgende Datensätze (Signatur wurde mit gegebener Signaturfunktion berechnet): Signatur (S D ) t1 t2 t3 t4 t5 t6 t7"

Transkript

1 Beispiel Eine Beispieldatenbank enthält folgende Datensätze (Signatur wurde mit gegebener Signaturfunktion berechnet): Name Ort Material Signatur (S D ) t Mandro M Schrauben t Müller B Dichtungen t3 Holz Hd Bohrer t4 Schulz Da Hammer t5 Magnum Da Filter t6 Kojak F Hammer t7 Schimi Du Bolzen Eine Anfrage wie Ort= Da AND Material= Hammer kann dann effizient mittels Signaturvergleich evaluiert werden. Sei S Q =. Alle Tupel, welche S Q ( S D )=erfüllen, gelten als Kandidaten. Im Beispiel: {t4,t6} Offensichtlich ist nur t4 ein Treffer; t6 ist ein sogenannter false drop. Mit anderen Worten: der Signaturvergleich kann nur entscheiden, welche Tupel nicht in Frage kommen. Die eigentlichen Treffer müssen in einem zweiten Schritt ermittelt werden. Kap Berechnung der Signaturen Im Folgenden betrachten wir einige Möglichkeiten, um Texte auf Signaturen abzubilden. Vor allem die Hashfunktion muss aber von Fall zu Fall optimiert werden. Notationen: l b i S Q S D g N W SP F Bitlänge der Signatur i-tes Bit in der Signatur Signatur der Anfrage Signatur des Dokumentes D Signaturgewicht eines Terms Anzahl Dokumente Grösse des Wörterbuchs (Anz. verschiedener Terme) Signaturpotential Fehlerrate Kap.-78

2 Binärsignaturen Terme werden eindeutig auf eine der l möglichen Signaturen abgebildet. Gesucht wird mit dem Gleichheitsoperator, d.h. zwei Signaturen müssen exakt übereinstimmen. Diese Methode erlaubt es, sehr effizient zu überprüfen, ob zwei Dokumente (resp. Terme) identisch sind. Sie eignet sich aber nur, falls Dokumente stets aus derselben Anzahl Terme bestehen. Teilanfragen und substring matching sind nicht möglich. Superimposed Coding Ein Term belegt g Bits der gesamten Signatur (g ist das Signaturgewicht); falls ein Dokument aus mehreren Termen besteht, kann mittels Überlagerung eine Signatur für das gesamte Dokument berechnet werden. Die Verknüpfung der Überlagerung entspricht dabei der ODER-Funktion: text S search S methods S 3 text search methods S S S 3 l Terme können auf g verschiedene Signaturen abgebildet werden. Durch die Überlagerung kann aber nicht mehr ermittelt werden, wie die Ursprungssignaturen ausgesehen haben. D.h. es ist möglich, dass zwei verschiedene Dokumente dieselbe Signatur aufweisen. Damit entstehen zusätzliche Fehler. Kap.-79 Die Anfrage wird ebenfalls mittels superimposed coding in eine Signatur transformiert. Der Vergleich mit den Signaturen der Dokumente ist definiert als: jedes Bit in der Anfragesignatur muss auch in der Dokumentensignatur gesetzt sein. Damit kann man garantieren, dass alle Dokumente, welche die Suchterme enthalten auch gefunden werden. Aber: es können auch Dokumente gefunden werden, welche die Suchterme nicht (oder nur z.t.) enthalten (false drops) Eine effiziente Auswertung ergibt sich mittels: S Q ( S D )= Beispiel: text search methods in search of knowledge-based IR an optical system for full text search the lexicon and IR Anfrage: text search Resultat: die ersten drei Dokumente erfüllen den Signaturvergleich; aber das -te Dokument enthält nicht alle Anfrageterme Kap.-8

3 Abbildung der Terme auf Signaturen Die Erzeugung einer Signatur ist stets abhängig von den Termen, welche zur Indexierung benutzt werden und der Dokumentenkollektion Beispiel : im Folgenden bilden Buchstaben die zugrunde liegenden Terme. Dabei werden mehrere Buchstaben zu einer Klasse zusammengefasst, so dass die W keiten der Klassen gleich gross ist: T char <space>,-.;:/... E ÄJNPXY RU CIK HÖS MOTW DGLQ ABÜVZF Buchstaben in gleichwahrscheinliche Klassen eingeteilt Die Hashfunktion basiert auf jeweils zwei aufeinanderfolgende Zeichen (c,c) in einer Zeichenkette. Z.B. (T(c) bestimmt Klasse in der c liegt): h(c,c) = [7*T(c) + T(c)] MOD l Kap.-8 Beispiel : Eine weitere Möglichkeit wäre, allen Buchstaben ihre Position im ASCII-Alphabet zuzweisen (dabei werden alle Formen z.b. des Buchstaben A [a,a,ä,ä,à,à,...] auf die selbe Positon abgebildet). Die Hashfunktion könnte dann wie folgt aussehen h(c,c) = [6*Pos(c) + Pos(c)] MOD l Die Hashfunktionen sollten natürlich so konstruiert werden, dass im Mittel alle Bitpositionen gleich häufig belegt werden. Aufgrund der Termhäufigkeiten oder mittels Experimenten kann eine solche Funktion für das aktuelle Problem bestimmt werden. Ebenso ist es möglich (analytisch oder experimentell) eine optimale Anzahl Bits für die Signaturen zu bestimmen. Disjoint Coding Im Gegensatz zum Superimposed Coding werden die Signaturen der Terme eines Dokumentes/Datensatzes nicht überlagert, sondern zu einer langen Signatur für den ganzen Text verkettet. Die Suche erfolgt dann entlang dieser Kette. Wir nehmen an, dass ein Term genau g Bits der Signatur mit Länge l setzt. Wieviele verschiedene Codierungen (Bitstrings) für Terme gibt es? SP = SP( l,g ) sei das Signaturpotentzial, d.h. die Anzh. verschiedener Codierungen von Termen mit g gesetzten Bits in einer Signatur der Länge l dann ist: l SP( l, g) = = g l! g!( l g)! maximal falls g = l/ Kap.-8

4 Bestimmung der Fehlerrate F Die M verschiedenen Terme werden auf SP verschiedene Signaturen abgeibildet. Somit gibt es pro Signatur M/SP verschiedene Terme. Falls nach einem bestimmten Term gesucht wird mittels Signaturvergleich (Gleichheit der Signaturen), so erhält man ebenfalls Signaturen der M/SP- anderen Termen mit derselben Signatur wie der Anfrageterm. Damit: N: Anz. Dokumente M F = SP N M Will man die Fehlerrate unter eine Grenze drücken, so kann man, gegeben F, das Signaturpotential und damit die Signaturläng berechnen: SP = M N F M + N Bsp für SP : l g SP Kap.-83 Block Superimposed Coding Nur die Signaturen, welche innerhalb eines Textblockes auftreten, werden überlagert (superimposed coding). Die Signaturen der Textblöcke eines Dokumentes werden wie beim Disjoint Coding hintereinander gehängt (d.h. ein Dokument besteht aus mehreren Signaturen) Übersicht der Codierungsvarianten Block Block Block 3 Block 4 This is a text. A text has many words. Words are made from letters. Disjoint Coding Block Superimposed Coding Superimposed Coding h(text) h(many) h(words) h(made) h(letters) = = = = = Kap.-84

5 .4.3. Ähnlichkeitssuche Ähnlichkeitssuche oder Ranking ist mit Signaturen ebenfalls möglich. Im Gegensatz zu den bisher besprochenen Retrievalmodellen können damit auch Dokumente mit Tipfehler oder falsch geschriebene Namen ( Maier, Meier ) gefunden werden. Für die Ähnlichkeitssuche brauchen wir eine Distanzfunktion, welche aussagt, wie gut die Anfragesignatur S Q zur Dokumentensignatur S D passt. Hamming-Distanz Die Distanz wird berechnet als die Anzahl der abweichen Bits in den Signaturen S Q und S D. Eine effiziente Implementierung berechnet erst B=S Q XOR S D. Die Hamming- Distanz ist dann gegeben als die Anzahl gesetzter Bits in B. Seiw() eine Funktion, welche die Anzahl gesetzter Bits in einem Bitstring zählt. Dann ist: hamming(s Q,S D )= w( S Q XOR S D ) Eine schnelle Zählung der Bits kann mittels look-up -Tabellen realisiert werden. Diese Tabelle enthält z.b. für alle 8-Bit Substrings die Anzahl Bits die gesetzt sind (also: -> 3, -> 5). B wird dann in 8-Bit Substrings aufgeteilt, für jeden Substring ermittelt man die Anzahl gesetzter Bits, summiert diese und erhält die Hamming-Distanz zwischen S Q und S D. Kap.-85 Cover-Distanz Die Cover-Distanz berechnet die Anzahl Bits, welche in der Anfragesignatur gestzt sind, nicht aber in der Dokumentensignatur. Eine effiziente Implementierung berechnet erst B=S Q AND S D. Die Cover- Distanz ist dann gegeben als: cover(s Q,S D )= w(s Q )-w( S Q AND S D ) Diskussion: Die Hamming-Distanz eignet sich, falls die Anfrage als vollständiges Beispiel vorgegeben wird, wie die Antwort aussehen sollte. Die Cover-Distanz eignet sich, um Teilanfragen oder unvollständige Anfragen auszuwerten (z.b. kennt man nur den Nachnamen, nicht aber den Vornamen). Kap.-86

6 Speicherstrukturen Sequentielle Signaturen Die Signaturen der Dokumente werden sequentiell gespeichert. Die Beantwortung einer Anfrage erfolgt durch einen linearen Scan durch alle Signaturen (. Phase). In der. Phase müssen die gefunden Kandidaten in Treffer und false drops aufgeteilt werden ( random access auf die Dokumente) Im Vergleich zur Volltextsuche ist diese Organisation sehr viel schneller (Bitoperationen sind günstiger als String-Vergleiche). Im Vergleich zum invertierten Index ist die Performance aber ungenügend. Beispiel: Die Anfragesignatur sei und der Signaturvergleich sei enthalten in (siehe Superimposed Coding: S Q ( S D )=) S S S 3 S 4 S 5 S 6 b b S 7 S 8 Kandidaten Treffer false drop Kap.-87 Bitscheibenorganisation ( bitsliced ) - Vertikale Partitionierung Sei l die Länge der Signaturen. Bei der Bitscheibenorganisation wird für jedes der l Bits eine separate Datei unterhalten, so dass in der j-ten Datei an der i-ten Position das j-te Bit der i-ten Dokumentensignatur steht. Der grösste Vorteil dieser Organisation besteht darin, dass man bei der Suche nur jene Bitscheiben lesen muss, für welche in der Anfragesignatur eine gesetzt ist (Aussnahme: Hamming-Distanz) Beispiel: Die Anfragesignatur sei und der Signaturvergleich sei enthalten in (siehe Superimposed Coding: S Q ( S D )=) S S S 3 S 4 S 5 S 6 S 7 S 8 S Q b b b Scheiben mit (S Q ) i = lesen b Kandidaten Treffer false drop Kap.-88

7 Horizontale Partitionierung Bei der horizontalen Partitionierung werden die Signaturen in disjunkte Gruppen aufgeteilt und in separaten Dateien ( Buckets ) gespeichert. Die Gruppen werden häufig so gebildet, dass man aufgrund der Anfragesignatur entscheiden kann, ob die Gruppe entweder Kandidaten enthält oder keine Kandidaten enthalten kann (wobei vor allem letzteres entscheidend ist). Die Auswertung folgt dann einem drei-stufigem Verfahren:. Gruppen resp. Buckets identifizieren, welche Kandidaten enthalten können. Alle Buckets lesen, Signaturen vergleichen und Kandidaten bestimmen 3. Dokumente der Kandidaten lesen und überprüfen ob es sich um einen Treffer oder um einen false drop handelt. Zur Bildung der Gruppen wird eine zusätzliche Hash-Funktion benötigt, welche einen Schlüssel für eine Signatur berechnet. Alle Signaturen mit demselben Schlüssel werden in demselben Bucket gespeichert. Eine einfache Hash-Funktion extrahiert die ersten k Bits der Signatur (fixed prefix), wobei k typischerweise klein ist. Bei extended prefix wird der Schlüssel ebenfalls aus den ersten Bits der Sigantur gebildet. Die Länge der Schlüssel ist aber dynamisch, d.h. man extrahiert so viele Bits zu Beginn der Signatur bis ein bestimmtes Gewicht (=Anz. er) überschritten wird. Kap.-89 Beispiel: Der Schlüssel wird aus den ersten zwei Bits gebildet; die Anfrage sei wiederum und der Signaturvergleich sei enthalten in (siehe Superimposed Coding: S Q ( S D )=) Keys Buckets b b S S 8 b b S 3 S 6 b b b b S S 5 S 4 S 7 Anfrage Key = (damit enthalten die Gruppen und sicher keine Treffer) b b S S 4 S 5 S 7 Kandidaten 3 Treffer false drop Kap.-9

8 Signatur Baum (S-Tree) Ähnlich wie bei der horizontalen Partitionierung werden Gruppen von Signaturen gebildet. Eine Gruppe ist typischerweise recht klein (passt in eine Datenbankseite) und es gibt keinen Schlüssel wie bei der horizontalen Partitionierung. Stattdessen wird eine Blocksignatur für die ganze Gruppe gebildet (mittels Superimposed Coding). Diese Blocksignaturen werden dann wiederum als Signaturen betrachtet und rekursiv weiter gruppiert. Dabei entsteht ein Baum, der Signatur Baum. Die Gruppenbildung muss offensichtlich so erfolgen, dass die Hamming-Distanzen zwischen den Signaturen einer Gruppe minimal ist. Die dynamische Organisation erfolgt wie beim B-Baum (splits bei Überlauf eines Knotens; merge/reinsert beim Unterlauf eines Knotens). Bei der Auswertung der Anfrage traversiert man all jene Knoten im S-Baum, für welche die Blocksignatur zur Anfragesignatur passt. Dabei kann man wiederum nur diejenigen Signaturen ausschliessen, welche an den Stellen, bei welchen in der Anfragesignatur eine steht, eine in der Signatur aufweisen. Problem: Die Blocksignaturen enthalten sehr viel er (je näher bei der Wurzel, desto mehr er). Damit lassen sich auf den ersten Stufen nur wenige Blöcke ausschliessen. Kap.-9 Beispiel: Die Anfrage sei wiederum und der Signaturvergleich sei enthalten in (siehe Superimposed Coding: S Q ( S D )=) Wurzel (mit Block- Signaturen) b b Übereinstimung mit Anfrage Blätter S 4 S 7 S 8 b b b b S S b b S 3 S 5 S 6 S Kandidaten S 5 Treffer false drop Kap.-9

9 .5 Vergleich verschiedener Suchalgorithmen Im Allgemeinen gibt es mehrere Möglichkeiten Information zu suchen. In Datenbanken aber unterscheiden sich die Verfahren nur bzgl. ihrer Effizienz, nicht aber bzgl. ihrer Güte. Z.B. liefert die Anfrage SELECT * From Person WHERE Name= Meier immer dieselben Tupel zurück (egal ob ein Index für die Suche benutzt wird oder nicht) Im Information Retrieval ist die Effizienz zwar auch wichtig, doch spielt die Güte eine viel zentralere Rolle. Mit Güte ist aber nicht nur die Menge der gefundenen Dokumente gemeint, sondern auch in welcher Reihenfolge die Dokumente präsentiert wird (siehe Suchmaschine: falls das relevante Dokument erst auf Platz steht, dann nützt dies im Allgemeinen nichts). Die Bewertung der Güte ist aber nicht absolut möglich! Sie beruht auf der Bewertung der Relevanz durch einem Spezialisten des entsprechenden Gebiets in einem kontrollierten Datenbestand. Die jährlich stattfindende Text REtrieval Conference (TREC) hat sich zum Ziel gesetzt, die Effektivität von Retrieval-Algorithmen objektiv zu messen. Die ersten Konferenzen haben sich vor allem auf Textdokumente konzentriert; zunehmend werden aber auch andere Dokumenttypen berücksichtigt. Eine Aufgabe besteht aus einer Standard Dokumentenkollektion (mehr als 3 GB) Standard Anfragen ( Queries) Expertenurteile, welche Dokumente relevant zu einer Anfrage sind Kap Boolesches Retrieval Beim Booleschen Retrieval erhält man eine Antwort ohne Ordnung, d.h. das System kann nicht zwischen sehr relevant und möglicherweise relevant unterscheiden. Für die Evaluation von Algorithmen / Systemen haben sich die Grössen Precision und Recall durchgesetzt. Die Precision drückt aus, wieviele der vom System gelieferten Antworten auch wirklich relevant sind. Der Recall hingegen beschreibt, welcher Prozentsatz der relevanten Dokumente der Kollektion auch wirklich gefunden wurde. Daneben benutzt man häufig auch den Fallout, welcher die Fähigkeit des Systems bewertet, irrelevante Dokumente vom Benutzer fernzuhalten. Notationen: A R Q F Q Alle Dokumente Menge der relevanten Dokumente für Anfrage Q (alle in der Kollektion) Menge der vom System gelieferten Dokumente für Anfrage Q Damit lassen sich Precision ( p ), Recall ( r ) und Fallout ( f ) wie folgt definieren: F Q R Q F Q R Q F Q \ R Q p= r= f= F Q R Q A \ R Q Kap.-94

10 Visualisierung Gesamte Kollektion (a) Erhaltene Dokumente (y) relevant, erhalten (x) Relevante Dokumente (z) x x y -x Precision: p= Recall: r= Fallout: f= y z a - z Kap.-95 Weitere Grössen Neben Precision, Recall und Fallout exitsieren noch weitere Grössen: Gesamtrelevanz: R Q g= A Damit ergit sich auch folgender Zusammenhang: f p (-g) = r g (-p) F-Mass: Verechnet Precision und Recall zu einem einzigen Wert. Der Parameter β bestimmt, wie wichtig Precision resp. Recall sind (β =: nur Precision zählt; β = : nur Recall zählt). (β +) p r F β = β p+r Je grösser das F-Mass, desto besser arbeitet der Algorihtmus/das System. Typischerweise arbeitet man mit β =. Kap.-96

11 Mittelwertbildung Normalerweise bewertet man ein System nicht nur mittels einer Anfrage sondern aufgrund von n Experimenten. Dabei ergeben sich auch n Mengen F i (gefundene Dokumente für Anfrage Q i )undn Mengen R i (relevante Dokumente für Anfrage Q i ). Jede Frage liefert dabei ein Precision-Recall-Werte-Paar (r i,p i ). Diese sollen verrechnet werden zu einem einzigen Precision-Recall-Paar (r,p)für das System und die gegebene Menge von Anfragen. Makrobewertung: p resp. r sind gegeben als Mittel der p i resp. r i,also: n- n- F i R i n- n- F i R i p= p i = r = r i = n i= n i= F i n i= n i= R i Mikrobewertung: die Mittelwertbildung erfolgt im Zähler und Nenner i=..n- F i R i i=..n- F i R i p = r = i=..n- F i i=..n- R i Kap Retrieval mit Ordnung der Dokumente Alle Verfahren ausser dem Booleschen Retrieval ordnen die Dokumente. Die Rangordnung sollte bei der Qualitätsbetrachtung berücksichtigt werden. Dabei werden häufig die P-R-Werte in Abhängigkeit der Grösse des Resultates gemessen. Beispiel: Zur Anfrage Q gibt es genau 5 relevante Dokumente in der Kollektion, Ein System liefert folgendes Resultat: n DokNr x=rel. x x x x x p i r i P-R-Werte für die ersten fünf Dokumente (allg. für die ersten n Dokumente im Resultat) Kap.-98

12 Die so gewonnen P-R-Werte können in einem Diagramm gezeichnet werden. Auffallend ist, dass die Recall-Werte springen, d.h. nicht stetig sind, aber monoton zunehmen. Die Precision-Werte sind ebenfalls nicht stetig, nehmen ab, falls ein Dokument nicht relevant ist und nehmen zu, falls es relevant ist. Der resultierende Graph kann nicht zur Interpolation verwendet werden. Deshalb werden für die P-R-Graphen häufig treppenförmige Kurven gewählt. Dabei wird - gedanklich - eine horizontale Linie durch jedes P-R-Paar gelegt und man interpoliert mit diesen Linien den Graphen..8 Precision.6.4. Original Interpoliert Recall Kap.-99 Interpretation Nahe bei (r=,p=): Sehr wenige nicht relevante Dokumente in der Antwort (dafür nicht alle relevanten gefunden); dies wäre ideal für Anfragen wie ist das Mittel XY giftig. Nahe bei (r=,p=): Alle relevanten Dokumente gefunden, aber auch sehr viele nicht relevante; dies wäre ideal für Anfragen wie gibt es bereits ein Patent für XY p= ist im allgemeinen schwer zu erreichen; r= ist einfach (ganze Kollektion zurückgegeben [darin sind alle relevanten Dokumente enthalten]) Ein ideales System würde stets p= liefern und letzltlich beim Punkt (,) ankommen. Generell kann man sagen, dass ein System A besser ist als ein System B, falls der P- R-Graph von A näher beim Punkt (,) liegt, als derjenige von System B. System-Effizienz: E = d Definiert ein Mass für die Güte eines Systems basierend auf dem P-R-Graphen. d entspricht dabei dem mittleren Abstand der P-R-Kurve zum Punkt (,). Kap.-

13 Mittelwertbildung Ebenso wie beim Booleschen Retrieval qualifiziert man einen Algorithmus nicht nur aufgrund eines Experimentes sondern aufgrund von n Anfragen. Wiederum stellt sich die Frage, wie man die mittleren Precision- und Recall-Werte berechnet. Verfahren: Man mittelt über die gleiche Anzahl gefundener Dokumente, d.h. man betrachtet z.b. die ersten Resultate, berechnet p i und r i für alle n Anfragen und mittelt die Werte (ergibt ein P-R-Paar p und r ). Ebenso verfährt man für alle anderen Resultatsgrössen und erhält so eine gemittelt P-R-Kurve.. Verfahren: Man mittelt die Precision-Werte über die gleichen Recall-Werte. Hierzu legt man zuerst die Recall-Punkte fest (z.b..,.,...,.), berechnet für jede Anfrage die dazugehörigen Precision-Werte und mittelt diese. Kap Nützlichkeitsmass Das Nützlichkeitsmass (Frei, Schäuble) ist eine Alternative zur Bewertung mit Precision und Recall. Dazu benötigt man vom Benutzer sogenannte Präferenzen: d< p d bedeutet, dass der Benutzer das Dokument d relevanter (nützlicher) findet als das Dokument d Alle Präferenzen zusammen bilden die Menge π p = {(d,d ) d < p d }, welche alle vom Benutzer angegebenen Präferenzen enthält (unvollständige Ordnung der Dokumente). Sei π p - die inverse Menge zu π p,d.h.(d,d ) π p - falls (d,d ) π p - Ebenso definieren die Algorithmen A und B zwei Ordnungen auf den Dokumenten gemäss den RSV-Werten zur Anfrage q, d.h.: π A = {(d,d ) RSV A (q,d) < RSV A (q,d )} π B = {(d,d ) RSV B (q,d) < RSV B (q,d )} Die Antwortmengen der beiden Algorithmen umfasse r Elemente. Dann ist R die Menge der von A und B gelieferten Dokumente. Damit ist z.b. R π p die Menge der vom Benutzer angegebene Präferenzen, welche nur Dokumente aus R betrachtet. Beachte, dass π p π A, die Menge der Benutzerpräferenzen umfasst, deren Dokumente von Algorithmus A gleich geordnet wurden. π - p π A entspricht den Präzerenzen, deren Dokumente von A falsch geordnet wurden. Kap.-

14 Für jede Anfrage (insgesamt k Anfragen) bestimmt man die folgenden Werte: x i = R p A R R p p A x i entspricht dabei dem Anteil übereinstimmender Präferenzen abzüglich des Anteils der invers übereinstimmenden Präferenzen des Benutzers und Algorithmus A. Analog y i für Algorithmus B. Je grösser der Wert, desto besser stimmt die Ordnung des Algorithmuses zu den Präferenzen des Benutzers. Berechnung des Nützlichkeitsmasses u A,B :. Bilde Differenzen y i -x i und entferne die Paare, deren Differenz ist (übrig bleiben k o Werte). Sortiere die Differenzen nach aufsteigenden Beträgen. Falls mehrere Differnenzen den gleichen Betrag haben, weise ihnen den mittleren Rang zu. 3. Berechne w + als Summe der Ränge der Differenzen mit positivem Vorzeichen w µ k 4. Berechne = + ( k + ) u A, B mit µ = µ 4 u A,B drückt aus, wie oft, im Mittel, y i grösser als x i ist. Ein grosser Wert bedeutet, dass Algorithmus B besser ist als Algorithmus A. y i = R p B R R p p B Kap.-3 Ferner ist es möglich, auszusagen, mit welcher Wahrscheinlichkeit ein so grosser Wert für u A,B zufällig entstanden ist. Dazu berechnet man die W keit P(U A,B u A,B ) wobei U A,B einer Zufallsvariable entspricht. Vereinfachend kann man annehmen, dass U A,B normal verteil ist mit dem Mittelwert µ und der Standardabweichung σ : k µ = ( k ) + 4 σ ( k + )( k ) k + = 4 Damit lässt sich P(U A,B u A,B ) wie folgt bestimmen: P w µ σ + ( U u ) = Φ A, B A, B wobei b x Φ ( b) = e dx π Kap.-4

15 .6 Literatur und Links Allgemeine Bücher zum Textretrieval [FB9] W.B. Frakes and R. Baeza-Yates: Information Retrieval, Data Structures and Algorithms, Prentice Hall, "Englewood Cliffs, New Jersey, USA, 99 [BR99] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison-Wesley, 999, ISBN X [GF98] David A. Grossmann, Ophir Friedler, Information Retrieval: Algorithms and Heuristics, Kuwler Academic Publishers, 998 [SM83] Gerard Salton, Michael J. McGill, Information Retrieval - Grundlegendes für Informationswissenschaftler, McGraw-Hill Book Company, Hamburg, 983, ISBN X Latent Semantic Indexing [FDDL+88] George W. Furnas,Scott C. Deerwester,Susan T. Dumais,Thomas K. Landauer,Richard A. Harshman,Lynn A. Streeter,Karen E. Lochbaum: Information Retrieval using a Singular Value Decomposition Model of Latent Semantic Structure.SIGIR 988: [DDL+9] S. C. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, and R. A. Harshman. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 4(6):39--47, 99. [F96] Christos Faloutsos, Searching Multimedia Databases by Content, Kuwler Academic Publishers, 996 Telcordia: Kap.-5 Literatur und Links () IR und DBMS [GF98] David A. Grossmann, Ophir Friedler, Information Retrieval: Algorithms and Heuristics, Kuwler Academic Publishers, 998 Forschungsprototyp PowerDB (massiv paralleles XML/Text-Retrieval mit DBMS): H.-J.Schek,P.Pistor:Data Structures for an Integrated Data Base Management and Information Retrieval System. In: Int. Conf. on Very Large Databases (VLDB) 98, p H.-J. Schek, Nested Transactions in a Combined IRS-DBMS Architecture, in Research and Development in Information Retrieval (ed. C. J. van Rijsbergen), Cambridge University Press, 984. Grabs, T., Böhm, K., Schek, H.-J., High-level Parallelisation in a Database Cluster: a Feasibility Study Using Document Services. To appear in: Proceedings of the 7th International Conference on Data Engineering (ICDE), Heidelberg, Germany, April -6. Kap.-6

16 Literatur und Links (3) Anwendungen der Retrievalmodelle Boolesches Retrieval Vektorraumretrieval Retrieval mit LSI Kap.-7

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Algorithmen und Datenstrukturen II

Algorithmen und Datenstrukturen II Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung III: D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg Sommer 2009,

Mehr

Literatur: Jeffrey D. Ullman: Principles of Database Systems, 2 nd Edition 1982, Kapitel 2.2

Literatur: Jeffrey D. Ullman: Principles of Database Systems, 2 nd Edition 1982, Kapitel 2.2 Hashorganisation HASHORGANISATION Literatur: Jeffrey D. Ullman: Principles of Database Systems, 2 nd Edition 982, Kapitel 2.2 Die Sätze der Datei werden auf eine Menge von Buckets aufgeteilt. Jedes Bucket

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Indexieren und Suchen

Indexieren und Suchen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Indexieren und Suchen Tobias Scheffer Index-Datenstrukturen, Suchalgorithmen Invertierte Indizes Suffix-Bäume und -Arrays Signaturdateien

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2006 9. Vorlesung Peter Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Invertierte Listen Nutzung vor allem zur Textsuche

Mehr

Klausur Informatik B April Teil I: Informatik 3

Klausur Informatik B April Teil I: Informatik 3 Informatik 3 Seite 1 von 8 Klausur Informatik B April 1998 Teil I: Informatik 3 Informatik 3 Seite 2 von 8 Aufgabe 1: Fragekatalog (gesamt 5 ) Beantworten Sie folgende Fragen kurz in ein oder zwei Sätzen.

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Strukturierte Extraktion von Text aus PDF. Präsentation der Masterarbeit von Fabian Schillinger

Strukturierte Extraktion von Text aus PDF. Präsentation der Masterarbeit von Fabian Schillinger Strukturierte Extraktion von Text aus PDF Präsentation der Masterarbeit von Fabian Schillinger Übersicht Motivation Probleme bei der Textextraktion Ablauf des entwickelten Systems Ergebnisse Präsentation

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 10 Übung zur Vorlesung Grundlagen: Datenbanken im WS15/16 Harald Lang, Linnea Passing (gdb@in.tum.de)

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

Algorithms & Data Structures 2

Algorithms & Data Structures 2 Algorithms & Data Structures Digital Sorting WS B. Anzengruber-Tanase (Institute for Pervasive Computing, JKU Linz) (Institute for Pervasive Computing, JKU Linz) WIEDERHOLUNG :: UNTERE SCHRANKE FÜR SORTIEREN

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Beliebige Anzahl von Signaturen

Beliebige Anzahl von Signaturen Beliebige Anzahl von Signaturen Algorithmus Signaturketten Sei Π = (Gen, Sign, Vrfy) ein Einwegsignaturverfahren. 1 Gen : (pk 1, sk 1 ) Gen(1 n ) 2 Sign : Signieren der Nachricht m i. Verwende gemerkten

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

Seite 1 von 13 Name: Aufgabe 1: Suchalgorithmen (a) (4 Punkte ) Gegeben ist folgendes Streckennetz:

Seite 1 von 13 Name: Aufgabe 1: Suchalgorithmen (a) (4 Punkte ) Gegeben ist folgendes Streckennetz: Seite 1 von 13 Aufgabe 1: Suchalgorithmen (a) (4 ) Gegeben ist folgendes Streckennetz: (12 ) B D A F Z C E Zeigen Sie durch Handsimulation wie mit dem Breitensuch-Algorithmus ein Weg von nach gefunden

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 2 Übung zur Vorlesung Grundlagen: Datenbanken im WS3/4 Henrik Mühe (muehe@in.tum.de) http://www-db.in.tum.de/teaching/ws34/dbsys/exercises/

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Prof. Martin Lercher Institut für Informatik Heinrich-Heine-Universität Düsseldorf Teil Hash-Verfahren Version vom: 18. November 2016 1 / 28 Vorlesung 9 18. November 2016

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

Isomorphie von Bäumen

Isomorphie von Bäumen Isomorphie von Bäumen Alexandra Weinberger 23. Dezember 2011 Inhaltsverzeichnis 1 Einige Grundlagen und Definitionen 2 1.1 Bäume................................. 3 1.2 Isomorphie..............................

Mehr

Kapitel III Selektieren und Sortieren

Kapitel III Selektieren und Sortieren Kapitel III Selektieren und Sortieren 1. Einleitung Gegeben: Menge S von n Elementen aus einem total geordneten Universum U, i N, 1 i n. Gesucht: i-kleinstes Element in S. Die Fälle i = 1 bzw. i = n entsprechen

Mehr

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird. Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Stud.-Nummer: Datenstrukturen & Algorithmen Seite 1

Stud.-Nummer: Datenstrukturen & Algorithmen Seite 1 Stud.-Nummer: Datenstrukturen & Algorithmen Seite 1 Aufgabe 1. / 16 P Instruktionen: 1) In dieser Aufgabe sollen Sie nur die Ergebnisse angeben. Diese können Sie direkt bei den Aufgaben notieren. 2) Sofern

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

2.7 Der Shannon-Fano-Elias Code

2.7 Der Shannon-Fano-Elias Code 2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.

Mehr

Dateiorganisation und Zugriffsstrukturen. Prof. Dr. T. Kudraß 1

Dateiorganisation und Zugriffsstrukturen. Prof. Dr. T. Kudraß 1 Dateiorganisation und Zugriffsstrukturen Prof. Dr. T. Kudraß 1 Mögliche Dateiorganisationen Viele Alternativen existieren, jede geeignet für bestimmte Situation (oder auch nicht) Heap-Dateien: Geeignet

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

13. Hashing. AVL-Bäume: Frage: Suche, Minimum, Maximum, Nachfolger in O(log n) Einfügen, Löschen in O(log n)

13. Hashing. AVL-Bäume: Frage: Suche, Minimum, Maximum, Nachfolger in O(log n) Einfügen, Löschen in O(log n) AVL-Bäume: Ausgabe aller Elemente in O(n) Suche, Minimum, Maximum, Nachfolger in O(log n) Einfügen, Löschen in O(log n) Frage: Kann man Einfügen, Löschen und Suchen in O(1) Zeit? 1 Hashing einfache Methode

Mehr

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2015

Vorlesung Suchmaschinen Semesterklausur Sommersemester 2015 Universität Augsburg, Institut für Informatik Sommersemester 2015 Prof. Dr. W. Kießling 15. Juli 2015 F. Wenzel, L. Rudenko Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Sommersemester 2015 Hinweise:

Mehr

Inverted Files for Text Search Engines

Inverted Files for Text Search Engines Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung

Mehr

Latent Semantic Indexing: Einführung und Experiment

Latent Semantic Indexing: Einführung und Experiment Latent Semantic Indexing: Einführung und Experiment Jonathan Geiger, Felix Hieber HS: Information Retrieval Dr. Haenelt 12.01.2009 WS 08/09 Motivation Grundsätzlich stecken zwei Ideen hinter, eine praktischer

Mehr

5. Übungsblatt zu Algorithmen II im WS 2017/2018

5. Übungsblatt zu Algorithmen II im WS 2017/2018 Karlsruher Institut für Technologie Institut für Theoretische Informatik Prof. Dr. Peter Sanders Dr. Thomas Worsch, Dr. Simon Gog Demian Hespe, Yaroslav Akhremstev 5. Übungsblatt zu Algorithmen II im WS

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

5 Binomial- und Poissonverteilung

5 Binomial- und Poissonverteilung 45 5 Binomial- und Poissonverteilung In diesem Kapitel untersuchen wir zwei wichtige diskrete Verteilungen d.h. Verteilungen von diskreten Zufallsvariablen): die Binomial- und die Poissonverteilung. 5.1

Mehr

7. Woche Extra-Material: - Beispiele von Codes. 7. Woche: Beispiele von Codes 144/ 238

7. Woche Extra-Material: - Beispiele von Codes. 7. Woche: Beispiele von Codes 144/ 238 7 Woche Extra-Material: - Beispiele von Codes 7 Woche: Beispiele von Codes 144/ 238 Hamming-Matrix H(h) und Hammingcode H(h) Wir definieren nun eine Parity-Check Matrix H(h) von einem neuen Code: Parametrisiert

Mehr

Grundlagen: Algorithmen und Datenstrukturen

Grundlagen: Algorithmen und Datenstrukturen Grundlagen: Algorithmen und Datenstrukturen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2010

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 8 Übung zur Vorlesung Grundlagen: Datenbanken im WS14/15 Harald Lang (harald.lang@in.tum.de) http://www-db.in.tum.de/teaching/ws1415/grundlagen/

Mehr

Algorithmen auf Sequenzen

Algorithmen auf Sequenzen Algorithmen auf Sequenzen Vorlesung von Prof. Dr. Sven Rahmann im Sommersemester 2008 Kapitel 4 Reguläre Ausdrücke Webseite zur Vorlesung http://ls11-www.cs.tu-dortmund.de/people/rahmann/teaching/ss2008/algorithmenaufsequenzen

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:

Mehr

(Digital) Sorting. October 25, Algorithms & Datastructures 2 Exercises WS 2016

(Digital) Sorting. October 25, Algorithms & Datastructures 2 Exercises WS 2016 (Digital) Sorting October 2, 2016 Algorithms & Datastructures 2 Exercises WS 2016 Dipl.-Ing. University Linz, Institute for Pervasive Computing Altenberger Straße 69, A-4040 Linz kurz@pervasive.jku.at

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

SQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT

SQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT SQL SQL SELECT Anweisung Mit der SQL SELECT-Anweisung werden Datenwerte aus einer oder mehreren Tabellen einer Datenbank ausgewählt. Das Ergebnis der Auswahl ist erneut eine Tabelle, die sich dynamisch

Mehr

28 4. DIE MATHEMATIK HINTER DER COMPACT DISC. Abbildung 4.1: Selbstkorrigierende Codes

28 4. DIE MATHEMATIK HINTER DER COMPACT DISC. Abbildung 4.1: Selbstkorrigierende Codes 8 4. DIE MATHEMATIK HINTER DER COMPACT DISC y1 1 4 3 y3 y Abbildung 4.1: Selbstkorrigierende Codes 4. Die Mathematik hinter der Compact Disc 4.1. Selbstkorrigierende Codes Wenn wir eine Reihe von 0 und

Mehr

9 Auswertung von Anfrageoperatoren 9.1 Selektion

9 Auswertung von Anfrageoperatoren 9.1 Selektion 9. Auswertung von Anfrageoperatoren 9.1. Selektion Seite 1 9 Auswertung von Anfrageoperatoren 9.1 Selektion Auswertung von σ[a op val]r. Index zu A, Sortierung zu A, Operator op. Auswertung von Formeln

Mehr

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? 5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? Ladefaktor: α, n aktuelle Anzahl gespeicherter Werte m Tabellengröße. Einfacher Ansatz: rehash() a z c h s r b s h a z Wenn

Mehr

Universität Augsburg, Institut für Informatik WS 2009/2010 Prof. Dr. W. Kießling 15. Jan Dr. A. Huhn, F. Wenzel, M. Endres Lösungsblatt 10

Universität Augsburg, Institut für Informatik WS 2009/2010 Prof. Dr. W. Kießling 15. Jan Dr. A. Huhn, F. Wenzel, M. Endres Lösungsblatt 10 Universität Augsburg, Institut für Informatik WS 009/010 Prof. Dr. W. Kießling 15. Jan. 010 Dr. A. Huhn, F. Wenzel, M. Endres Lösungsblatt 10 Aufgabe 1: B-Bäume Datenbanksysteme I a) Abschätzen der Höhe

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

Teil VII. Hashverfahren

Teil VII. Hashverfahren Teil VII Hashverfahren Überblick 1 Hashverfahren: Prinzip 2 Hashfunktionen 3 Kollisionsstrategien 4 Aufwand 5 Hashen in Java Prof. G. Stumme Algorithmen & Datenstrukturen Sommersemester 2009 7 1 Hashverfahren:

Mehr

Datenstrukturen und Algorithmen D-INFK

Datenstrukturen und Algorithmen D-INFK Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Federal Institute of Technology at Zurich Institut für Theoretische Informatik Peter Widmayer

Mehr

Komplexität. Matthias Sax. 9. Juli Humboldt-Universität zu Berlin. Institut für Informatik

Komplexität. Matthias Sax. 9. Juli Humboldt-Universität zu Berlin. Institut für Informatik Komplexität Matthias Sax Humboldt-Universität zu Berlin Institut für Informatik 9. Juli 2007 Matthias Sax Komplexität 1 / 21 1 Problemstellung 2 Polynomiale Fälle Ungleichheit Anfragen in der Logik der

Mehr

5. Seminar Statistik

5. Seminar Statistik Sandra Schlick Seite 1 5. Seminar 5. Seminar Statistik 30 Kurztest 4 45 Testen von Hypothesen inkl. Übungen 45 Test- und Prüfverfahren inkl. Übungen 45 Repetitorium und Prüfungsvorbereitung 15 Kursevaluation

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Mobile Objekte Indexstrukturen

Mobile Objekte Indexstrukturen Verteilung und Integration von Informationen im Verkehrsbereich Mobile Objekte Indexstrukturen Ingo Beutler 07.06.2004 Anfragen: z.b. Welche Transporter befinden sich in der Nähe des HSaF? Wie können räumliche

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Universität Innsbruck Institut für Informatik Zweite Prüfung 16. Oktober 2008 Algorithmen und Datenstrukturen Name: Matrikelnr: Die Prüfung besteht aus 8 Aufgaben. Die verfügbaren Punkte für jede Aufgabe

Mehr

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) 5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:

Mehr

Das Generalized Birthday Problem

Das Generalized Birthday Problem Das Generalized Birthday Problem Problem Birthday Gegeben: L 1, L 2 Listen mit Elementen aus {0, 1} n Gesucht: x 1 L 1 und x 2 L 2 mit x 1 x 2 = 0. Anwendungen: Meet-in-the-Middle Angriffe (z.b. für RSA,

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Distributed Algorithms. Image and Video Processing

Distributed Algorithms. Image and Video Processing Chapter 6 Optical Character Recognition Distributed Algorithms for Übersicht Motivation Texterkennung in Bildern und Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben

Mehr

Zeichenketten. Michael Fularczyk Michael Fularczyk Zeichenketten / 41

Zeichenketten. Michael Fularczyk Michael Fularczyk Zeichenketten / 41 Zeichenketten Michael Fularczyk 17.05.2011 Michael Fularczyk Zeichenketten 17.05.2011 1 / 41 Inhalt Zeichenketten Zeichensätze Darstellung Suchverfahren naive Stringsuche Knuth-Morris-Pratt Boyer-Moore

Mehr

Praktikum Algorithmen-Entwurf (Teil 7)

Praktikum Algorithmen-Entwurf (Teil 7) Praktikum Algorithmen-Entwurf (Teil 7) 28.11.2005 1 1 Vier gewinnt Die Spielregeln von Vier Gewinnt sind sehr einfach: Das Spielfeld besteht aus 7 Spalten und 6 Reihen. Jeder Spieler erhält zu Beginn des

Mehr

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Daniel Reinhold Shenja Leiser 6. Februar 2006 2/28 Gliederung Einführung Transitive Hülle Definition Iterative Algorithmen 1. Naive

Mehr

Vorlesung Informatik 2 Algorithmen und Datenstrukturen

Vorlesung Informatik 2 Algorithmen und Datenstrukturen Vorlesung Informatik 2 Algorithmen und Datenstrukturen (18 Bäume: Grundlagen und natürliche Suchbäume) Prof. Dr. Susanne Albers Bäume (1) Bäume sind verallgemeinerte Listen (jedes Knoten-Element kann mehr

Mehr

Informatik II: Algorithmen & Datenstrukturen. Blättern Sie nicht um bevor Sie dazu aufgefordert werden!

Informatik II: Algorithmen & Datenstrukturen. Blättern Sie nicht um bevor Sie dazu aufgefordert werden! Albert-Ludwigs-Universität Institut für Informatik Prof. Dr. F. Kuhn Informatik II: Algorithmen & Datenstrukturen Montag, 29. August, 2014, 14:00 17:00 Name:...........................................................

Mehr

Vorhersage von Protein-Funktionen. Patrick Pfeffer

Vorhersage von Protein-Funktionen. Patrick Pfeffer Vorhersage von Protein-Funktionen Patrick Pfeffer Überblick Motivation Einleitung Methode Markov Random Fields Der Gibbs Sampler Parameter-Schätzung Bayes sche Analyse Resultate Pfeffer 2 Motivation Es

Mehr

1.8 Shift-And-Algorithmus

1.8 Shift-And-Algorithmus .8 Shift-And-Algorithmus nutzt durch Bitoperationen mögliche Parallelisierung Theoretischer Hintergrund: Nichtdeterministischer endlicher Automat Laufzeit: Θ(n), falls die Länge des Suchwortes nicht größer

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Klausur Informatik-Propädeutikum (Niedermeier/Hartung/Nichterlein, Wintersemester 2012/13)

Klausur Informatik-Propädeutikum (Niedermeier/Hartung/Nichterlein, Wintersemester 2012/13) Berlin, 21. Februar 2013 Name:... Matr.-Nr.:... Klausur Informatik-Propädeutikum (Niedermeier/Hartung/Nichterlein, Wintersemester 2012/13) 1 2 3 4 5 6 7 8 9 Σ Bearbeitungszeit: 90 min. max. Punktezahl:

Mehr

Algorithmen auf Zeichenketten

Algorithmen auf Zeichenketten Algorithmen auf Zeichenketten Rabin-Karp Algorithmus Christoph Hermes hermes@hausmilbe.de Zeichenketten: Rabin-Karp Algorithmus p. 1/19 Ausblick auf den Vortrag theoretische Grundlagen... Zeichenketten:

Mehr

Pollards Rho-Methode zur Faktorisierung

Pollards Rho-Methode zur Faktorisierung C A R L V O N O S S I E T Z K Y Pollards Rho-Methode zur Faktorisierung Abschlusspräsentation Bachelorarbeit Janosch Döcker Carl von Ossietzky Universität Oldenburg Department für Informatik Abteilung

Mehr

Grundlagen der Informatik II Übungsblatt: 5, WS 17/18 mit Lösungen

Grundlagen der Informatik II Übungsblatt: 5, WS 17/18 mit Lösungen PD. Dr. Pradyumn Shukla Marlon Braun Micaela Wünsche Dr. Friederike Pfeiffer-Bohnen Dr. Lukas König Institut für Angewandte Informatik und Formale Beschreibungsverfahren Grundlagen der Informatik II Übungsblatt:

Mehr

Algebraische Statistik von Ranking-Modellen

Algebraische Statistik von Ranking-Modellen Algebraische Statistik von n Masterarbeit Benjamin Debeerst 26. September 2011 Objekten einen Rang geben Situation: Gebe einer endlichen Zahl von Objekten O 1,..., O n auf bijektive Weise einen Rang 1

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 9 Übung zur Vorlesung Grundlagen: Datenbanken im WS4/5 Harald Lang (harald.lang@in.tum.de) http://www-db.in.tum.de/teaching/ws45/grundlagen/

Mehr

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7.  Mathias Lux Caliph & Emir Retrieval und Annotation von digitalen Photos mit MPEG-7 Mathias Lux mlux@know-center.at - gefördert durch das Kompetenzzentrenprogramm Overview Einleitung Geschichtliches Annotation mit

Mehr

Lösung zur Klausur zu Krypographie Sommersemester 2005

Lösung zur Klausur zu Krypographie Sommersemester 2005 Lösung zur Klausur zu Krypographie Sommersemester 2005 1. Bestimmen Sie die zwei letzten Ziffern der Dezimaldarstellung von 12 34 Es gilt: 12 34 = 12 32+2 = 12 32 12 2 = 12 (25) 12 2 = ((((12 2 ) 2 ) 2

Mehr

Informatik II Prüfungsvorbereitungskurs

Informatik II Prüfungsvorbereitungskurs Informatik II Prüfungsvorbereitungskurs Tag 4, 23.6.2016 Giuseppe Accaputo g@accaputo.ch 1 Programm für heute Repetition Datenstrukturen Unter anderem Fragen von gestern Point-in-Polygon Algorithmus Shortest

Mehr

Algorithmen und Datenstrukturen VO 3.0 Vorlesungsprüfung 19. Oktober 2007

Algorithmen und Datenstrukturen VO 3.0 Vorlesungsprüfung 19. Oktober 2007 Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen 1 186.089 VO 3.0 Vorlesungsprüfung 19. Oktober

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

Abschnitt 11: Korrektheit von imperativen Programmen

Abschnitt 11: Korrektheit von imperativen Programmen Abschnitt 11: Korrektheit von imperativen Programmen 11. Korrektheit von imperativen Programmen 11.1 11.2Testen der Korrektheit in Java Peer Kröger (LMU München) in die Programmierung WS 16/17 931 / 961

Mehr

Beweis: Die obere Schranke ist klar, da ein Binärbaum der Höhe h höchstens

Beweis: Die obere Schranke ist klar, da ein Binärbaum der Höhe h höchstens Beweis: Die obere Schranke ist klar, da ein Binärbaum der Höhe h höchstens h 1 2 j = 2 h 1 j=0 interne Knoten enthalten kann. EADS 86/600 Beweis: Induktionsanfang: 1 ein AVL-Baum der Höhe h = 1 enthält

Mehr

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig

Mehr

Internet-Suchmaschinen Evaluierung

Internet-Suchmaschinen Evaluierung Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme

Mehr

Algorithmen und Datenstrukturen Klausur WS 2006/07 Software-Engineering und Technische Informatik Bachelor

Algorithmen und Datenstrukturen Klausur WS 2006/07 Software-Engineering und Technische Informatik Bachelor Klausur WS 2006/07 Software-Engineering und Technische Informatik Bachelor Die Klausur besteht aus 6 Aufgaben und umfasst 60 Punkte. Bitte schreiben Sie die Lösungen auf die Aufgabenblätter. Vergessen

Mehr

Geometrische Algorithmen Segmentschnitt. Lernmodul 7: Geo-Algorithmen und -Datenstrukturen - Segmentschnitt

Geometrische Algorithmen Segmentschnitt. Lernmodul 7: Geo-Algorithmen und -Datenstrukturen - Segmentschnitt Folie 1 von 37 Geometrische Algorithmen Segmentschnitt Folie 2 von 37 Segmentschnitt Übersicht Zwei Segmente Lage zweier Segmente Prüfung auf Schnittfreiheit Formeln zum Geradenschnitt Feststellen des

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

INDEXDATEIEN ( INDEXED FILES )

INDEXDATEIEN ( INDEXED FILES ) Indexdateien 1 INDEXDATEIEN ( INDEXED FILES ) ISAM (Indexed Sequential Access Method) Sätze werden nach ihren Schlüsselwerten sortiert. Schlüsselwerte sind immer vergleichbar und daher auch sortierbar.

Mehr