9. Dezember 2015 TEXT MINING. Sebastian Wack

Größe: px
Ab Seite anzeigen:

Download "9. Dezember 2015 TEXT MINING. Sebastian Wack"

Transkript

1 9. Dezember TEXT MINING Sebastian Wack

2 2 GLIEDERUNG Was ist Text Mining? Primitive Algorithmen Vorbereitungen Vektormodell Latent Semantic Indexing Clustering Nichtnegative Matrix Faktorisierung LGK Bidiagonalisierung Zusammenfassung

3 3 WAS IST TEXT MINING? Methoden zur Extrahierung von Informationen aus Texten (oft unstrukturiert) Anwendungen Datenbanksysteme Automatisierte Textzusammenfassung

4 4 PRIMITIVE ALGORITHMEN Gegeben: Index mit allen vorhandenen Büchern (inkl. Autor, Titel, ISBN, Inhalt) Jedes Buch im Index besitzt einen Relevanzwert Gesucht: Funktion search() Eingabe: Suchwort / Suchwörter Ausgabe: nach Relevanz aufsteigend sortierte Liste von Büchern

5 5 VERSUCH 1 Search(String query) { foreach book in index do { if(book.isbn.contains(query) ) { book.relevance++; } } sort(book.relevance); return index; }

6 6 GEGENBEISPIEL Search(Matrix methods pattern recognition) 0 Ergebnisse ID Title ISBN 4865 Matrix methods in data mining and pattern recognition

7 7 VERSUCH 2 Search(String query) { } queries = split(query, ); foreach word in queries do { foreach book in index do { if(book.isbn.contains(query) ) { book.relevance++; } } } sort(book.relevance); return index;

8 8 GEGENBEISPIEL Search(Matrix Methods Pattern Recognition) 0 Ergebnisse ID Title ISBN 4865 Matrix methods in data mining and pattern recognition

9 9 VERSUCH 3 Search(String query) { } queries = split(query, ); foreach word in queries do { foreach book in index do { if(book.isbn.tolowercase().contains(query.tolowercase()) ) { book.relevance++; } } } sort(book.relevance); return index;

10 10 GEGENBEISPIEL Search(Matrix Methods Pattern Recognition) mind. 1 Ergebnis ABER: Search(computing science engineering) ungenaue Ergebnisse ID Title ISBN 4865 Matrix methods in data mining and pattern recognition Computer science engineering

11 12 VORBEREITUNGEN Für jeden Suchbegriff: Liste von Dokumenten (invertierter Index) Schritt 1: Stopp Wörter herausfiltern Beispiele: a, a s, able, about, above, according, accordingly, across, actually, after, afterwards, again, against, ain t, all, allow, allows, almost, alone, along, already, also, although, always, am, among, amongst, an, and, another, any, anybody, anyhow, anyone, anything, anyway, anyways, anywhere, apart, appear, appreciate, appropriate, are, aren t, around, as, aside, ask,....

12 13 VORBEREITUNGEN Schritt 2: Wortstämme extrahieren: computable comput computational comput walked walk thrown throw adaptive adapt

13 14 TYPISCHE SUCHANFRAGE the use of induced hypothermia in heart surgery, neurosurgery, headinjuries, and infectious diseases. (Q1) Bildquelle:

14 15 VEKTORMODELL Suchbegriff Dokument Matrix Dokumente: Spalten Begriffe: Zeilen Text Parser Gewichtungsfunktion: a ij = f ij log n n i Dokument a j ist relevant, wenn der Winkel zwischen q und a j klein genug ist: cos θ q, a j = qt a j q 2 a j 2 > ε

15 16 VEKTORMODELL: BEISPIEL Ersten 500 Zeilen und Spalten der Q1 Matrix

16 17 VEKTORMODELL: GENAUIGKEIT Exaktheit: P = D r D t Abrufgenauigkeit: R = D r N r D r # der erhaltenen Dokumente, die relevant sind D t # der erhaltenen Dokumente N r # der Dokumente, die relevant sind

17 Exaktheit 18 VEKTORMODELL: GENAUIGKEIT Abrufgenauigkeit

18 19 LATENT SEMANTIC INDEXING Basiert auf Singulärwertzerlegung A k U k H k a j U k h j q T A k = q T U k H k = U k T q T H k cos θ j = q k T h j q k 2 h j 2 q k = U k T q

19 Exaktheit LATENT SEMANTIC INDEXING: BEISPIEL Rang: 100 Latent Semantic Indexing: Vektormodell: In diesem Fall: LSI erheblich besser Abrufgenauigkeit

20 Gut konditionierte Matrix Keine Lücke bei den Singulärwerten Näherungsfehler hoch A A k F 0,8 (k = 100) Bessere ODER schlechtere Performance LATENT SEMANTIC INDEXING: ABSCHÄTZUNGEN A F 21

21 22 CLUSTERING Dokumentengruppen mit ähnlichem Inhalt Jede Gruppe wird durch ihren Durchschnittswert repräsentiert Matrix C k R m k als Näherung

22 Exaktheit 23 CLUSTERING: BEISPIEL Clustering: Normierte Spalten (euklidisch) Rang: 50 Vektormodell: --- Abrufgenauigkeit

23 24 CLUSTERING: ABSCHÄTZUNGEN Abschätzungsfehler: A P kg k F A F 0,9 Aber: Bei unterschiedlichen Anfragen haben LSI (k = 100) und Clustering (k = 50) ungefähr gleiche Performance

24 NICHTNEGATIVE MATRIX FAKTORISIERUNG 25 A WH W = QR q = R 1 Q T q

25 Exaktheit 26 NMF: BEISPIEL & ABSCHÄTZUNGEN Nichtnegative Matrix Faktorisierung: A WH F 0,89 A F Vektormodell: --- Abrufgenauigkeit

26 27 LGK BIDIAGONALISIERUNG Updates sind bei den bisher vorgestellten Algorithmen teuer Basiert auf der LGK Bidiagonalisierung (Kapitel 7) Einzelner Aufruf teurer Aber deutlich geringere Updatekosten

27 Exaktheit Abrufgenauigkeit LGK BIDIAGONALISIERUNG: BEISPIEL 28 Relatives Residuum der LGK Bidiagonalisierung Vektormodell: --- Bidiagonalisierung (2 Schritte): Bidiagonalisierung (8 Schritte):

28 29 ZUSAMMENFASSUNG Perfomanzaussagen: immer unterschiedliche Testdurchläufe mit unterschiedlichen Anfragen Ergebnisse abhängig von der Beschaffenheit der Daten Neuberechnung notwendig Vektormodell Latent Semantic Indexing Clustering Nichtnegative Matrix Faktorisierung In Place Updates möglich LGK Bidiagonalisierung

29 VIELEN DANK FÜR IHRE AUFMERKSAMKEIT! 30

30 31 LITERATURVERZEICHNIS L. Eldén: Matrix methods in data mining and pattern recognition. Volume 4, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, Martin Porter: The Porter Stemming Algorithm online abrufbar unter: (zuletzt überprüft am ) Dr. René Witte, Jutta Mülle u.a.: Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten (2006) online abrufbar unter: (zuletzt überprüft am ) Dr. Steffen Weißer: Praktische Mathematik: Vorlesungsmitschrift SS 2015

Reduced-Rank Least Squares Modelle

Reduced-Rank Least Squares Modelle 16.12.2008 Wiederholung Gegeben: Matrix A m n Paar Rechter Eigenvektor x, Eigenwert λ: A x = λ x mit x R n \ 0, λ N Paar Linker Eigenvektor y, Eigenwert λ: y T A = λ y T Singulärwertzerlegung (SVD): A

Mehr

Tensoren in der Datenanalyse

Tensoren in der Datenanalyse Tensoren in der Datenanalyse Edgar Tretschk Universität des Saarlandes 2. Dezember 2015 1 Inhalt 1 Grundlagen 2 Singulärwertzerlegung 3 Ziffernerkennung 4 Bewegungsabläufe 2 Tensoren als mehrdimensionale

Mehr

9. Vorlesung Lineare Algebra, SVD und LSI

9. Vorlesung Lineare Algebra, SVD und LSI 9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent

Mehr

Normalengleichungen. Für eine beliebige m n Matrix A erfüllt jede Lösung x des Ausgleichsproblems Ax b min die Normalengleichungen A t Ax = A t b,

Normalengleichungen. Für eine beliebige m n Matrix A erfüllt jede Lösung x des Ausgleichsproblems Ax b min die Normalengleichungen A t Ax = A t b, Normalengleichungen Für eine beliebige m n Matrix A erfüllt jede Lösung x des Ausgleichsproblems Ax b min die Normalengleichungen A t Ax = A t b, Normalengleichungen 1-1 Normalengleichungen Für eine beliebige

Mehr

1. Referenzpunkt Transformation

1. Referenzpunkt Transformation 2.3 Featurereduktion Idee: Anstatt Features einfach wegzulassen, generiere einen neuen niedrigdimensionalen Featureraum aus allen Features: Redundante Features können zusammengefasst werden Irrelevantere

Mehr

Information Retrieval Einführung

Information Retrieval Einführung Information Retrieval Einführung Kursfolien Karin Haenelt 22.7.2015 Themen Traditionelles Konzept / Erweitertes Konzept Auffinden von Dokumenten Rankingfunktionen Auffinden und Aufbereiten von Information

Mehr

Latent Semantic Indexing: Einführung und Experiment

Latent Semantic Indexing: Einführung und Experiment Latent Semantic Indexing: Einführung und Experiment Jonathan Geiger, Felix Hieber HS: Information Retrieval Dr. Haenelt 12.01.2009 WS 08/09 Motivation Grundsätzlich stecken zwei Ideen hinter, eine praktischer

Mehr

Exkurs Eine Algorithm-Engineering-Fallstudie Volltextsuche mit invertiertem Index

Exkurs Eine Algorithm-Engineering-Fallstudie Volltextsuche mit invertiertem Index Sanders / van Stee: Algorithmentechnik October 25, 2007 1 Exkurs Eine Algorithm-Engineering-Fallstudie Volltextsuche mit invertiertem Index Motivation: Volltextsuchmaschinen wie Google haben die Welt verändert.

Mehr

Drehung. Die orthogonale n n-matrix 1 0. c s. Zeile j. s c

Drehung. Die orthogonale n n-matrix 1 0. c s. Zeile j. s c Drehung Die orthogonale n n-matrix Q i,j... Zeile i c s... Zeile j s c... mit c = cos ϕ und s = sin ϕ beschreibt eine Drehung um den Winkel ϕ in der x i x j -Ebene des R n. Drehung - Drehung Die orthogonale

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Geometrisches Problem: Problem: Nächstes Paar Eingabe: n Punkte in der Ebene Ausgabe: Das Paar q,r mit geringstem Abstand

Mehr

Übersicht. Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax

Übersicht. Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax Indizierung Lucene Übersicht Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax Grundideen und Ziel des Indexing Effizientes

Mehr

Numerische Lineare Algebra

Numerische Lineare Algebra Numerische Lineare Algebra Vorlesung 5 Prof. Dr. Klaus Höllig Institut für Mathematischen Methoden in den Ingenieurwissenschaften, Numerik und Geometrische Modellierung SS 21 Prof. Dr. Klaus Höllig (IMNG)

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Texttechnologien: Latent Semantic Indexing

Texttechnologien: Latent Semantic Indexing Texttechnologien: Latent Semantic Indexing Inhaltsbasierte Suche in P2P-Netzen Texttechnologien 1 Inhaltsbasierte Suche in P2P-Netzen 1 Überblick Motivation Verfahren Eigenwertzerlegungen Singulärwertzerlegungen

Mehr

Unit 9. Prototype-Based Clustering. Knowledge-Based Methods in Image Processing and Pattern Recognition; Ulrich Bodenhofer 176

Unit 9. Prototype-Based Clustering. Knowledge-Based Methods in Image Processing and Pattern Recognition; Ulrich Bodenhofer 176 Unit 9 Prototype-Based Clustering Knowledge-Based Methods in Image Processing and Pattern Recognition; Ulrich Bodenhofer 176 Introduction Instead of a complete set description, every cluster C i is represented

Mehr

Singulärwertzerlegung

Singulärwertzerlegung LMU München Centrum für Informations- und Sprachverarbeitung WS 10-11: 13.12.2010 HS Matrixmethoden im Textmining Dozent: Prof.Dr. Klaus U. Schulz Referat von: Erzsébet Galgóczy Singulärwertzerlegung 1

Mehr

Vortrag 20: Kurze Vektoren in Gittern

Vortrag 20: Kurze Vektoren in Gittern Seminar: Wie genau ist ungefähr Vortrag 20: Kurze Vektoren in Gittern Kerstin Bauer Sommerakademie Görlitz, 2007 Definition und Problembeschreibung Definition: Gitter Seien b 1,,b k Q n. Dann heißt die

Mehr

Relative Lokalisierung in Sensornetzen

Relative Lokalisierung in Sensornetzen Relative Lokalisierung in Sensornetzen Raphael Schmid Seminar Lokalisierung bei Prof. F. Mattern, SS06 Betreuung: Christian Frank Inhalt des Vortrages Einführung und Motivation Übersicht über relative

Mehr

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Hasso-Plattner-Institut Potsdam Fachgebiet Informationssysteme Markus Güntert WS 2008/2009 20.01.2009 1 The Anatomy

Mehr

Übung zu Algorithmen und Datenstrukturen (für ET/IT)

Übung zu Algorithmen und Datenstrukturen (für ET/IT) Übung zu Algorithmen und Datenstrukturen (für ET/IT) Wintersemester 2012/13 Jakob Vogel Computer-Aided Medical Procedures Technische Universität München Komplexität von Programmen Laufzeit kann näherungsweise

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Suchen und Finden mit Lucene und Solr. Florian Hopf 04.07.2012

Suchen und Finden mit Lucene und Solr. Florian Hopf 04.07.2012 Suchen und Finden mit Lucene und Solr Florian Hopf 04.07.2012 http://techcrunch.com/2010/08/04/schmidt-data/ Suche Go Suche Go Ergebnis 1 In Ergebnis 1 taucht der Suchbegriff auf... Ergebnis 2 In Ergebnis

Mehr

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager Website-Suche mit OpenText Web Site Management Frank Steffen - Senior Product Manager Inhalt Überblick Konzepte der Suchmaschinenanbindung Verity K2 Anbindung Der neue OT Search Engine Connector Federated

Mehr

Effiziente Text Suche

Effiziente Text Suche Effiziente Text Suche Christian Ortolf 3. August 2008 Zusammenfassung In diesem Seminar Paper wird ein Überblick geboten über Suchstrukturen die verwendet werden können um die Suchdauer unabhängig der

Mehr

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval Grundgedanken zum Link-basierten Rankingverfahren

Mehr

Willy Pastor. Click here if your download doesn"t start automatically

Willy Pastor. Click here if your download doesnt start automatically Albrecht Dürer - Der Mann und das Werk (Vollständige Biografie mit 50 Bildern): Das Leben Albrecht Dürers, eines bedeutenden Künstler (Maler, Grafiker... und der Reformation (German Edition) Willy Pastor

Mehr

Elektrischer Schaltkreis lin. Gleichungssystem

Elektrischer Schaltkreis lin. Gleichungssystem Inhalt Kapitel II: Lineare Gleichungssysteme II Lineare Gleichungssysteme II Gestaffelte Systeme II2 LU-Zerlegung II3 QR-Algorithmen Kapitel II (UebersichtKapI) Beispiel : Elektrischer Schaltkreis I R

Mehr

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte Hauptseminar Information Retrieval Vorschläge für Seminarprojekte Karin Haenelt 17.10.2010 Projektarten Implementierungsprojekte: Standardalgorithmen Modellierungsexperimente Vorhandene Werkzeuge studieren,

Mehr

Inhalt Kapitel II: Lineare Gleichungssysteme

Inhalt Kapitel II: Lineare Gleichungssysteme Inhalt Kapitel II: Lineare Gleichungssysteme II Lineare Gleichungssysteme II1 Gestaffelte Systeme II2 LU-Zerlegung II3 QR-Algorithmen Kapitel II (UebersichtKapI) 1 Beispiel 1: Elektrischer Schaltkreis

Mehr

D 1 D 2 D 3 D 4 D 5... D m S S S S n

D 1 D 2 D 3 D 4 D 5... D m S S S S n Page-Rank Wir wollte in einem Corpus von Texten, wie z.b. Bücher, Webseiten, Anleitung usw., nach bestimmten Inhalten aus einer Menge von Schlüsselworten suchen Sei S = {S,S,...,S n,s n } eine eine alphabeitsch

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Lineare Algebra und Geometrie II, Übungen

Lineare Algebra und Geometrie II, Übungen Lineare Algebra und Geometrie II, Übungen Gruppe (9 9 45 ) Sei A 2 Bestimmen Sie A und A Finden Sie weiters Vektoren u, v R 2 mit u und Au A, beziehungsweise v und Av A Zunächst die Berechnung der Norm

Mehr

47 Singulärwertzerlegung

47 Singulärwertzerlegung 47 Singulärwertzerlegung 47.1 Motivation Wir haben gesehen, dass symmetrische Matrizen vollständig mithilfe ihrer Eigenwerte und Eigenvektoren beschrieben werden können. Diese Darstellung kann unmittelbar

Mehr

Übung Algorithmen und Datenstrukturen

Übung Algorithmen und Datenstrukturen Übung Algorithmen und Datenstrukturen Sommersemester 017 Marc Bux, Humboldt-Universität zu Berlin Agenda 1. Vorrechnen von Aufgabenblatt 1. Wohlgeformte Klammerausdrücke 3. Teile und Herrsche Agenda 1.

Mehr

8. A & D - Heapsort. Werden sehen, wie wir durch geschicktes Organsieren von Daten effiziente Algorithmen entwerfen können.

8. A & D - Heapsort. Werden sehen, wie wir durch geschicktes Organsieren von Daten effiziente Algorithmen entwerfen können. 8. A & D - Heapsort Werden sehen, wie wir durch geschicktes Organsieren von Daten effiziente Algorithmen entwerfen können. Genauer werden wir immer wieder benötigte Operationen durch Datenstrukturen unterstützen.

Mehr

Sortieren & Co. KIT Institut für Theoretische Informatik

Sortieren & Co. KIT Institut für Theoretische Informatik Sortieren & Co KIT Institut für Theoretische Informatik 1 Formaler Gegeben: Elementfolge s = e 1,...,e n Gesucht: s = e 1,...,e n mit s ist Permutation von s e e 1 n für eine Totalordnung ` ' KIT Institut

Mehr

Kapitel 4. Determinante. Josef Leydold Mathematik für VW WS 2017/18 4 Determinante 1 / 24

Kapitel 4. Determinante. Josef Leydold Mathematik für VW WS 2017/18 4 Determinante 1 / 24 Kapitel 4 Determinante Josef Leydold Mathematik für VW WS 2017/18 4 Determinante 1 / 24 Was ist eine Determinante? Wir wollen messen, ob n Vektoren im R n linear abhängig sind bzw. wie weit sie davon entfernt

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Orthogonale Matrix. Definition 4.19

Orthogonale Matrix. Definition 4.19 Orthogonale Matrix Ausgleichsprobleme sind häufig schlecht konditioniert. Matrix des Normalengleichungssystems kann nahezu singulär sein. Spezielle Matrixzerlegung für höhere numerische Stabilität: QR-Zerlegung

Mehr

Formaler. Gegeben: Elementfolge s = e 1,...,e n. s ist Permutation von s e 1 e n für eine lineare Ordnung ` '

Formaler. Gegeben: Elementfolge s = e 1,...,e n. s ist Permutation von s e 1 e n für eine lineare Ordnung ` ' Sortieren & Co 164 165 Formaler Gegeben: Elementfolge s = e 1,...,e n Gesucht: s = e 1,...,e n mit s ist Permutation von s e 1 e n für eine lineare Ordnung ` ' 166 Anwendungsbeispiele Allgemein: Vorverarbeitung

Mehr

Die Einfache Suche finden Sie auf den Onleihen in der linken oder in der rechten Spalte oder im Headerbereich bzw. im Kopf der Homepage.

Die Einfache Suche finden Sie auf den Onleihen in der linken oder in der rechten Spalte oder im Headerbereich bzw. im Kopf der Homepage. Wie suche ich nach Medien auf der Stand: Juni 2016 Die fache Suche Wo finde ich die fache Suche? Die fache Suche finden Sie auf den Onleihen in der linken oder in der rechten Spalte oder im Headerbereich

Mehr

Latent Semantic Analysis. Christian Ebert & Fritz Hamm. Lineare Algebra IV: Diagonalisierungen. Latent Semantic. Analysis/Indexing. 12.

Latent Semantic Analysis. Christian Ebert & Fritz Hamm. Lineare Algebra IV: Diagonalisierungen. Latent Semantic. Analysis/Indexing. 12. 12. Januar 2012 Eigenwerte & Diagonalisierungen I Sei V ein K-Vektorraum und A ein Endomorphismus/eine n n Matrix über K {R, C} Erinnerung 1 Gilt A x = λ x, x 0 V, λ K, heißt λ Eigenwert und x Eigenvektor

Mehr

When you use any of these prepositions, you need to put the noun or pronoun following them into the accusative case. For example:

When you use any of these prepositions, you need to put the noun or pronoun following them into the accusative case. For example: Accusative Prepositions Up to now, we ve been using the accusative case only for direct objects. There is another part of speech that requires the accusative case in German: the accusative prepositions.

Mehr

Ausblick über den Tellerrand

Ausblick über den Tellerrand Institute for Web Science & Technologies WeST Grundlagen der Datenbanken über den Tellerrand Dr. Thomas Gottron Wintersemester 2012/13 Column Stores Thomas Gottron GLDB 2012/13 2 Row Stores Wir haben betrachtet:

Mehr

16. All Pairs Shortest Path (ASPS)

16. All Pairs Shortest Path (ASPS) . All Pairs Shortest Path (ASPS) All Pairs Shortest Path (APSP): Eingabe: Gewichteter Graph G=(V,E) Ausgabe: Für jedes Paar von Knoten u,v V die Distanz von u nach v sowie einen kürzesten Weg a b c d e

Mehr

Eine zentrale Recherche-Plattform für Bibliotheksressourcen

Eine zentrale Recherche-Plattform für Bibliotheksressourcen Bibliothek und Archiv der Technischen Universität Graz Mai 2014 Eine zentrale Recherche-Plattform für Bibliotheksressourcen http://tugraz.summon.serialssolutions.com/ Seit Dezember 2012 bietet die TU Graz

Mehr

dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement

dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung und Big Data im Informationsmanagement dacore Datenbanksysteme AG Neue Konzepte zur Optimierung der Auslastungsplanung Die

Mehr

Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang. Institut für Geometrie und Praktische Mathematik RWTH Aachen

Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang. Institut für Geometrie und Praktische Mathematik RWTH Aachen Numerisches Rechnen (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang Institut für Geometrie und Praktische Mathematik RWTH Aachen Wintersemester 2011/12 IGPM, RWTH Aachen Numerisches Rechnen

Mehr

Machine Learning and Data Mining Summer 2015 Exercise Sheet 11

Machine Learning and Data Mining Summer 2015 Exercise Sheet 11 Ludwig-Maximilians-Universitaet Muenchen 0.06.205 Institute for Informatics Prof. Dr. Volker Tresp Gregor Jossé Johannes Niedermayer Machine Learning and Data Mining Summer 205 Exercise Sheet Presentation

Mehr

Kapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin

Kapitel 1 Einleitung. Definition: Algorithmus nach M. Broy: aus: Informatik: Eine grundlegende Einführung, Band 1, Springer-Verlag, Berlin Kapitel 1 Einleitung 1.1. Begriff des Algorithmus Eine der ältesten Beschreibungstechniken für Abläufe: Benannt nach dem Mathematiker Al-Khwarizmi (ca. 780...840), der am Hof der Kalifen von Bagdad wirkte.

Mehr

Übung Algorithmen I

Übung Algorithmen I Übung Algorithmen I 24.5.17 Sascha Witt sascha.witt@kit.edu (Mit Folien von Lukas Barth, Julian Arz, Timo Bingmann, Sebastian Schlag und Christoph Striecks) Organisatorisches Übungsklausur Am 21.06.2017

Mehr

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal

Mehr

Algorithmen für Geographische Informationssysteme

Algorithmen für Geographische Informationssysteme Algorithmen für Geographische Informationssysteme 2. Vorlesung: 16. April 2014 Thomas van Dijk basiert auf Folien von Jan-Henrik Haunert Map Matching? Map Matching! Map Matching...als Teil von Fahrzeugnavigationssystemen

Mehr

Teil 4. Aufbau von Datenbanken. Universitätsbibliothek Chemnitz - AG Informationskompetenz

Teil 4. Aufbau von Datenbanken. Universitätsbibliothek Chemnitz - AG Informationskompetenz Teil 4 Datenbanken I Aufbau von Datenbanken 30.08.2007 Überblick 1. Abfrage der Hausaufgabe: Erstellen einer Themenanalyse 2. Wiederholung Thematische Literaturrecherche: Was suche ich? 3. Thematische

Mehr

Query Translation from XPath to SQL in the Presence of Recursive DTDs

Query Translation from XPath to SQL in the Presence of Recursive DTDs Humboldt Universität zu Berlin Institut für Informatik Query Translation from XPath to SQL in the Presence of Recursive DTDs VL XML, XPath, XQuery: Neue Konzepte für Datenbanken Jörg Pohle, pohle@informatik.hu-berlin.de

Mehr

Algorithmen und Datenstrukturen II

Algorithmen und Datenstrukturen II Algorithmen und Datenstrukturen II D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg Sommer 2009, 26. März 2009, c 2009 D.Rösner D.

Mehr

Banach scher Fixpunktsatz. 1) D ist abgeschlossen und konvex; 2) f ist selbstabbildend, d.h. f(d) D;

Banach scher Fixpunktsatz. 1) D ist abgeschlossen und konvex; 2) f ist selbstabbildend, d.h. f(d) D; Institut für Geometrie und Praktische Mathematik Höhere Mathematik IV (für Elektrotechniker und Technische Informatiker) - Numerik - SS 2007 Dr. S. Börm, Dr. M. Larin Banach scher Fixpunktsatz Gegeben

Mehr

LDA-based Document Model for Adhoc-Retrieval

LDA-based Document Model for Adhoc-Retrieval Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

Erinnerung VL vom

Erinnerung VL vom Erinnerung VL vom 09.05.2016 Analyse von Hashtabellen mit verketteten Listen Erwartete Laufzeit O(1) bei zuf. Hashfkt. und falls M O(m) Guter Ersatz (hier) für zuf. Hashfkt.: universelle Hashfunktionen

Mehr

Aufgabe 8. 1 Arbeitsweise illustrieren. 2 Korrektheitsbeweis führen. 3 Laufzeitanalyse durchführen.

Aufgabe 8. 1 Arbeitsweise illustrieren. 2 Korrektheitsbeweis führen. 3 Laufzeitanalyse durchführen. Aufgabe 8 Betrachten Sie den folgenden Algorithmus namens Bubble-Sort. Bubble-Sort(A[1..n]): 1 for i 1 to length(a) 1 2 do for j length(a) downto i + 1 3 do if A[j 1] > A[j] 4 then A[j 1] A[j] 1 Arbeitsweise

Mehr

Lineare Gleichungssysteme und die Methode der kleinsten Quadrate

Lineare Gleichungssysteme und die Methode der kleinsten Quadrate Ludwig-Maximilians-Universität München Department für Computerlinguistik WS 2010/11 Hauptseminar Matrixmethoden in Textmining Dozent: Prof. Dr. Klaus Schulz Referentin: Sarah Söhlemann Lineare Gleichungssysteme

Mehr

Lösung der Diplom-Vorprüfung Höhere Mathematik III/IV Aufgabe N1 (LR-Zerlegung mit Pivotisierung) Gegeben seien R 3.

Lösung der Diplom-Vorprüfung Höhere Mathematik III/IV Aufgabe N1 (LR-Zerlegung mit Pivotisierung) Gegeben seien R 3. Lösung der Diplom-Vorprüfung Höhere Mathematik III/IV 7.7.6 Aufgabe N (LR-Zerlegung mit Pivotisierung) Gegeben seien 6 8 A = 8 6 R und b = 6 R. a) Berechnen Sie die LR-Zerlegung von A mit Spaltenpivotisierung.

Mehr

Numerische Mathematik

Numerische Mathematik Numerische Mathematik SS 999 Augabe 6 Punkte Das Integral I ln d soll numerisch bis au eine Genauigkeit von mindestens - approimiert werden. a Wie groß muss die Anzahl N der Teilintervalle sein damit mit

Mehr

Grundlagen: Algorithmen und Datenstrukturen

Grundlagen: Algorithmen und Datenstrukturen Grundlagen: Algorithmen und Datenstrukturen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2010

Mehr

Kapitel 2. Weitere Beispiele Effizienter Algorithmen

Kapitel 2. Weitere Beispiele Effizienter Algorithmen Kapitel 2 Weitere Beispiele Effizienter Algorithmen Sequentielle Suche Gegeben: Array a[1..n] Suche in a nach Element x Ohne weitere Zusatzinformationen: Sequentielle Suche a[1] a[2] a[3] Laufzeit: n Schritte

Mehr

Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil

Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil Prof. Dr. Nicole Schweikardt Lehrstuhl Logik in der Informatik Institut für Informatik Humboldt-Universität zu Berlin Kapitel 1: PageRank:

Mehr

III Das Symmetrische Eigenwertproblem (SEP)

III Das Symmetrische Eigenwertproblem (SEP) III Das Symmetrische Eigenwertproblem (SEP) III3 Algorithmen für symmetrische tridiagonale Eigenwertprobleme Sei im folgenden a b A = b a b b n a n b n b n a n R n n, zb nach Householder- oder Lanczos(im

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Kapitel 16: Erste Algorithmen in Graphen Thomas Worsch KIT, Institut für Theoretische Informatik Wintersemester 2015/2016 GBI Grundbegriffe der Informatik KIT, Institut für

Mehr

Sichtbarkeitsgraph. Andreas Gemsa Übung Algorithmische Geometrie

Sichtbarkeitsgraph. Andreas Gemsa Übung Algorithmische Geometrie Übung Algorithmische Geometrie Sichtbarkeitsgraph LEHRSTUHL FÜR ALGORITHMIK I INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Andreas Gemsa 19.07.2012 Ablauf Nachtrag Sichtbarkeitsgraph WSPD

Mehr

Textsuche mit Indexstrukturen. Anfragen. Inzidenz Vektoren. Term-Dokument Inzidenz Matrix

Textsuche mit Indexstrukturen. Anfragen. Inzidenz Vektoren. Term-Dokument Inzidenz Matrix Textsuche mit Indexstrukturen Zu einer Anfrage alle Dokumente sequentiell durchsuchen? Kleine Textsammlungen (ein paar MB) Sehr viele Änderungen Indexstrukturen Mehraufwand lohnt sich erst für große Texte

Mehr

Übung Algorithmen I

Übung Algorithmen I Übung Algorithmen I 18.5.16 Lukas Barth lukas.barth@kit.edu (Mit Folien von Julian Arz, Timo Bingmann, Sebastian Schlag und Christoph Striecks) Roadmap Sortieren Kleine Wiederholung Visualisierungen Adaptives

Mehr

4 Lineare Ausgleichsrechnung

4 Lineare Ausgleichsrechnung Numerik I 15 4 Lineare Ausgleichsrechnung Die folgende Tabelle zeigt die Bevölkerungsentwicklung in den U.S.A. 19 191 192 193 194 75.995 91.972 15.711 123.23 131.669 195 196 197 198 199 15.697 179.323

Mehr

Remarks on Floating Points

Remarks on Floating Points Remarks on Floating Points Prof. Dr. Jian-Jia Chen Department of Computer Science, Chair 2 TU Dortmund University, Germany October 3, 208 (based on the slides from Sedgewick and Wayne from University of

Mehr

Singular Value Decomposition

Singular Value Decomposition Singular Value Decomposition (Singulärwertzerlegung) Seminar Robust Design Vitali Müller 2 Inhalt Was ist die SVD? Interpretationen Anwendungsmöglichkeiten Berechnung 3 Datenmatrix Experiment mit n Objekten

Mehr

VuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015

VuFind Ein Baustein beim Finden, Entdecken & Bekommen. Gerald Steilen, 6. Mai 2015 VuFind Ein Baustein beim Finden, Entdecken & Bekommen Gerald Steilen, 6. Mai 2015 Perceptions of Libraries and Information Resources. 1 Wo beginnt die Suche? Perceptions of Libraries and Information Resources.

Mehr

Sortieren und Suchen. Jens Wächtler Hallo Welt! -Seminar LS 2

Sortieren und Suchen. Jens Wächtler Hallo Welt! -Seminar LS 2 Sortieren und Suchen Jens Wächtler 17.05.2017 Hallo Welt! -Seminar LS 2 Überblick Sortieren kurze Wiederholung Binäre & Ternäre Suche Binäre Suche in einer Liste Bisektionsverfahren (Nullstellensuche)

Mehr

Singulärwert-Zerlegung

Singulärwert-Zerlegung Singulärwert-Zerlegung Zu jeder komplexen (reellen) m n-matrix A existieren unitäre (orthogonale) Matrizen U und V mit s 1 0 U AV = S = s 2.. 0.. Singulärwert-Zerlegung 1-1 Singulärwert-Zerlegung Zu jeder

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

RIS-ABFRAGEHANDBUCH ERLÄSSE DES BUNDESMINSTERIUMS FÜR JUSTIZ

RIS-ABFRAGEHANDBUCH ERLÄSSE DES BUNDESMINSTERIUMS FÜR JUSTIZ RIS-ABFRAGEHANDBUCH ERLÄSSE DES BUNDESMINSTERIUMS FÜR JUSTIZ 1 Überblick Die Dokumentation von Erlässen des österreichischen Bundesministeriums für Justiz (BMJ) ist eine Teilapplikation des Rechtsinformationssystems

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Kategorie Nachschlagen & Verweisen

Kategorie Nachschlagen & Verweisen www.gmi.at, 2015 1 Kategorie Nachschlagen & Verweisen Als Matrix- oder Bezugsversion Wir behandeln vorerst nur die Matrixversion, die genau einen Zellinhalt zurückgibt Argumente Zellbereich Zeilenindex

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr

Die Mathematik hinter Google

Die Mathematik hinter Google Die Mathematik hinter Google Wolfram Decker TU Kaiserslautern Neustadt, 5. Dezember 05 Elemente einer Suchmaschine WWW Crawler Module Page Repository User query independent Indexing Module 000 000 000

Mehr

Algorithmen I - Tutorium 28 Nr. 9

Algorithmen I - Tutorium 28 Nr. 9 Algorithmen I - Tutorium 28 Nr. 9 29.06.2017: Spaß mit Graphen und Graphtraversierung Marc Leinweber marc.leinweber@student.kit.edu INSTITUT FÜR THEORETISCHE INFORMATIK (ITI), PROF. DR. JÖRN MÜLLER-QUADE

Mehr

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-

Mehr

die Relevanz von Webseiten bestimmt Alexander Pohl

die Relevanz von Webseiten bestimmt Alexander Pohl Wie die Relevanz von Webseiten bestimmt Alexander Pohl Gliederung 1. Einleitung 2. Das Web als Graph 3. Das Random Surfer Modell 4. Gleichgewicht im Random Surfer Modell (?) 5. Vervollständigung des Modells:

Mehr

Agenda. IT-Symposium 2007 19.04.2007. www.hp-user-society.de 1. Secure Enterprise Search. Suchen und finden mit Suchmaschinen. Oracle SES Überblick

Agenda. IT-Symposium 2007 19.04.2007. www.hp-user-society.de 1. Secure Enterprise Search. Suchen und finden mit Suchmaschinen. Oracle SES Überblick Secure Enterprise Search Das Intranet sicher durchsuchen Jürgen Vester, Snr. Manager Sales Consulting Stuttgart Agenda Suchen und finden mit Suchmaschinen Oracle SES Überblick Demo

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Linear Systems and Least Squares

Linear Systems and Least Squares Linear Systems and Least Squares Vortragender: Gelin Jiofack Nguedong Betreuer: Prof. Dr. Joachim Weickert Proseminar: Matrixmethoden in Datenanalyse und Mustererkennung Wintersemester 2015/2016 18. November

Mehr

Numerische Verfahren

Numerische Verfahren Numerische Verfahren Jens-Peter M. Zemke zemke@tu-harburg.de Institut für Numerische Simulation Technische Universität Hamburg-Harburg 03.06.2008 TUHH Jens-Peter M. Zemke Numerische Verfahren Lineare Ausgleichsprobleme

Mehr

Seminar Datenbanksysteme

Seminar Datenbanksysteme Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System

Mehr

TU Ilmenau Institut für Mathematik FG Numerische Mathematik und Informationsverarbeitung PD Dr. W. Neundorf Datei: UEBG2.TEX

TU Ilmenau Institut für Mathematik FG Numerische Mathematik und Informationsverarbeitung PD Dr. W. Neundorf Datei: UEBG2.TEX TU Ilmenau Institut für Mathematik FG Numerische Mathematik und Informationsverarbeitung PD Dr. W. Neundorf Datei: UEBG2.TEX Übungsaufgaben zum Lehrgebiet Numerische Mathematik - Serie 2 Beweise Sie folgende

Mehr

Communication Abstracts Database

Communication Abstracts Database Communication Abstracts Database Berichtszeitraum 1977 ff. Informationsanbieter Cambridge Scientific Abstracts Datenbanktyp Bibliographische Datenbank Inhaltsbeschreibung Internationale bibliographische

Mehr

Kapitel Andere dynamische Datenstrukturen

Kapitel Andere dynamische Datenstrukturen Institute of Operating Systems and Computer Networks Algorithms Group Kapitel 4.8-4.11 Andere dynamische Datenstrukturen Algorithmen und Datenstrukturen Wintersemester 2017/2018 Vorlesung#13, 12.12.2017

Mehr

Wann soll ich mocken? XP Days Germany David Völkel

Wann soll ich mocken? XP Days Germany David Völkel Wann soll ich mocken? XP Days Germany David Völkel 21.11.2016 @davidvoelkel @softwerkskammer @codecentric TDD & Design SCHICHTEN TESTEN? INTEGRIERTER TEST Unittest MOCKING Mock Unittest MOCKING Mock Unittest

Mehr

Komprimierung von dünnbesetzten Matrizen

Komprimierung von dünnbesetzten Matrizen von Raffael Lorup, Paolo Di Stolfo Präsentation, am 21.01.2011 Inhalt von Dünnbesetzte Matrix (sparse matrix) von Definition: Dünnbesetzte Matrix Eine m n-matrix A heißt dünnbesetzt, wenn gilt: wenige

Mehr

Institut für Geometrie und Praktische Mathematik

Institut für Geometrie und Praktische Mathematik RWTH Aachen Institut für Geometrie und Praktische Mathematik Multiple-Choice-Test NumaMB F08 (30 Punkte) Bei jeder MC-Aufgabe ist mindestens eine Aussage korrekt. Wird dennoch bei einer MC-Aufgabe keine

Mehr

Handbuch der therapeutischen Seelsorge: Die Seelsorge-Praxis / Gesprächsführung in der Seelsorge (German Edition)

Handbuch der therapeutischen Seelsorge: Die Seelsorge-Praxis / Gesprächsführung in der Seelsorge (German Edition) Handbuch der therapeutischen Seelsorge: Die Seelsorge-Praxis / Gesprächsführung in der Seelsorge (German Edition) Reinhold Ruthe Click here if your download doesn"t start automatically Handbuch der therapeutischen

Mehr