NLP im Information Retrieval

Größe: px
Ab Seite anzeigen:

Download "NLP im Information Retrieval"

Transkript

1 NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische Netze Verfügbare Software für das Deutsche

2 Textaufbereitung - Motivation Nicht alle Wörter als Indexterme erwünscht Kontrolliertes Vokabular z.b. Nomen wichtig, Funktionswörter nicht Index wird kleiner Textnormalisierung: Haus, Häuser, Häusern Haus, wirtschaftliche Entwicklung, Wirtschaftsentwicklung, Entwicklung der Wirtschaft Entwicklung+Wirtschaft Verbesserung von Recall und Precision

3 Text- und Anfrageaufbereitung

4 Tokenisierung Zerlegung des Eingabestroms in Wörter: Mittels regulärer Ausdrücke Tokenisierungsregeln müssen in gleicher Weise auf Dokumente und Anfragen angewandt werden dürfen nicht mehr geändert werden

5 Tokenisierung - Probleme Zahlen haben vage Bedeutung: 1984 Bindestriche: Chaos-Tage, B-52, das Ausder-Haut-fahren-Wollen, Staub-Ecken Punkte: weglassen oder diambiguieren? usw., x.id Groß-/Kleinschreibung: alle Wörter klein machen: GAU, Gau gau Umlaute, Akzente: Bäume Baume, český cesky

6 Stoppwortlisten Zu häufige Wörter haben keine Unterscheidungskraft Kommen in über 80% der Dokumente vor Dokumentenfrequenz (df) als Kriterium:,. der und die in von den des mit auch ein wird deutscher (41) ISBN (73) Stadt (75) Zeit (82) musste (662) Linguistischer Ansatz: Wörter, die keinen Bedeutungsgehalt haben, entfernen. Funktionswörter: Artikel, Konjunktionen, Pronomen,...

7 Stoppwortlisten Entfernen von Stoppwörtern verkleinert Index um über 40% Problem: to be or not to be Web-Suchmaschinen behalten Stoppwörter

8 Stemming Normalisierung von Wortvarianten Flexion, Derivation Porter-Stemmer [1]: Suffixe entfernen Stems sind keine linguistisch motivierten Einheiten: proliferate, proliferates, proliferation, proliferating proliferat Verkleinert Index:

9 Stemming

10 Stemming

11 Stemming Verbessert Recall, verschlechtert Precision Overstemming vs. Understemming Windows window, Papiere Papier book store book storing, booking store 25% der Anfragen besser, 50% gleich, 25% schlechter [2] Keine deutliche Verbesserung für Englisch, aber für morphologisch reichere Sprachen [3]

12 Stemming Wann anwenden? 1: beim Indexieren der Dokumente und auf die Anfrage 2: nur Erweiterung der Anfrage 1 verkleinert Index, ist aber aufwändig 2 weniger rechenintensiv, aber verkleinert Index nicht [2]: Ansatz 2 besser, weil flexibler Stemming kann auf ausgewählte Terme angewandt werden (vermeidet Overstemming)

13 Stemming Verbesserung eines Stemmers durch Korpusanalyse [4]: Per Stemmer Liste mit allen Wortvarianten zu Term t erzeugen Durch Kookkurrenzanalyse Liste semantisch ähnlicher Wörter zu t generieren Schnittmenge beider Listen bilden news new, paste past Vermeidet Overstemming, führt bei schlechter Qualität der sem. Ähnlichkeitsliste zu Understemming

14 Stemming Anwendung auf ausgewählte Terme in der Anfrage [2]: Ziel: running shoes price comparisons: nur Terme shoes und comparisons stemmen Zusammenhängende Bigramme per korpusbasiertem Kollokationsmaß bestimmen: [running shoes] [price comparisons] Mit einfachen Regeln Kopf der NP bestimmen: shoes, comparisons Anfrage: running shoe shoes price comparison comparisons

15 Morphologische Analyse Lexikonbasiert, morphologische Regeln Erstellung & Pflege kostenintensiv Für morphologisch komplexere Sprachen geringfügig besser als Stemming, für Englisch kein Unterschied [3] Notwendig: Ergebnisdarstellung: Grundformen besser als Varianten oder Stems Crosslinguales Retrieval: Nachschlagen von Grundformen im Wörterbuch

16 Kompositazerlegung Komposita saliente Terme Häufig in Sprachen wie Deutsch, Holländisch, Schwedisch: 25% der Nomen sind Komposita Anfrage Energie findet keine Dokumente mit Sonnenenergie, Atomenergie, Energieknappheit,... Kompositazerlegung in Dokumenten und in Anfrage: zum Term Sonnenenergie werden Sonne u. Energie eingefügt

17 Kompositazerlegung [7]: Hinzufügen des Bestimmungswortes zur Anfrage bzw. zum Dokumentvektor nützlicher als Hinzufügen des Hauptwortes Diamantring -> +Diamant besser als +Ring

18 Kompositazerlegung Einfache Algorithmen: vollständige Zerlegung in alle Wörter, die im Lexikon stehen [3] Probleme: Fugenelemente u. Elision: Nachrichtensprecher, Friedensvertrag, Birnbaum Mehrdeutigkeiten: Staubecken -> Staub Ecken, Stau Becken Ministern -> Mini Stern Flugzeuge -> Flug Zeuge Abteilungen -> Abt Ei Lungen

19 Kompositazerlegung Problem: Bahnhof -> Bahn Hof, Werkzeug -> Werk Zeug Korpusbasierte Zerlegung [6]: Zerlegung in Wörter aus Korpus, Frequenz berücksichtigen Nur zerlegen, wenn Frequenz der Komponenten > Frequenz des Ganzen

20 Kompositazerlegung Deutliche Verbesserung: [3]: +25% deutsch, +69% holländisch (inkl. Lemmatisierung) [8]: +13% deutsch

21 Mehrwortlexeme Englisch: Offene Komposita: prime minister Eigennamen, Fremdwörter: New York, Open Source MWL als Terme verwenden Ganzes MWL den Teilen hinzufügen Lexikonbasiert Kollokationen, signifikante Bigramme +10% avg. precision

22 Termselektion Studierte arbeitete fand hielt vergleiche befasste beeinflusst übersiedelte zusammenarbeitete ging lehrte lebte

23 Termselektion Man Ray New York Kunst Maler Bildhauer Alfred Stieglitz Fotografie Film

24 Termselektion Nomen tragen den Großteil des Bedeutungsgehalt eines Textes Nur Nomen (bzw. NP) als Terme akzeptieren PoS-Tagger Gas pump prices rose

25 Phrasen (Chunks) Flaches Parsing NP identifizieren und als eigene Terme dem Index hinzufügen Dadurch werden manche Terme erst gefunden, sonst als Stoppwort eliminiert Joint venture Verteilungsmodell tf-idf nimmt Unabhängigkeit der Terme an, gilt definitiv nicht für Phrasen

26 Head-modifier-Paare Weapon proliferation Proliferation of weapons Proliferate weapons -> weapon+proliferate Problem: Abdeckung, kurze Anfragen

27 n-gramme Alle Wörter in 5-Gramme zerlegen, nur diese bilden die Terme Vergrößert Index Ersetzt Stemming, Kompositazerlegung Verbessert Ergebnisse [9]

28 Thesauri und Wortnetze Wortwahlproblem -> Synonyme Thesaurus, WordNet Relationen: Synonymie, Meronymie, Hyponomie Synonyme Terme auf gemeinsame Dimension abbilden Anfrage um Synonyme erweitern Problem: geringe Abdeckung, nicht domänenspezifisch

29 Semantische Ähnlichkeit WordNet::Similarity (Perl-Modul) Alle ähnlichen Terme der Suchanfrage hinzufügen Semantische Ähnlichkeit zwischen Anfragevektor und Dokumentvektor berechnen

30 Lesartendisambiguierung Homonymie-Problem: Filz, Bank, Astra Verschlechtert Precision Lesarten (Bedeutungen) als Terme, nicht bloß Wörter Benötigt Lesarteninventar: GermaNet, EuroWordNet,... Ergebnisse gut für domänenspezifische Thesauri/Wortnetze: MeSH Ergebnisse schlecht für allgemeine Resourcen wie EuroWordNet [5]

31 Lesartendisambiguierung Problem: in kurzen Anfragen zu wenig Kontext zur Disambiguierung dann hilft auch Disambiguierung der Texte in Dokumentensammlung nicht Für längere Anfragen unnötig

32 Literaturangaben [1] M. Porter (1980): An algorithm for suffix stripping. Program, 14(3), S [2] F. Peng et al. (2007): Context sensitive stemming for web search. SIGIR 07, Amsterdam. [3] Ch. Monz u. M. de Rijke (2001): Shallow morphological analysis in monolingual information retrieval for Dutch, German and Italian. In Proc. of CLEF [4] J. Xu u. B. Croft (1998): Corpus-based stemming using cooccurrence of word variants. ACM TOIS, 16(1), S [5] Th. Brants (2003): Natural language processing in information retrieval. In Proc. of CLIN 2003.

33 Literaturangaben [6] Ph. Koehn u. K. Knight (2003): Empirical methods for compound splitting. In EACL [7] J. Karlgren (2005): Compound terms and their constituent elements in information retrieval. NODALIDA [8] M. Braschler u. B. Ripplinger (2004): How effective is stemming and decompounding for German text retrieval? Information Retrieval, 7: [9] P. McNamee (2006): Why you should use n-grams for multilingual information retrieval. Presentation slides:

Übersicht. Mehrwortlexeme Eigennamenerkennung. Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval. Crosslinguales Retrieval

Übersicht. Mehrwortlexeme Eigennamenerkennung. Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval. Crosslinguales Retrieval Übersicht Mehrwortlexeme Eigennamenerkennung Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval Crosslinguales Retrieval Mehrwortlexeme offene Komposita ( Phrasen ): ministry of education

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

Agenda. Seminar: Informationsstrukturierung. SS 2007 Ulli Waltinger. Lexical Chaining Textkategorisierung und Lexical Chaining

Agenda. Seminar: Informationsstrukturierung. SS 2007 Ulli Waltinger. Lexical Chaining Textkategorisierung und Lexical Chaining Seminar: Informationsstrukturierung SS 2007 Ulli Waltinger Lexical Chaining Textkategorisierung und Lexical Chaining 1 Agenda Textkategorisierung Datenanalyse und Lemmatisierung Lexical Chaining Quelle:

Mehr

Stemming. Referenten: Johannes Lang Rossen Kowatschew

Stemming. Referenten: Johannes Lang Rossen Kowatschew Universität Heidelberg Institut für Computerlinguistik HS Information Retrieval WS 01/02 Leitung: Dr. Karin Haenelt 04.02. 2002 Stemming. Referenten: Johannes Lang Rossen Kowatschew Gliederung Einführung:

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Lexikalisch-semantische Disambiguierung mit WordNet

Lexikalisch-semantische Disambiguierung mit WordNet Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Kapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216

Kapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216 Kapitel 14 Worte HHU Düsseldorf, WS 2008/09 Information Retrieval 216 Schriftsystemerkennung Zeichensätze erkennen: falls Unicode eingesetzt wird, kein Problem wenn nicht: automatische Schriftsystemerkennung

Mehr

Jahresschlusstest 2016

Jahresschlusstest 2016 Jahresschlusstest 2016 Datum Klasse Lernziele 20. und 21. Juni 3. Sek Mathematik / Deutsch / Englisch (E,M,G) Prüfungsinhalt Mathematik Mathematik mit Taschenrechner und Formelsammlung LU 02 Rechentraining

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr

Stemmingverfahren. Éva Mújdricza Ganna Syrota. Ruprecht-Karls-Universität Heidelberg WS07/08

Stemmingverfahren. Éva Mújdricza Ganna Syrota. Ruprecht-Karls-Universität Heidelberg WS07/08 Ruprecht-Karls-Universität Heidelberg WS07/08 Stemmingverfahren Éva Mújdricza Ganna Syrota Information Retrieval, HS, WS07/08 Dozentin: PD Dr. Karin Haenelt 04.02.2008 Übersicht I: Stemmingverfahren Grundlagen

Mehr

"What's in the news? - or: why Angela Merkel is not significant

What's in the news? - or: why Angela Merkel is not significant "What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Natürlichsprachliche Systeme I Materialien zur Vorlesung Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth Relationen zwischen Nomen und ihren Assoziationen Michael Roth 2 Assoziationen sind psychologisch interessant. Wie erfolgt der Zugriff auf sie? Welche Bedeutung haben sie? erfüllen einen linguistischen

Mehr

Kapitel 18 Fehlertolerantes Retrieval

Kapitel 18 Fehlertolerantes Retrieval Kapitel 18 Fehlertolerantes Retrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 272 Eingabefehler in den Dokumenten in den Suchanfragen Formen Leerzeichenfehler ("...ofthe..."; "th_ebook") Fehler

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Erkennung fremdsprachiger Ausdrücke im Text

Erkennung fremdsprachiger Ausdrücke im Text Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina

Mehr

Jahresschlusstest 2017

Jahresschlusstest 2017 Jahresschlusstest 2017 Datum Klasse 19. und 20. Juni 3. Sek Lernziele Mathematik / Deutsch / Englisch (E, M, G) Prüfungsinhalt Mathematik Eine Prüfung mit TR und Formelsammlung LU 02 Rechentraining die

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

Endliche Automaten zur Erkennung von Stoppwörtern

Endliche Automaten zur Erkennung von Stoppwörtern Endliche Automaten zur Erkennung von Stoppwörtern Vortrag von Christian Schwarz & Andreas Beyer im Seminar FSM zur Spracherkennung 06.07.2009 DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter

Mehr

Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel

Sprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel Sprachtechnologie Fraunhofer-Institut für Angewandte Informationstechnik FIT Katja Niemann Maren Scheffel Inhalt Was ist Sprachtechnologie? Computerlinguistische Anwendungen Praktische Beispiele MACE Schlüsselaktionen

Mehr

2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments

2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments Textvorverarbeitung 2. Textvorverarbeitung nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments auszudrücken deswegen lohnt es sich oft, eine Vorverarbeitung durchzuführen

Mehr

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Jahresschlusstest 2018

Jahresschlusstest 2018 Jahresschlusstest 2018 Datum Klasse 18. und 19. Juni 3. Sek Lernziele MA / DE / EN (E, M, G) Prüfungsinhalt Mathematik 3. Sek mit Taschenrechner und Formelsammlung, Montag 18. Juni 2018 LU 02 Rechentraining

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

Suchst Du noch oder weißt Du schon? Inhaltserschließung leicht gemacht mit automatischer Indexierung

Suchst Du noch oder weißt Du schon? Inhaltserschließung leicht gemacht mit automatischer Indexierung Suchst Du noch oder weißt Du schon? Inhaltserschließung leicht gemacht mit automatischer Indexierung tekom-jahrestagung Wiesbaden, 06.-08.11.2013 Svenja Siedle, IAI svenja.siedle@iai-sb.de Übersicht Motivation

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Tokenisierung und Lemmatisierung in Suchmaschinen

Tokenisierung und Lemmatisierung in Suchmaschinen Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist

Mehr

Suche im Online Katalog

Suche im Online Katalog Suche im Online Katalog Oracle Text SID Frankfurt/Main 22.02.2007 Egon Ritter eritter@ci-database.de ci database Suche im Online Katalog 1 Anwendungen mit Oracle Text Adressensuche CRM-Systeme Abgleich

Mehr

Anfrage Erweiterung 03.11.2011 Jan Schrader

Anfrage Erweiterung 03.11.2011 Jan Schrader Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger

Mehr

Mehrsprachige Kategorisierung

Mehrsprachige Kategorisierung know-how innovation Mehrsprachige Kategorisierung für die automatische Beschlagwortung 22.3.2011, Dr. Peter Schäuble solution Information Retrieval Anwendungen im Bibliotheksumfeld! Information Retrieval

Mehr

WordNet. Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester

WordNet. Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester WordNet Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester 2010 15. November 2010 Synonymie Eine bestimmte Wortform in einem Satz, die durch eine

Mehr

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik

Mehr

Deep Web. Timo Mika Gläßer

Deep Web. Timo Mika Gläßer Deep Web Timo Mika Gläßer Inhaltsverzeichnis Deep Web Was ist das? Beispiele aus dem Deep Web PubMed AllMusic Statistiken zu Surface/Shallow und Deep Web Auffinden von potentiellen Quellen ([BC04], [WM04],

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Zugang zum Academic Invisible Web

Zugang zum Academic Invisible Web Zugang zum Academic Invisible Web Dr. Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft dirk.lewandowski@uni-duesseldorf.de www.durchdenken.de/lewandowski Gliederung

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

Text-Mining: Datenaufbereitung und -repräsentation

Text-Mining: Datenaufbereitung und -repräsentation Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert

Mehr

Das Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv

Das Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv Das Deutsche Textarchiv als Repositorium und Werkzeug Frank Wiegand (BBAW) Deutsches Textarchiv www.deutschestextarchiv.de wiegand@bbaw.de Deutsches Textarchiv Referenzkorpus für die schriftliche neuhochdeutsche

Mehr

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012 Wesentliche Methoden der Computerlinguistik Einführung in die Computerlinguistik Sommersemester 2012 Übersicht Morphologie: Lexikon, morphologische Analyse Syntax: PoS-Tagging, Unifikation, Chunking, Satzparser

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

xtree.voc Weiterentwicklung der Vokabularverwaltungssoftware xtree

xtree.voc Weiterentwicklung der Vokabularverwaltungssoftware xtree xtree.voc Weiterentwicklung der Vokabularverwaltungssoftware xtree Einführung Features Ein Beispiel: Konzept 00000964 aus der Oberbegriffsdatei als SKOS-Graph in xtree.voc Nächste Schritte Datenströme

Mehr

Semantic Relations and User Interests

Semantic Relations and User Interests Semantic Relations and User Interests WordNet Lexical Database und mögliche Anwendungen bei der Benutzerinteraktion Sebastian Blohm Sorry... Wie kann eine Maschine beim Suchen helfen? Was Maschinen schon

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

in deutschsprachigen Romanen

in deutschsprachigen Romanen Automatische Erkennung von Figuren in deutschsprachigen Romanen F. Jannidis, M. Krug, I. Reger, M. Toepfer, L. Weimer, F. Puppe (Universität Würzburg) Kontext Korpusbasierte Geschichte des deutschsprachigen

Mehr

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht

Mehr

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Einführung in die Computerlinguistik. Semantik

Einführung in die Computerlinguistik. Semantik Einführung in die Computerlinguistik Semantik WS 2006/2007 Manfred Pinkal Einführung in die Computerlinguistik 2006/2007 M. Pinkal UdS 1 Semantik für Dialogverarbeitung U: Ist der Flug um 2 nach London

Mehr

Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion

Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion Hans Friedrich Witschel Universität Leipzig, Institut für Informatik Augustusplatz 10-11, 04109 Leipzig witschel@informatik.uni-leipzig.de

Mehr

Information Retrieval Einführung

Information Retrieval Einführung Information Retrieval Einführung Kursfolien Karin Haenelt 22.7.2015 Themen Traditionelles Konzept / Erweitertes Konzept Auffinden von Dokumenten Rankingfunktionen Auffinden und Aufbereiten von Information

Mehr

Text Mining for Second Screen

Text Mining for Second Screen Text Mining for Second Screen Anwendungen 2 Ivan Demin ivan.demin@haw-hamburg.de 5. Juni 2014 Agenda 1 Motivation 2 Learning to link with wikipedia 3 Generating Queries from User-Selected Text 4 Feeding

Mehr

2. Natürliche Sprache

2. Natürliche Sprache 2. Natürliche Sprache Rückblick Information Retrieval an der Schnittstelle zwischen Bibliotheks- und Kommunikationswissenschaft, Computerlinguistik und Informatik Informationsbedürfnis des Benutzers als

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Die Anwendung von Morphologieanalyse in Information Retrieval- Systemen

Die Anwendung von Morphologieanalyse in Information Retrieval- Systemen Lexikonaufbau und Morphologieanalyse. Gerold Schneider, SS 2001 Seite 1 Die Anwendung von Morphologieanalyse in Information Retrieval- Systemen Morphologieanalyse und Lexikonaufbau (10. Vorlesung) Übersicht

Mehr

Text Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014

Text Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014 Text Mining Joachim Schole Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg Grundseminar, WS 2014 Joachim Schole (HAW Hamburg) Text Mining Grundseminar, WS 2014 1 / 26 Agenda

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

1. Vorlesung,

1. Vorlesung, 1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Information und Wissen: global, sozial und frei?

Information und Wissen: global, sozial und frei? Joachim Griesbaum, Thomas Mandl, Christa Womser-Hacker (Hrsg.) Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenschaft (ISI 2011) Hildesheim,

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

Thesaurus 1. Merkmale:

Thesaurus 1. Merkmale: Thesaurus 1 Eine Dokumentationssprache ist eine Menge sprachlicher Ausdrücke, die, nach bestimmten Regeln angewendet, der Beschreibung von Dokumenten zum Zweck des Speicherns und einer gezielten Wiederauffindung

Mehr

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Inhaltsverzeichnis. Bibliografische Informationen  digitalisiert durch Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3

Mehr

Algorithmische Anwendungen WS 05/06 Document Ranking

Algorithmische Anwendungen WS 05/06 Document Ranking Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document

Mehr

Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten

Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten Juliane Bredack SKILL 2014 Studierendenkonferenz Informatik 25. September 2014 Einführung Überblick Was sind Mehrwortgruppen?

Mehr

Ziele und Herausforderungen

Ziele und Herausforderungen Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische

Mehr

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

HEALTH Institut für Biomedizin und Gesundheitswissenschaften HEALTH Institut für Biomedizin und Gesundheitswissenschaften Konzept zur Verbesserung eines klinischen Information Retrieval Systems unter Verwendung von Apache UIMA und medizinischen Ontologien Georg

Mehr

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Search-Driven Applications Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Agenda Motivation Aufbau der Such-Datenstruktur Anwendungsfälle Fallstricke Was ist Suche? Was wollen

Mehr

Texttechnologien: Latent Semantic Indexing

Texttechnologien: Latent Semantic Indexing Texttechnologien: Latent Semantic Indexing Inhaltsbasierte Suche in P2P-Netzen Texttechnologien 1 Inhaltsbasierte Suche in P2P-Netzen 1 Überblick Motivation Verfahren Eigenwertzerlegungen Singulärwertzerlegungen

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr