NLP im Information Retrieval
|
|
- Daniel Lorentz
- vor 7 Jahren
- Abrufe
Transkript
1 NLP im Information Retrieval Tokenisierung Stoppwortlisten Stemming, Morphologische Analyse, Kompositazerlegung Flaches Parsing: Phrasen, Mehrwortlexeme N-Gramme Lesartendisambiguierung Thesauri, Semantische Netze Verfügbare Software für das Deutsche
2 Textaufbereitung - Motivation Nicht alle Wörter als Indexterme erwünscht Kontrolliertes Vokabular z.b. Nomen wichtig, Funktionswörter nicht Index wird kleiner Textnormalisierung: Haus, Häuser, Häusern Haus, wirtschaftliche Entwicklung, Wirtschaftsentwicklung, Entwicklung der Wirtschaft Entwicklung+Wirtschaft Verbesserung von Recall und Precision
3 Text- und Anfrageaufbereitung
4 Tokenisierung Zerlegung des Eingabestroms in Wörter: Mittels regulärer Ausdrücke Tokenisierungsregeln müssen in gleicher Weise auf Dokumente und Anfragen angewandt werden dürfen nicht mehr geändert werden
5 Tokenisierung - Probleme Zahlen haben vage Bedeutung: 1984 Bindestriche: Chaos-Tage, B-52, das Ausder-Haut-fahren-Wollen, Staub-Ecken Punkte: weglassen oder diambiguieren? usw., x.id Groß-/Kleinschreibung: alle Wörter klein machen: GAU, Gau gau Umlaute, Akzente: Bäume Baume, český cesky
6 Stoppwortlisten Zu häufige Wörter haben keine Unterscheidungskraft Kommen in über 80% der Dokumente vor Dokumentenfrequenz (df) als Kriterium:,. der und die in von den des mit auch ein wird deutscher (41) ISBN (73) Stadt (75) Zeit (82) musste (662) Linguistischer Ansatz: Wörter, die keinen Bedeutungsgehalt haben, entfernen. Funktionswörter: Artikel, Konjunktionen, Pronomen,...
7 Stoppwortlisten Entfernen von Stoppwörtern verkleinert Index um über 40% Problem: to be or not to be Web-Suchmaschinen behalten Stoppwörter
8 Stemming Normalisierung von Wortvarianten Flexion, Derivation Porter-Stemmer [1]: Suffixe entfernen Stems sind keine linguistisch motivierten Einheiten: proliferate, proliferates, proliferation, proliferating proliferat Verkleinert Index:
9 Stemming
10 Stemming
11 Stemming Verbessert Recall, verschlechtert Precision Overstemming vs. Understemming Windows window, Papiere Papier book store book storing, booking store 25% der Anfragen besser, 50% gleich, 25% schlechter [2] Keine deutliche Verbesserung für Englisch, aber für morphologisch reichere Sprachen [3]
12 Stemming Wann anwenden? 1: beim Indexieren der Dokumente und auf die Anfrage 2: nur Erweiterung der Anfrage 1 verkleinert Index, ist aber aufwändig 2 weniger rechenintensiv, aber verkleinert Index nicht [2]: Ansatz 2 besser, weil flexibler Stemming kann auf ausgewählte Terme angewandt werden (vermeidet Overstemming)
13 Stemming Verbesserung eines Stemmers durch Korpusanalyse [4]: Per Stemmer Liste mit allen Wortvarianten zu Term t erzeugen Durch Kookkurrenzanalyse Liste semantisch ähnlicher Wörter zu t generieren Schnittmenge beider Listen bilden news new, paste past Vermeidet Overstemming, führt bei schlechter Qualität der sem. Ähnlichkeitsliste zu Understemming
14 Stemming Anwendung auf ausgewählte Terme in der Anfrage [2]: Ziel: running shoes price comparisons: nur Terme shoes und comparisons stemmen Zusammenhängende Bigramme per korpusbasiertem Kollokationsmaß bestimmen: [running shoes] [price comparisons] Mit einfachen Regeln Kopf der NP bestimmen: shoes, comparisons Anfrage: running shoe shoes price comparison comparisons
15 Morphologische Analyse Lexikonbasiert, morphologische Regeln Erstellung & Pflege kostenintensiv Für morphologisch komplexere Sprachen geringfügig besser als Stemming, für Englisch kein Unterschied [3] Notwendig: Ergebnisdarstellung: Grundformen besser als Varianten oder Stems Crosslinguales Retrieval: Nachschlagen von Grundformen im Wörterbuch
16 Kompositazerlegung Komposita saliente Terme Häufig in Sprachen wie Deutsch, Holländisch, Schwedisch: 25% der Nomen sind Komposita Anfrage Energie findet keine Dokumente mit Sonnenenergie, Atomenergie, Energieknappheit,... Kompositazerlegung in Dokumenten und in Anfrage: zum Term Sonnenenergie werden Sonne u. Energie eingefügt
17 Kompositazerlegung [7]: Hinzufügen des Bestimmungswortes zur Anfrage bzw. zum Dokumentvektor nützlicher als Hinzufügen des Hauptwortes Diamantring -> +Diamant besser als +Ring
18 Kompositazerlegung Einfache Algorithmen: vollständige Zerlegung in alle Wörter, die im Lexikon stehen [3] Probleme: Fugenelemente u. Elision: Nachrichtensprecher, Friedensvertrag, Birnbaum Mehrdeutigkeiten: Staubecken -> Staub Ecken, Stau Becken Ministern -> Mini Stern Flugzeuge -> Flug Zeuge Abteilungen -> Abt Ei Lungen
19 Kompositazerlegung Problem: Bahnhof -> Bahn Hof, Werkzeug -> Werk Zeug Korpusbasierte Zerlegung [6]: Zerlegung in Wörter aus Korpus, Frequenz berücksichtigen Nur zerlegen, wenn Frequenz der Komponenten > Frequenz des Ganzen
20 Kompositazerlegung Deutliche Verbesserung: [3]: +25% deutsch, +69% holländisch (inkl. Lemmatisierung) [8]: +13% deutsch
21 Mehrwortlexeme Englisch: Offene Komposita: prime minister Eigennamen, Fremdwörter: New York, Open Source MWL als Terme verwenden Ganzes MWL den Teilen hinzufügen Lexikonbasiert Kollokationen, signifikante Bigramme +10% avg. precision
22 Termselektion Studierte arbeitete fand hielt vergleiche befasste beeinflusst übersiedelte zusammenarbeitete ging lehrte lebte
23 Termselektion Man Ray New York Kunst Maler Bildhauer Alfred Stieglitz Fotografie Film
24 Termselektion Nomen tragen den Großteil des Bedeutungsgehalt eines Textes Nur Nomen (bzw. NP) als Terme akzeptieren PoS-Tagger Gas pump prices rose
25 Phrasen (Chunks) Flaches Parsing NP identifizieren und als eigene Terme dem Index hinzufügen Dadurch werden manche Terme erst gefunden, sonst als Stoppwort eliminiert Joint venture Verteilungsmodell tf-idf nimmt Unabhängigkeit der Terme an, gilt definitiv nicht für Phrasen
26 Head-modifier-Paare Weapon proliferation Proliferation of weapons Proliferate weapons -> weapon+proliferate Problem: Abdeckung, kurze Anfragen
27 n-gramme Alle Wörter in 5-Gramme zerlegen, nur diese bilden die Terme Vergrößert Index Ersetzt Stemming, Kompositazerlegung Verbessert Ergebnisse [9]
28 Thesauri und Wortnetze Wortwahlproblem -> Synonyme Thesaurus, WordNet Relationen: Synonymie, Meronymie, Hyponomie Synonyme Terme auf gemeinsame Dimension abbilden Anfrage um Synonyme erweitern Problem: geringe Abdeckung, nicht domänenspezifisch
29 Semantische Ähnlichkeit WordNet::Similarity (Perl-Modul) Alle ähnlichen Terme der Suchanfrage hinzufügen Semantische Ähnlichkeit zwischen Anfragevektor und Dokumentvektor berechnen
30 Lesartendisambiguierung Homonymie-Problem: Filz, Bank, Astra Verschlechtert Precision Lesarten (Bedeutungen) als Terme, nicht bloß Wörter Benötigt Lesarteninventar: GermaNet, EuroWordNet,... Ergebnisse gut für domänenspezifische Thesauri/Wortnetze: MeSH Ergebnisse schlecht für allgemeine Resourcen wie EuroWordNet [5]
31 Lesartendisambiguierung Problem: in kurzen Anfragen zu wenig Kontext zur Disambiguierung dann hilft auch Disambiguierung der Texte in Dokumentensammlung nicht Für längere Anfragen unnötig
32 Literaturangaben [1] M. Porter (1980): An algorithm for suffix stripping. Program, 14(3), S [2] F. Peng et al. (2007): Context sensitive stemming for web search. SIGIR 07, Amsterdam. [3] Ch. Monz u. M. de Rijke (2001): Shallow morphological analysis in monolingual information retrieval for Dutch, German and Italian. In Proc. of CLEF [4] J. Xu u. B. Croft (1998): Corpus-based stemming using cooccurrence of word variants. ACM TOIS, 16(1), S [5] Th. Brants (2003): Natural language processing in information retrieval. In Proc. of CLIN 2003.
33 Literaturangaben [6] Ph. Koehn u. K. Knight (2003): Empirical methods for compound splitting. In EACL [7] J. Karlgren (2005): Compound terms and their constituent elements in information retrieval. NODALIDA [8] M. Braschler u. B. Ripplinger (2004): How effective is stemming and decompounding for German text retrieval? Information Retrieval, 7: [9] P. McNamee (2006): Why you should use n-grams for multilingual information retrieval. Presentation slides:
Übersicht. Mehrwortlexeme Eigennamenerkennung. Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval. Crosslinguales Retrieval
Übersicht Mehrwortlexeme Eigennamenerkennung Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval Crosslinguales Retrieval Mehrwortlexeme offene Komposita ( Phrasen ): ministry of education
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrGrundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
MehrAgenda. Seminar: Informationsstrukturierung. SS 2007 Ulli Waltinger. Lexical Chaining Textkategorisierung und Lexical Chaining
Seminar: Informationsstrukturierung SS 2007 Ulli Waltinger Lexical Chaining Textkategorisierung und Lexical Chaining 1 Agenda Textkategorisierung Datenanalyse und Lemmatisierung Lexical Chaining Quelle:
MehrStemming. Referenten: Johannes Lang Rossen Kowatschew
Universität Heidelberg Institut für Computerlinguistik HS Information Retrieval WS 01/02 Leitung: Dr. Karin Haenelt 04.02. 2002 Stemming. Referenten: Johannes Lang Rossen Kowatschew Gliederung Einführung:
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrTerminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrLexikalisch-semantische Disambiguierung mit WordNet
Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2016 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrLemmatisierung und Stemming in Suchmaschinen
Lemmatisierung und Stemming in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de Trefferquote (Recall) und Genauigkeit (Precision)
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrVektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig
Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrKapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216
Kapitel 14 Worte HHU Düsseldorf, WS 2008/09 Information Retrieval 216 Schriftsystemerkennung Zeichensätze erkennen: falls Unicode eingesetzt wird, kein Problem wenn nicht: automatische Schriftsystemerkennung
MehrJahresschlusstest 2016
Jahresschlusstest 2016 Datum Klasse Lernziele 20. und 21. Juni 3. Sek Mathematik / Deutsch / Englisch (E,M,G) Prüfungsinhalt Mathematik Mathematik mit Taschenrechner und Formelsammlung LU 02 Rechentraining
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
MehrStemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig
Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus
MehrStemmingverfahren. Éva Mújdricza Ganna Syrota. Ruprecht-Karls-Universität Heidelberg WS07/08
Ruprecht-Karls-Universität Heidelberg WS07/08 Stemmingverfahren Éva Mújdricza Ganna Syrota Information Retrieval, HS, WS07/08 Dozentin: PD Dr. Karin Haenelt 04.02.2008 Übersicht I: Stemmingverfahren Grundlagen
Mehr"What's in the news? - or: why Angela Merkel is not significant
"What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrNatürlichsprachliche Systeme I Materialien zur Vorlesung
Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,
MehrÜbersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
MehrRelationen zwischen Nomen und ihren Assoziationen. Michael Roth
Relationen zwischen Nomen und ihren Assoziationen Michael Roth 2 Assoziationen sind psychologisch interessant. Wie erfolgt der Zugriff auf sie? Welche Bedeutung haben sie? erfüllen einen linguistischen
MehrKapitel 18 Fehlertolerantes Retrieval
Kapitel 18 Fehlertolerantes Retrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 272 Eingabefehler in den Dokumenten in den Suchanfragen Formen Leerzeichenfehler ("...ofthe..."; "th_ebook") Fehler
MehrInformation Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrErkennung fremdsprachiger Ausdrücke im Text
Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina
MehrJahresschlusstest 2017
Jahresschlusstest 2017 Datum Klasse 19. und 20. Juni 3. Sek Lernziele Mathematik / Deutsch / Englisch (E, M, G) Prüfungsinhalt Mathematik Eine Prüfung mit TR und Formelsammlung LU 02 Rechentraining die
MehrInformation Retrieval. Peter Kolb
Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrEndliche Automaten zur Erkennung von Stoppwörtern
Endliche Automaten zur Erkennung von Stoppwörtern Vortrag von Christian Schwarz & Andreas Beyer im Seminar FSM zur Spracherkennung 06.07.2009 DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter
MehrSprachtechnologie. Fraunhofer-Institut für Angewandte Informationstechnik FIT. Katja Niemann Maren Scheffel
Sprachtechnologie Fraunhofer-Institut für Angewandte Informationstechnik FIT Katja Niemann Maren Scheffel Inhalt Was ist Sprachtechnologie? Computerlinguistische Anwendungen Praktische Beispiele MACE Schlüsselaktionen
Mehr2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments
Textvorverarbeitung 2. Textvorverarbeitung nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments auszudrücken deswegen lohnt es sich oft, eine Vorverarbeitung durchzuführen
MehrAutomatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006
Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition
MehrSemiautomatische Erschließung von Psychologie-Information
PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrJahresschlusstest 2018
Jahresschlusstest 2018 Datum Klasse 18. und 19. Juni 3. Sek Lernziele MA / DE / EN (E, M, G) Prüfungsinhalt Mathematik 3. Sek mit Taschenrechner und Formelsammlung, Montag 18. Juni 2018 LU 02 Rechentraining
Mehr(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
MehrSuchst Du noch oder weißt Du schon? Inhaltserschließung leicht gemacht mit automatischer Indexierung
Suchst Du noch oder weißt Du schon? Inhaltserschließung leicht gemacht mit automatischer Indexierung tekom-jahrestagung Wiesbaden, 06.-08.11.2013 Svenja Siedle, IAI svenja.siedle@iai-sb.de Übersicht Motivation
MehrBoolesche- und Vektorraum- Modelle
Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle
MehrInformation-Retrieval: Unscharfe Suche
Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrTokenisierung und Lemmatisierung in Suchmaschinen
Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist
MehrSuche im Online Katalog
Suche im Online Katalog Oracle Text SID Frankfurt/Main 22.02.2007 Egon Ritter eritter@ci-database.de ci database Suche im Online Katalog 1 Anwendungen mit Oracle Text Adressensuche CRM-Systeme Abgleich
MehrAnfrage Erweiterung 03.11.2011 Jan Schrader
Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen
MehrStefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrKapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250
Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger
MehrMehrsprachige Kategorisierung
know-how innovation Mehrsprachige Kategorisierung für die automatische Beschlagwortung 22.3.2011, Dr. Peter Schäuble solution Information Retrieval Anwendungen im Bibliotheksumfeld! Information Retrieval
MehrWordNet. Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester
WordNet Referat von Johannes Braunias im Proseminar Word Sense Disambiguation bei Stefan Thater im Wintersemester 2010 15. November 2010 Synonymie Eine bestimmte Wortform in einem Satz, die durch eine
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrDeep Web. Timo Mika Gläßer
Deep Web Timo Mika Gläßer Inhaltsverzeichnis Deep Web Was ist das? Beispiele aus dem Deep Web PubMed AllMusic Statistiken zu Surface/Shallow und Deep Web Auffinden von potentiellen Quellen ([BC04], [WM04],
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrZugang zum Academic Invisible Web
Zugang zum Academic Invisible Web Dr. Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft dirk.lewandowski@uni-duesseldorf.de www.durchdenken.de/lewandowski Gliederung
MehrKorrekturprogramme. Von Emine Senol & Gihan S. El Hosami
Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu
MehrText-Mining: Datenaufbereitung und -repräsentation
Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert
MehrDas Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv
Das Deutsche Textarchiv als Repositorium und Werkzeug Frank Wiegand (BBAW) Deutsches Textarchiv www.deutschestextarchiv.de wiegand@bbaw.de Deutsches Textarchiv Referenzkorpus für die schriftliche neuhochdeutsche
MehrWesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012
Wesentliche Methoden der Computerlinguistik Einführung in die Computerlinguistik Sommersemester 2012 Übersicht Morphologie: Lexikon, morphologische Analyse Syntax: PoS-Tagging, Unifikation, Chunking, Satzparser
MehrRetrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)
Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des
Mehrxtree.voc Weiterentwicklung der Vokabularverwaltungssoftware xtree
xtree.voc Weiterentwicklung der Vokabularverwaltungssoftware xtree Einführung Features Ein Beispiel: Konzept 00000964 aus der Oberbegriffsdatei als SKOS-Graph in xtree.voc Nächste Schritte Datenströme
MehrSemantic Relations and User Interests
Semantic Relations and User Interests WordNet Lexical Database und mögliche Anwendungen bei der Benutzerinteraktion Sebastian Blohm Sorry... Wie kann eine Maschine beim Suchen helfen? Was Maschinen schon
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
Mehrin deutschsprachigen Romanen
Automatische Erkennung von Figuren in deutschsprachigen Romanen F. Jannidis, M. Krug, I. Reger, M. Toepfer, L. Weimer, F. Puppe (Universität Würzburg) Kontext Korpusbasierte Geschichte des deutschsprachigen
MehrWörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren
Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht
MehrA Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz
A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl
MehrEinführung in die Computerlinguistik. Semantik
Einführung in die Computerlinguistik Semantik WS 2006/2007 Manfred Pinkal Einführung in die Computerlinguistik 2006/2007 M. Pinkal UdS 1 Semantik für Dialogverarbeitung U: Ist der Flug um 2 nach London
MehrText, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion
Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion Hans Friedrich Witschel Universität Leipzig, Institut für Informatik Augustusplatz 10-11, 04109 Leipzig witschel@informatik.uni-leipzig.de
MehrInformation Retrieval Einführung
Information Retrieval Einführung Kursfolien Karin Haenelt 22.7.2015 Themen Traditionelles Konzept / Erweitertes Konzept Auffinden von Dokumenten Rankingfunktionen Auffinden und Aufbereiten von Information
MehrText Mining for Second Screen
Text Mining for Second Screen Anwendungen 2 Ivan Demin ivan.demin@haw-hamburg.de 5. Juni 2014 Agenda 1 Motivation 2 Learning to link with wikipedia 3 Generating Queries from User-Selected Text 4 Feeding
Mehr2. Natürliche Sprache
2. Natürliche Sprache Rückblick Information Retrieval an der Schnittstelle zwischen Bibliotheks- und Kommunikationswissenschaft, Computerlinguistik und Informatik Informationsbedürfnis des Benutzers als
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrDie Anwendung von Morphologieanalyse in Information Retrieval- Systemen
Lexikonaufbau und Morphologieanalyse. Gerold Schneider, SS 2001 Seite 1 Die Anwendung von Morphologieanalyse in Information Retrieval- Systemen Morphologieanalyse und Lexikonaufbau (10. Vorlesung) Übersicht
MehrText Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014
Text Mining Joachim Schole Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg Grundseminar, WS 2014 Joachim Schole (HAW Hamburg) Text Mining Grundseminar, WS 2014 1 / 26 Agenda
MehrFederated Search: Integration von FAST DataSearch und Lucene
Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation
Mehr1. Vorlesung,
1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrInformation und Wissen: global, sozial und frei?
Joachim Griesbaum, Thomas Mandl, Christa Womser-Hacker (Hrsg.) Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenschaft (ISI 2011) Hildesheim,
MehrVolltextsuche und Text Mining
Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval
MehrEvaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
MehrStudienprojekt TaxoSearch Spezifikation
Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna
MehrThesaurus 1. Merkmale:
Thesaurus 1 Eine Dokumentationssprache ist eine Menge sprachlicher Ausdrücke, die, nach bestimmten Regeln angewendet, der Beschreibung von Dokumenten zum Zweck des Speicherns und einer gezielten Wiederauffindung
MehrInhaltsverzeichnis. Bibliografische Informationen digitalisiert durch
Inhaltsverzeichnis 1 Computerlinguistik - Was ist das? 1 1.1 Aspekte der Computerlinguistik 1 1.1.1 Computer linguistik: Die Wissenschaft 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 3 1.1.3
MehrAlgorithmische Anwendungen WS 05/06 Document Ranking
Algorithmische Anwendungen WS 05/06 Document Ranking Ulrich Schulte (ai641@gm.fh-koeln.de) Harald Wendel (ai647@gm.fh-koeln.de) Seite 1/17 Inhaltsverzeichnis Algorithmische Anwendungen WS 05/06 1. Document
MehrAutomatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten
Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten Juliane Bredack SKILL 2014 Studierendenkonferenz Informatik 25. September 2014 Einführung Überblick Was sind Mehrwortgruppen?
MehrZiele und Herausforderungen
Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische
MehrHEALTH Institut für Biomedizin und Gesundheitswissenschaften
HEALTH Institut für Biomedizin und Gesundheitswissenschaften Konzept zur Verbesserung eines klinischen Information Retrieval Systems unter Verwendung von Apache UIMA und medizinischen Ontologien Georg
MehrUniversität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker
UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften
MehrWas ist Statistik? Wozu dienen statistische Methoden?
25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen
MehrMaschinelle Übersetzung
Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung
MehrBIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany
BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell
MehrSearch-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH
Search-Driven Applications Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Agenda Motivation Aufbau der Such-Datenstruktur Anwendungsfälle Fallstricke Was ist Suche? Was wollen
MehrTexttechnologien: Latent Semantic Indexing
Texttechnologien: Latent Semantic Indexing Inhaltsbasierte Suche in P2P-Netzen Texttechnologien 1 Inhaltsbasierte Suche in P2P-Netzen 1 Überblick Motivation Verfahren Eigenwertzerlegungen Singulärwertzerlegungen
MehrSUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008
SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische
Mehr