Kapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216
|
|
- Horst Koch
- vor 6 Jahren
- Abrufe
Transkript
1 Kapitel 14 Worte HHU Düsseldorf, WS 2008/09 Information Retrieval 216
2 Schriftsystemerkennung Zeichensätze erkennen: falls Unicode eingesetzt wird, kein Problem wenn nicht: automatische Schriftsystemerkennung Vergleich der Zeichenverteilung eines Textes mit (bekannten) Zeichenverteilungen von Schriftsystemen Feststellung der Leserichtung (von links nach rechts und umgekehrt; Umkehr der Leserichtung im Text) 2 1 HHU Düsseldorf, WS 2008/09 Information Retrieval 217
3 Spracherkennung Ansatz 1: Mustertypen typische Buchstabenkombinationen, typische Sonderzeichen ery_ : englisch eux_ : französisch _der_ : deutsch lj : serbo-kroatisch cchi : italienisch : spanisch Å : schwedisch wenig sicher HHU Düsseldorf, WS 2008/09 Information Retrieval 218
4 Ansatz 2: Wortverteilungen Spracherkennung auf Satzebene Erstellung von Wortlisten nebst Auftretenswahrscheinlichkeiten für Sprachen Satz: Zählen der Auftretenshäufigkeit der Worte im Satz; Multiplikation mit Auftretenswahrscheinlichkeiten aller Sprachen, Werte summieren gewonnen hat die Sprache mit dem höchsten Wert HHU McNamee, Düsseldorf, P. (2005): WS 2008/09 Language identification: Information A solved problem Retrieval suitable for undergraduate instruction. 219 In: Journal of Computing Sciences in Colleges 20(3), S
5 Ansatz 3: n-gramme Acquaintance 14. Worte erstellen: Zentroiden für Sprachen Dokument in n-gramme parsen (diesmal Zentroiden nicht abziehen), Cosinus zwischen Dokumentvektor und Sprachzentroiden errechnen auf Rang 1 liegt die wahrscheinlichste Sprache HHU Damashek, Düsseldorf, M. (1995): WS 2008/09 Gauging similarity with Information N-grams: Retrieval Language-independent categorization of text. 220 In: Science 267, S
6 Exkurs: Automatisches Gruppieren von Sprachen nach dem Cosinus der Sprachzentroiden (von Marc Damashek) HHU Düsseldorf, WS 2008/09 Information Retrieval 221
7 Stoppworte: 14. Worte Wort, das die gleiche Wahrscheinlichkeit hat, in einem relevanten sowie in einem nicht-relevanten Dokument vorzukommen, non-content word Elimination von Stoppworten ist wenig sinnvoll: bei gewissen Phrasen werden sie benötigt: to be or not to be u.u. wird gezielt nach Stoppworten gesucht: Studien zum englischen Hilfsverb to be Pronomina sind eigentlich Stoppworte. Sie werden aber (theoretisch) bei der Informationsstatistik benötigt. deshalb: Stoppworte markieren und von normaler Suche ausschließen. Wenn Nutzer will, jedoch berücksichtigen (Google: +-Funktor) HHU Düsseldorf, WS 2008/09 Information Retrieval 222
8 Stoppwortliste als Negativliste: 1. Allgemeine Stoppworte häufig in einer Sprache vorkommende Worte (Fox: mehr als 300mal im Brown-Corpus enthalten) Worte intellektuell aus Liste entfernen (z.b. business, family) weitere Worte intellektuell in Liste einfügen: extra fluff words (z.b. above [296mal im Brown-Corpus]) Zusatzliste nearly free words : Flexionsformen bereits in der Liste enthaltener Worte überlegenswert (nicht von Fox): gewisse Wortarten (Substantive, Adjektive, substantivierte Verben) bevorzugen; alle anderen in allgemeine Stoppwortliste Fox, C. (1989): A stop list for general text. In: ACM SIGIR Forum 24(1-2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 223
9 2. Domänspezifische Stoppworte spezielle Stoppworte in bestimmten fachlichen Zusammenhängen nur solche Worte zulassen, die facheinschlägig sind; alle anderen in Stoppwortliste 3. Dokumentspezifische Stoppworte beim Suchen nach bestpassenden Stellen innerhalb eines Dokuments manche Terme sind durchaus geeignet, einen Artikel als Ganzes zu finden, aber nicht, die beste Stelle zu markieren Methode: Terme, die im Dokument häufig auftreten und die im Text gleichmäßig verteilt sind, sind (für genau dieses Dokument) Stoppworte HHU Düsseldorf, WS 2008/09 Information Retrieval 224
10 Conflation (Verschmelzung von Wortformen) Reduktionsformen 1. Wortstamm 2. Grundform Stemming Lemmatisierung Ausgangswort: RETRIEVED RETRIEV RETRIEVAL Wortstammbildung durch Grundformbildung durch Abtrennen (oder Zufügen) Vergleich mit Wörterbuch von Buchstaben (ggf. alternativ: nach nach gewissen Regeln gewissen Regeln) HHU Düsseldorf, WS 2008/09 Information Retrieval 225
11 Grundformbildung / Lemmatisierung Variante 1: regelgeleitet. Der S-Lemmatisierer für das Englische Wortform hat 3 Buchstaben oder weniger: Verfahren beenden Wortform endet auf IES (aber nicht EIES oder AIES): ersetze IES durch Y Wortform endet auf ES (aber nicht AES, EES oder OES): ersetze ES durch E Wortform endet auf S (aber nicht US oder SS): lösche S Harman, D. (1991): How effective is suffixing? In: Journal of the American Society for Information Science 42, S HHU Düsseldorf, WS 2008/09 Information Retrieval 226
12 Grundformbildung / Lemmatisierung Variante 2: wörterbuchbasiert Voraussetzung: Lexikon der jeweiligen Sprache ist vorhanden Oberfläche: Wortform (Bsp.: BÜCHERN) Kategorisierung: Wortart und morphosyntaktische Eigenschaft (Bsp.: Substantiv Dativ Plural) Grundform nachschlagen (Bsp.: BUCH) Hausser, R. (1998): Drei prinzipielle Methoden der automatischen Wortformerkennung. In: Sprache und Datenverarbeitung 22(2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 227
13 Beispiel: Morphologische Analyse bei IDX IDX (Fa. Softex) baut auf PRIMUS auf (Rechtschreibwörterbuch) eingesetzt bei MILOS / KASCADE (ULB Düsseldorf) dpa ursprünglich entwickelt von Harald H. Zimmermann (Universität des Saarlandes) H.H.Zimmermann Lepsky, K. (1994): Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in Online-Publikumskatalogen. Köln: Greven. (Kölner Arbeiten zum Bibliotheks- und Dokumentationswesen; 18) HHU Düsseldorf, WS 2008/09 Information Retrieval 228
14 Funktionalität von IDX Grundformbildung 14. Worte Elimination von (gewissen) Funktionsworten als Stoppworte Kompositazerlegung Derivation Zusammenfügen diskontinuierlicher Verbalgruppenteile ( ging... weg weggehen ) Erkennung fester Wendungen steht... zur Verfügung zur Verfügung stehen ) Auflösen von Auslassungstilden ( Haus- und Hofwirtschaft Hauswirtschaft ) Synonyme ( Samstag Sonnabend ) HHU Düsseldorf, WS 2008/09 Information Retrieval 229
15 <10> Grundform Adjektiv < 6> Grundform Substantiv falsch :23: Dekomposition :23t: hinterer Wortteil :4: Derivation von <6> auf <5> (Verb) <0> Stoppwort :4: Derivation von <7> auf <10> :103: unzulässige Dekomposition (bleibt unberücksichtigt) Quelle: Lepsky 1994, 69 HHU Düsseldorf, WS 2008/09 Information Retrieval 230
16 Wortstammbildung / Stemming Befreien der Wortformen von ihren Suffixen (nicht von den Präfixen). Variante 1: Longest-Match-Stemmer (Lovins-Stemmer) Abtrennen der jeweils längsten zutreffenden Endung (Voraussetzung: Liste aller Endungen) Folgen spezifischer Regeln zur Abtrennung Folgen von Regeln zur Re-Kodierung Lovins, J.B. (1968): Development of a stemming algorithm. In: Mechanical Translation and Computational Linguistics 11(1-2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 231
17 Longest-Match-Stemmer (Lovins-Stemmer) Regeln (Bsp.): B : Stamm muss mind. 3 Zeichen haben C : Stamm muss mind. 4 Zeichen haben E : nach E nicht abschneiden HHU Düsseldorf, WS 2008/09 Information Retrieval 232
18 Longest-Match-Stemmer (Lovins-Stemmer) Re-Kodierung Regeln (Bsp.): doppelte Konsonanten auf einen reduzieren RPT durch RB ersetzen Input Longest-Match-Stamm re-kodierter Stamm metal metal metal metallic metall metal absorbing absorb absorb absorption absorpt absorb HHU Düsseldorf, WS 2008/09 Information Retrieval 233
19 Wortstammbildung (stemming) 14. Worte Variante 2: iterativer Stemmer (Porter-Algorithmus) Abk.: C V CCC,... VVV,... [C]VCVC...[V] (VC){m}(V) Bsp.: Konsonant: alles außer A, E, I, O, U; Y nur dann, wenn nicht nach Konsonant (wie in Toy) Vokal sei C sei V (allgemeine Form) Anzahl der VC = m in einem Wort m=0 : tree, by m=1 : trouble, trees m=2 : troubles, private Porter, M.E. (1980): An algorithm for suffix stripping.- In: Program 14(39, HHU Düsseldorf, WS 2008/09 Information Retrieval 234
20 Regel: Bsp.: 14. Worte Porter-Algorithmus (Bedingung) S1 S2: falls ein Wort mit dem Suffix S1 endet und der Stamm vor S1 die Bedingung erfüllt, dann wird S1 durch S2 ersetzt die Bedingung wird durch m definiert; etwa: (m > 1) (m>1) EMENT _ S1 = EMENT; S2 = Null REPLACEMENT REPLAC *S der Stamm endet mit S *V* der Stamm enthält einen Vokal *d der Stamm endet mit einem Doppelkonsonant (etwa: -TT, -SS) and, or, not : Kombinationen von Bedingungen bei mehreren Regeln in einem Schritt: nur eine anwenden, und zwar die mit dem longest match HHU Düsseldorf, WS 2008/09 Information Retrieval 235
21 Porter- Algorithmus Beispiel: Schritt 1 (insgesamt 5 Iterationsrunden) HHU Düsseldorf, WS 2008/09 Information Retrieval 236
22 Wortbearbeitung bei Handy-Eingaben Nutzerseitiger Einsatz bei QWERTZ (QWERTY)- Tastaturen: mehr als 27 Zeichen bei Nutzung eines Mobiltelefons: 9 Zeichen IR mittels Handy: 1. Übersetzung der Ziffern 2 bis 9 in Worte (O: Leertaste) 1. mit Mehrfachanschlägen 2. mit Worterkennungssoftware (z.b. T9 von Tegic; Wörterbuch mit Wortstämmen und Nutzungshäufigkeiten der Wortfragmente) 2. Arbeiten mit den Ziffern selbst (dabei: invertierte Datei ebenfalls in Ziffern ausdrücken; Google-Methode) King, M.T.; Grover, D.L.; Kushler, C.A.; Grunbock, C.A. (1997): System zur Reduzierung der Vieldeutigkeit einer eingeschränkten Tastatur. Patent-Nr. DE T2. Patentinhaber: Tegic Communications. Priorität: Smith, B.T.; Brin, S.; Ghemawat, S.; Manning, C.D. (2000): Method and apparatus for using a modified index to provide search results in response to an ambiguous search query. Patent-Nr. US HHU Düsseldorf, WS 2008/09 Information Retrieval 237 Patentinhaber: Google, Inc. Erteilt am: (Eingereicht am ).
Terminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrKapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368
Kapitel 23 Strukturinformationen in Dokumenten HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Erkennung von Strukturinformationen in Web- Dokumenten Aufgaben: Kreation von Metadaten optimal: Eintragen
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung
MehrTokenisierung und Lemmatisierung in Suchmaschinen
Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist
MehrKapitel 11 Informetrische Analysen. HHU Düsseldorf, WS 2008/09 Information Retrieval 180
Kapitel 11 Informetrische Analysen HHU Düsseldorf, WS 2008/09 Information Retrieval 180 Gewinnung neuer Informationen aus Datenbanken Unterstützung der normalen Recherche Information-Retrieval-Forschung
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrÜbung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz
02_Grundlagen Lucene Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz Was ist Lucene? (1) Apache Lucene is a high-performance, full-featured text search engine library written
MehrInverted Files for Text Search Engines
Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung
MehrExterne Indizierung von OPAC-Inhalten
Externe Indizierung von OPAC-Inhalten Dr. Harald Jele harald.jele@uni-klu.ac.at Universität Klagenfurt UB-Klagenfurt : Externe Indizierung von OPAC-Inhalten p. 1 Rahmenbedingungen dieses Ansatzes: ein
MehrTextdokument-Suche auf dem Rechner Implementierungsprojekt
Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick
MehrEnglisch-deutsch-polnisches Wörterbuch. Benutzeranleitung
Der EGP230D wird mit zwei CR2032 Batterien und einer CR1220 Reservebatterie betrieben. Um einen Datenverlust zu vermeiden, tauschen Sie die Batterien so schnell wie möglich aus. Dabei dürfen die alten
MehrMap Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher
Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!
MehrKapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung
Kapitel IR:IV IV. Indexkonstruktion Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung IR:IV-1 Index Construction STEIN 2005-2010 Bemerkungen: Die im folgenden vorgstellten Techniken und
Mehr= Wortanfang/Wortende: Die ersten oder letzten Buchstaben ersetzen oder die Buchstaben stehen lassen.
ZARB Programmfunktionen Im Folgenden finden Sie eine Auswahl hilfreicher Zarb Programmfunktionen, mit denen Sie leicht Aufgaben für den Englischunterricht erstellen können. Weitere Hinweise finden Sie
MehrLerninhalte ALFONS Lernwelt Deutsch 5. Klasse
Seite 1 Turmzimmer 1: Lesen und Raten 1. Rückwärts lesen, vorwärts schreiben 7. Ohrentraining 2. Rückwärts hören, vorwärts schreiben 8. Europäerinnen und Europäer 3. Fremdwortgalgen 9. Europäische Leckereien
MehrStefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
MehrIn den Tiefen des Webs das Richtige finden
Betriebswirtschaftslehre In den Tiefen des Webs das Richtige finden Information Retrieval: Grundlagenforschung für Suchmaschinen Suchmaschinen wie Google, Yahoo! oder Windows Live sind aus dem Alltag eines
MehrWÖRTERBÜCHER IN DER SCHULE BIBLIOTHEK
WÖRTERBÜCHER IN DER SCHULE BIBLIOTHEK WÖRTERBÜCHER Übersicht der Schule Wörterbücher Deutsch Englisch Deutsch Französisch Deutsch Spanisch Deutsch Der Klassiker für die Schule von Klasse 5
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrTastenkombination: Sonderzeichen
Tastenkombination: Sonderzeichen Es gibt zahlreiche Sonderzeichen, die wir bei der Arbeit am Computer nutzen können. Beispielsweise wird das Copyright-Zeichen alle naselang verwendet, aber auch das Sonderzeichen
MehrSprachstrukturen: Japanisch
Sprachstrukturen: Japanisch Referentin: Katharina Blinova Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung Hauptseminar: Maschinelle Übersetzung Leitung: Prof. Dr. J. Rolshoven
MehrVernetzt unterrichten: Werkstatt-Sammlung mit Kopiervorlagen, Arbeitsheft, Lernsoftware, Förderheft und Forderkartei
40081 Pusteblume. Materialien zur Schroedel, Braunschweig Hinweis zum Recht der Vervielfältigung siehe 2 : Sammlung mit, Arbeitsheft, Lernsoftware, Förderheft und Forderkartei Rechtschreib- Lern- nüberschrift
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrFit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.
Fit für die Projektarbeit Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.2010 Thematische Literatursuche in 5 Schritten 1. Was suchen Sie? Analysieren
MehrEinführung in PERL 2 Reguläre Ausdrücke
Einführung in PERL 2 Reguläre Ausdrücke BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix sowie hwp://de.sel[tml.org/perl/sprache/regexpr.htm
MehrEffizientes Arbeiten mit dem Emacs. Suchen und Ersetzen.
Effizientes Arbeiten mit dem Emacs Suchen und Ersetzen Rainer Orth Alexander Sczyrba {ro,asczyrba}@techfak.uni-bielefeld.de Suchmethoden Simple Search Emacs springt an das nächste Vorkommen des angegebenen
MehrEinführung in die Sprachwissenschaft -Tutorium-
Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Wintersemester 2010/2011 Einführung in die Sprachwissenschaft -Tutorium- Dienstag, 16.00 18.00 Uhr Seminarraum 10 Aufgaben Kapitel 1
Mehr6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger
Komprimierung 6. Komprimierung (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger Platz brauchen Motivation: beschleunigt Plattenzugriffe oder Datenübertragungen Voraussetzung:
MehrLerninhalte ALFONS Lernwelt Deutsch 5. Klasse
Lerninhalte ALFONS Lernwelt Deutsch 5. Klasse 1. Lesen und Raten 1. Rückwärts lesen, vorwärts schreiben 2. Rückwärts hören, vorwärts schreiben 3. Fremdwortgalgen 4. Höre auf den Satz 5. Schau auf den Satz
MehrHinweise zur flexionsmorphologischen Glossierung
Morphologie und Lexikon SS 2006 flexionsmorphologische Glossierung 1 Hinweise zur flexionsmorphologischen Glossierung Allgemeines Die flexionsmorphologische Glossierung steht als zweite Zeile unterhalb
MehrPlank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse:
Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse: Segmentieren in Morphe (gegebenenfalls) Zusammenfassen von Morphen als Realisierungen eines Morphems Erfassen von Allomorphie-Beziehungen (Art
MehrEinführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)
Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 7. Foliensatz Wiebke Petersen Einführung CL 1 Morphologische Grundbegrie Wort / Lexem: abstrakte
MehrÜbungsaufgaben zur Herstellung von Registern
Übungsaufgaben zur Herstellung von Registern Für die folgenden Übungen benötigen Sie ein Textverarbeitungsprogramm, das über eine Funktion zur automatischen Registererstellung verfügt (beispielsweise Microsoft
MehrGrammatikübersicht I 1.1. Der bestimmte Artikel Ein häufig vorkommendes Textelement ist der bestimmte Artikel in Singular und Plural:
26 Grammatikübersicht I 1.1. Der bestimmte Artikel Ein häufig vorkommendes Textelement ist der bestimmte Artikel in Singular und Plural: maskulin feminin Singular el, l la, l Plural els les Bei der Erschließung
MehrSuchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz
Suchmaschinen und ihre Architektur Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Ziel Rudimentäre Grundkenntnisse über die Funktionsweise von Suchmaschinen und Trends Einführung in
MehrHintergrund: Web Search & Ranking in Websuchmaschinen
Hintergrund: Web Search & Ranking in Websuchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de @Dirk_Lew LibRank-Abschlussworkshop Hamburg,
MehrKapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250
Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger
MehrAnnotation des Wittgenstein-Korpus mit Wortart-Information
Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?
MehrEinführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
MehrAutomatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006
Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition
MehrMachine Translation with Inferred Stochastic Finite-State Transducers
Machine Translation with Inferred Stochastic Finite-State Transducers von Klaus Suttner HS: Endliche Automaten Dozentin: Karin Haenelt Seminar für Computerlinguistik Universität Heidelberg 29.06.09 Finite-state
MehrDas Flexionssystem des Deutschen: Allgemeines
Die Nominalflexion des Deutschen WS 2005/06 Das Flexionssystem des Deutschen 1 Das Flexionssystem des Deutschen: Allgemeines Das Deutsche als flektierende Sprache Nach der an morphologischen Kriterien
MehrStudiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel
Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?
MehrDie Wortbildung des Deutschen. Wortbildungsmittel
Die Wortbildung des Deutschen Wortbildungsmittel Voraussetzungen und Ziele der Wortbildungsanalyse Bildung von Wörtern folgt best. Wortbildungstypen Bildung nach Vorbild eines bereits bekannten Wortes
MehrLerninhalte ALFONS Lernwelt Deutsch 4. Klasse Seite 1
Lerninhalte ALFONS Lernwelt Deutsch 4. Klasse Seite 1 1. Übungen zum Wortschatz 1. Abschreiben: Wörter mit ck und tz 2. Aufschreiben aus dem Gedächtnis: Wörter mit ck und tz 3. Abschreiben: Wörter mit
MehrEuroComGerm Die sieben Siebe: Germanische Sprachen lesen lernen
EuroComGerm Die sieben Siebe: Germanische Sprachen lesen lernen Editiones EuroCom herausgegeben von Horst Günter Klein, Franz-Joseph Meißner, Tilbert Dídac Stegmann, Lew Zybatow Reihe EuroComGerm herausgegeben
MehrINEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele
INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur
MehrBachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.
München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund
MehrWortarten und Satzglieder
Wortarten und Satzglieder Aufgabe: Lesen Sie den folgenden Text zum Thema Wohnen. (read the text) Lesen Sie anschließend den Text einmal laut vor. (read the text aloud) Übersetzen Sie alle Wörter, die
MehrÜbersicht nach grammatischen und rechtschriftlichen Phänomenen. Substantive (Nomen) Kopiervorlage aus Lehrerband 3
Zebra Übersicht nach grammatischen und rechtschriftlichen Phänomenen 3-12-270721-7 inkl. 3-12-270724-8 3-12-270725-5 Lehrerband 3 mit CD-ROM inkl. n 3-12-270726-2 Förderkartei 3/4 inkl. Diagnosebögen Klasse
MehrDas Handbuch zu Kiten. Jason Katz-Brown Daniel E. Moctezuma Deutsche Übersetzung: Thorsten Mürell
Jason Katz-Brown Daniel E. Moctezuma Deutsche Übersetzung: Thorsten Mürell 2 Inhaltsverzeichnis 1 Einführung 5 2 Das Wörterbuch benutzen 6 2.1 Wörter nachschlagen.................................... 6
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Lern- & Übungswerkstatt Rechtschreibung
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Lern- & Übungswerkstatt Rechtschreibung Das komplette Material finden Sie hier: Download bei School-Scout.de Inhalt Vorwort Seite
MehrSpezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen
Spezielle Themen der KI NLP Natural Language Processing Sprachverstehen NLP - Verarbeitungsstufen des Sprachverstehen 2 Phonologie und Phonetik Phonologie Lautlehre oder Sprachgebilde-Lautlehre untersucht
MehrPressedatenbank: Nexis (bisher LexisNexis)
Pressedatenbank: Nexis (bisher LexisNexis) Inhalt Stand: 19.08.2014 Artikel aus Zeitschriften, Magazinen und Zeitungen im Volltext - tagesaktuell und retrospektiv, national und international (z.b. Stuttgarter
MehrEndliche Automaten zur Erkennung von Stoppwörtern
Endliche Automaten zur Erkennung von Stoppwörtern Vortrag von Christian Schwarz & Andreas Beyer im Seminar FSM zur Spracherkennung 06.07.2009 DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter
MehrEinführung in die Computerlinguistik Statistische Grundlagen
Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume
MehrWie komme ich zu einem Schlagwortvokabular?
Wie komme ich zu einem Schlagwortvokabular? Ein existierendes Schlagwortverzeichnis übernehmen Fragen: Passt es in Umfang und Differenzierung zum eigenen Bestand? Ist das fachliche Niveau (wissenschaftlich
Mehrdesign kommunikation development
http://www.dkd.de dkd design kommunikation development Apache Solr - A deeper look Stefan Sprenger, Developer dkd Olivier Dobberkau, Geschäftsführer dkd Agenda Einführung Boosting Empfehlungen Ausblick
MehrZiele und Herausforderungen
Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische
MehrMaschinelle Übersetzung
Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung
MehrSUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008
SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische
MehrTipp: Berücksichtigen Sie stets alte und neue Rechtschreibung von Begriffen
Waisenhausgasse 36-38a 50676 Köln Recherchetipps Tel.: +49 221 4724-315 Fax: +49 221 4724-444 www.dimdi.de Recherchetipps für die DIMDI SmartSearch Alte und neue Rechtschreibung Alte und neue Rechtschreibung
MehrClusteranalyse von Nachrichtenartikeln
Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei
MehrRechtschreibdidaktik WS 2006
Rechtschreibdidaktik WS 2006 Duden-Regelwerk z. B. 112 Stoffprogression Jg. 3-10 Methoden Aufgaben 23.09.2012 Dr.J. Schulze-Bergmann 1 Rechtschreibdidaktik WS 2006 Die Einführung in den das Buchstabeninventar,
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrÜbersicht nach grammatischen und rechtschriftlichen Phänomenen. Kopiervorlage a us Lehrerband 4. S. 4 Substantive S. 9
Zebra Übersicht nach grammatischen und rechtschriftlichen Phänomenen 3-12-270610-4 inkl. 3-12-270704-0 3-12-270705-7 Lehrerband 4 mit CD-ROM inkl. n 3-12-270726-2 Förderkartei 3/4 inkl. Diagnosebögen Klasse
MehrInfo-Abend Zweigwahl - Latein
Info-Abend Zweigwahl - Latein Fahrplan A. Grundsätzliches zur Zweigwahl B. Der Weg zum Latinum C. Latein lernen Wozu? D. Latein alt, trocken, verstaubt!? E. Fragen A. Grundsätzliches zur Zweigwahl Auch
MehrGrundbegriffe des Information Retrieval
Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,
MehrSubstantiv / Artikelwort: Die Deklination
Substantiv / Artikelwort: Die Deklination Das Substantiv hat ein Artikelwort. Das Artikelwort sagt uns: Das Substantiv ist mask., neutr. oder fem. Das Substantiv ist Sg. oder Pl. Das Substantiv bildet
MehrDigitale Bibliotheken. Informationssuche, Zugriff und Verbreitung
Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische
MehrVorlesung Information Retrieval Wintersemester 04/05
Vorlesung Information Retrieval Wintersemester 04/05 16. November 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht
MehrBox. Rechtschreibung 2 Üben und Fördern. Begleitheft mit CD. Lernstandskontrollen mit Lösungen auf CD. Karten-Übersichten mit Lernschwerpunkten
Box Begleitheft mit CD Rechtschreibung 2 Üben und Förn Lernstandskontrollen mit Lösungen auf CD Karten-Übersichten mit Lernschwerpunkten Lernbegleiter Beobachtungsbogen Inhalt des Begleitheftes zur Rechtschreibung
MehrMorphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
MehrDatenbank basiertes Wörterbuch Neugriechisch-Deutsch mit Web-Interface (Arbeitstitel)
Datenbank basiertes mit Web-Interface (Arbeitstitel) Betreuer: Dr. Sosna Bearbeiter: Christian Helmchen 05.11.2005 Gliederung 1. Anforderungen 2. Entwurf und Modellierung 3. Suchfunktionalität 4. Ausblick
MehrKurzbeschreibung der einzelnen Zarb-Funktionen
Kurzbeschreibung der Zarb-Funktionen Kurzbeschreibung der einzelnen Zarb-Funktionen Buchstaben Buchstabengruppen Wortanfang Wortende Wortaufbau Cloze-Text Lücken Lückentext mit Lösungen Lücken Satzzeichen
MehrDer Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren:
Installationshinweise Z250I / Z270I Adapter IR USB Installation hints Z250I / Z270I Adapter IR USB 06/07 (Laden Sie den Treiber vom WEB, entpacken Sie ihn in ein leeres Verzeichnis und geben Sie dieses
MehrKURZÜBERSICHT SONDERTEIL
402 BERUFSKOLLEG / FACHOBERSCHULEN - Englisch - Inhalt - Kurzübersicht KURZÜBERSICHT SONDERTEIL 402 410 Inhaltsverzeichnis 411-439 Notizen 440 476 Language-Aufgaben (Vocabulary) 477-489 Notizen 490 506
MehrMLA International Bibliography
Württembergische Landesbibliothek MLA International Bibliography 09/12 Inhaltsverzeichnis 1. Über MLA...2 2. Startbildschirm (Advanced Search)...3 2.1 Eingabefelder in der Advanced Search...3 2.2 Sucheinschränkungen...3
MehrSeminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
MehrVollständige Liste mit Könnens-Standards zur Erstellung didaktischer Analysen
@ 8005-21, Seite 1 Vollständige Liste mit Könnens-Standards zur Erstellung didaktischer Analysen Abschnitt 1 (allgemeine Lernvoraussetzungen) Die Lerner kennen die Eigennamen, können die Personen auf Abbildungen
MehrText markieren mit der Maus. Text markieren mit der Tastatur. Text schnell formatieren. Löschen, überschreiben, rückgängig machen
Text markieren mit der Maus Ein Wort Einen Satz Eine Zeile Einen Absatz doppelt in das Word klicken S Taste gedrückt halten und in den Satz klicken in den Bereich links neben der Zeile klicken doppelt
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrIndexierung der HBZ-Verbunddaten mit FAST Data Search
Indexierung der HBZ-Verbunddaten mit FAST Data Search 8. InetBib-Tagung 2004 Bonn, 5.11.2004 Dr. Peter Kostädt, HBZ NRW Dr. Peter Kostädt, HBZ NRW 1 Katalog Suchmaschine "Saubere" Daten Feldbezogene Suche
MehrInformation Retrieval Definition und Techniken. Prof. Dr. W. Riggert FH Flensburg
Information Retrieval Definition und Techniken Prof. Dr. W. Riggert FH Flensburg Gliederung Definition Techniken Informationsangebot und nachfrage Definition "Information Retrieval" Begriffsbeschreibung
MehrKurs II. online Deutsch Dexway Akademie - Niveau C1 - Objetivos. Temario
online Deutsch Dexway Akademie - Niveau C1 - Kurs II Objetivos Lernziele: In diesem Block lernt der/die Schüler/-in, Tipps und Ratschläge zu geben, Hilfe anzubieten, Versprechen, Vorschläge und Bitten
MehrAbkürzungen Abbreviations Unbestimmte Artikel Indefinite Article... 9
Preface 3 Vorwort Wer möchte nicht auch mal Spaß haben beim Lernen? Die Englisch-Comics machen es möglich, frei nach dem Motto "Wer zuerst lacht, lernt am besten". Jedes Kapitel startet mit einem Comic,
MehrMorphologie. 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln
Morphologie 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln Morphologie Flexion Deklination Flexion der Nomina: Deklination Hund Hund-es Hund-e Hund-en (Stamm + Suffix) Mann Mann-es Männ-er
MehrVisualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten
Visualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten Arbeitspapier Zusammenfassung In diesem Arbeitspapier wird gezeigt, wie mit Hilfe der Google- Books Ngram Daten
MehrArtikelspiel erstellt von L. Schikowski M.A., Universität Göttingen, IIK e.v. Göttingen, lschikowski@gmail.com, Gruppen-/Partnerarbeit
Genus Rede Kardinalzahl Prädikat Konsonant Modus Stamm Vokal Subjekt Plural Prä-/Suffix Genitiv Artikel mit Grammatikbegriffen üben Präteritum Numerus Funktionsverbgefüge Plusquamperfekt Konjugation Kasus
MehrJ RG IMMENDORFF STANDORT F R KRITIK MALEREI UND INSPIRATION ERSCHEINT ZUR AUSSTELLUNG IM MUSEUM LU
J RG IMMENDORFF STANDORT F R KRITIK MALEREI UND INSPIRATION ERSCHEINT ZUR AUSSTELLUNG IM MUSEUM LU 8 Feb, 2016 JRISFRKMUIEZAIMLAPOM-PDF33-0 File 4,455 KB 96 Page If you want to possess a one-stop search
MehrFormale Sprachen. Anwendungen formaler Sprachen Adressen, Kaffeeautomaten, Programmiersprachen. Rudolf Freund, Marian Kogler
Formale Sprachen Anwendungen formaler Sprachen Adressen, Kaffeeautomaten, Programmiersprachen Rudolf Freund, Marian Kogler (http://xkcd.com/208) Gültige Adressen: Favoritenstraße 9, 1040 Wien Reumannplatz
MehrKapitel 31 Bild- und Tonretrieval. HHU Düsseldorf, WS 2008/09 Information Retrieval 483
Kapitel 31 Bild- und Tonretrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 483 Multimedia Information Retrieval Content-based Information Retrieval gesprochene Sprache Musik und weitere Audio-Dokumente
MehrSeminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme
Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen
MehrErläuterung des Begriffs Plagiat
Erläuterung des Begriffs Plagiat 1 Definition Plagiat Unter einem Plagiat versteht man allgemein die Wiedergabe eines Textteils ohne Herkunftsangabe. Besonders zu beachten ist, dass es unerheblich ist,
MehrAufbau des SELECT-Befehls. Im Folgenden werden zunächst Abfragen aus einer Tabelle vorgenommen.
Datenbankabfragen (Query) mit SQL (Structured Query Language) 1 Aufbau des SELECT-Befehls Im Folgenden werden zunächst Abfragen aus einer Tabelle vorgenommen. SQL-Syntax: SELECT spaltenliste FROM tabellenname
Mehr