Kapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216

Größe: px
Ab Seite anzeigen:

Download "Kapitel 14. Worte. HHU Düsseldorf, WS 2008/09 Information Retrieval 216"

Transkript

1 Kapitel 14 Worte HHU Düsseldorf, WS 2008/09 Information Retrieval 216

2 Schriftsystemerkennung Zeichensätze erkennen: falls Unicode eingesetzt wird, kein Problem wenn nicht: automatische Schriftsystemerkennung Vergleich der Zeichenverteilung eines Textes mit (bekannten) Zeichenverteilungen von Schriftsystemen Feststellung der Leserichtung (von links nach rechts und umgekehrt; Umkehr der Leserichtung im Text) 2 1 HHU Düsseldorf, WS 2008/09 Information Retrieval 217

3 Spracherkennung Ansatz 1: Mustertypen typische Buchstabenkombinationen, typische Sonderzeichen ery_ : englisch eux_ : französisch _der_ : deutsch lj : serbo-kroatisch cchi : italienisch : spanisch Å : schwedisch wenig sicher HHU Düsseldorf, WS 2008/09 Information Retrieval 218

4 Ansatz 2: Wortverteilungen Spracherkennung auf Satzebene Erstellung von Wortlisten nebst Auftretenswahrscheinlichkeiten für Sprachen Satz: Zählen der Auftretenshäufigkeit der Worte im Satz; Multiplikation mit Auftretenswahrscheinlichkeiten aller Sprachen, Werte summieren gewonnen hat die Sprache mit dem höchsten Wert HHU McNamee, Düsseldorf, P. (2005): WS 2008/09 Language identification: Information A solved problem Retrieval suitable for undergraduate instruction. 219 In: Journal of Computing Sciences in Colleges 20(3), S

5 Ansatz 3: n-gramme Acquaintance 14. Worte erstellen: Zentroiden für Sprachen Dokument in n-gramme parsen (diesmal Zentroiden nicht abziehen), Cosinus zwischen Dokumentvektor und Sprachzentroiden errechnen auf Rang 1 liegt die wahrscheinlichste Sprache HHU Damashek, Düsseldorf, M. (1995): WS 2008/09 Gauging similarity with Information N-grams: Retrieval Language-independent categorization of text. 220 In: Science 267, S

6 Exkurs: Automatisches Gruppieren von Sprachen nach dem Cosinus der Sprachzentroiden (von Marc Damashek) HHU Düsseldorf, WS 2008/09 Information Retrieval 221

7 Stoppworte: 14. Worte Wort, das die gleiche Wahrscheinlichkeit hat, in einem relevanten sowie in einem nicht-relevanten Dokument vorzukommen, non-content word Elimination von Stoppworten ist wenig sinnvoll: bei gewissen Phrasen werden sie benötigt: to be or not to be u.u. wird gezielt nach Stoppworten gesucht: Studien zum englischen Hilfsverb to be Pronomina sind eigentlich Stoppworte. Sie werden aber (theoretisch) bei der Informationsstatistik benötigt. deshalb: Stoppworte markieren und von normaler Suche ausschließen. Wenn Nutzer will, jedoch berücksichtigen (Google: +-Funktor) HHU Düsseldorf, WS 2008/09 Information Retrieval 222

8 Stoppwortliste als Negativliste: 1. Allgemeine Stoppworte häufig in einer Sprache vorkommende Worte (Fox: mehr als 300mal im Brown-Corpus enthalten) Worte intellektuell aus Liste entfernen (z.b. business, family) weitere Worte intellektuell in Liste einfügen: extra fluff words (z.b. above [296mal im Brown-Corpus]) Zusatzliste nearly free words : Flexionsformen bereits in der Liste enthaltener Worte überlegenswert (nicht von Fox): gewisse Wortarten (Substantive, Adjektive, substantivierte Verben) bevorzugen; alle anderen in allgemeine Stoppwortliste Fox, C. (1989): A stop list for general text. In: ACM SIGIR Forum 24(1-2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 223

9 2. Domänspezifische Stoppworte spezielle Stoppworte in bestimmten fachlichen Zusammenhängen nur solche Worte zulassen, die facheinschlägig sind; alle anderen in Stoppwortliste 3. Dokumentspezifische Stoppworte beim Suchen nach bestpassenden Stellen innerhalb eines Dokuments manche Terme sind durchaus geeignet, einen Artikel als Ganzes zu finden, aber nicht, die beste Stelle zu markieren Methode: Terme, die im Dokument häufig auftreten und die im Text gleichmäßig verteilt sind, sind (für genau dieses Dokument) Stoppworte HHU Düsseldorf, WS 2008/09 Information Retrieval 224

10 Conflation (Verschmelzung von Wortformen) Reduktionsformen 1. Wortstamm 2. Grundform Stemming Lemmatisierung Ausgangswort: RETRIEVED RETRIEV RETRIEVAL Wortstammbildung durch Grundformbildung durch Abtrennen (oder Zufügen) Vergleich mit Wörterbuch von Buchstaben (ggf. alternativ: nach nach gewissen Regeln gewissen Regeln) HHU Düsseldorf, WS 2008/09 Information Retrieval 225

11 Grundformbildung / Lemmatisierung Variante 1: regelgeleitet. Der S-Lemmatisierer für das Englische Wortform hat 3 Buchstaben oder weniger: Verfahren beenden Wortform endet auf IES (aber nicht EIES oder AIES): ersetze IES durch Y Wortform endet auf ES (aber nicht AES, EES oder OES): ersetze ES durch E Wortform endet auf S (aber nicht US oder SS): lösche S Harman, D. (1991): How effective is suffixing? In: Journal of the American Society for Information Science 42, S HHU Düsseldorf, WS 2008/09 Information Retrieval 226

12 Grundformbildung / Lemmatisierung Variante 2: wörterbuchbasiert Voraussetzung: Lexikon der jeweiligen Sprache ist vorhanden Oberfläche: Wortform (Bsp.: BÜCHERN) Kategorisierung: Wortart und morphosyntaktische Eigenschaft (Bsp.: Substantiv Dativ Plural) Grundform nachschlagen (Bsp.: BUCH) Hausser, R. (1998): Drei prinzipielle Methoden der automatischen Wortformerkennung. In: Sprache und Datenverarbeitung 22(2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 227

13 Beispiel: Morphologische Analyse bei IDX IDX (Fa. Softex) baut auf PRIMUS auf (Rechtschreibwörterbuch) eingesetzt bei MILOS / KASCADE (ULB Düsseldorf) dpa ursprünglich entwickelt von Harald H. Zimmermann (Universität des Saarlandes) H.H.Zimmermann Lepsky, K. (1994): Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in Online-Publikumskatalogen. Köln: Greven. (Kölner Arbeiten zum Bibliotheks- und Dokumentationswesen; 18) HHU Düsseldorf, WS 2008/09 Information Retrieval 228

14 Funktionalität von IDX Grundformbildung 14. Worte Elimination von (gewissen) Funktionsworten als Stoppworte Kompositazerlegung Derivation Zusammenfügen diskontinuierlicher Verbalgruppenteile ( ging... weg weggehen ) Erkennung fester Wendungen steht... zur Verfügung zur Verfügung stehen ) Auflösen von Auslassungstilden ( Haus- und Hofwirtschaft Hauswirtschaft ) Synonyme ( Samstag Sonnabend ) HHU Düsseldorf, WS 2008/09 Information Retrieval 229

15 <10> Grundform Adjektiv < 6> Grundform Substantiv falsch :23: Dekomposition :23t: hinterer Wortteil :4: Derivation von <6> auf <5> (Verb) <0> Stoppwort :4: Derivation von <7> auf <10> :103: unzulässige Dekomposition (bleibt unberücksichtigt) Quelle: Lepsky 1994, 69 HHU Düsseldorf, WS 2008/09 Information Retrieval 230

16 Wortstammbildung / Stemming Befreien der Wortformen von ihren Suffixen (nicht von den Präfixen). Variante 1: Longest-Match-Stemmer (Lovins-Stemmer) Abtrennen der jeweils längsten zutreffenden Endung (Voraussetzung: Liste aller Endungen) Folgen spezifischer Regeln zur Abtrennung Folgen von Regeln zur Re-Kodierung Lovins, J.B. (1968): Development of a stemming algorithm. In: Mechanical Translation and Computational Linguistics 11(1-2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 231

17 Longest-Match-Stemmer (Lovins-Stemmer) Regeln (Bsp.): B : Stamm muss mind. 3 Zeichen haben C : Stamm muss mind. 4 Zeichen haben E : nach E nicht abschneiden HHU Düsseldorf, WS 2008/09 Information Retrieval 232

18 Longest-Match-Stemmer (Lovins-Stemmer) Re-Kodierung Regeln (Bsp.): doppelte Konsonanten auf einen reduzieren RPT durch RB ersetzen Input Longest-Match-Stamm re-kodierter Stamm metal metal metal metallic metall metal absorbing absorb absorb absorption absorpt absorb HHU Düsseldorf, WS 2008/09 Information Retrieval 233

19 Wortstammbildung (stemming) 14. Worte Variante 2: iterativer Stemmer (Porter-Algorithmus) Abk.: C V CCC,... VVV,... [C]VCVC...[V] (VC){m}(V) Bsp.: Konsonant: alles außer A, E, I, O, U; Y nur dann, wenn nicht nach Konsonant (wie in Toy) Vokal sei C sei V (allgemeine Form) Anzahl der VC = m in einem Wort m=0 : tree, by m=1 : trouble, trees m=2 : troubles, private Porter, M.E. (1980): An algorithm for suffix stripping.- In: Program 14(39, HHU Düsseldorf, WS 2008/09 Information Retrieval 234

20 Regel: Bsp.: 14. Worte Porter-Algorithmus (Bedingung) S1 S2: falls ein Wort mit dem Suffix S1 endet und der Stamm vor S1 die Bedingung erfüllt, dann wird S1 durch S2 ersetzt die Bedingung wird durch m definiert; etwa: (m > 1) (m>1) EMENT _ S1 = EMENT; S2 = Null REPLACEMENT REPLAC *S der Stamm endet mit S *V* der Stamm enthält einen Vokal *d der Stamm endet mit einem Doppelkonsonant (etwa: -TT, -SS) and, or, not : Kombinationen von Bedingungen bei mehreren Regeln in einem Schritt: nur eine anwenden, und zwar die mit dem longest match HHU Düsseldorf, WS 2008/09 Information Retrieval 235

21 Porter- Algorithmus Beispiel: Schritt 1 (insgesamt 5 Iterationsrunden) HHU Düsseldorf, WS 2008/09 Information Retrieval 236

22 Wortbearbeitung bei Handy-Eingaben Nutzerseitiger Einsatz bei QWERTZ (QWERTY)- Tastaturen: mehr als 27 Zeichen bei Nutzung eines Mobiltelefons: 9 Zeichen IR mittels Handy: 1. Übersetzung der Ziffern 2 bis 9 in Worte (O: Leertaste) 1. mit Mehrfachanschlägen 2. mit Worterkennungssoftware (z.b. T9 von Tegic; Wörterbuch mit Wortstämmen und Nutzungshäufigkeiten der Wortfragmente) 2. Arbeiten mit den Ziffern selbst (dabei: invertierte Datei ebenfalls in Ziffern ausdrücken; Google-Methode) King, M.T.; Grover, D.L.; Kushler, C.A.; Grunbock, C.A. (1997): System zur Reduzierung der Vieldeutigkeit einer eingeschränkten Tastatur. Patent-Nr. DE T2. Patentinhaber: Tegic Communications. Priorität: Smith, B.T.; Brin, S.; Ghemawat, S.; Manning, C.D. (2000): Method and apparatus for using a modified index to provide search results in response to an ambiguous search query. Patent-Nr. US HHU Düsseldorf, WS 2008/09 Information Retrieval 237 Patentinhaber: Google, Inc. Erteilt am: (Eingereicht am ).

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Kapitel 23 Strukturinformationen in Dokumenten HHU Düsseldorf, WS 2008/09 Information Retrieval 368 Erkennung von Strukturinformationen in Web- Dokumenten Aufgaben: Kreation von Metadaten optimal: Eintragen

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Tokenisierung und Lemmatisierung in Suchmaschinen

Tokenisierung und Lemmatisierung in Suchmaschinen Tokenisierung und Lemmatisierung in Suchmaschinen Hauptseminar Suchmaschinen Computerlinguistik Sommersemester 2010 Stefan Langer stefan.langer@cis.uni-muenchen.de Übung: Tokenisierung (5 min) Was ist

Mehr

Kapitel 11 Informetrische Analysen. HHU Düsseldorf, WS 2008/09 Information Retrieval 180

Kapitel 11 Informetrische Analysen. HHU Düsseldorf, WS 2008/09 Information Retrieval 180 Kapitel 11 Informetrische Analysen HHU Düsseldorf, WS 2008/09 Information Retrieval 180 Gewinnung neuer Informationen aus Datenbanken Unterstützung der normalen Recherche Information-Retrieval-Forschung

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz

Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz 02_Grundlagen Lucene Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz Was ist Lucene? (1) Apache Lucene is a high-performance, full-featured text search engine library written

Mehr

Inverted Files for Text Search Engines

Inverted Files for Text Search Engines Inverted Files for Text Search Engines Justin Zobel, Alistair Moffat PG 520 Intelligence Service Emel Günal 1 Inhalt Einführung Index - Inverted Files - Indexkonstruktion - Indexverwaltung Optimierung

Mehr

Externe Indizierung von OPAC-Inhalten

Externe Indizierung von OPAC-Inhalten Externe Indizierung von OPAC-Inhalten Dr. Harald Jele harald.jele@uni-klu.ac.at Universität Klagenfurt UB-Klagenfurt : Externe Indizierung von OPAC-Inhalten p. 1 Rahmenbedingungen dieses Ansatzes: ein

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Englisch-deutsch-polnisches Wörterbuch. Benutzeranleitung

Englisch-deutsch-polnisches Wörterbuch. Benutzeranleitung Der EGP230D wird mit zwei CR2032 Batterien und einer CR1220 Reservebatterie betrieben. Um einen Datenverlust zu vermeiden, tauschen Sie die Batterien so schnell wie möglich aus. Dabei dürfen die alten

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Kapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung

Kapitel IR:IV. IV. Indexkonstruktion. Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung Kapitel IR:IV IV. Indexkonstruktion Stammformreduktion n-gramme Termanreicherung Wortklassenbestimmung IR:IV-1 Index Construction STEIN 2005-2010 Bemerkungen: Die im folgenden vorgstellten Techniken und

Mehr

= Wortanfang/Wortende: Die ersten oder letzten Buchstaben ersetzen oder die Buchstaben stehen lassen.

= Wortanfang/Wortende: Die ersten oder letzten Buchstaben ersetzen oder die Buchstaben stehen lassen. ZARB Programmfunktionen Im Folgenden finden Sie eine Auswahl hilfreicher Zarb Programmfunktionen, mit denen Sie leicht Aufgaben für den Englischunterricht erstellen können. Weitere Hinweise finden Sie

Mehr

Lerninhalte ALFONS Lernwelt Deutsch 5. Klasse

Lerninhalte ALFONS Lernwelt Deutsch 5. Klasse Seite 1 Turmzimmer 1: Lesen und Raten 1. Rückwärts lesen, vorwärts schreiben 7. Ohrentraining 2. Rückwärts hören, vorwärts schreiben 8. Europäerinnen und Europäer 3. Fremdwortgalgen 9. Europäische Leckereien

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

In den Tiefen des Webs das Richtige finden

In den Tiefen des Webs das Richtige finden Betriebswirtschaftslehre In den Tiefen des Webs das Richtige finden Information Retrieval: Grundlagenforschung für Suchmaschinen Suchmaschinen wie Google, Yahoo! oder Windows Live sind aus dem Alltag eines

Mehr

WÖRTERBÜCHER IN DER SCHULE BIBLIOTHEK

WÖRTERBÜCHER IN DER SCHULE BIBLIOTHEK WÖRTERBÜCHER IN DER SCHULE BIBLIOTHEK WÖRTERBÜCHER Übersicht der Schule Wörterbücher Deutsch Englisch Deutsch Französisch Deutsch Spanisch Deutsch Der Klassiker für die Schule von Klasse 5

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Tastenkombination: Sonderzeichen

Tastenkombination: Sonderzeichen Tastenkombination: Sonderzeichen Es gibt zahlreiche Sonderzeichen, die wir bei der Arbeit am Computer nutzen können. Beispielsweise wird das Copyright-Zeichen alle naselang verwendet, aber auch das Sonderzeichen

Mehr

Sprachstrukturen: Japanisch

Sprachstrukturen: Japanisch Sprachstrukturen: Japanisch Referentin: Katharina Blinova Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung Hauptseminar: Maschinelle Übersetzung Leitung: Prof. Dr. J. Rolshoven

Mehr

Vernetzt unterrichten: Werkstatt-Sammlung mit Kopiervorlagen, Arbeitsheft, Lernsoftware, Förderheft und Forderkartei

Vernetzt unterrichten: Werkstatt-Sammlung mit Kopiervorlagen, Arbeitsheft, Lernsoftware, Förderheft und Forderkartei 40081 Pusteblume. Materialien zur Schroedel, Braunschweig Hinweis zum Recht der Vervielfältigung siehe 2 : Sammlung mit, Arbeitsheft, Lernsoftware, Förderheft und Forderkartei Rechtschreib- Lern- nüberschrift

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Fit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.

Fit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10. Fit für die Projektarbeit Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.2010 Thematische Literatursuche in 5 Schritten 1. Was suchen Sie? Analysieren

Mehr

Einführung in PERL 2 Reguläre Ausdrücke

Einführung in PERL 2 Reguläre Ausdrücke Einführung in PERL 2 Reguläre Ausdrücke BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix sowie hwp://de.sel[tml.org/perl/sprache/regexpr.htm

Mehr

Effizientes Arbeiten mit dem Emacs. Suchen und Ersetzen.

Effizientes Arbeiten mit dem Emacs. Suchen und Ersetzen. Effizientes Arbeiten mit dem Emacs Suchen und Ersetzen Rainer Orth Alexander Sczyrba {ro,asczyrba}@techfak.uni-bielefeld.de Suchmethoden Simple Search Emacs springt an das nächste Vorkommen des angegebenen

Mehr

Einführung in die Sprachwissenschaft -Tutorium-

Einführung in die Sprachwissenschaft -Tutorium- Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Wintersemester 2010/2011 Einführung in die Sprachwissenschaft -Tutorium- Dienstag, 16.00 18.00 Uhr Seminarraum 10 Aufgaben Kapitel 1

Mehr

6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger

6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger Komprimierung 6. Komprimierung (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger Platz brauchen Motivation: beschleunigt Plattenzugriffe oder Datenübertragungen Voraussetzung:

Mehr

Lerninhalte ALFONS Lernwelt Deutsch 5. Klasse

Lerninhalte ALFONS Lernwelt Deutsch 5. Klasse Lerninhalte ALFONS Lernwelt Deutsch 5. Klasse 1. Lesen und Raten 1. Rückwärts lesen, vorwärts schreiben 2. Rückwärts hören, vorwärts schreiben 3. Fremdwortgalgen 4. Höre auf den Satz 5. Schau auf den Satz

Mehr

Hinweise zur flexionsmorphologischen Glossierung

Hinweise zur flexionsmorphologischen Glossierung Morphologie und Lexikon SS 2006 flexionsmorphologische Glossierung 1 Hinweise zur flexionsmorphologischen Glossierung Allgemeines Die flexionsmorphologische Glossierung steht als zweite Zeile unterhalb

Mehr

Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse:

Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse: Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse: Segmentieren in Morphe (gegebenenfalls) Zusammenfassen von Morphen als Realisierungen eines Morphems Erfassen von Allomorphie-Beziehungen (Art

Mehr

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 7. Foliensatz Wiebke Petersen Einführung CL 1 Morphologische Grundbegrie Wort / Lexem: abstrakte

Mehr

Übungsaufgaben zur Herstellung von Registern

Übungsaufgaben zur Herstellung von Registern Übungsaufgaben zur Herstellung von Registern Für die folgenden Übungen benötigen Sie ein Textverarbeitungsprogramm, das über eine Funktion zur automatischen Registererstellung verfügt (beispielsweise Microsoft

Mehr

Grammatikübersicht I 1.1. Der bestimmte Artikel Ein häufig vorkommendes Textelement ist der bestimmte Artikel in Singular und Plural:

Grammatikübersicht I 1.1. Der bestimmte Artikel Ein häufig vorkommendes Textelement ist der bestimmte Artikel in Singular und Plural: 26 Grammatikübersicht I 1.1. Der bestimmte Artikel Ein häufig vorkommendes Textelement ist der bestimmte Artikel in Singular und Plural: maskulin feminin Singular el, l la, l Plural els les Bei der Erschließung

Mehr

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Suchmaschinen und ihre Architektur Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Ziel Rudimentäre Grundkenntnisse über die Funktionsweise von Suchmaschinen und Trends Einführung in

Mehr

Hintergrund: Web Search & Ranking in Websuchmaschinen

Hintergrund: Web Search & Ranking in Websuchmaschinen Hintergrund: Web Search & Ranking in Websuchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de @Dirk_Lew LibRank-Abschlussworkshop Hamburg,

Mehr

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger

Mehr

Annotation des Wittgenstein-Korpus mit Wortart-Information

Annotation des Wittgenstein-Korpus mit Wortart-Information Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?

Mehr

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie

Mehr

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition

Mehr

Machine Translation with Inferred Stochastic Finite-State Transducers

Machine Translation with Inferred Stochastic Finite-State Transducers Machine Translation with Inferred Stochastic Finite-State Transducers von Klaus Suttner HS: Endliche Automaten Dozentin: Karin Haenelt Seminar für Computerlinguistik Universität Heidelberg 29.06.09 Finite-state

Mehr

Das Flexionssystem des Deutschen: Allgemeines

Das Flexionssystem des Deutschen: Allgemeines Die Nominalflexion des Deutschen WS 2005/06 Das Flexionssystem des Deutschen 1 Das Flexionssystem des Deutschen: Allgemeines Das Deutsche als flektierende Sprache Nach der an morphologischen Kriterien

Mehr

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?

Mehr

Die Wortbildung des Deutschen. Wortbildungsmittel

Die Wortbildung des Deutschen. Wortbildungsmittel Die Wortbildung des Deutschen Wortbildungsmittel Voraussetzungen und Ziele der Wortbildungsanalyse Bildung von Wörtern folgt best. Wortbildungstypen Bildung nach Vorbild eines bereits bekannten Wortes

Mehr

Lerninhalte ALFONS Lernwelt Deutsch 4. Klasse Seite 1

Lerninhalte ALFONS Lernwelt Deutsch 4. Klasse Seite 1 Lerninhalte ALFONS Lernwelt Deutsch 4. Klasse Seite 1 1. Übungen zum Wortschatz 1. Abschreiben: Wörter mit ck und tz 2. Aufschreiben aus dem Gedächtnis: Wörter mit ck und tz 3. Abschreiben: Wörter mit

Mehr

EuroComGerm Die sieben Siebe: Germanische Sprachen lesen lernen

EuroComGerm Die sieben Siebe: Germanische Sprachen lesen lernen EuroComGerm Die sieben Siebe: Germanische Sprachen lesen lernen Editiones EuroCom herausgegeben von Horst Günter Klein, Franz-Joseph Meißner, Tilbert Dídac Stegmann, Lew Zybatow Reihe EuroComGerm herausgegeben

Mehr

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur

Mehr

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. München, 05.05.2014 Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1 Inhaltsüberblick Hintergrund

Mehr

Wortarten und Satzglieder

Wortarten und Satzglieder Wortarten und Satzglieder Aufgabe: Lesen Sie den folgenden Text zum Thema Wohnen. (read the text) Lesen Sie anschließend den Text einmal laut vor. (read the text aloud) Übersetzen Sie alle Wörter, die

Mehr

Übersicht nach grammatischen und rechtschriftlichen Phänomenen. Substantive (Nomen) Kopiervorlage aus Lehrerband 3

Übersicht nach grammatischen und rechtschriftlichen Phänomenen. Substantive (Nomen) Kopiervorlage aus Lehrerband 3 Zebra Übersicht nach grammatischen und rechtschriftlichen Phänomenen 3-12-270721-7 inkl. 3-12-270724-8 3-12-270725-5 Lehrerband 3 mit CD-ROM inkl. n 3-12-270726-2 Förderkartei 3/4 inkl. Diagnosebögen Klasse

Mehr

Das Handbuch zu Kiten. Jason Katz-Brown Daniel E. Moctezuma Deutsche Übersetzung: Thorsten Mürell

Das Handbuch zu Kiten. Jason Katz-Brown Daniel E. Moctezuma Deutsche Übersetzung: Thorsten Mürell Jason Katz-Brown Daniel E. Moctezuma Deutsche Übersetzung: Thorsten Mürell 2 Inhaltsverzeichnis 1 Einführung 5 2 Das Wörterbuch benutzen 6 2.1 Wörter nachschlagen.................................... 6

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Lern- & Übungswerkstatt Rechtschreibung

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Lern- & Übungswerkstatt Rechtschreibung Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Lern- & Übungswerkstatt Rechtschreibung Das komplette Material finden Sie hier: Download bei School-Scout.de Inhalt Vorwort Seite

Mehr

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen Spezielle Themen der KI NLP Natural Language Processing Sprachverstehen NLP - Verarbeitungsstufen des Sprachverstehen 2 Phonologie und Phonetik Phonologie Lautlehre oder Sprachgebilde-Lautlehre untersucht

Mehr

Pressedatenbank: Nexis (bisher LexisNexis)

Pressedatenbank: Nexis (bisher LexisNexis) Pressedatenbank: Nexis (bisher LexisNexis) Inhalt Stand: 19.08.2014 Artikel aus Zeitschriften, Magazinen und Zeitungen im Volltext - tagesaktuell und retrospektiv, national und international (z.b. Stuttgarter

Mehr

Endliche Automaten zur Erkennung von Stoppwörtern

Endliche Automaten zur Erkennung von Stoppwörtern Endliche Automaten zur Erkennung von Stoppwörtern Vortrag von Christian Schwarz & Andreas Beyer im Seminar FSM zur Spracherkennung 06.07.2009 DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

Wie komme ich zu einem Schlagwortvokabular?

Wie komme ich zu einem Schlagwortvokabular? Wie komme ich zu einem Schlagwortvokabular? Ein existierendes Schlagwortverzeichnis übernehmen Fragen: Passt es in Umfang und Differenzierung zum eigenen Bestand? Ist das fachliche Niveau (wissenschaftlich

Mehr

design kommunikation development

design kommunikation development http://www.dkd.de dkd design kommunikation development Apache Solr - A deeper look Stefan Sprenger, Developer dkd Olivier Dobberkau, Geschäftsführer dkd Agenda Einführung Boosting Empfehlungen Ausblick

Mehr

Ziele und Herausforderungen

Ziele und Herausforderungen Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr

Tipp: Berücksichtigen Sie stets alte und neue Rechtschreibung von Begriffen

Tipp: Berücksichtigen Sie stets alte und neue Rechtschreibung von Begriffen Waisenhausgasse 36-38a 50676 Köln Recherchetipps Tel.: +49 221 4724-315 Fax: +49 221 4724-444 www.dimdi.de Recherchetipps für die DIMDI SmartSearch Alte und neue Rechtschreibung Alte und neue Rechtschreibung

Mehr

Clusteranalyse von Nachrichtenartikeln

Clusteranalyse von Nachrichtenartikeln Köln, den 7. Oktober 2011 Studiengang Informationsverarbeitung Sommersemester 2011 Sprachliche Informationsverarbeitung Prose i ar: Co puterli guistik II bei Jürgen Hermes M.A. Clusteranalyse von Nachrichtenartikeln

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei

Mehr

Rechtschreibdidaktik WS 2006

Rechtschreibdidaktik WS 2006 Rechtschreibdidaktik WS 2006 Duden-Regelwerk z. B. 112 Stoffprogression Jg. 3-10 Methoden Aufgaben 23.09.2012 Dr.J. Schulze-Bergmann 1 Rechtschreibdidaktik WS 2006 Die Einführung in den das Buchstabeninventar,

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Übersicht nach grammatischen und rechtschriftlichen Phänomenen. Kopiervorlage a us Lehrerband 4. S. 4 Substantive S. 9

Übersicht nach grammatischen und rechtschriftlichen Phänomenen. Kopiervorlage a us Lehrerband 4. S. 4 Substantive S. 9 Zebra Übersicht nach grammatischen und rechtschriftlichen Phänomenen 3-12-270610-4 inkl. 3-12-270704-0 3-12-270705-7 Lehrerband 4 mit CD-ROM inkl. n 3-12-270726-2 Förderkartei 3/4 inkl. Diagnosebögen Klasse

Mehr

Info-Abend Zweigwahl - Latein

Info-Abend Zweigwahl - Latein Info-Abend Zweigwahl - Latein Fahrplan A. Grundsätzliches zur Zweigwahl B. Der Weg zum Latinum C. Latein lernen Wozu? D. Latein alt, trocken, verstaubt!? E. Fragen A. Grundsätzliches zur Zweigwahl Auch

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

Substantiv / Artikelwort: Die Deklination

Substantiv / Artikelwort: Die Deklination Substantiv / Artikelwort: Die Deklination Das Substantiv hat ein Artikelwort. Das Artikelwort sagt uns: Das Substantiv ist mask., neutr. oder fem. Das Substantiv ist Sg. oder Pl. Das Substantiv bildet

Mehr

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung

Digitale Bibliotheken. Informationssuche, Zugriff und Verbreitung Digitale Bibliotheken Informationssuche, Zugriff und Verbreitung Gliederung Einführung Informationssuche Problemstellung Boolesche Suche Vektorraumsuche Stemming Multilinguale Suche Fuzzy Suche Semantische

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 16. November 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Box. Rechtschreibung 2 Üben und Fördern. Begleitheft mit CD. Lernstandskontrollen mit Lösungen auf CD. Karten-Übersichten mit Lernschwerpunkten

Box. Rechtschreibung 2 Üben und Fördern. Begleitheft mit CD. Lernstandskontrollen mit Lösungen auf CD. Karten-Übersichten mit Lernschwerpunkten Box Begleitheft mit CD Rechtschreibung 2 Üben und Förn Lernstandskontrollen mit Lösungen auf CD Karten-Übersichten mit Lernschwerpunkten Lernbegleiter Beobachtungsbogen Inhalt des Begleitheftes zur Rechtschreibung

Mehr

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung

Mehr

Datenbank basiertes Wörterbuch Neugriechisch-Deutsch mit Web-Interface (Arbeitstitel)

Datenbank basiertes Wörterbuch Neugriechisch-Deutsch mit Web-Interface (Arbeitstitel) Datenbank basiertes mit Web-Interface (Arbeitstitel) Betreuer: Dr. Sosna Bearbeiter: Christian Helmchen 05.11.2005 Gliederung 1. Anforderungen 2. Entwurf und Modellierung 3. Suchfunktionalität 4. Ausblick

Mehr

Kurzbeschreibung der einzelnen Zarb-Funktionen

Kurzbeschreibung der einzelnen Zarb-Funktionen Kurzbeschreibung der Zarb-Funktionen Kurzbeschreibung der einzelnen Zarb-Funktionen Buchstaben Buchstabengruppen Wortanfang Wortende Wortaufbau Cloze-Text Lücken Lückentext mit Lösungen Lücken Satzzeichen

Mehr

Der Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren:

Der Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren: Installationshinweise Z250I / Z270I Adapter IR USB Installation hints Z250I / Z270I Adapter IR USB 06/07 (Laden Sie den Treiber vom WEB, entpacken Sie ihn in ein leeres Verzeichnis und geben Sie dieses

Mehr

KURZÜBERSICHT SONDERTEIL

KURZÜBERSICHT SONDERTEIL 402 BERUFSKOLLEG / FACHOBERSCHULEN - Englisch - Inhalt - Kurzübersicht KURZÜBERSICHT SONDERTEIL 402 410 Inhaltsverzeichnis 411-439 Notizen 440 476 Language-Aufgaben (Vocabulary) 477-489 Notizen 490 506

Mehr

MLA International Bibliography

MLA International Bibliography Württembergische Landesbibliothek MLA International Bibliography 09/12 Inhaltsverzeichnis 1. Über MLA...2 2. Startbildschirm (Advanced Search)...3 2.1 Eingabefelder in der Advanced Search...3 2.2 Sucheinschränkungen...3

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Vollständige Liste mit Könnens-Standards zur Erstellung didaktischer Analysen

Vollständige Liste mit Könnens-Standards zur Erstellung didaktischer Analysen @ 8005-21, Seite 1 Vollständige Liste mit Könnens-Standards zur Erstellung didaktischer Analysen Abschnitt 1 (allgemeine Lernvoraussetzungen) Die Lerner kennen die Eigennamen, können die Personen auf Abbildungen

Mehr

Text markieren mit der Maus. Text markieren mit der Tastatur. Text schnell formatieren. Löschen, überschreiben, rückgängig machen

Text markieren mit der Maus. Text markieren mit der Tastatur. Text schnell formatieren. Löschen, überschreiben, rückgängig machen Text markieren mit der Maus Ein Wort Einen Satz Eine Zeile Einen Absatz doppelt in das Word klicken S Taste gedrückt halten und in den Satz klicken in den Bereich links neben der Zeile klicken doppelt

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Indexierung der HBZ-Verbunddaten mit FAST Data Search

Indexierung der HBZ-Verbunddaten mit FAST Data Search Indexierung der HBZ-Verbunddaten mit FAST Data Search 8. InetBib-Tagung 2004 Bonn, 5.11.2004 Dr. Peter Kostädt, HBZ NRW Dr. Peter Kostädt, HBZ NRW 1 Katalog Suchmaschine "Saubere" Daten Feldbezogene Suche

Mehr

Information Retrieval Definition und Techniken. Prof. Dr. W. Riggert FH Flensburg

Information Retrieval Definition und Techniken. Prof. Dr. W. Riggert FH Flensburg Information Retrieval Definition und Techniken Prof. Dr. W. Riggert FH Flensburg Gliederung Definition Techniken Informationsangebot und nachfrage Definition "Information Retrieval" Begriffsbeschreibung

Mehr

Kurs II. online Deutsch Dexway Akademie - Niveau C1 - Objetivos. Temario

Kurs II. online Deutsch Dexway Akademie - Niveau C1 - Objetivos. Temario online Deutsch Dexway Akademie - Niveau C1 - Kurs II Objetivos Lernziele: In diesem Block lernt der/die Schüler/-in, Tipps und Ratschläge zu geben, Hilfe anzubieten, Versprechen, Vorschläge und Bitten

Mehr

Abkürzungen Abbreviations Unbestimmte Artikel Indefinite Article... 9

Abkürzungen Abbreviations Unbestimmte Artikel Indefinite Article... 9 Preface 3 Vorwort Wer möchte nicht auch mal Spaß haben beim Lernen? Die Englisch-Comics machen es möglich, frei nach dem Motto "Wer zuerst lacht, lernt am besten". Jedes Kapitel startet mit einem Comic,

Mehr

Morphologie. 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln

Morphologie. 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln Morphologie 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln Morphologie Flexion Deklination Flexion der Nomina: Deklination Hund Hund-es Hund-e Hund-en (Stamm + Suffix) Mann Mann-es Männ-er

Mehr

Visualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten

Visualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten Visualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten Arbeitspapier Zusammenfassung In diesem Arbeitspapier wird gezeigt, wie mit Hilfe der Google- Books Ngram Daten

Mehr

Artikelspiel erstellt von L. Schikowski M.A., Universität Göttingen, IIK e.v. Göttingen, lschikowski@gmail.com, Gruppen-/Partnerarbeit

Artikelspiel erstellt von L. Schikowski M.A., Universität Göttingen, IIK e.v. Göttingen, lschikowski@gmail.com, Gruppen-/Partnerarbeit Genus Rede Kardinalzahl Prädikat Konsonant Modus Stamm Vokal Subjekt Plural Prä-/Suffix Genitiv Artikel mit Grammatikbegriffen üben Präteritum Numerus Funktionsverbgefüge Plusquamperfekt Konjugation Kasus

Mehr

J RG IMMENDORFF STANDORT F R KRITIK MALEREI UND INSPIRATION ERSCHEINT ZUR AUSSTELLUNG IM MUSEUM LU

J RG IMMENDORFF STANDORT F R KRITIK MALEREI UND INSPIRATION ERSCHEINT ZUR AUSSTELLUNG IM MUSEUM LU J RG IMMENDORFF STANDORT F R KRITIK MALEREI UND INSPIRATION ERSCHEINT ZUR AUSSTELLUNG IM MUSEUM LU 8 Feb, 2016 JRISFRKMUIEZAIMLAPOM-PDF33-0 File 4,455 KB 96 Page If you want to possess a one-stop search

Mehr

Formale Sprachen. Anwendungen formaler Sprachen Adressen, Kaffeeautomaten, Programmiersprachen. Rudolf Freund, Marian Kogler

Formale Sprachen. Anwendungen formaler Sprachen Adressen, Kaffeeautomaten, Programmiersprachen. Rudolf Freund, Marian Kogler Formale Sprachen Anwendungen formaler Sprachen Adressen, Kaffeeautomaten, Programmiersprachen Rudolf Freund, Marian Kogler (http://xkcd.com/208) Gültige Adressen: Favoritenstraße 9, 1040 Wien Reumannplatz

Mehr

Kapitel 31 Bild- und Tonretrieval. HHU Düsseldorf, WS 2008/09 Information Retrieval 483

Kapitel 31 Bild- und Tonretrieval. HHU Düsseldorf, WS 2008/09 Information Retrieval 483 Kapitel 31 Bild- und Tonretrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 483 Multimedia Information Retrieval Content-based Information Retrieval gesprochene Sprache Musik und weitere Audio-Dokumente

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

Erläuterung des Begriffs Plagiat

Erläuterung des Begriffs Plagiat Erläuterung des Begriffs Plagiat 1 Definition Plagiat Unter einem Plagiat versteht man allgemein die Wiedergabe eines Textteils ohne Herkunftsangabe. Besonders zu beachten ist, dass es unerheblich ist,

Mehr

Aufbau des SELECT-Befehls. Im Folgenden werden zunächst Abfragen aus einer Tabelle vorgenommen.

Aufbau des SELECT-Befehls. Im Folgenden werden zunächst Abfragen aus einer Tabelle vorgenommen. Datenbankabfragen (Query) mit SQL (Structured Query Language) 1 Aufbau des SELECT-Befehls Im Folgenden werden zunächst Abfragen aus einer Tabelle vorgenommen. SQL-Syntax: SELECT spaltenliste FROM tabellenname

Mehr