Sprachübergreifendes Information Retrieval. Hanna Barysava Olga Metelytsya Antonina Werthmann

Größe: px
Ab Seite anzeigen:

Download "Sprachübergreifendes Information Retrieval. Hanna Barysava Olga Metelytsya Antonina Werthmann"

Transkript

1 Sprachübergreifendes Information Retrieval Hanna Barysava Olga Metelytsya Antonina Werthmann

2 Motivation (I) Anfrage in einer Ausgangssprache - > Finden Dokumente in verschiedenen Sprachen

3 Motivation (II) Die Menschen haben eine umfassende weltweite Informations- Netzwerk-Infrastruktur aufgebaut, welche geographische Grenzen überwindet. Das Internet wächst zu einem multilingualen Informations- und Kommunikationsservice. Es finden globale Interaktionen (Handel, Reisegeschäft, wissenschaftlicher Informationsaustausch) statt. Schneller Zugriff auf globale Ressourcen notwendig -> Sprachübergreifendes Informational Retrieval.

4 Global Internet User Population English English Chinese Source: Global Reach

5 Motivation (III) Auch wenn ein Nutzer die Sprache eines Dokuments nicht versteht, ist sprachübergreifendes Retrieval sinnvoll <- fremdsprachiges Dokument kann sprachunabhängigen Content wie u.a. Abbildungen oder Tabellen enthalten.

6 Sprachübergreifendes IR CLIR = Cross-Language Information Retrieval Retrieval von Dokumenten, bei dem sich die Sprache der Anfrage (Query) von der Sprache der Dokumenten unterscheidet. = TLIR (translingual Informational Retrieval) MLIR = Multilingual Information Retrieval wird in einigen Arbeiten als Synonym zu CLIR verwendet. eher auf Systeme anwendbar, die monolinguales Suchen in mehr als einer Sprache zulassen. (d.h. Anfrage- und Dokumentsprache sind identisch).

7 CLIR vs. MLIR MLIR CLIR CLIR -> nur die Suchanfrage (Query), nicht aber Anfrage EN Korpus EN Anfrage EN Korpus EN die Dokumente werden übersetzt. Anfrage DE Korpus DE Anfrage DE Korpus DE MLIR ->Dokumente liegen übersetzt vor => Anfrage und Dokument Anfrage ES Korpus ES Es Anfrage ES Korpus ES verfügen über dieselbe Sprache.

8 Hauptzugangsmethoden MT-orientierte CLIR Systeme: (MT = Maschinelle Übersetzung) Übersetzung der Query oder Übersetzung der Dokumente Wörterbuchbasierte Verfahren Wörterbücher Thesauri Ontologie Interlingua Korpusbasierte Technicken Pseudo-Relevance-Feedback ( PRF ) GeneralizedVector SpaceModel ( GVSM ) Latent Semantic Indexing ( LSI) Term-Dokument-Matrix.

9 Korpusbasierte Verfahren Korpusbasierte Verfahren unternehmen den Versuch, nützliches Übersetzungswissen aus Trainingssammlungen zu extrahieren. Diese Verfahren setzen domänenspezifische Dokumentsammlungen voraus, die sich als Trainingskorpus eignen. Allerdings sind schlechtere Retrievalergebnisse festzustellen, wenn die Suchmaschine außerhalb dieser Domänen angewendet wird.

10 Wissensbasierte Verfahren Nutzung von Wörterbüchern und ähnlichen Nachschlagewerken Bilinguale Wörterbücher sind im Gegensatz zu den meist domänenspezifischen Korpora besser verfügbar bzw. einfach zu erstellen und decken einen allgemeineren Wortschatz ab. Vier fundamentale Ansätze nach Oard: Direkte Zuordnung von Termen unterschiedlicher Sprachen (Cognate Matching) Übersetzung der Anfrage in die Zielsprache. Übersetzung der Dokumente in die Anfragesprache. Übersetzung von Anfrage und Dokumenten in eine gemeinsame Sprache (Interlingua)

11 CLIR und MT CLIR Probleme? MT Probleme MT Ziel: einwandfreie und sprachlich richtige Übersetzungen von einer Quell- in eine Zielsprache zu liefern Es kann notwendig sein, Wörter zu ergänzen, beugen, entfernen CLIR Ziel: trotz Einsatz von MT steht im Mittelpunkt das Finden relevanter Informationen, die in den Texten unterschiedlicher Sprachen enthalten sind man sucht in der fremdsprachlichen Dokumentsammlung nach Texten, die das gleiche Konzept wie die Anfrage thematisieren genügt das Suchen von einzelnen Termen oder Phrasen -> eine vollständige Übersetzung ist nicht notwendig Fortschritte in MT -> positive Auswirkung auf Effizienz CLIR- Systeme

12 Arbeitsschritte beim CLIR Anfrage Spracherkennung Infoling. Bearbeitung Übersetzung Dokument Anfragesprache Spracherkennung Infoling. Bearbeitung Dokument Zielsprache Spracherkennung Infoling. Bearbeitung Zielsprache Abgleich gemischtes Relevance ranking

13 Voraussetzung für gute Ergebnisse von CLIR Informationslinguistische Bearbeitung von Anfragen und Dokumenten soll optimal vonstatten gehen. Systeme sollen mind. Conflation, Phrasenindefikation, Kompositazerlegung, Erkennung von Eigennamen, Homonymbzw. Synonymbearbeitung beherrschen.

14 Ansätze Wir werden folgende Ansätze näher besprechen: Übersetzung der Suchanfrage mittels Wörterbuch Übersetzung der Suchanfrage mittels Thesaurus (-> Nutzung von Sprach- und Weltwissen) Interlingua MLIR unter Nutzung paralleler Korpora

15 Maschinenlesbare Wörterbücher Grundidee: Die Nutzung maschinenlesbarer Wörterbücher für die Übersetzung einer Query. Viele Systeme mit sprachübergreifender Freitextsuche verwenden zweisprachige maschinenlesbare Wörterbücher (Machine-Readable Dictionaries MRD`s) als Übertragungsquelle.

16 Maschinenlesbare Wörterbücher Automatische MRD-Übersetzung einer Suche führt zu einem Effektivitätsverlust von 40-60% gegenüber einsprachiger Suche. Drei Gründe dazu: die für allgemeine Zwecke gemachten Wörterbücher enthalten gewöhnlich keine Spezialbegriffe; Fehler bei der Übersetzung von Bezeichnungen aus mehreren Wörtern; das Problem der Mehrdeutigkeit.

17 Maschinenlesbare Wörterbücher Es ist sehr wichtig, die richtige Übersetzungsvariante zu finden. Das größte Problem beim Verwenden von MDRs ist die Mehrdeutigkeit der Übersetzung: The main problem in using machine-readable dictionaries for CLIR is the ambiquity of many search terms. [Braschler (2004): 189]

18 Maschinenlesbare Wörterbücher Das größte Problem bei Verwendung von MDRs: die Mehrdeutigkeit der Übersetzung: kuusi : finnisches Wort, homonym deutsch: Fichte deutsch: sechs englisch: spruce englisch: six eng: six in cricket eng: sixes and sevens deutsch: Fichte deutsch: geschniegelt eng: knocked for six sowie das Zahlwort [Pirkola (2001): 217]

19 Mehrdeutigkeit der Übersetzung In sprachübergreifenden Systemen steigt der Grad der potentiellen Mehrdeutigkeit: The effectiveness of a CLIR query depends on the number of relevant search key senses in relation to the number of irrelevant senses in the CLIR query. The proportion is here regarded as an ambiguity measure of degree of ambiguity (DA). In the spruceexample above, the degree of ambiguity is increased from 1:1 in both Finnish and English retrieval to 1:5 in Finnish to English retrieval. [Pirkola (2001): 217]

20 Mehrdeutigkeit der Übersetzung Wenn keine weiteren Kandidaten für Bedeutungen vorliegen, ist der Grad der Mehrdeutigkeit DA = 0; In anderen Fällen, in denen DA > 0 gilt, muss die mono- und multilinguale Ambiguität aufgelöst werden.

21 Zur Lösung des Problems der Mehrdeutigkeit Eine der besten Lösungen bei der sprachübergreifenden Suche ist eine gut formulierte Anfrage (es geht um die Erweiterung bzw. Präzisierung der Anfrage): Gut formulierte Anragen können mit Identifizierungskennzeichen an den Wortarten zur Eliminierung grammatischer Homonyme gebracht werden; Dadurch wird die Anzahl der vom Wörterbuch gelieferten unkorrekten Zielbegriffe verringert.

22 Das Verfahren von Ballesteros und Croft (I) Lisa Ballesteros und W. Bruce Croft (1998) schlagen vor, das gemeinsame Auftreten von (übersetzten) Termen in Dokumenten der Zielsprache zu zählen. Die wichtige Bedingung: wenn mindestens zwei Suchatome in der Ausgangsanfrage vorliegen.

23 Das Verfahren von Ballesteros und Croft (II) Dasjenige Termpaar, das am meisten im Korpus gemeinsam vorkommt, gibt die wahrscheinlichste Übersetzung ab. The correct translations of query terms should co-occur in target language documents and incorrect translations should tend not to co-occur. [Ballesteros/Croft (1998)]

24 Das Problem des wörterbuchbasierten Ansatzes im CLIR Ein besonderes Problem tritt dann auf, wenn zwar ein Wörterbuch zu den Sprachen A und B sowie zu B und C vorhanden ist, aber keines zu A und C. Hier hilft der Ansatz der transitiven Übersetzung.

25 Der Ansatz der transitiven Übersetzung im CLIR Wörterbuch Deutsch - Englisch Wörterbuch Englisch - Spanisch Transitive Übersetzung Deutsch - Spanisch

26 Thesaurus Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient. [DIN 1463 Teil 1 Nov 1987, 2]

27 Merkmale des Thesaurus Begriffe und Bezeichnungen werden eindeutig aufeinander bezogen ( terminologische Kontrolle ), indem: Synonyme möglichst vollständig erfasst werden; Homonyme und Polyseme besonders gekennzeichnet werden; für jeden Begriff eine Bezeichnung (Vorzugsbenennung, Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig vertritt. Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt. [DIN 1463 Teil 1 Nov 1987, 2]

28 Funktionen des Thesaurus Thesaurus: dient zur Beschreibung des Inhalts von Dokumenten und Datensammlungen; soll genau den Informationsgehalt der Sammlung von Dokumenten repräsentieren, auf den er bezogen ist; ermöglicht dem Benutzer den Zugang zu den Dokumenten, auch wenn sie verschiedene Terminologie benutzen, um denselben Begriff in Datenbanken oder Webseiten zu referenzieren.

29 Deskriptoren Die inhaltskennzeichnenden Wörter des Thesaurus werden Deskriptoren oder Controll Terms genannt und ausschließlich diese werden zur Indexierung von Dokumenten verwendet. Jeder Deskriptor im Thesaurus: ist sorgfältig ausgewählt; hat innerhalb der spezifischen Domäne eine wohldefinierte Bedeutung: verliert allerdings seine umgangsprachliche Semantik; ist in dem beschränktem Bezugsrahmen des vorgegebenen Sprachsystems des Thesaurus zu interpretieren; ist mit der Menge von verwandten Wörtern verknüpft.

30 Indexierung Als Indexierung bezeichnet man im IR die Zuordnung von Deskriptoren zu einem Dokument zur Erschließung der darin enthaltenen Sachverhalte. Das Indexierungsergebnis ist eine Liste natürlichsprachiger Wörter, die nicht frei wählbar sind, sondern nach bestimmten Regeln einem Thesaurus entnommen werden müssen. Indexierungsarten: manuelle Indexierung computergestützte Indexierung automatische Indexierung

31 Typen von Relationen Die Relationen im Thesaurus dienen zur Erstellung eines semantischen Netzes über den gesamten Anwendungsbereich - Verbesserung von Retrieval und Indexierung durch Auffinden von Alternativen, möglicherweise auch relevanten Sachverhalten. Drei Typen von Relationen: Äquivalenzrelationen, d.h. Begriffen werden als gleichwertig betrachtet und können zu Äquivalenzklassen zusammengefasst werden. Hierarchierelation, die das Über- und Unterordnungsverhältnis der Begriffe ausdrückt. Assoziationsrelation, das sind andere als wichtig erscheinenden Relationen zwischen den Begriffen.

32 Thesaurustypen Man unterscheidet mehrere Typen von Thesauri, z.b.: Fach-, Dach- und Universalthesauri ein- und mehrsprachige Thesauri Begriffsthesaurus usw. Für CLIR ist mehrsprachiger Thesaurus von großer Bedeutung, z.b. der UNESCO-Thesaurus (multilinguale Ontologien) arbeitet mit drei Sprachen (Englisch, Französisch, Spanisch). Im Unterschied zum einsprachigen Thesaurus, z.b.: WordNet, GermaNet (monolinguale Ontologien), können im mehrsprachigen Thesaurus Indexierung und / oder Suche mit Benennungen in mehr als einer Sprachen durchgeführt werden.

33 Beispiel eines mehrsprachigen Thesaurus Deutsch English Français Nederlands FUHRPARK UB Anhänger (Fahrzeug) Gabelstapler Kleintransporter Lastkraftwagen Personenkraftwagen Sattelschlepper Tankwagen Transportcontainer VB Garage Transport FÜLLER OB Verpakungseinrichtung UB Dosenfüller Faßfüllanlage Flaschenfüller VEHICLE FLEET NT Trailer Fork lift truck Van Lorry Car Articulated vehicle Roadtanker Bulk container RT Garage Transport FILLER BT Packaging equipment NT Can filler Keg filler Bottle filler PARC DE VÉHICULES TS Remorque Chariot élévateur á fourches Camionnette Camion Voiture Semi-remorque Camion-citerne Container pour transport en vrac TA Garage Transport SOUTIREUSE TG Matériel d'emballage TS Soutireuse á boîtes Soutireuse à fûts Soutireuse à bouteilles WAGENPARK AB Anhanger Vorkheftruck Bestelwagen Vrachtwagen Personenwagen Opleggercombinatie Tankauto Bulk container VB Garage Transport VULMACHINE HB Verpakkingsapparatuur AB Bussenvulmachine Tapbok Flessenvulmachine

34 Grundproblematiken des Thesaurusaufbau Die Grundproblematiken für den Aufbau eines mehrsprachigen Thesaurus sind: Äquivalenzproblem Polysemproblem Mehrdeutigkeit

35 Äquivalenzproblem (I) Äquivalenzrelation verbindet die Begriffe die exakt gleich verwendet werden können, dazu gehören Abkürzungen, Synonyme, Übersetzungen, Schreibweisen, z.b.: DNS Desoxyribonucleinsäure Notebook = Laptop Fotografie Photographie Dabei ist das Problem im mehrsprachigen Thesaurus, dass auch die Aquivalenzklassen zwischen den Sprachen hergestellt werden müssen: Sprache 1 (Quellsprache) Sprache 2 (Zielsprache) A3 A1 A B3 B A4 A2 B2 A1 Äquivalenzklasse 1 Äquivalenzklasse 2

36 Äquivalenzproblem (II) Bezüglich der Übersetzung von Ausdrücken unterscheidet man drei Arten von Äquivalenz: totale Äquivalenzen: zwei Ausdrücke sind in allen Kontexten übersetzungsäquivalent: morphologisch verwandt, z.b.: (dt.) Physik (eng.) Physics morphologisch nicht verwandt, z.b.: (dt.) Amsel (eng.) Blackbirds gleiche konnotative Bedeutung, aber unterschiedliche denotative Bedeutung, z.b.: (dt.) Krebs (eng.) Cancer

37 Äquivalenzproblem (III) partielle Äquivalenzen: zwei Ausdrücke sind nicht in allen Kontexten übersetzungsäquivalent. Es gibt zwei Modelle der partielle Äquivalenz: (fr.) (dt.) (dt.) (fr.) Esperance Hoffnung Langage Espoir Sprache Langue fehlende Äquivalenzen: für einen Ausdruck gibt es in keinem Kontext einen übersetzungsäquivalenten Ausdruck in der Zielsprache, eine Übersetzung erfolgt dann phrasal, z.b.: es gibt kein Äquivalent im Englischen zu jemandem etwas gönnen.

38 Beispiel für den mehrsprachigen Thesaurus Englisch Deutsch simian monkey ape Affe niederer Affe Menschenaffe timepiece clock wall clock standing clock tower clock watch pocket watch wrist wach alarm clock blanket, rug, carpet blanket rug, carpet rug (or carped) long, narrow rug wall-to-wall carpet hanging rug Uhr Wanduhr, Standuhr, Turmuhr Wanduhr Standuhr Turmuhr Taschenuhr, Armbanduhr Taschenuhr Armbanduhr Wecker Teppich Bettteppich Bodenteppich loser Bodenteppich Läufer Teppichfußboden Wandteppich Die kursiv markierten Konzeptbegriffe existieren in der entsprechenden Sprache nicht. Die enstehenden Lücken werden durch sprachliche Hilfskonstruktionen gefüllt.

39 Polysemproblem (I) Polyseme sind die Deskriptoren, die gleiche Zeichenform, aber verschiedene Bedeutungen haben, z.b.: People --> Volk, Leute, Verwandte Himmel --> heaven, sky Polysemproblem kann in zweifacher Hinsicht vorkommen: als innersprachliche Polyseme: das Problem muss innerhalb der Quellsprache bzw. Zielsprache gelöst werden. als zwischensprachliche Homographe: das Problem entsteht da, dass eine Wortform in der Quellsprache einer Wortform der Zielsprache entspricht, ohne mit ihrer Bedeutung etwas zu tun haben, z.b.: Anger -- Zorn Meadows -- Anger

40 Polysemproblem (II) Besonders schwierig wird es, wenn zwischensprachliche Homographe mit innersprachlicher Polysemie gemischt werden, z.b.: Englisch Deutsch bank bank bench Ufer Bank (Geldinstitut) Bank (Sinzgelegenheit) Die unterschiedlichen Bedeutungen von Homonymen (Homographen) und Polysemen müssen durch näher bestimmende Zusätze kenntlich gemacht werden, die in Klammern unmittelbar hinter das Homonym oder Polysem gesetzt werden. [...] [Sie] bilden zusammen einen Deskriptor. [DIN 1463 Teil 1, Nov. 1987, 4.3]

41 Probleme und Vorteile des Thesaurusansatzes Probleme: Zusammengesetzte Wörter aus der Quellsprache können in anderen Sprachen nur durch Kombinationen mehrerer Wörter übersetzt werden. Für manche Wörter in der Quellsprache gibt es in der Zielsprache keine äquivalente Bezeichnung. Bei Konstruktion eines mehrsprachigen Thesaurus durch Zusammenführung einsprachiger Thesauri: Unterschiedliche Strukturen der einzelnen Thesauri. Im deutschen kontrollierten Vokabular wird in der Regel im Singular gearbeitet, in anderen Sprachen aber im Plural. Vorteile: Bei der Übersetzung mit Hilfe eines Thesaurus wird nur mit Deskriptoren gearbeitet. Dadurch liegt die Übersetzung in der Zielsprache gleich in der gewünschten Terminologie vor. Deskriptoren liegen in allen verfügbaren Sprachen vor.

42 Interlingua Dokumente und Anfragen werden in eine gemeinsame Zwischensprache Sprache (Interlingua) übersetzt. Der Retrievalprozess findet nun ausschließlich innerhalb der Interlingua statt. Eine umgekehrte Übersetzung ist nicht notwendig.

43 Interlingua Das Projekt CINDOR (Conceptual Interlingua Document Retrieval) (Ruiz, M.E.,Diekema, A., Sheridan, P ) durchgeführt an MNIS-TextWise Labs Sprachen: Englisch, Französisch, Spanisch, Japanisch basiert auf einer Methode, die als 'Conceptual Interlingua' bekannt ist.

44 Conceptual Interlingua Conceptual Interlingua soll eine sprachunabhängige Repräsentation von Begriffen sein, die als sprachneutral angesehen werden. Sie ist um die lexikalische Ressource WordNet ( Princeton University, Miller 1990 ) organisiert. Das englische WordNet besteht aus Synsets (SynonymSets), von denen ein großer Teil ins Französisch, Spanisch, Japanisch übersetzt wurde. Die Conceptual Interlingua setzt sich aus Synset-Nummern( IDs) zusammen. Die Query-Terme und Dokument-Indexterme werden in ihre Synset- IDs übersetzt". Das Matching zwischen Query und Dokument geschieht über diese IDs

45 Conceptual Interlingua English Query employment of NATO ground troops # ground troops-e ground forces-e fuerzas terrestres-s tropas terrestres-s Spanish Dokument Los militares de la OTAN estiman... disponer de unos soldatos para enviar tropas terrestresa Yugoslavia... Matching ground troops: # tropas terrestres: # [Ruiz/Diekema/Sheridan: 2000]

46 Conceptual Interlingua Vorteile: keine paarweise Übersetzung Matching auf dem Concept Level (kein exaktes Wort- Matching) Probleme: Eigenschaften aller unterstützten Sprachen sollen angemessen repräsentiert werden. Dazu zählen auch Eigenheiten, die nicht in allen Sprachen gemeinsam sind. Übersetzung einer natürlichen Sprache in die Interlingua ist nicht trivial, da diese die Dokumente möglichst sprachunabhängig repräsentieren soll.

47 Korpus-basierter Ansatz Dieser Ansatz verzichtet auf explizite Übersetzungen. Stattdessen die Benutzung von parallelen Korpora. Durch die Benutzung von parallelen Korpora gewinnt man translinguale statistische Informationen über die Terme.

48 Parallele und vergleichbare Korpora Parallele Korpora die Sammlung von inhaltsgleichen, übersetzungsäquivalenten Dokumenten, die parallel in unterschiedlichen Sprachen abgespeichert sind, z.b., parallele Webseiten in mehreren Sprachen. Vergleichende Korpora bereichsspezifische Dokumentgruppe, die keine gegenseitigen Übersetzungen beinhält, sondern sich nur auf das gleiche Thema bezieht.

49 Parallele Korpora Grundidee: Möglichst parallele Inhalte in mehreren Sprachen bereitzustellen, um mögliche Treffer in diesen Sprachen zu erlangen. Als Beispiel: Das gelang bei CLEF durch die Integration ganzer Jahrgänge von Tageszeitungen verschiedener Sprachen (Der Spiegel, Frankfurter Rundschau, Los Angeles Times, Glasgow Herald, NRC Handelsblatt, Russika Izvestia etc).

50 Die Suche mittels paralleler Korpora Die Suche geschieht in der Ausgangssprache und führt zu einer nach Relevanz sortierten Trefferliste in der Ausgangssprache. Auf der Basis dieser Trefferliste in der Ausgangssprache werden die parallelen Dokumente in der Zielsprache und darin die bestpassenden Textstellen gesucht.

51 Die Gewinnung einer übersetzten Suchanfrage über parallele Dokumente bzw. Textstellen Suchanfrage in Sprache 1 Trefferliste nach Relevanz Dokument/ Textstelle 1 in Sprache 1 Dokument/ Textstelle 2 in Sprache 1 Dokument/ Textstelle n in Sprache 1 Suche nach Parallel- Dokument Dokument/ Textstelle 1 in Sprache 2 Dokument/ Textstelle 1 in Sprache 2 Dokument/ Textstelle 1 In Sprache 2 Pseudo-Relevance-Feedback Suchanfrage in Sprache 2

52 Die Schritte zur Gewinnung einer übersetzten Suchfrage über parallele Dokumente bzw. Textstellen Die Suchanfrage (Ausgangsquery) in Sprache 1 eingeben; Das Auffinden von Trefferlisten nach Relevanz in Sprache 1; Die Suche nach den relevanten Dokumenten/ Textstellen 1,2 n in Sprache 1; Das zielgenaue Auffinden von parallelen Dokumenten in einer anderen Sprache 2. Das Auffinden von denjenigen Textstellen in Sprache 2, die am besten zur Suchanfrage passen. Die Textstellen aus den Paralleldokumenten, also aus Sprache 2, werden im Sinne des Pseudo-Relevance-Feedback analysiert, wobei die Robertson-Sparck Jones-Formel Einsatz findet (Stock, S. 470). Es schließt sich eine normale Recherche nach Dokumenten in Sprache 2 an.

53 Pseudo-Relevance Feedback (PRF) Relevance Feedback (RF): Mit dieser Methode kann der Anfragevektor dadurch verbessert werden, dass die Dokumentvektoren von solchen Dokumenten addiert werden, die von Benutzer als relevant eingeschätzt werden. Pseudo-Relevance Feedback (PRF): Mit dieser Methode kann der Anfragevektor dadurch verbessert werden, dass die Dokumentvektoren von den Dokumenten mit sehr guten Rangplätzen mit hoher Wahrscheinlichkeit addiert und als relevant eingeschätzt werden ohne Benutzerurteil.

54 Pseudo-Relevance Feedback (PRF) Zum ersten Mal in den TREC-Experimenten eingesetzt wurde; auch bei einmaligen, nicht interaktiven Suchen; Durch Anwendung von PRF erhält man eine Suchanfrage in der Zielsprache. Dieses Verfahren ist nur dann effektiv, wenn es viele relevante Dokumente gibt. Im Unterschied zu den anderen TREC-Experimenten wurden PRF und Robertson-Sparck-Jones-Formel von fast allen Systemen übernommen (Voorhees und Harman,1998 [120]).

55 Die Robertson-Sparck-Jones- Formel (I) Grundidee: Die Berechnung von Termgewichten in Abhängigkeit von einer Anfrage. Als Gewicht für einen Term tk wird der Wert vk berechnet: vk= log (R(q,k) + 0,5) / (R(q) R(q,k) + 0,5) (d(k) R(q,k) + 0,5) / (N d(k) R(q) + R(q,k) + 0,5)

56 Die Robertson-Sparck-Jones- Formel (II) (R(q,k) + 0,5) / (R(q) R(q,k) + 0,5) vk= log (d(k) R(q,k) + 0,5) / (N d(k) R(q) + R(q,k) + 0,5) N: die Anzahl der Dokumente in der Sammlung; R(q) = rel: die Anzahl der zur Anfrage q relevanten Dokumente in den Pseudo-Relevance-Feedback-Daten. d(k): die Anzahl aller Dokumente, die den Term tk enthalten; R(q,k) = relk: die Anzahl der relevanten Dokumente, die den Term tk enthalten; N R(q) = nrel: die Anzahl der Dokumente, die den Term enthalten und nicht relevant sind; d(k) R(q,k) = nrelk: die Anzahl der Dokumente, die den Term nicht enthalten und nicht relevant sind.

57 Die Robertson-Sparck-Jones- Formel (III) vk= log (R(q,k) + 0,5) / (R(q) R(q,k) + 0,5) (d(k) R(q,k) + 0,5) / (N d(k) R(q) + R(q,k) + 0,5) Zusammengefasst: Im Zähler: das Verhältnis der Anzahl der relevanten Dokumente, die den Term tk enthalten, zur Anzahl der relevanten Dokumente, die den Term nicht enthalten. Im Nenner: das Verhältnis der Anzahl der Dokumente, die den Term enthalten und nicht relevant sind zur Anzahl derer, die den Term nicht enthalten und nicht relevant sind.

58 Zur theoretischen Perspektive Das Verwenden von PRF-Daten macht aus der Gewichtungsfunktion eine Lernaufgabe: Es werden solche Terme stärker gewichtet, die sich in anderen Beispielen als gute Indikatoren für die Relevanz eines Dokuments zu einer Anfrage bewährt haben. [Ferber (2003): 194] Mit den anderen Worten: Das System lernt, welche Terme es verwenden muss, um gute Suchergebnisse zu erzielen.

59 Vorteile der Verwendung von parallelen Korpora im korpusbasierten Ansatz Verfügt ein Retrievalsystem über parallele Korpora, so kann es ohne explizite Übersetzung von Suchanfragen auskommen. Durch das Anwenden von PRF bei paralleler Korpora kann man ohne Benutzerurteil auskommen.

60 Nachteile der Verwendung von parallelen Korpora im korpusbasierten Ansatz Die übersetzten Textsammlungen sind gewöhnlich bereichsspezifisch und teuer in der Herstellung. Mangel an verfügbaren Übersetzungsressourcen für alle Sprachkombinationen, z.b., für ein gewünschtes Sprachpaar und eine gewünschte Textsorte steht nur selten ein ausreichend großes paralleles Korpus zur Verfügung.

61 Generelle Probleme von CLIR Die zwei Hauptprobleme des mehrsprachigen IRs finden sich in den Bereichen: Übersetzung Erstellen einer Ergebnisliste

62 Übersetzungsprobleme (I) Fehlende Übersetzung Es gibt keine vollständigen Übersetzungsressourcen, d.h. nicht für jeden Term in der Ausgangssprache existiert ein adäquater Term in der Zielsprache Probleme z.b. bei Abkürzungen, Akronymen oder Komposita, deren Einzelwörter für sich allein eine ganz andere Bedeutung haben (z.b. Rundfunk).

63 Übersetzungsprobleme (II) Multiword units (Mehrwortkonstrukte) Ähnliches Problem wie fehlende Übersetzungen sind Phrasen aus mehreren Worten, die eine bestimmte Bedeutung haben: Sie verlieren bei einer Wort-für-Wort-Übersetzung oft ihren Sinn (z.b. fast food -> schnelles essen : verfälscht den Sinn der Anfrage). -> müssten daher vom CLIR-System als solche erkannt werden (nur durch ein entsprechendes Phrasen-Lexikon zu erreichen)

64 Übersetzungsprobleme (III) Ambiguität (Mehrdeutigkeit) Schwierig, mehrdeutige Begriffe innerhalb einer Sprache aufzulösen -> verschäft sich im sprachübergreifenden Retrieval, da sich die Mehrdeutigkeiten in Ausgangs- und Zielsprache addieren. Klassiker -Beispiel : Bank, das Geldinstitut, Bank, die Sitzgelegenheit) CLIR-System muss die Möglichkeit haben, den Term ggf. aus dem Kontext zu disambiguieren, was vor allem bei einer kurzen Query schwer bis unmöglich sein kann das Mehrdeutigkeitsproblem ist einer der Hauptgründe für die im Vergleich zum monolingualen Retrieval geringere Effektivität von CLIR-Systemen.

65 Übersetzungsprobleme (IV) Eigennamen Erkennung eines Eigennamens als solcher. Beispiel: Wenn Kiesbauer nicht als Eigen- name erkannt wird, ist es möglich, dass er als gravel farmer übersetzt in die Anfrage einfliesst; Fischer als Name vs. Fischer als Beruf, Bill als Name oder bill als die Rechnung bestimmte Eigennamen in unterschiedlichen Sprachen voneinander abweichende Schreibweisen haben können (Jelzin, Yeltsin, Eltsin) Mandl und Womser-Hacker haben gezeigt, dass das Vorhandensein von Eigennamen die Präzision von Suchsystemen erhöht.(mandl, Thomas; Womser-Hacker, Christa (2003): Proper Names in the Multilingual CLEF Topic Set. )

66 Erstellen einer mehrsprachigen Ergebnisliste Treffer aus verschiedensprachigen Kollektionen in einer gemeinsamen, geordneten Trefferliste werden zusammengefasst. Ansätze zur Fusion mehrerer Trefferlisten: raw score merging (RSM) round robin merging (RR) weighted round robin merging ( bei CLEF 2003 verwendetes Fusionsverfahren; Erweiterung des klassischen RR; den beteiligten Systemen werden Gewichte zugewiesen)

67 Raw Score Merging raw score merging (RSM): Ergebnisse aus verschiedenen Kollektionen werden einfach ihrer berechneten Relevanz nach sortiert. Keine Normalisierung. Nachteile: eventuell unterschiedliche Gewichtungsalgorithmen werden gleich behandelt Eigenschaften der Korpora (durchschnittliche Dokumentlänge, Anzahl aller Dokumente etc.) werden nicht berücksichtigt. -> Für relativ vergleichbare Korpora kann RSM funktionieren.

68 Round Robin Merging (RR) round robin merging (RR) eine der Trefferlisten wird als die erste bestimmt. Von dieser ersten Trefferliste geht dann das erste Dokument als erstes in die gemeinsame Liste. Als nächstes das erste Dokument aus der zweiten Trefferliste, bis alle Einzellisten ihr erstes Dokument an die gemeinsame Liste übergeben haben. Dann werden analog die zweiten, dritten, n-ten Dokumente aus diesen Listen fusioniert, bis ein definierter Schwellenwert erreicht ist, z.b. maximal 1000 Treffer im Gesamtergebnis. RR eignet sich vor allem dann, wenn Relevanzen nicht vergleichbar sind.

69 Evaluierung von CLIR Systemen Text Retrieval Conference (TREC), wird von dem amerikanischen National Institute of Standards and Technology (NIST) organisiert. NII(National Institute of Informatics)-NACSIS(National Centre for Science Information Systems) Test Collection for IR Systems (NTCIR) in Japan das europäische Projekt Cross-language Evaluation Forum (CLEF) campaign.org Stellen Testsuiten zum Vergleich und zur Leistungsbeurteilung von CLIR- Systemen zur Verfügung und veranstalten regelmäßige Fachkonferenzen

70 CLEF Forum zur Evaluierung von CLIR-Systemen gegründet 2000 Fokus auf europäische Sprachen Ziel: Weiterentwicklung von CLIR-Systemen zur Verbesserung der Konkurrenzfähigkeit auf dem internationalen Markt Enge Zusammenarbeit mit anderen Evaluierungsforen in Asien und in den USA

71 CLEF Wichtigste Aufgabenstellungen sog. Tracks werden in Bereiche geteilt: Core Tracks -> Ad-Hoc-Retrieval: Monolinguales, bilinguales und multilinguales IR Additional Tracks: Question-Answering-Systeme, Bild- und Sprach- Retrieval unter den Bedingungen der Mehrsprachigkeit.

72 CLEF Vorgehensweise (I) Evaluierungskampagnen finden jährlich statt. Anhand eines jedes Jahr neu festgelegten Zeitschemas werden verschiedene Phasen durchlaufen: Registrierung; Datenfreigabe; Topic-Freigabe; Einsendeschluss der Ergebnisse; Veröffentlichung der Ergebnisse; Workshop Die Daten werden von Zeitungen und Nachrichtenagenturen bereitgestellt (Sie umfassen vollständige Jahrgänge).

73 CLEF Vorgehensweise (II) Topics sind Themen bzw. Beschreibungen von Informationsbedürfnissen aus denen die Teilnehmer Anfragen erstellen. Eingesandte Ergebnisse werden über alle teilnehmenden Gruppen je Task in einem Pooling-Verfahren zusammengespielt. Die so erzeugten Ergebnislisten werden von Juroren auf relevante Dokumente überprüft. Aus den Relevanzurteilen werden dann die offiziellen Ergebnisse für die einzelnen Teilnehmer ermittelt.

74 CLEF-2007 Ziel: Weiterentwicklung von IR-System in Bezug auf Benutzerfreundlichkeit, Multilingualität und Modalität. 8 Tracks in 2007 (Workshop in Budapest, Hungary) : Multilingual Document Retrieval on News Collections (Ad- Hoc): mono- and bilingual tasks on target collections in Bulgarian, Czech (new this year), and Hungarian; a bilingual task encouraging system testing with non- European languages (Amharic, Arabic, Oromo and Indonesian) against English documents was also offered; A special sub-task regarded Indian languages and included Hindi, Telugu and Marathi.

75 CLEF-2007 Weitere CLEF-2007 Tracks: Scientific Data Retrieval (Domain-Specific) Multiple Language Question Answering Cross-Language Image Retrieval (ImageCLEF) Cross-Language Speech Retrieval (CL-SR) CLEF Web Track (WebCLEF) Cross-Language Geographical Information Retrieval (GeoCLEF)

76 Fazit / Ausblick Rapide wachsendes WorldWideWeb mit zunehmend spezifischen Informationen in nicht-englischer Sprache. Zuverlässig funktionierende CLIR-Systeme würden einen enormen Gewinn bei der Auffindung von Informationen darstellen. Der derzeitige Entwicklungsstand der maschinellen Übersetzung kann eine sprachtransparente Nutzung des Internets, bei der alle Webseiten automatisiert in die Sprache des Internetbenutzers übersetzt werden, jedoch noch nicht ermöglichen.

77 Fazit / Ausblick Das Cross-language Information Retrieval stellt einen Kompromiss dar: Der Anwender formuliert eine Suchanfrage in seiner Muttersprache und erhält als Ergebnis Trefferdokumente, die auch in anderen Sprachen verfasst sind. Um die Relevanz eines Dokuments bezüglich einer anderssprachigen Suchanfrage beurteilen zu können, sind keine vollständigen, sondern lediglich punktuelle Übersetzungen der Dokumente notwendig. Deshalb besitzt das Problem des Crosslanguage Retrievals nicht die gleiche Komplexität wie das der maschinellen Übersetzung.

78 Fazit / Ausblick Allerdings: Derzeitiger Stand der Entwicklung noch immer weit von diesen Idealzielen entfernt. Alle vorgestellten Ansätze haben entweder eine niedrigere Retrieval-Rate als monolinguale IR- Systeme oder funktionieren nur in begrenzten Domänen zufrieden stellend => Forschung und Optimierung in Bereich Crosslanguage Information Retrieval

79 Literatur: Alshak, Tatsiana / Sopp, Margeth / Zhmaka, Iryna (2003): Multilinguales Information Retrieval. Ballesteros, L. / Croft, W.B. (1998): Statistical methods for cross-language information retrieval. - In: Grefenstette, G. (Hrsg.): Cross-Language Information Retrieval. - Boston: Kluwer, S Behrens, Mareike / Ramm, Stefanie / Langner, Anne (2005): Multilingua Cross Language Evaluation Forum: DIN (1987): Erstellung und Weiterentwicklung von Thesauri. Mehrsprachige Thesauri. Berlin. Ferber, R. (2003): Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg. Kovatcheva, Ana (2001): Multilinguales Information Retrieval Lin, Jimmy (2006): Cross-Language and Multimedia Information Retrieval.

80 Literatur: Quadt, Florian (2006): Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur. Ruiz, M.E. / Diekema, A. / Sheridan, P. (2000): CINDOR Conceptual Interlingua Dokument Retrieval: TREC-8 Evaluation. MNIS-TextWiseLabs. Proceedingsof theeighthtext Retrieval Conference(TREC-8),NIST specialpublication. Stock, Wolfgang G. (2007): Information Retrieval. München. Strötgen, Jannik / Lorenzen, Fabian (2006) : Sprachübergreifendes Information Retrieval (CLIR) Voorhees, Ellen M. / Harmann, Donna: Overview of the Sixth Text Retreival Conference (TREC-6) Wersing, Gernot (1985): Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München. Oard, Douglas W. (1999): Global Access to Multilingual Information. Keynote at the Fourth International Workshop on Information Retrieval with Asian Languages. Taipei Taiwan.

Thesaurus 1. Merkmale:

Thesaurus 1. Merkmale: Thesaurus 1 Eine Dokumentationssprache ist eine Menge sprachlicher Ausdrücke, die, nach bestimmten Regeln angewendet, der Beschreibung von Dokumenten zum Zweck des Speicherns und einer gezielten Wiederauffindung

Mehr

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber Simullda Structured Interlingua MultiLingual Lexical Database Application Sonja Weber 1 Gliederung Background Begriffsklärung Multilinguale Datenbanken WordNet Maschinelle Übersetzung Formale Begriffsanalyse

Mehr

B E N U T Z E R D O K U M E N TA T I O N ( A L E P H I N O

B E N U T Z E R D O K U M E N TA T I O N ( A L E P H I N O B E N U T Z E R D O K U M E N TA T I O N ( A L E P H I N O 5. 0 ) Thesaurus Ex Libris Deutschland GmbH (2014) Version 5.0 Zuletzt aktualisiert: 21.07.2014 1 DEFINITION...3 2 ERFASSUNG VON THESAURUSBEGRIFFEN...3

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Studienprojekt TaxoSearch Spezifikation

Studienprojekt TaxoSearch Spezifikation Studienprojekt TaxoSearch Spezifikation Semantisch gestützte Suche im Internet Lehrstuhl für Computerlinguistik Ruprecht-Karls-Universität Heidelberg WS 2002-2003 vorgestellt von Thorsten Beinhorn, Vesna

Mehr

Ziele und Herausforderungen

Ziele und Herausforderungen Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Maschinelle Übersetzung Kluge Andreas, 13IN-M basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 19. Juni 2014 Übersicht Gewünschte Funktionalität Schwierigkeiten

Mehr

Midas Metadata yield by Data Analysis

Midas Metadata yield by Data Analysis Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten

Mehr

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7} Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet DGI-Schrift (Informationswissenschaft 7} Inhalt Vorwort 9 Suchmaschinen im Internet - informationswissenschaftlich

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Lexikalisch-semantische Disambiguierung mit WordNet

Lexikalisch-semantische Disambiguierung mit WordNet Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Anfrage Erweiterung 03.11.2011 Jan Schrader

Anfrage Erweiterung 03.11.2011 Jan Schrader Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch, Ivana Daskalovska Willkommen zur Übung Einführung in die Computerlinguistik Kontakt: ivana.bt.mk@gmail.com Betreff: EICL Wiederholung Aufgabe 1 Was ist Computerlinguistik? 4 Was ist Computerlinguistik?

Mehr

Schubert Foo, Douglas Hendry: for Desktop Searching

Schubert Foo, Douglas Hendry: for Desktop Searching Schubert Foo, Douglas Hendry: Evaluation of Visual Aid Suite for Desktop Searching Sergey Tarassenko Einführung Weltweite Verbreitung von Elektronischen Information Schnelle Entwicklung von Suchmaschinen.

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Mehrsprachige Kategorisierung

Mehrsprachige Kategorisierung know-how innovation Mehrsprachige Kategorisierung für die automatische Beschlagwortung 22.3.2011, Dr. Peter Schäuble solution Information Retrieval Anwendungen im Bibliotheksumfeld! Information Retrieval

Mehr

Semiautomatische Erschließung von Psychologie-Information

Semiautomatische Erschließung von Psychologie-Information PETRUS-Workshop "Automatische Erschließungsverfahren" 21./22.03.2011 Dipl.-Psych. Michael Gerards Semiautomatische Erschließung von Psychologie-Information Kontext Die Literaturdatenbank PSYNDEX: Erschließt

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

xtree.voc Weiterentwicklung der Vokabularverwaltungssoftware xtree

xtree.voc Weiterentwicklung der Vokabularverwaltungssoftware xtree xtree.voc Weiterentwicklung der Vokabularverwaltungssoftware xtree Einführung Features Ein Beispiel: Konzept 00000964 aus der Oberbegriffsdatei als SKOS-Graph in xtree.voc Nächste Schritte Datenströme

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Verbesserte Nutzbarkeit heterogener und verteilter Geodaten durch Semantische Interoperabilität

Verbesserte Nutzbarkeit heterogener und verteilter Geodaten durch Semantische Interoperabilität Verbesserte Nutzbarkeit heterogener und verteilter Geodaten durch Semantische Interoperabilität Eva Klien 7. Seminar GIS & Internet 15. bis 17. September 2004 UniBwMünchen Überblick Semantische Heterogenitätsprobleme

Mehr

Web Data Management Systeme

Web Data Management Systeme Web Data Management Systeme Seminar: Web-Qualitätsmanagement Arne Frenkel Agenda Einführung Suchsysteme Suchmaschinen & Meta-Suchmaschinen W3QS WebSQL WebLog Information Integration Systems Ariadne TSIMMIS

Mehr

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren Wörter - Texte - Information Möglichkeiten und Grenzen automatischer Erschließungsverfahren Automatische Indexierung - Einführung 1 Indexieren und Automatisches Indexieren Dokumente Volltexte bibliografische

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht

Mehr

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de

Mehr

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth Relationen zwischen Nomen und ihren Assoziationen Michael Roth 2 Assoziationen sind psychologisch interessant. Wie erfolgt der Zugriff auf sie? Welche Bedeutung haben sie? erfüllen einen linguistischen

Mehr

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7.  Mathias Lux Caliph & Emir Retrieval und Annotation von digitalen Photos mit MPEG-7 Mathias Lux mlux@know-center.at - gefördert durch das Kompetenzzentrenprogramm Overview Einleitung Geschichtliches Annotation mit

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Kapitel 16 Begriffe HHU Düsseldorf, WS 2008/09 Information Retrieval 250 Semantisches Umfeld "Find what I mean, not what I say" (Susan Feldman) natürlichsprachiges Umfeld Werkzeug: natürlichsprachiger

Mehr

Wie komme ich zu einem Schlagwortvokabular?

Wie komme ich zu einem Schlagwortvokabular? Wie komme ich zu einem Schlagwortvokabular? Ein existierendes Schlagwortverzeichnis übernehmen Fragen: Passt es in Umfang und Differenzierung zum eigenen Bestand? Ist das fachliche Niveau (wissenschaftlich

Mehr

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker UNIVERSITÄT ULM SCIENDO DOCENDO CURANDO Universität Ulm Abteilung Künstliche Intelligenz ExtrAns Verarbeitung natürlicher, schriftlicher Sprache C. Bohnacker Überblick Motivation Einleitung Eigenschaften

Mehr

Maschinelle Übersetzung

Maschinelle Übersetzung Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung

Mehr

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Vortrag anlässlich der ODOK 2007 (20. September 2007, Graz) Joachim Pfister Schweizerisches

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Information Retrieval. Überblick

Information Retrieval. Überblick Fachhochschule Köln, Campus Gummersbach Institut für Informatik und Ingenieurwissenschaften Information Retrieval WPF 45 Überblick Prof. Dr. Heide Faeskorn - Woyke Fachhochschule Köln Campus Gummersbach

Mehr

Einfuhrung in die inhaltliche Erschließung. Grundlagen - Methoden - Instrumente

Einfuhrung in die inhaltliche Erschließung. Grundlagen - Methoden - Instrumente Jutta Bertram Einfuhrung in die inhaltliche Erschließung Grundlagen - Methoden - Instrumente ERGON VERLAG Inhalt Verzeichnis wichtiger Abkürzungen 11 Vorwort 13 Kapitel 1 - Inhaltserschließung im Überblick

Mehr

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme

Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) Ziele von TREC. Spezifika im Vorgehen von TREC. Teilnehmer und Systeme Quelle: TREC homepage http://www.nist.gov/nlpir IR 209 IR 210 Text REtrieval Conferences (cf. TREC hompage: http://www.nist.gov/nlpir/) TREC (Text REtrieval Conferences) Leitung: Donna Harman offiziell

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN *

METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * LDV-Forum Bd. 5, Nr. 2/3, Jg. 1987/88, S. 17-25 17 METHODEN ZUR TEILAUTOMATISCHEN ERSTELLUNG VON TRANSFERWÖRTERSÜCHERN * FACH BEITRÄGE Ulrich Heid Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung,

Mehr

Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen

Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen 16. März 2016 Dimitri Busch Fraunhofer Informationszentrum Raum

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Informatik Pawel Broda Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung Diplomarbeit Ludwig Maximilian Universität zu München Centrum für Informations- und

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

1. Vorlesung,

1. Vorlesung, 1. Vorlesung, 16.10.2006 Einführung und Motivation, Beispiel Information versus Daten Grundlegende Konzepte Aufgaben des Anwenders Logische Sicht auf Dokumente Dokumentvorverarbeitung Dokumentsuche mit

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft , Informations- und Wissensmanagement Zentrum für Translationswissenschaft Poesie in einer Programmiersprache #define ( bb!bb ) Übersetzungstechnologien Maschinelle Übersetzung Begriffe MÜS Maschinelles

Mehr

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of

Mehr

LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel. AGMB-Tagung Basel, Seite

LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel. AGMB-Tagung Basel, Seite LIVIVO: Das neue ZB MED-Suchportal für Lebenswissenschaften Jana Pössel AGMB-Tagung Basel, 08.09.2015 MEDPILOT und GREENPILOT schließen einen Bund fürs Leben: LIVIVO Interdisziplinäre Literatursuche: Datenquellen

Mehr

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort? Lexikalische Semantik Was ist ein Wort? Was ist in einem Wort? Was ist ein Wort? Er machte nicht viele Wörter. Deine Wörter in Gottes Ohr! Ich stehe zu meinen Wörtern Ein Essay von 4000 Worten Im Deutschen

Mehr

Seminar Datenbanksysteme

Seminar Datenbanksysteme Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System

Mehr

Arbeiten mit Datenbanken

Arbeiten mit Datenbanken Prof. Dr. Rüdiger Zarnekow TU Berlin, Fakultät VII Kommunikationsmanagement Kommunikationsmanagement Inhalte und Ziele 1. wichtige Hinweise 2. Freie Datenbanken der TU 3. Schlagwortsuche 4. Übung 1 5.

Mehr

JIRA für CoDeSys - Erste Schritte

JIRA für CoDeSys - Erste Schritte Dokument Version 1.0 3S-Smart Software Solutions GmbH Seite 1 von 7 INHALT 1 STARTBILDSCHIRM 3 2 TYPISCHE ANWENDUNGSBEISPIELE 3 2.1 Eigene Issues suchen 3 2.2 Geplante Versionen und deren Inhalt 3 2.3

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

1. Warum ist es nicht zweckmäßig, die Automatische Schlagwortvergabe für alle Kategorien eines Datensatzes durchzuführen?

1. Warum ist es nicht zweckmäßig, die Automatische Schlagwortvergabe für alle Kategorien eines Datensatzes durchzuführen? Winfried Gödert / Klaus Lepsky Laborpraktikum Automatisches Indexieren Wiederholungsfragen Die Wiederholungsfragen dienen der Vertiefung der im Laborpraktikum behandelten Materie. Sie ergänzen die Übungsaufgaben,

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Data Mining im Internet

Data Mining im Internet Data Mining im Internet Dipl.-Dok. Helga Walter Bayer HealthCare, Wuppertal PH-R-EU Scientific Information and Documentation 1 Arten / Quellen wissenschaftlicher Information Strukturierte Informationen:

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache

Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache Einführung in die übersetzungsbezogene Terminologiearbeit Martin Volk Uni Zürich Dolmetscherschule Zürich / ZHW Übersicht über das Seminar 4 Wochen Präsentation Danach: praktische Übungen in Doppelstunden

Mehr

Wissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a)

Wissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a) Wissenschaftliches Arbeiten und Informationskompetenz in den Wirtschaftswissenschaften (2a) Schlüsselqualifikationen für Bachelor-Studierende (Ergänzungsbereich Modul E1) SoSe 2011 Alexander Holste / Schreibwerkstatt/Universitätsbibliothek

Mehr

Zusammenarbeitsprogramm zu patentspezifischen Sprachtechnologiediensten. Ausschuss für technische und operative Unterstützung (zur Unterrichtung)

Zusammenarbeitsprogramm zu patentspezifischen Sprachtechnologiediensten. Ausschuss für technische und operative Unterstützung (zur Unterrichtung) CA/T 14/14 Orig.: en München, den 24.10.2014 BETRIFFT: VORGELEGT VON: EMPFÄNGER: Zusammenarbeitsprogramm zu patentspezifischen Sprachtechnologiediensten Präsident des Europäischen Patentamts Ausschuss

Mehr

Der semantische Discovery Service YEWNO - ein Pilotprojekt an der Bayerischen Staatsbibliothek. Dr. Berthold Gillitzer Bayerische Staatsbibliothek

Der semantische Discovery Service YEWNO - ein Pilotprojekt an der Bayerischen Staatsbibliothek. Dr. Berthold Gillitzer Bayerische Staatsbibliothek 1 Der semantische Discovery Service YEWNO - ein Pilotprojekt an der Bayerischen Staatsbibliothek Dr. Berthold Gillitzer Bayerische Staatsbibliothek Bibliotheken und die digitale Welt sind wir schon angekommen?

Mehr

Fit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.

Fit für die Projektarbeit. Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10. Fit für die Projektarbeit Thematische Literatursuche in 5 Schritten Quelle: Lotse, Skript zur Thematischen Literatursuche. Stand 1.10.2010 Thematische Literatursuche in 5 Schritten 1. Was suchen Sie? Analysieren

Mehr

Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots. Berlin,

Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots. Berlin, Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots Berlin, 12.07.2016 Suchmethoden im Überblick Keyword-basierte Suche Semantische Suche machine learning Suche Exakte Suche nach Textketten

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz) Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz) 1 Maschinelle Übersetzung (MÜ) Überblick: Warum MÜ: Datenmenge, Qualität und

Mehr

Literaturdatenbanken

Literaturdatenbanken Workshop Tipps und Tools für eine effektive Literaturrecherche in Pubmed/Medline 5. Kongress für Arzneimittelinformation Köln 04.02.2017 Dr. Mirjam Gnadt Arzneimittelinformationsstelle der Bayerischen

Mehr

Literatur- & Datenbankrecherche D-USYS Agrarwissenschaften MSc1,

Literatur- & Datenbankrecherche D-USYS Agrarwissenschaften MSc1, Literatur- & Datenbankrecherche D-USYS Agrarwissenschaften MSc1, 22.9.2015 Inhalt der Schulung Repetition (mit Übung) Suchstrategien und Suchregeln ETH-Bibliothek, Wissensportal Datenbanken, Fachinformationen

Mehr

Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de

Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de Joachim Griesbaum 1 / Marc Rittberger 2 / Bernard Bekavac 1 1 Universität Konstanz Fach D 87 D-78457 Konstanz 2 Heinrich-Heine-Universität

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Grundlagen und Definitionen

Grundlagen und Definitionen Grundlagen und Definitionen Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com Maschinelle Sprachverarbeitung Breites Spektrum an Methoden der Computerverarbeitung von Sprache. Kann

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Ontologies are us: A unified model of social networks and sema

Ontologies are us: A unified model of social networks and sema Ontologies are us: A unified model of social networks and semantics 30. Juni 2009 Inhaltsverzeichnis 1 Einführung Begriffsklärung 2 Folksonomien Anreicherung von Ontologien 3 Ontology emergence in del.icio.us

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

Mehrsprachigkeit Normalität, Ressource, Herausforderung Blicke aus der Perspektive (auch) der Basisbildung. thomas fritz lernraum.

Mehrsprachigkeit Normalität, Ressource, Herausforderung Blicke aus der Perspektive (auch) der Basisbildung. thomas fritz lernraum. Mehrsprachigkeit Normalität, Ressource, Herausforderung Blicke aus der Perspektive (auch) der Basisbildung thomas fritz lernraum.wien oktober 2012 was bedeutet Mehrsprachigkeit? Individuum Gesellschaft

Mehr

USER GUIDE FÜR DAS OXAION-TICKETSYSTEM

USER GUIDE FÜR DAS OXAION-TICKETSYSTEM USER GUIDE FÜR DAS OXAION-TICKETSYSTEM Inhaltsverzeichnis 1 ALLGEMEINE INFORMATIONEN... 3 2 REGISTRIERUNG IM CUSTOMER SUPPORT CENTER... 4 3 ANMELDUNG IM CUSTOMER SUPPORT CENTER... 5 4 TICKET ERSTELLEN...

Mehr

DWH Automatisierung mit Data Vault 2.0

DWH Automatisierung mit Data Vault 2.0 DWH Automatisierung mit Data Vault 2.0 Andre Dörr Trevisto AG Nürnberg Schlüsselworte Architektur, DWH, Data Vault Einleitung Wenn man die Entwicklung von ETL / ELT Prozessen für eine klassische DWH Architektur

Mehr

Monitoring Database: Grundlagen, Workflow, Hinweise

Monitoring Database: Grundlagen, Workflow, Hinweise Monitoring Database: Grundlagen, Workflow, Hinweise 1: Öffnen der Datenbank \\qlb-fs01\zlq\institut ZLQ\Genbank\Enders\Monitoring_DB\Stable_Version Unter diesem Verzeichnis sind 2 Versionen der Datenbank

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

GER_C2.0606S. Bilinguale Erziehung. Education and children Speaking & Discussion Level C2 GER_C2.0606S.

GER_C2.0606S. Bilinguale Erziehung. Education and children Speaking & Discussion Level C2 GER_C2.0606S. Bilinguale Erziehung Education and children Speaking & Discussion Level C2 www.lingoda.com 1 Bilinguale Erziehung Leitfaden Inhalt Viele Kinder, deren Vater und Mutter unterschiedliche Muttersprachen sprechen,

Mehr

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation: 02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete

Mehr

time marker cluster term term URL Link to AEC media

time marker cluster term term URL Link to AEC media AEC ZKM ICC OK institution () time marker comming soon cluster defined in table or dynamic location () person or sentence (long description, notion, year) Default Linz AEC DB memory theater source (attribute)

Mehr