Automatische Verknüpfung Historischer und Zeitgenössischer Wörterbücher und Enzyklopädien

Transkript

1 Universität des Saarlandes Naturwissenschaftlich-Technische Fak. I Fachrichtung Informatik Max-Planck-Institut für Informatik AG 5 - Datenbanken und Informationssysteme Prof. Dr. Ing. Gerhard Weikum Diplomarbeit Automatische Verknüpfung Historischer und Zeitgenössischer Wörterbücher und Enzyklopädien vorgelegt von Karin Heß am 1. September 2007 betreut von Prof. Dr. Gerhard Weikum Dr. Stefan Siersdorfer begutachtet von Prof. Dr. Gerhard Weikum Prof. Dr. Reinhard Wilhelm

2 Erklärung Hiermit erkläre ich, dass ich die vorliegende Arbeit selbständig verfasst und alle verwendeten Quellen angegeben habe. Saarbrücken, Einverständniserklärung Hiermit erkläre ich mich damit einverstanden, dass meine Arbeit in den Bestand der Bibliothek der Fachrichtung Informatik aufgenommen wird. Saarbrücken,

3 Zusammenfassung Die vorliegende Arbeit beschreibt die automatische Verknüpfung historischer und zeitgenössischer Wörterbücher und Enzyklopädien. Dies geschieht am Beispiel des Grimmschen Wörterbuchs, verschiedener regionalsprachlicher Nachschlagewerke, der Online-Enzyklopädie Wikipedia und des Wortschatzes GermaNet. Wir fassen die Verknüpfung der Wörterbücher als Suchproblem auf. Dadurch ist es uns möglich, gängige Methoden aus dem Bereich des Information Retrieval auf die historischen und zeitgenössischen Nachschlagewerke anzuwenden. Eine Ähnlichkeitssuche ist Basis unseres Systems zur automatischen Wörterbuch-Verknüpfung. Diese Suche kann um Query- Expansion und Feature-Selection erweitert werden. Weiterhin zeigen wir, wie Suchergebnisse aus mehreren Wörterbüchern zusammengefasst werden können. Die verschiedenen historischen und zeitgenössischen Wörterbücher weisen einen sehr unterschiedlichen Wortschatz auf, der bei der Suche vereinheitlicht werden muss. Dies geschieht im wesentlichen über linguistische Methoden und weitere Feature-Engineering-Verfahren, die in verschiedener Weise kombiniert werden können. Durch die Anwendung dieser Transformationsmethoden kann die Query an den Zielwortschatz angepasst werden. Anhand von Experimenten werden wir die Effektivität dieser Feature-Engineering-Methoden bei der Suche in verschiedenen Wörterbüchern untersuchen.

4 Danksagung Während meiner Arbeit wurde ich sowohl von Prof. Dr. Gerhard Weikum als auch von Dr. Stefan Siersdorfer betreut. Stefan Siersdorfer hat mich vor allem in den ersten Monaten bis zu seinem Weggang zur University of Sheffield unterstützt, als ich die Ähnlichkeitssuche in Verbindung mit verschiedenen Preprocessing-Methoden implementierte. Dadurch, dass er stets offen seine Meinung sagte, war es sehr angenehm, mit ihm zu diskutieren und eine Lösung für zahlreiche Probleme zu suchen. Ich danke ihm auch dafür, dass er meine Arbeit trotz der räumlichen Entfernung noch kurz vor der Abgabe durchgelesen und wichtige Anmerkungen gegeben hat. Prof. Weikum hat mich in den Monaten nach Stefan Siersdorfers Weggang selbst betreut. Er war der eifrigste Tester meines Servlets und hat immer wieder richtungsweisende Anmerkungen gemacht. Ich möchte ihm dafür danken, dass er trotz seiner vielen Aufgaben stets bereit war, sich mit meiner Arbeit zu beschäftigen. Ich bin bis heute überrascht, wie schnell er auf meine s reagiert hat, wodurch er mir eine Menge Panik ersparte. Neben meinen Betreuern möchte ich meiner Familie danken, die mich während meines ganzen Studiums unterstützt hat. Den Rückhalt, den ich bekommen habe und weiterhin bekomme, kann ich wohl nicht in einem kurzen Satz zusammenfassen, aber ich möchte mich für das Verständnis bedanken, das mein Vater, meine Mutter und mein Bruder Thomas stets für mich hatten. Weiterhin möchte ich Susanne danken, mit der ich eine angenehme Zeit an der Uni verbracht habe und mit der ich eine Menge Cappuccino getrunken habe. Dadurch, dass sie mich fast jeden Morgen mit zur Uni genommen hat, hatten wir viel Spaß zusammen. Ich wünsche ihr viel Glück und Energie für das Ende ihres Studiums. Christian, der mit mir das Büro am MPI geteilt hat, möchte ich ebenfalls danken. Ich war immer froh, wenn er eingetrudelt ist, weil ich dann nicht mehr alleine war und wir eine Menge Quatsch geredet haben. Auch ihm alles Gute für das Ende seines Studiums. Schließlich möchte ich Daniel danken, der während meiner Arbeit immer für mich da war. Er hat mich unzählige Male beruhigt, wenn ich doch Panik bekommen habe - vor allem in der Zeit, als ich wegen der Prüfungen in Erziehungswissenschaft und Französisch nicht mehr wusste, wo mir der Kopf stand. Mit ihm macht es sogar Spaß, über Informatik zu diskutieren, was wir wegen meiner und seiner Arbeit oft getan haben. Danke für die schöne Zeit, die wir bis jetzt hatten, Danke für alles.

5 Inhaltsverzeichnis 1 Einleitung Motivation Inhaltsüberblick Grundlagen Vektorraummodell Termgewichtung Ähnlichkeitsmaß Relevance-Feedback Probabilistisches Retrieval Termgewichtung Erweiterte Retrieval-Methoden Result-Merging Query-Expansion Linguistische Verfahren Stoppwörter Lemmatisierung Dekomposition Automatische Verknüpfung von Wörterbüchern Digitalisierung des Grimmschen Wörterbuchs Indexierung der Daten Ähnlichkeitssuche in Wörterbüchern Result-Merging Erweiterte Methoden Query-Expansion Relevance-Feedback Feature-Selection Feature-Engineering Schwierigkeiten bei der Verlinkung von Wörterbüchern Rechtschreibevariationen Präfigierung Lateinische Terme Kombination der Methoden Gewichtungsfaktoren I

6 Inhaltsverzeichnis 5 Implementierung Technologien und verwendete Tools System zur Wörterbuchsuche Klassendesign Datenbankdesign Benutzerinterface Auswertung Evaluierungsverfahren Testanfragen Ergebnisse Preprocessing Result-Merging Zusammenfassung Zusammenfassung und Ausblick Verwandte Arbeiten Zusammenfassung Ausblick Verbesserungsmöglichkeiten Erweiterungsmöglichkeiten Einsatzmöglichkeiten der Wörterbuch-Suche A Suchergebnisse der Dokument-Suche in Wikipedia ausgehend vom Grimmschen Wörterbuch 72 B Suchergebnisse der Dokument-Suche im Grimmschen Wörterbuch ausgehend von Wikipedia 90 II

7 1 Einleitung 1.1 Motivation Die Sprachwissenschaftler Jacob und Wilhelm Grimm sind vor allem als Sammler von Märchen bekannt. Ihre Kinder- und Hausmärchen wurden in 160 Sprachen übersetzt und sind in jedem Kinderzimmer zu finden. Doch das Schaffen der Gebrüder Grimm, wie sie im Volksmund heißen, geht weit über diese Sammeltätigkeit hinaus. Von ihrer Zeit in Kassel bis zu ihrem Lebensende verfolgten sie das ehrgeizige Ziel eines Deutschen Wörterbuches. Dieses Wörterbuch, in dem sämtliche Wörter mit ihrer Herkunft verzeichnet werden sollten, konnte jedoch erst 1961, 100 Jahre nach Jacob Grimms Tod, vollendet werden. Es umfasst 32 Bände und einen Quellenband. Ganze Generationen von Sprachwissenschaftlern haben am Grimmschen Wörterbuch gearbeitet oder Material beigetragen. Umso wichtiger ist es, dieses eindrucksvolle Dokument sowohl Forschern als auch interessierten Laien zugänglich zu machen. Seit 1998 verfolgt die Universität Trier mit ihrem Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften das Ziel der Digitalisierung des Deutschen Wörterbuchs von Jacob und Wilhelm Grimm; dessen Publikation auf CD-ROM und Bereitstellung im Internet [19]. Dieses Projekt wird im Rahmen des DFG-Programms Retrospektive Digitalisierung von Bibliotheksbeständen gefördert. Zu diesem Zweck wurde das Deutsche Wörterbuch manuell digitalisiert. Die Online- Version ist auf der Webseite der Universität Trier verfügbar [11]. Doch das Grimmsche Wörterbuch ist nicht das einzige Wörterbuch, mit dessen Digitalisierung sich das Kompetenzzentrum der Universität Trier befasst. Weitere Wörterbücher sind das Pfälzische Wörterbuch [13], das Rheinische Wörterbuch [14], das Elsässische Wörterbuch [10] und das Lothringische Wörterbuch [12]. Diese regionalsprachlichen Nachschlagewerke verfügen insgesamt über etwa Einträge und haben damit einen weit geringeren Umfang als das Deutsche Wörterbuch, das etwa Einträge umfasst. Bei all diesen Wörterbüchern wurde versucht, ein möglichst detailgetreues Abbild des Originals zu schaffen. Wie in der ursprünglichen Fassung sind Passagen in der Online-Version kursiv dargestellt und auch Rechtschreibung und Zeichensetzung wurden beibehalten. Zitate sind rein äußerlich schwer vom restlichen Text zu unterscheiden. Meist kann man die verschiedenen Textabschnitte, die einen Wörterbucheintrag ergeben, nur mit etwas Erfahrung und guten Deutschkenntnissen unterscheiden. 1

8 1 Einleitung Diese Tatsache und die Verwendung des Neuhochdeutschen machen es nicht eben leicht, den Digitalen Grimm zu benutzen. Hinzu kommt, dass alle Online-Wörterbücher der Universität Trier über ein außergewöhnliches und zum Teil historisches Vokabular verfügen. Dieses Werk war als Wortsammlung von Luther bis zur Gegenwart, d.h. bis etwa 1880, angelegt. So erklärt sich die erstaunliche Fülle von Komposita und Wörtern, die im modernen Deutsch nicht mehr vorkommen. Umso wichtiger ist es, die Online-Version mit modernen Suchfunktionen auszustatten. Die Webseite der Universität Trier umfasst lediglich eine Volltext-Suche auf den Titeln der einzelnen Artikel. Diese Suchmethode stößt jedoch schnell an ihre Grenzen. Etwa dann, wenn nach Begriffen gesucht wird, die lediglich im Text und nicht als Titel eines Dokuments, d.h. Wörterbucheintrags, auftreten. Hinzu kommt, dass die Wörterbucheinträge häufig von der aktuellen Rechtschreibung abweichen. Der Benutzer müsste so die neuhochdeutsche Schreibweise beherrschen, um entsprechende Artikel finden zu können. Die vorliegende Arbeit zeigt, wie die Suche nach Wörterbucheinträgen unter anderem durch die Anpassung der Rechtschreibung und des Wortschatzes verbessert werden kann. Wir schaffen die Möglichkeit, in verschiedenen Wörterbüchern mit unterschiedlichem Vokabular nach ähnlichen Artikeln zu suchen. Dadurch erhält der Benutzer die Möglichkeit, nach weiterführenden Informationen zu suchen. Dies kann Laien dabei helfen, Wörterbucheinträge zu verstehen, die fremdartige Wörter enthalten oder deren Erklärung fehlt. Artikel aus dem selben oder anderen Wörterbüchern können zum weiteren Verständnis beitragen. Durch die Verlinkung mit aktuellen Referenzen wie dem GermaNet-Thesaurus [4] oder der Online-Enzyklopädie Wikipedia [3] schaffen wir die Verbindung zwischen den historischen Nachschlagewerken und zeitgenössischen Quellen. Dadurch gewinnen die Wörterbücher der Universität Trier einen Bezug zur Aktualität und sprechen einen erweiterten Leserkreis an. Die vorliegende Arbeit beschreibt zahlreiche Methoden zur automatischen Verknüpfung historischer Wörterbücher und Enzyklopädien. Diese können sowohl auf die Wörterbücher der Universität Trier als auch auf andere historische und zeitgenössische Nachschlagewerke angewandt werden. 1.2 Inhaltsüberblick Kapitel 2 stellt Grundlagen aus Information Retrieval und Linguistik vor. Diese sind der Ausgangspunkt für die automatische Verknüpfung von Wörterbüchern. In Kapitel 3 zeigen wir, wie diese Grundlagen auf Wörterbücher angewandt werden können. Dadurch ergibt sich ein Suchmechanismus, der zur automatischen Verknüpfung der Nachschlagewerke dient. 2

9 1 Einleitung Kapitel 4 beschreibt, welche Schwierigkeiten sich durch das unterschiedliche Vokabular der Wörterbücher ergeben. Daraus leiten wir ab, wie die Suche in historischen und zeitgenössischen Nachschlagewerken mittels linguistischer Transformationen und weiterer Feature- Engineering-Verfahren verbessert werden kann. Kapitel 5 stellt die Implementierung vor. Diese umfasst sowohl ein Programm zur Wörterbuchsuche als auch ein Servlet, das es dem Benutzer ermöglicht, mit der Suche in verschiedenen Nachschlagewerken zu experimentieren. Kapitel 6 beschäftigt sich mit der Auswertung der vorgestellten Verfahren zur Wörterbuchverknüpfung. Ausgehend von einer Reihe von Testanfragen zeigen wir, welchen Einfluss Feature-Engineering, Relevance-Feedback und Result-Merging auf die Ergebnisse haben. Kapitel 7 schließt mit einer Beschreibung verwandter Arbeiten und gibt eine Zusammenfassung des vorgestellten. Zudem diskutieren wir, wie das vorliegende System in Zukunft verbessert und erweitert werden kann. 3

10 2 Grundlagen Das vorliegende Kapitel stellt Grundlagen aus Information Retrieval und Linguistik vor, die wir zur Verlinkung von Wörterbüchern einsetzen. Wir beginnen mit dem Vektorraummodell und dem Probabilistischen Modell. Beide Ansätze sind geeignet, um in einer Dokumentenkollektion zu suchen. Ausgangspunkt für die Suche kann entweder eine vom Benutzer eingegebene Query oder ein Wörterbucheintrag sein. Bei beiden Modellen kann der Benutzer die Resultate bewerten und so die weitere Suche verbessern. Dieses Verfahren wird als Relevance-Feedback bezeichnet. Daran anschließend erklären wir, wie die Suchergebnisse aus verschiedenen Dokumentkollektionen mittels Result-Merging zusammengefasst werden können. Dabei muss die Rangfolge der Resultate neu festgelegt werden. Ein weiteres Verfahren, mit dem das Vektorraummodell und das Probabilistische Modell erweitert werden können, ist Query-Expansion. Hierbei wird die Query um ähnliche Terme erweitert. Abschnitt 2.4 stellt linguistische Verfahren vor. Hier gehen wir auf die Bedeutung von Stoppwörtern, Lemmatisierung - Grundformbildung - und Dekomposition zur Verbesserung der Suchergebnisse ein. 2.1 Vektorraummodell Grundidee des Vektorraummodells [49] ist es, Dokumente als Vektoren eines Vektorraums darzustellen. Auf diese Weise kann die Ähnlichkeit von Dokumenten als Distanz der entsprechenden Dokumentvektoren betrachtet werden. Die Übertragung der Dokumente in einen Vektorraum fußt auf der Annahme, dass der Inhalt eines Dokuments maßgeblich durch seine Wörter bestimmt ist. So werden Dokumente als Vektoren dargestellt, deren Dimensionen den Termen entsprechen. Unter dem Begriff Term verstehen wir in eine Abstraktion von Wörtern Termgewichtung Wie in [32] beschrieben, existieren zahlreiche Methoden, um die Gewichtung der Terme, die wir in der Folge als Indexterme bezeichnen, vorzunehmen. Das wohl einfachste Modell ist das Boolesche Modell, in dem die Indexterme je nach Auftreten in einem Dokument 4

11 2 Grundlagen binär gewichtet werden. Diese Methode berücksichtigt jedoch nicht, dass die verschiedenen Terme eines Dokuments mehr oder weniger bedeutungstragend sind und daher mehr oder weniger stark gewichtet werden sollten. Um diesen Nachteil zu beseitigen, beziehen wir die folgenden Faktoren mit ein: term frequency tf t,d : Anzahl des Auftretens von Term t in Dokument d document frequency df t : Anzahl der Dokumente, in denen Term t auftritt inverse document frequency idf t = log( N df t ): Verhältnis aus der Gesamtzahl der Dokumente N und der document frequency Salton und Buckley [47] schlagen TfIdf, d.h. das Produkt von tf und idf, zur Termgewichtung vor. Diese Termgewichtungsfunktion wurde im Laufe der Zeit weiterentwickelt. Wir verwenden folgende TfIdf-Funktion (s. [32]): (log tf t,d + 1.0) idf t weight t,d = t d ((log tf t,d + 1.0) idf t ) 2 Durch die Verwendung des Logarithmus wird der Einfluss von Termen mit hohem tf-wert etwas vermindert. Der idf-wert berücksichtigt das Auftreten von Term t in der Gesamtheit der Dokumente. Er mindert den Einfluss von Termen, die in zahlreichen Dokumenten auftreten und so wenig Aussagekraft für die Bedeutung einzelner Dokumente besitzen Ähnlichkeitsmaß Wie in [33] beschrieben ist das Kosinusmaß ein weit verbreitetes Maß zur Bestimmung der Ähnlichkeit von Dokumenten über deren Dokumentvektoren. Dieses Maß entspricht dem Kosinus des Winkels zwischen zwei Vektoren: cos ( d 1, d 2 ) = d1 d 2 d 1 d 2 = t d 1 weight td1 weight td2 t d1 (weight td 1 ) 2 t d2 (weight t,d 2 ) 2 Abbildung 2.1 zeigt einen Vektorraum mit den Feature-Vektoren d 1 und d 2. Ihre Ähnlichkeit ergibt sich aus dem Kosinus ihres Winkels θ d1, d 2. Die Ähnlichkeit zwischen Query und Dokument wird auf dieselbe Weise berechnet wie die Ähnlichkeit zweier Dokumente. In diesem Fall sehen wir die Query als ein Dokument aus Query-Termen an Relevance-Feedback Im Vektorraummodell basiert die Ähnlichkeit zwischen Dokumenten, bzw. zwischen Query und Dokumenten, ausschließlich auf Termen und deren Verteilung. Relevance-Feedback 5

12 2 Grundlagen Abbildung 2.1: Vektorrepäsentation der Dokumente d 1 und d 2 erweitert die Dokumentdarstellung um Informationen über relevante oder irrelevante Dokumente. Diese Daten über die Relevanz von Dokumenten stammen vom Benutzer. Führt dieser eine Suche aus, so erhält er zur Query ähnliche Dokumente. Markiert der Benutzer, welche Dokumente für die Query relevant und welche irrelevant sind, so können diese Informationen in eine neue Suche einfließen. Wir verwenden eine von Rocchio vorgeschlagene Methode zum Relevance-Feedback [46]. Sie basiert im wesentlichen auf einer Neuformulierung der Query. Wie Chakrabarti [25] beschreibt, wird der Vektor der relevanten Dokumente r zum ursprünglichen Queryvektor q hinzuaddiert, während der Vektor der nicht relevanten Dokumente n subtrahiert wird. Das Ergebnis dieser Berechnung ist ein Queryvektor q, dessen Terme einerseits neu gewichtet sind und der andererseits durch Terme aus relevanten Dokumenten erweitert wurde: ( ) ( ) q 1 1 = αq + β d γ d r n d r Die Wahl der Konstanten α, β und γ beeinflusst die Neuberechnung des Vektors. Werden beispielsweise α und γ auf Null gesetzt, so verschiebt sich der Queryvektor vollständig in Richtung der relevanten Dokumente. Hingegen gilt für α = 1 und β = γ = 0, dass q = q, d.h. die ursprüngliche Query bleibt bestehen. Abbildung 2.2 verdeutlicht die Verschiebung der Query. Im abgebildeten Fall wurde d 1 als relevant und d 2 als irrelevant gekennzeichnet. Dadurch ergibt sich eine Verschiebung des Query-Vektors in Richtung d 1 und entgegen der Richtung von d 2 (α = 1, β = 1, γ = 1). d n 6

13 2 Grundlagen Abbildung 2.2: Verschiebung der Query aufgrund von Relevance-Feedback 2.2 Probabilistisches Retrieval Mit Hilfe des Probabilistischen Retrieval-Ansatzes ist es möglich, auf Grundlage der Wahrscheinlichkeitstheorie für die Query relevante Dokumente zu bestimmen. Ausgangspunkt ist die Abschätzung der Wahrscheinlichkeit dafür, dass ein Dokument d zu den relevanten Dokumenten p(d R q ) oder zu den nicht relevanten Dokumenten p(d R q ) zählt (vgl. [21]). Diese Abschätzung basiert auf der Vorstellung, dass zu jeder Query eine Menge von relevanten und irrelevanten Dokumenten existiert. Verfügt man zu einer gegebenen Query q über solche relevanten Dokumente R q und irrelevanten Dokumente R q, so kann jedes weitere Dokument auf der Grundlage dieser klassifizierten Dokumente mit einer gewissen Wahrscheinlichkeit als relevant oder irrelevant eingestuft werden. Dazu werden die Terme t i eines Dokumentes d gewichtet. Wie in [32] beschrieben, ergeben die einzelnen Termgewichtungen aufgrund ihrer Unabhängigkeit in folgender Weise die Relevanz des Dokuments: sim q,d = ( ) p(ti R q ) log p(t t i d i R q ) Termgewichtung Das Probabilistische Modell erlaubt zahlreiche Ansätze zur Termgewichtung. Termgewichtung bedeutet in diesem Fall Abschätzung der Wahrscheinlichkeit, dass ein Term in zur Query relevanten Dokumenten auftritt, d.h. den Informationsbedarf des Benutzers deckt. Robertson und Sparck Jones ([36]) schlagen folgende Einflussfaktoren zur Termgewichtung vor. N: Gesamtzahl der Dokumente 7

14 2 Grundlagen R q : Anzahl der relevanten Dokumente für eine gegebene Query q df t : Anzahl der Dokumente, die Term t enthalten r t : Anzahl der relevanten Dokumente, die Term t enthalten Daraus lassen sich verschiedene Termgewichtungen konstruieren, wie etwa die Robertson- Sparck-Jones Gewichtung für Term t: RSJ t = log (r t + 0.5)/(R q r t + 0.5) (df t r t + 0.5)/(N df t R q + r t + 0.5) In diese Formel fließen sowohl Informationen über als relevant eingestufte Dokumente als auch statistische Daten des Terms t ein (vgl. [30]). Diese Gewichtsfunktion wurde im Rahmen verschiedener TREC-Workshops [8] erweitert. Wir verwenden die als BM25 bezeichnete Funktion, die im Rahmen von TREC-4 [45] eingesetzt wurde: RSJ t (k 1 + 1)tf t,d K + tf t,d (k 3 + 1)qtf q k 3 + qtf q + avdl dl d avdl + dl d Diese Gewichtungsfunktion wird auf alle Terme des Dokuments d angewandt, für die gilt t Query q. Folgende Faktoren beeinflussen die Berechnung der Termgewichtung: k 1, k 3, b: Parameter, die je nach Größe der Dokument-Kollektion und der Dokumente angepasst werden avdl: durchschnittliche Dokumentlänge dl d : Dokumentlänge von Dokument d K = k 1 ((1 b) + b (dl d /avdl)) tf t,d : Anzahl der Auftreten von Term t im untersuchten Dokument d qtf t,d : Anzahl der Auftreten von Term t in Query q Nicht immer existieren bereits als relevant gekennzeichnete Dokumente. In diesem Fall werden die Parameter der oben skizzierten Retrieval-Modelle durch Heuristiken und Korpusstatistiken geschätzt. 2.3 Erweiterte Retrieval-Methoden Result-Merging Die in den vorangehenden Abschnitten dargestellten Methoden zur Ähnlichkeitsberechnung von Query und Dokumenten sind geeignet, um in einer einzigen Dokumentkollektion 8

15 2 Grundlagen zu suchen. Häufig stehen jedoch verschiedene Datenquellen wie etwa verschiedene Wörterbücher zur Verfügung. In Anlehnung an [24] sprechen wir in diesem Fall von Distributed Information Retrieval. Durch die parallele Ausführung der Suche kann der Suchvorgang beschleunigt werden. Andererseits müssen die Suchergebnisse anschließend zu einer gemeinsamen Rangliste zusammengefasst werden. Die Ähnlichkeitswerte, die bei der Suche in verschiedenen Feature- Vektorräumen berechnet wurden, sind jedoch nicht vergleichbar (vgl. [40]). Aus diesem Grund können die Ergebnisse nicht ohne weiteres vereinigt werden. In der Literatur existieren verschiedene Mechanismen zur Vereinigung von Ergebnissen, die unter dem Stichwort Result-Merging zusammengefasst werden können. Zum einen gibt es Methoden, die die Rangposition der Resultate aufgrund der Dokumente mit dem jeweils höchsten Ähnlichkeitswert neu berechnen. Zum anderen besteht die Möglichkeit, alle Dokumente aufgrund ihrer Ähnlichkeit zur Query neu zu ordnen (beide Ansätze vgl. [40]). Da unsere Suche auf Wörterbüchern mit unterschiedlichem Vokabular ausgeführt wird, wenden wir dieses Verfahren zum Result-Merging an, worauf wir in Abschnitt genauer eingehen Query-Expansion Ausgangspunkt eines jeden Suchvorgangs ist die Query. Sie spezifiziert den Informationsbedarf des Benutzers. Doch nicht immer genügen die in der Query enthaltenen Terme, um die Suche auszuführen, da häufig der Kontext fehlt. Um dem entgegenzuwirken, ist es möglich, die Query um Terme zu erweitern, die diese Kontextinformation enthalten. Diesen Vorgang bezeichnen wir in Anlehnung an [42] als Query-Expansion. Hinsichtlich der Auswahl der Terme zur Query-Expansion sind zahlreiche Methoden denkbar. Baeza-Yates und Ribeiro-Neto [21] beschreiben unter anderem die Verwendung eines Thesaurus mit statistischen Informationen. Wir nutzen ein Verfahren, bei dem die Query um Terme aus dem Wortschatz GermaNet erweitert wird. Abschnitt beschreibt unsere Vorgehensweise im Detail. 2.4 Linguistische Verfahren Bis jetzt haben wir zwei verschiedene Methoden zum Auffinden ähnlicher Dokumente gesehen. Sowohl das Vektorraummodel als auch das Probabilistische Modell basieren auf der Termrepräsentation der Dokumente. In der Folge stellen wir einige Verfahren vor, die dazu dienen, diese Termrepräsentation zu optimieren und dadurch die Suchperformance zu steigern. 9

16 2 Grundlagen Stoppwörter Nicht alle Wörter eines Dokuments sind gleich bedeutungstragend. Zum Beispiel treten Artikel und Präpositionen sehr häufig auf, haben aber meist keinerlei Bedeutung für die Suche nach Dokumenten (vgl. [25]). Diese Wörter bezeichnen wir als Stoppwörter. Typische Stoppwörter für das Deutsche sind der, die, das, mit oder auch. Häufig ist es sinnvoll, Stoppwörter bei der Suche außer acht zu lassen. Dies verkleinert den Wortindex und beschleunigt so den Suchprozess. Das Entfernen der Stoppwörter geschieht durch Abgleichen mit einer Stoppwortliste Lemmatisierung Ein weiteres Verfahren zur Verkleinerung des Wortindex ist Lemmatisierung. Hierbei werden die flektierten Wortformen, die in Dokumenten auftreten, in ihre Grundform umgewandelt. Dies ist insofern sinnvoll, als Terme mit gleicher Grundform die gleiche Bedeutung haben. Die meisten Lemmatisierungsalgorithmen für das Englische sind regelbasiert. Wie Perera und Witte [43] beschreiben, reichen diese Verfahren für die deutsche Sprache jedoch nicht aus. Dies liegt daran, dass das Deutsche in hohem Maße deklinier- und konjugierbar ist. Gerade Verben können über mehr als 100 verschiedene Formen verfügen. Dazu zählen auch Verbformen, deren Stammform durch Abschneiden des Suffix nicht zu ermitteln ist, wie z.b. buk (backen). Aus diesem Grund kann sich ein Lemmatisierungsalgorithmus für das Deutsche nicht auf einfache Regeln beschränken, sondern bedarf zusätzlich eines Wortlexikons (vgl. [30]). Die folgende Tabelle zeigt einige Stammformen, die mit TreeTagger [9] erzeugt wurden. Bei TreeTagger handelt es sich um ein an der Universität Stuttgart entwickeltes Programm zur Lemmatisierung und Analyse von Wortarten. TreeTagger normalisiert bekannte Wortformen durch Abgleich mit einem Lexikon. Unbekannte Terme werden mit Hilfe eines Suffix-Lexikon bearbeitet, das als Baum aufgebaut ist [50]. Wort Stamm Wort Stamm aufeinander aufeinander kategorie kategorie aufeinanderfolgend aufeinanderfolgend kategorisch kategorisch aufeinanderfolgen aufeinanderfolgen kategorische kategorisch aufeinanderfolgt aufeinanderfolgen katze katze aufeinanderfolgten aufeinanderfolgen kätzchen kätzchen Wie bei den Stammformen zu Katze und Kätzchen zu sehen, ist es schwierig, mit Hilfe automatischer Verfahren die perfekte Stammform zu ermitteln. Frakes und Baeza-Yates 10

17 2 Grundlagen [31] diskutieren, in welchen Fällen und in welchem Maße Verfahren zur Wortnormalisierung die Retrieval Performance steigern können. Untersuchungen von Braschler und Ripplinger zeigten, dass Stammformbildung für das Deutsche sinnvoll sein kann [23]. Ein wichtiger Punkt dabei ist, dass die Lemmatisierung es erlaubt, auch Dokumente aufzufinden, deren Terme lediglich auf Grundform-Ebene übereinstimmen Dekomposition Eine weitere Eigenart des Deutschen ist der Hang zur Wortkomposition. Wie Gunhild Simon beschreibt, lassen sich Komposita nahezu beliebig schaffen [52]. Doch dieser Mechanismus, die Adhoc-Erweiterbarkeit der Sprache, erschwert die Suche nach Dokumenten. Wortdekomposition ist darum wichtig für das Deutsche. Braschler und Ripplinger unterscheiden zwischen konservativer und aggressiver Dekomposition. Bei der konservativen Annäherungsweise werden Terme ausschließlich in Wörter gleicher Wortart zerlegt. Bei der aggressiven Methode werden Komposita unabhängig von ihrer Wortart zerlegt. Folgende Beispiele wurden mit dem Connexor Machine Phrase Tagger [2] erzeugt, der die aggressive Annäherungsweise verfolgt. Beispiele ursprünglicher Term Fahrradfahren Meerjungfrau Urwaldliane Sangeserguss Teetasse Unstatt Dekomposition fahr, rad, fahr meer, jung, frau urwaldlian sangeserguss tee, tasse unstatten Wie anhand dieser Beispiele zu erkennen, zerlegt der Machine Phrase Tagger häufig auftretende Wörter wie Teetasse korrekt. Schwierigkeiten bereiten vor allem Wörter, die aus mehr als zwei Teilwörtern zusammengesetzt sind (vgl. Fahrradfahren ) und Wörter, deren Wortart unklar ist (vgl. Unstatt ). Hinzu kommt, dass die Zerlegung von Wörtern wie Meerjungfrau in drei Komponenten strittig ist. 11

18 3 Automatische Verknüpfung von Wörterbüchern Das vorliegende Kapitel stellt die Automatische Verknüpfung von Wörterbüchern vor. Da unser Hauptaugenmerk auf dem Grimmschen Wörterbuch liegt, geben wir zu Beginn eine Zusammenfassung des Prozesses zur Entstehung und Digitalisierung des Grimmschen Wörterbuches. Abschnitt 3.2 zeigt, auf welche Weise die Indexierung der Daten, d.h. Bereitstellung der Daten zur Suche, erfolgte. In dem darauf folgenden Abschnitt 3.3 beschreiben wir die Verknüpfung der Wörterbücher aus der Sicht des Benutzers. Abschnitt 3.3 zeigt, wie die Grundlagen aus Information Retrieval und Linguistik des vorangehenden Kapitels auf die Wörterbücher der Universität Trier übertragen werden. Mit Hilfe des Vektorraummodells und des Probabilistischen Modells lässt sich eine Ähnlichkeitssuche auf Wörterbüchern realisieren. Auch erweiterte Suchmethoden wie Result-Merging, Relevance Feedback, Query-Expansion und Feature-Selection finden Beachtung. 3.1 Digitalisierung des Grimmschen Wörterbuchs Grundvoraussetzung für die Verlinkung von Quellen ist, dass diese in elektronischer Form vorliegen. Beim Grimmschen Wörterbuch, dem umfangreichsten Nachschlagewerk der Universität Trier hat sich gezeigt, wie weit der Weg vom handschriftlichen Manuskript bis zur digitalisierten Ausgabe sein kann. Abbildung 3.1 zeigt einen Teil des Wörterbucheintrags gezöttel in der handschriftlichen Version. Anfang 1854 wurden erstmals Teile des Grimmschen Wörterbuchs veröffentlicht. Die Artikel reichten damals von A bis Biermolke. Bis zu ihrem Tod arbeiteten die Gebrüder Grimm unermüdlich am Deutschen Wörterbuch. Abbildung 3.2 zeigt einen Ausschnitt aus der gedruckten Ausgabe. Abgebildet ist der Wörterbucheintrag Froteufel, einer der letzten Einträge, die Jacob Grimm selbst verfasste. In der folgenden Jahren führten zahlreiche Verleger und Lexikographen die Arbeit am Deutschen Wörterbuch fort. Doch erst 1961 konnte das Werk, das inzwischen zu einem der wenigen gesamtdeutschen Projekte der Geisteswissenschaften geworden war, abgeschlossen werden. Es umfasst 33 Bände und Seiten. Allerdings ist die Neubearbeitung des Wörterbuchs, die ebenfalls in den Sechziger Jahren begonnen wurde und lediglich die Buchstaben A-F betrifft, bis heute nicht abgeschlossen. 12

19 3 Automatische Verknüpfung von Wörterbüchern Abbildung 3.1: Ausschnitt aus dem Manuskript - Wörterbucheintrag gezöttel Abbildung 3.2: Ausschnitt aus dem Deutschen Wörterbuch - Einträge Froteufel und Frucht Ab 1998 digitalisierte das Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften an der Universität Trier das Grimmsche Wörterbuch. Aufgrund der Schriftgröße war es nicht möglich, das 300 Mio. Zeichen starke Nachschlagewerk zu scannen. Darum wurde der gesamte Text in China manuell kopiert. Ergebnis der Digitalisierung ist ein Wörterbuch im SGML-Format, wie in Abbildung 3.3 am Beispiel des Eintrags Froteufel zu sehen. Mit Hilfe dieser elektronischen Ausgabe war es möglich, das Wörterbuch im Internet zu veröffentlichen. Abbildung 3.4 zeigt einen Screenshot der Trierer Webseite [20]. 3.2 Indexierung der Daten Der vorliegende Abschnitt beschreibt die Indexierung der Daten. Dies bedeutet, dass die Dokumente bzw. Wörterbucheinträge nicht als Volltext, sondern mit Hilfe einer Indexstruktur gespeichert werden. Tazelaar [55] vergleicht diesen Index mit dem Inhaltsverzeichnis eines Buches, das es erlaubt, Dokumente anhand von Schlüsselwörtern zu finden. Diese Vorstellung ist ebenso Grundlage der Indexierung von Dokumenten. Zur Übertragung ins Vektorraummodell oder ins Probabilistische Modell benötigen wir für jedes Dokument die entsprechenden Terme mit der Anzahl der Vorkommen (vgl. 13

20 3 Automatische Verknüpfung von Wörterbüchern <entry id="gf09849" n=" "> <form> <form type="lemma">froteufel </form>, </form> <gramgrp> <gram type="m">m.</gram> </gramgrp> <sense> &kursiv;daemon:&recte; von den runden verbranten kreisen im grase haltet man in unsren landen gmeinlich dafür, das seien der hexen und hexenmeister oder auch kleiner froteufeln und bergmä nnlein danzplätze. <title type="sigle"> <bibl> <author rend="prose">scheuchzer</author> <ref>1, 462 (2, 207)</ref> </bibl> </title> </sense> </entry> Abbildung 3.3: Wörterbucheintrag Froteufel im sgml-format Abbildung 3.4: Wörterbucheintrag Froteufel auf der Trierer Webseite termf requency 2.1.1, 2.2.1). Diese Daten werden in Form eines Inverted-Index (vgl. [56]) gespeichert. Dazu werden jedem Term die entsprechenden Dokumente sowie die Zahl seiner Auftreten pro Dokument zugeordnet. Linguistische Verfahren wie das Entfernen von Stoppwörtern, Lemmatisierung und Dekomposition verkleinern den Index und steigern so die Suchperformance (vgl. 2.4). Sollen diese Methoden eingesetzt werden, so bauen wir den Inverted-Index nicht aus den ursprünglichen Termen auf. Stattdessen verwenden wir jene Terme, die durch Lemmatisierung und Dekomposition erzeugt werden und lassen Stoppwörter außer Acht. Abbildung 3.5 zeigt die Erstellung eines Index für einen Korpus aus zwei Dokumenten. Die ersten beiden Spalten entsprechen einem Inverted-Index ohne Beachtung von Stoppwörtern sowie ohne Lemmatisierung und Dekomposition. Die 3. und 4. Spalte zeigt den entsprechenden Index, wobei das Stoppwort m. entfernt wurde (grau markierte Zeile). Gleichzeitig wurden die Terme lemmatisiert und dekomponiert: frauenkäfer frau, käfer (grün markierte Zeilen). Die Tupel geben an, in welchem Dokument die Terme wie oft vorkommen. Zusätzlich zum Inverted-Index speichern wir statistische Informationen bezüglich der Terme wie document frequency, inverse document frequency [51]. Abbildung 3.6 zeigt eine Tabelle aus diesen Informationen mit und ohne Lemmatisierung, Dekomposition und Stoppwort-Entfernung. Die oben genannten Informationen sowie der Inverted-Index werden in einer Datenbank gespeichert. Auf das Datenbankschema werden wir in Abschnitt genauer eingehen. 14

21 3 Automatische Verknüpfung von Wörterbüchern Term t Inverted-Index Lemma l Inverted-Index 1) MARIENKÄFER, coccinella (1, 1), (2, 1) coccinella (1, 1), (2, 1) m. coccinella frauenkaefer (2, 1) frau (2, 1) 2) FRAUENKÄFER, kaefer (2, 1) m. coccinella. m (1, 1), (2, 1) marienkaefer (1, 1) marienkaefer (1, 1) Abbildung 3.5: Erstellung eines Inverted-Index für einen Korpus aus zwei Dokumenten Term t df t idf t coccinella 2 log( 2 2 ) frauenkaefer 1 log( 2 2 ) Lemma l df l idf l coccinella 2 log( 2 2 ) frau 1 log( 2 1 ) kaefer 1 log( 2 1 ) m 2 log( 2 2 ) marienkaefer 1 log( 2 1 ) marienkaefer 1 log( 2 1 ) Abbildung 3.6: Speicherung statistischer Informationen Um die Daten, die ursprünglich im SGML-Format vorlagen, indexieren zu können, wandelten wir diese ins XML-Format um. Die verwendete Wikipedia-Version lag ebenfalls im XML-Format vor [16]. Die XML-Dokumente konnten so mit einem gängigen Parser bearbeitet und indexiert werden. 3.3 Ähnlichkeitssuche in Wörterbüchern Ziel der vorliegenden Diplomarbeit ist es, Strategien zur automatischen Verknüpfung von Wörterbüchern zu entwickeln. Diese Methoden sollen auf die Wörterbücher der Universität Trier sowie Wikipedia und GermaNet angewandt werden. Aus Sicht des Benutzers ergeben sich dadurch verschiedene Anwendungsmöglichkeiten 15

22 3 Automatische Verknüpfung von Wörterbüchern 1. Stichwortsuche nach Wörterbuchartikeln 2. Suche nach ähnlichen Wörterbucheinträgen 3. Verlinkung einzelner Terme mit ähnlichen Dokumenten Wir fassen die Verlinkung von Wörterbüchern als Suchproblem auf. Dadurch ist es möglich, die automatische Verknüpfung von Nachschlagewerken als Ähnlichkeitssuche zu realisieren, wie wir sie in Kapitel 2 vorgestellt haben. Im folgenden Abschnitt zeigen wir, wie Wörterbücher und Enzyklopädien ins Vektorraummodell oder ins Probabistischen Modell übertragen werden können. Dadurch kann ausgehend von einer Query oder einem Dokument nach ähnlichen Dokumenten gesucht werden. Dokument Ein Dokument ist ein Wörterbucheintrag. Das folgende Beispiel zeigt einen typischen Eintrag aus dem Grimmschen Wörterbuch. Er besteht aus dem Titel Papierbesudler, einer Definition (grün unterlegt) und einem Zitat (blau unterlegt). Da die Literaturbelege häufig Terme enthalten, die wenig mit dem Inhalt des Wörterbucheintrags zusammenhängen, lassen wir diese bei der Indexierung außen vor, soweit sie anhand der Struktur des Eintrags zu erkennen sind. 16

23 3 Automatische Verknüpfung von Wörterbüchern Beispiel PAPIERBESUDLER m. schlechter vielschreiber, büchermacher: unter allen nüchtern und schalen papierbesudlern braucht keiner mehr gleichnisse, die von nichts ausgehen und auf nichts hinaus laufen als er (pastor Göze). LESSING 10, 211. vergl. papiersudler, -schänder, -verderber. Nicht jedes Dokument ist wie der obige Wörterbucheintrag aufgebaut. Bei vielen Einträgen fehlt z.b. die Definition. Andere Einträge verfügen beispielsweise über mehrere unterschiedliche Definitionen oder Zitate. Die Wörterbucheinträge unterscheiden sich stark in ihrer Länge. Etwa Artikel bestehen aus nur einem Wort, d.h. besitzen keine weitere Erklärung. Der längste Eintrag des Grimmschen Wörterbuchs trägt den Titel Gewalt und verfügt über mehr als unterschiedliche 3000 Terme. Wörterbuch Wir betrachten folgende Wörterbücher und Enzyklopädien: Grimmsches Wörterbuch Elsässisches Wörterbuch Lothringisches Wörterbuch Pfälzisches Wörterbuch Rheinisches Wörterbuch Wikipedia GermaNet Formal gesehen ist ein Wörterbuch eine Dokument-Kollektion, d.h. eine Menge von Dokumenten. Wir definieren: dict = {d 1,..., d m } wobei 1 j m : d j Dokument. Wie in Kapitel 2 beschrieben, führen wir die Ähnlichkeitssuche nach Dokumenten aus, indem wir die Dokumente bzw. Wörterbucheinträge als Vektoren darstellen. Mit der Gewichtungsfunktion aus Abschnitt ergibt sich folgender Featurevektor für Dokument d: d = (weightt1,d,..., weight tn,d) 17

24 3 Automatische Verknüpfung von Wörterbüchern 1 i n : t i d (bzgl. der Notation vgl. auch [41]). Die Ähnlichkeit zu einer Query entspricht dem Kosinusmaß zwischen Queryvektor und Dokumentvektor. Die folgenden Faktoren fließen in die Termgewichtung mit ein und werden auf Grundlage des entsprechenden Wörterbuchs berechnet: term frequency tf t, d - Anzahl der Auftreten von Term t in Dokument d document frequency df t - Anzahl der Vorkommen von Term t im Wörterbuch inverse document frequencyidf t = log( N df t ), setzt df t und N, die Gesamtzahl der Dokumente des Wörterbuchs, in Verhältnis zueinander Wichtig ist, dass dies auch für die Dokumentsuche gilt, bei der ein ähnliches Dokument aus einem anderen Wörterbuch gesucht wird. Die Gewichtung der Query-Terme ergibt sich aus der Termverteilung jenes Wörterbuchs, in dem die Suche ausgeführt werden soll. Deren Gewichtung ergibt sich durch die Termverteilung des Wörterbuchs, über dem die Suche ausgeführt werden soll. In diesem Fall ergibt sich formal: Sei d ein Dokument aus Wörterbuch dict 1. Bei der Suche nach ähnlichen Dokumenten im Wörterbuch dict 2 berechnen wir die term frequency und document frequency für alle Terme t d auf folgende Weise: tf t : Anzahl der Auftreten von Term t in Dokument d df t : Anzahl der Auftreten von Term t in dict 2 Weiterhin gilt N = dict 2. Beispiel Wir betrachten den Wörterbucheintrag aus Grimm mit dem Titel Marienkäfer : MARIENKÄFER, m. coccinella. Wir zeigen exemplarisch die Suche nach ähnlichen Dokumenten in Wikipedia und GermaNet. Dazu betrachten wir das Dokument als Query und zeigen die Gewichtung der Query-Terme auf Basis der unterschiedlichen Wörterbücher. Bei der Suche in Wikipedia bildet Wikipedia die Grundlage für dem Vektorraum, in dem die Query q = d marienkaefer als Vektor dargestellt wird. Bei der Suche in GermaNet werden die Termgewichtungen hingegen auf Basis von GermaNet bestimmt. Dadurch ergeben sich unterschiedliche Werte für term frequency, document frequency und inverse document frequency. 18

25 3 Automatische Verknüpfung von Wörterbüchern Wikipedia GermaNet Term t tf t df t idf t df t idf t t = coccinella 1 0 0,0 0 0,0 t = marienkaef er 1 2 4, ,727 Wikipedia GermaNet weight marienkaefer,q weight coccinella,q Die folgende Tabelle zeigt, welche term frequency, document frequency und inverse document frequency sich abhängig von Wikipedia oder GermaNet für die Query ergeben. wobei N W ikipedia = und N GermaNet = Der Term coccinella tritt weder in Wikipedia noch in GermaNet auf, was df coccinella = 0 entspricht. Daraus ergeben sich folgende Termgewichtungen: Dem entsprechen folgende Queryvektoren: ( ) ( ) q coccinella 0, 0 W ikipedia = = marienkaef er 0, 2081 ( ) ( ) coccinella 0, 0 q GermaNet = = marienkaef er 0, 2116 Hier wird noch einmal deutlich, dass sich die Query-Vektoren je nach Wörterbuch unterscheiden, was an der unterschiedlichen Termverteilung liegt. Die Dokumente aus Wikipedia und GermaNet, über denen die Suche ausgeführt werden soll, werden ebenfalls in Vektoren aus gewichteten Termen umgewandelt. Dadurch kann die Ähnlichkeit zwischen Query und Dokumenten mit Hilfe des Kosinusmaßes berechnet werden (vgl ). Aus Gründen der Performance berücksichtigen wir nur jene Dokumente, die in mindestens einem Term mit der Query übereinstimmen. Bei Wikipedia sind dies die Dokumente Marienkäfer und Augenmarienkäfer, die jeweils den Term Marienkäfer beinhalten. Im Fall von GermaNet stimmt lediglich das Dokument Marienkäfer mit der Query überein. Die unten stehenden Tabellen listen die Termgewichtung der entsprechenden Dokumente für Wikipedia und GermaNet auf. Hierbei wurde die Zeile mit dem Term Marienkäfer, der mit der Query übereinstimmt, hervorgehoben. 19

26 3 Automatische Verknüpfung von Wörterbüchern Wikipedia d marienkaefer d augenmarienkaefer term t idf t tf t weight tf t weight anatis 5, ,028 art 2, ,012 augenmarienkaefer 5, ,036 bilden 2, ,014 coccinellidae 4, ,03 1 0,026 coleoptera 4, ,025 familie 1,99 1 0, ,011 fliegender 5, ,032 gut 2,37 1 0,015 halbkugeliger 5, ,032 kaefer 3, , ,02 marienkaefer 4, ,04 1 0,026 ocellata 4, ,026 verbreitet 2, ,018 weltweit 2, ,017 GermaNet d marienkaefer Term t weight t,d marienkaefer 0,2116 Ebenso wie die Ähnlichkeitssuche mit Hilfe des Vektorraummodells ausgeführt werden kann, ist auch das Probabilistische Modell geeignet, relevante Dokumente zu berechnen. Die Rangfolge der Ergebnisse ergibt sich, wie in Abschnitt gezeigt, aus ihrer Wahrscheinlichkeit, für die Query relevant zu sein Result-Merging Bei der Suche in historischen Wörterbüchern spielt die Verschiedenheit des Vokabulars eine wichtige Rolle. Diese muss angepasst werden, um die Suche in verschiedenen Quellen zu ermöglichen. Wir gehen davon aus, dass Dokument-Kollektionen, die hinsichtlich der Rechtschreibung und der Terme mit der Query übereinstimmen, besonders relevante Suchergebnisse liefern. Aus diesem Grund verwenden wir zum Result-Merging die in Abschnitt beschriebene Methode, die die Rangfolge der Ergebnisse durch die Ähnlichkeit zur Query berechnet [40]. Die Ähnlichkeit zwischen Query q und Dokument d basiert auf der Ähnlichkeit zum 20

27 3 Automatische Verknüpfung von Wörterbüchern Dokumenttitel ti und zum restlichen Dokument r: wobei c 2 Gewichtungsfaktor sim q,d = c 2 sim q,ti + (1 c 2 ) sim q,r Als Ähnlichkeitsfunktionen eignen sich das Kosinusmaß und BM25 gleichermaßen. Kommt das Kosinusmaß zum Einsatz, so schlagen Lu und Weng [40] den Einsatz des term frequency Wertes tf als Weighting Funktion vor (vgl ). Im Falle von BM25 setzen wir die in Abschnitt beschriebene Gewichtungsfunktion ein. Dazu werden globale Termstatistiken wie etwa die document frequency benötigt. Diese berechnen wir über der Gesamtheit der verwendeten Wörterbücher. 3.4 Erweiterte Methoden Im vorangehenden Abschnitt haben wir gezeigt, wie die Ähnlichkeitssuche in verschiedenen Wörterbüchern realisiert werden kann. Der folgende Abschnitt zeigt, welche Methoden wir einsetzen, um die Suche zu verbessern und zu beschleunigen. Wir schlagen Query-Expansion und Relevance-Feedback zur Erweiterung der Suche vor. Im Fall der Query-Expansion wird die Query um Terme mit Kontextinformation erweitert. Relevance-Feedback dient dazu, Informationen über die Relevanz von Suchergebnissen bei zukünftigen Suchanfragen zu berücksichtigen. Wir verwenden TfIdf-Feature-Selection, um die Suche zu beschleunigen Query-Expansion Nicht immer genügen die in der Query enthaltenen Terme, um relevante Suchergebnisse zu liefern. Aus diesem Grund nutzen wir die lexikalische Datenbasis GermaNet [4] zur Query- Expansion. GermaNet ist ein an der Universität Tübingen manuell erstellter Wortschatz für das Deutsche. Dieser umfasst sowohl Wörter als auch Wortrelationen. Dabei sind die Wörter in sog. Synsets, d.h. Synonymgruppen zusammengefasst. Diese Synsets verfügen über Wortrelationen wie Hyperonymy - Oberbegriffe [34], Meronymy oder Entailment (Teil-Ganzes-Beziehung) [17]. Abbildung 3.7 zeigt einen Teil der verschiedenen GermaNet- Relationen. Wir nutzen lediglich Hypernyme zur Erweiterung der Query, da die Bedeutungen der übrigen GermaNet-Relationen häufig stark von der Bedeutung des Ausgangsterms abweicht. Dadurch liefert die Suche bei Verwendung von Synonymen häufig weniger relevante Ergebnisse. 21

28 3 Automatische Verknüpfung von Wörterbüchern Menschheit Mensch Berufstätiger Mitmensch Seefahrer Astronaut Nachbar Nächster Kapitän Steuermann benachbart Nachbardorf Schiffsführer Mittelfeld Abbildung 3.7: Ausschnitt der GermaNet-Relationen Das benutzte Verfahren ist mit der von Vorhees [54] untersuchten Methode vergleichbar. Durch die Hypernyme wird die Query um Terme ergänzt, die die ursprünglichen Query- Terme in einen gewissen Kontext setzen. Query: steuermann, schiffsführer erweiterte Query: steuermann, kapitän, schiffsführer, seefahrer Abbildung 3.8: Query-Expansion Relevance-Feedback Schließlich ermöglicht Relevance-Feedback es dem Benutzer, Suchresultate zu bewerten und die dadurch gewonnenen Informationen bei erneuten Suchvorgängen zu verwenden Feature-Selection Wir setzen eine Feature-Selection-Methode ein, um die Query auf möglichst bedeutungstragende Terme zu beschränken. Dadurch wird die Suche beschleunigt, ohne dass allzu wichtige Informationen verloren gehen. Auch diese Methode findet in jenem Schritt Anwendung, in dem die Query für die Suche vorbereitet wird. Wie in [39] beschrieben, existieren zahlreiche Methoden zur Feature-Selection. Wir nutzen 22

29 3 Automatische Verknüpfung von Wörterbüchern TfIdf zur Auswahl der Terme. Ein Threshold gibt an, wie viele Terme zur Suche verwendet werden sollen. Abbildung 3.9 fasst die einzelnen Schritte zur Wörterbuchsuche noch einmal zusammen. Preprocessing bezeichnet die Vorbearbeitung der Query. Diese umfasst Entfernen der Stoppwörter, Dekomposition, Lemmatisierung, Query-Expansion und Feature-Selection. Im folgenden Kapitel werden wir jedoch darauf eingehen, wie der Preprocessing-Vorgang erweitert werden kann, um die Query an die einzelnen Zielwörterbücher anzupassen und so die Suchergebnisse zu verbessern. Abbildung 3.9: Übersicht über die einzelnen Schritte zur Suche in Wörterbüchern 23

30 4 Feature-Engineering Das vorliegende Kapitel zeigt auf, wie die Ähnlichkeitssuche mittels Feature Engineering verbessert werden kann. Dabei gehen wir von Schwierigkeiten bei der Verlinkung von Wörterbüchern aus, die wir in Abschnitt 4.1 vorstellen. Diese Schwierigkeiten werden vorrangig durch unterschiedliches Vokabular verursacht. Feature-Engineering kann eingesetzt werden, um das Vokabular schrittweise anzupassen. Ein wichtiger Punkt ist beispielsweise die Anpassung der Rechtschreibung, die wir in Abschnitt vorstellen. Diese erfolgt mittels Ersetzungsregeln für Teilwörter. Hinzu kommt, dass bei historischen Korpora wie dem Grimmschen Wörterbuch die Präfigierung von der aktuellen Rechtschreibung abweicht (vgl. Abschnitt 4.1.2). In Abschnitt beschreiben wir, wie lateinische Terme entfernt werden können, wenn diese der Ähnlichkeitssuche hinderlich sind. In Abschnitt zeigen wir, wie diese Feature-Engineering Methoden mit Stopwort- Elimination, Lemmatisierung, Dekomposition, Query-Expansion und Feature-Selection kombiniert werden können. 4.1 Schwierigkeiten bei der Verlinkung von Wörterbüchern Im vorangehenden Kapitel haben wir gezeigt, dass die automatische Verknüpfung von Wörterbüchern mittels einer Ähnlichkeitssuche erfolgen kann. Voraussetzung dafür ist, dass das Vokabular der Query mit dem des untersuchten Wörterbuchs übereinstimmt. Nur dann finden sich Wörterbucheinträge, die hinsichtlich ihrer Terme der Query ähnlich sind. Dies ist bei historischen Dokumenten jedoch nicht vorauszusetzen. So tritt lediglich ein Zehntel der Terme aus dem Grimmschen Wörterbuch in Wikipedia auf. Daraus resultiert, dass eine entsprechende Ähnlichkeitssuche nur im Glücksfall Ergebnisse liefert. Aus diesem Grund ist es für die Verlinkung historischer und zeitgenössischer Quellen unerlässlich, das Vokabular soweit wie möglich zu vereinheitlichen. Aus Gründen der Effizienz entscheiden wir uns dafür, die Query jeweils an das Zielwörterbuch anzupassen. Dadurch ist es zum einen möglich, eine vom Benutzer eingegebene Query an ein historisches Wörterbuch mit anderem Vokabular und unterschiedlicher Rechtschreibung anzupassen. Zum 24

31 4 Feature-Engineering anderen gelingt es uns dadurch, Dokumente aus historischen Quellen so zu verändern, dass die Suche in einem aktuellen oder anderen historischen Nachschlagewerk Resultate liefert. Feature-Engineering wird ebenso in der Softwaretechnik (vgl. [53]) wie im Bereich des Information Retrieval angewandt. Insbesondere bei der Klassifikation von Dokumenten dient Feature-Engineering dazu, die Dokumentenrepräsentation mit Hilfe zusätzlicher Untersuchungsmethoden wie Natural-Language-Processing zu modifizieren. Im folgenden Abschnitt stellen wir verschiedene Methoden zum Feature-Engineering vor. Dazu zählen auch das Entfernen der Stoppwörter, Lemmatisierung und Dekomposition, die wir in Kapitel 2.4 bereits vorgestellt haben und deren Anwendung wir in Kapitel 3.3 erläutert haben Rechtschreibevariationen Die Gebrüder Grimm hatten das Ansinnen, im Deutschen Wörterbuch die Sprache von Luther bis zur Sprache ihrer Zeit zu verzeichnen. Dückert schreibt zum verwendeten Vokabular [27]: Der Stichwortansatz zeigt, dass Jacob Grimm und sein Bruder Wilhelm sich nicht unbedingt der geltenden schriftsprachlichen Norm verpflichtet fühlten, sondern z.t. historische Formen ansetzten. (... ) So kommt es z.b., dass viele mit t anlautende Wörter schon unter d einmal behandelt sind, weil sie in den älteren Quellen manchmal auch mit d geschrieben vorkommen, sagt H. Paul (1895)78. Jacob Grimm hat teilweise ein und dasselbe Wort unter verschiedenen Formen, in denen es im Laufe seiner Geschichte gebräuchlich geworden war, angesetzt, Erbse beispielsweise sechsmal, nämlich unter Arbeisz; Erbeisz; Erbeis; Erbes; Erbis, Erbisz; Erbse; Erweisz. Daraus geht hervor, dass eine simple Ersetzung von Teilstrings wie sz, th oder y nicht zur Angleichung der Rechtschreibung genügt. Stattdessen erzeugen wir Rechtschreibevariationen für historische Terme. Aus diesen Variationen können wir jene Terme auswählen, die mit dem Zielwortschatz übereinstimmen. Dadurch muss das Vokabular nicht zur Indexierungszeit angepasst werden, sondern die Query kann während des Suchvorgangs an die verschiedenen Zielwörterbücher angeglichen werden. Abbildung 4.1 zeigt die Erzeugung einiger Rechtschreibevariationen für den Term geytzfolk. Wir verwenden eine von Andrea Ernst-Gerlach an der Universität Duisburg entwickelte Software, die ausgehend von einem Term Variationen desselben erzeugt [28]. Dies geschieht mit Hilfe von Ersetzungsregeln, die auf einem historischen deutschen Korpus erzeugt wurden. Dazu wurden von Hand annotierte Trainingsdaten verwendet. Die Basisregeln berücksichtigen das Auftreten gleicher Teilstrings in Wörtern mit unterschiedlicher 25

32 4 Feature-Engineering geytzfolk geyzvolk geitzvolk geizvolk geizfolk geyzfolk Abbildung 4.1: Erzeugung von Rechtschreibevariationen für den Term geytzfolk Schreibung. Für die Terme a = a 1... a n und b = b 1... b m ergibt sich auf folgende Weise eine Liste p gleicher und austauschbarer Teilstrings: rcg1(a, b, p) = [p] falls n = m = 0 rcg1(a 2... a n, b 2... b m, p a 1 ) falls a 1 = b 1 [p, (a 1... a j, b 1... b l ) rcg1(a j+1... a n, b l+1... b m, ɛ)] falls so dass a j+1 = b l+1 und j + m Minimum a 1 b 1 mit rcg(a, b) = rcg1(a, b, ɛ). rcg steht für rule core generation. Durch die Verwendung des Minimum im dritten Fall wird versucht, den ersetzbaren Teilstring möglichst klein zu wählen. Beispiel a = polizeidirektor b = policeydirector ergibt p = [ poli, ( z, c ), e, ( i, y ), dire, ( k, c ), tor ] Anschließend wurde die Menge p in eine Menge von Tripeln umgewandelt. Jedes Tripel beinhaltet den ersetzbaren Teilstring mit dem linken und rechten Kontext. Für das Beispiel ergibt sich {( poli, ( z, c ), e ), ( e, ( i, y ), dire ), ( dire, ( k, c ), tor )}. Ausgehend von diesen Tripeln, die für jeden historischen Term mit aktueller Entsprechung erzeugt wurden, konnten allgemeine Regeln zur Worttransformation erstellt werden. Diese Regeln umfassen sowohl den ersetzbaren Teilstring, als auch einen möglichen linken und rechten Kontext. Dieser Kontext kann entweder aus einzelnen Buchstaben bestehen, oder allgemein Vokale oder Konsonanten umfassen. Auch ist es möglich, dass der ersetzbare Teilstring nur am Anfang oder Ende eines Wortes auftritt. In einem letzten Schritt wurden diese allgemeinen Regeln optimiert. Dies geschah dadurch, dass die Regeln auf Testdaten angewandt wurden. So konnten sie danach klassifiziert werden, ob sie korrekte oder inkorrekte Rechtschreibevariationen erzeugten. 26

33 4 Feature-Engineering Um die von Andrea Ernst-Gerlach erstellten Regeln auf unseren Korpus anwenden zu können, erweiterten wir diese um manuell erstellte eigene Regeln. Bei der Anwendung der Regeln werden die entsprechenden Teilstrings bei passendem Kontext ersetzt, wobei der ursprüngliche Term für weitere Transformationen erhalten bleibt. Dadurch garantieren wir, dass alle passenden Regeln auf die Terme angewandt werden. Zusätzlich können wir angeben, wie oft die Anwendung der Regeln auf die ursprünglichen Terme und die daraus erzeugten Termvarianten erfolgen soll. Das folgende Beispiel verdeutlicht die Umwandlung des Terms policeydirector in drei Schritten. Beispiel: policeydirector polizeydirector policeydirector polizeidirektor Dadurch, dass die Regeln mit Hilfe eines Korpus erstellt wurden, dessen Termverteilung bekannt ist, kann für jede Regel berechnet werden, mit welcher Wahrscheinlichkeit ihre Anwendung korrekt ist. So ist es beispielsweise möglich, umgeformte Terme je nach ihrer Wahrscheinlichkeit stärker oder schwächer zu gewichten. ob Diese Wahrscheinlichkeit können wir jedoch nicht nutzen, da wir eigene Regeln hinzugefügt haben, und so die Wahrscheinlichkeitsberechnung inkorrekt ist Präfigierung Ein besonderes Merkmal des Grimmschen Wörterbuches ist die Präfigierung zur Wortbildung, zu beobachten bei Verben wie erärgern oder auszaubern. Diese Wortbildungen stellen ebenfalls ein Problem hinsichtlich der Ähnlichkeitssuche dar. Zum einen tauchen sie oft nur ein einziges Mal im Grimmschen Wörterbuch auf und sind so für die Suche nach ähnlichen Artikeln unbrauchbar. Zum anderen sind sie in keinem anderen Wörterbuch zu finden. Wir gleichen diese Terme an, indem wir das Präfix entfernen. Dies geschieht in Abgleich mit einer gängigen Präfixliste. Beispiel: auszaubern zaubern Lateinische Terme Neben zahlreichen Wörtern aus dem Althochdeutschen, Mittelhochdeutschen und deutschen Regionalsprachen findet das Lateinische weite Verbreitung im Grimmschen Wörterbuch. Insbesondere Jacob Grimm verwendet häufig lateinische Wortdefinitionen, da diese epochen- und sprachübergreifend verständlich sind [15]: Unser deutsches wörterbuch soll nicht nur für Deutsche in engerm sinne sein, 27

34 4 Feature-Engineering sondern sich auch zu Scandinaven, Niederländern, Engländern, Franzosen und andern Welschen, zu Slaven, Ungern, Finnen erstrecken; diesen völkern allen oder den meisten ist mehr mit dem beigefügten lateinischen worte gedient als mit einer deutschverfaszten erklärung (... ) Man kann endlich auch aufstellen, dasz ein gutes wörterbuch nicht einmal auf die gegenwärtige und nächste zeit beschränkt, sondern bestimmt sein solle länger zu dauern, wie jene dictionare von DASYPODIUS und MAALER nun schon jahrhunderte lang gebraucht werden; hätten sie nicht lateinisch, sondern deutsch erklärt, sie würden oft schon unbestimmt geworden sein, auf gleiche weise aber auch die heutigen deutschen erklärungen, ohne die stütze der lateinischen einer fernen zukunft vielleicht nicht mehr ausgereicht haben. Lateinische Begriffe sind zwar für die Suche im Grimmschen Wörterbuch geeignet, verursachen jedoch Probleme bei der Suche in anderen Quellen. Insbesondere durch die Lemmatisierung kann es vorkommen, dass lateinische Terme dieselbe Stammform wie Terme aus Wikipedia aufweisen, wie es z.b. bei capere und cape (canaveral) der Fall ist. Aus diesem Grund schaffen wir die Möglichkeit, lateinische Terme zu entfernen. Dies geschieht durch Abgleich mit einem lateinischen Wörterbuch Kombination der Methoden Alle vorgestellten Methoden sowie Stoppwort-Elimination, Lemmatisierung und Dekomposition können kombiniert werden, um die Query an das Vokabular des Zielwörterbuchs anzupassen. Dabei ist folgendes zu beachten: Lemmatisierung und Dekomposition funktionieren besonders zuverlässig bei Termen mit aktueller Rechtschreibung, da Wortnormierungsverfahren für das Deutsche meist lexikonbasiert sind (vgl. [30]). Bei Termen, deren Grundform mit Hilfe von Regeln erzeugt werden muss, ist die Fehleranfälligkeit bedeutend höher bzw. die Lemmatisierung liefert häufig den ursprünglichen Term um Fehler zu vermeiden. Beispiel: gezaubert zaubern, aber ausgezaubert ausgezaubert Die Dekomposition von Wörtern ergibt häufig Teilwörter, deren Sinn stark vom ursprünglichen Wort abweicht. So kann es vorkommen, dass ein wenig sinnvoll erscheinendes Teilwort Suchergebnisse liefert. Beispiel: aalbeere aal, beere: Diese Suche liefert zahlreiche Ergebnisse zu Aal, obwohl es sich bei der Aalbeere um eine Johannisbeere handelt Aus diesem Grund nutzen wir Dekomposition nur im Fall, dass ein Term mit keiner anderen Termumformungsmethode an den Zielwortschatz angeglichen werden kann. Je mehr Termumformungsmethoden wir einsetzen, desto höher ist die Wahrschein- 28

35 4 Feature-Engineering lichkeit, Wörter zu erzeugen, die sehr stark vom ursprünglichen Term abweichen. Beispiel: auszehrung ausehrung ehrung Um solche Fehler zu vermeiden, modifizieren wir nur Terme, die nicht mit dem Zielvokabular übereinstimmen. Entsteht im Laufe des Termumformungsprozesses ein Term, der im Zielwortschatz auftritt, so führen wir keine weiteren Transformationen durch. Baeza-Yates und Ribeiro-Neto [21] schlagen 5 Schritte zum Dokument-Preprocessing vor: orthographische Vereinheitlichung, Entfernen von Stoppwörtern, Stammformbildung, Feature-Selection, Hinzufügen von Termen mit Kontextinformation (vgl. Query-Expansion 2.3.2). Wir verfolgen einen ähnlichen Ansatz, indem wir die Query schrittweise an das Zielvokabular anpassen. 1. Elimination von Stoppwörtern 2. Entfernen lateinischer Terme 3. Erzeugen von Rechtschreibe-Variationen 4. Entfernen des Präfix 5. Lemmatisierung (bei lemmatisiertem Zielwortschatz) 6. Dekomposition 7. Query-Expansion 8. Feature-Selection Da das Vokabular der verschiedenen Wörterbücher sehr heterogen ist, besitzen wir keine endgültigen Informationen darüber, welche Termtransformationen bei welcher Query sinnvoll sind. Darum geben wir dem Benutzer die Möglichkeit, den Nutzen und Einfluss der verschiedenen Umformungsmethoden in Verbindung mit verschiedenen Queries und Wörterbüchern zu testen. Unser System erlaubt es ihm, die Transformationsmethoden variabel einzusetzen (vgl. 5.3). Beispiel Wir betrachen die Query q = {urzeitnothwendigkeit}. Bei urzeitnothwendigkeit handelt es sich um einen Term aus dem Grimmschen Wörterbuch, den wir an den Wortschatz von Wikipedia anpassen. Dazu zeigen wir die Anwendung der Schritte 3, 4 und 6. Rechtschreibe-Variationen {urzeitnothwendigkeit} { urzeitnothwendigkeit, urzeitnotwendigkeit,... } 29

36 4 Feature-Engineering Entfernen des Präfix { urzeitnothwendigkeit, urzeitnotwendigkeit,... } urzeitnothwendigkeit, urzeitnotwendigkeit, zeitnothwendigkeit, zeitnotwendigkeit... Dekomposition urzeitnothwendigkeit, urzeitnotwendigkeit, zeitnothwendigkeit, zeitnotwendigkeit... urzeitnothwendigkeit, zeitnothwendigkeit, ur, zeit, notwendigkeit,... Dadurch, dass wir mit ur, zeit und notwendigkeit in diesem Schritt Terme erzeugt haben, die auch in Wikipedia auftreten, ist die Modifikation der Terme in jedem Fall beendet. Je nach Anforderung des Benutzers kann außerdem Query-Expansion eingesetzt werden und die Zahl der Terme Query-Terme kann mittels Feature-Selection begrenzt werden Gewichtungsfaktoren Wie bereits erwähnt steigt mit der Zahl der Termumformungen die Wahrscheinlichkeit, fehlerhafte Terme zu erzeugen, deren Sinn von dem des ursprünglichen Wortes sehr weit abweicht. Um dies zu berücksichtigen, hat der Benutzer die Möglichkeit, die Gewichtung modifizierter Terme durch Faktoren zu beeinflussen. Dies ist in sofern sinnvoll, als es durch die Vielzahl der Feature-Engineering-Methoden schwierig ist, die Wahl der Faktoren zu optimieren. Zu diesem Zweck führen wir die folgenden Gewichtungsfaktoren ein: Titel-Faktor: dient zur Gewichtung von Termen, die im Titel eines Wörterbucheintrags auftreten Präfix-Faktor: dient zur Gewichtung von Termen mit eliminiertem Präfix Query-Expansion-Faktor: dient zur Gewichtung von Termen, die durch Query-Expansion zur Query hinzugefügt wurden Head-Faktor: dient zur Gewichtung von Termen, die durch Dekomposition entstanden sind - unter dem Head verstehen wir das erste Teilwort Beispiel: igelbalg igel, balg Modifier-Faktor: dient zur Gewichtung von Termen, die durch Dekomposition entstanden sind - unter dem Modifier verstehen wir das zweite Teilwort 30

37 4 Feature-Engineering Beispiel: igelbalg igel, balg Dekompositions-Faktor: dient zur Gewichtung dekomponierter Terme mit mehr als zwei Teilwörtern Beispiel: getreidereinigungsmaschine getreide, reinigung, maschine Rechtschreibevariations-Faktor: dient zur Gewichtung von Termen mit angepasster Rechtschreibung Wortschatzübereinstimmungs-Faktor: dient zur Gewichtung von Termen, die ohne Transformation mit dem Zielwortschatz übereinstimmen 31

38 5 Implementierung Das vorliegende Kapitel stellt die Implementierung vor. Abschnitt 5.1 beschreibt die zur Implementierung verwendeten Technologien und Tools. In Abschnitt 5.2 stellen wir unser System vor, das die Ähnlichkeitssuche in Wörterbüchern implementiert. Dadurch können die verschiedenen Wörterbücher automatisch miteinander verknüpft werden. Um das System zu beschreiben, gehen wir auf Klassendesign und Datenbankdesign ein. Um dem Benutzer die Suche in den verschiedenen Wörterbüchern zu erleichtern, haben wir zusätzlich ein Servlet implementiert, das wir in Abschnitt 5.3 beschreiben. 5.1 Technologien und verwendete Tools Wir verwenden Java 1.6 für unser Programm. Um die XML-Daten, die zu Beginn der Diplomarbeit vorlagen, zu parsen, setzten wir einen gängigen SAX-Parser ein. Die gewonnenen Daten speicherten wir anfangs in einer Oracle-Datenbank. Das in Abschnitt vorgestellte Datenbankschema zeigt den Aufbau der Oracle-Datenbank. Eine JDBC-Schnittstelle erlaubt es, innerhalb unseres Java-Programms auf die Datenbank zuzugreifen. Zur Lemmatisierung verwenden wir den in Abschnitt bereits erwähnten TreeTagger [9]. Die Dekomposition geschieht mit Hilfe des Connexor Machine Phrase Tagger [2], auf den wir in Abschnitt näher eingehen. Wie bereits beschrieben verwenden wir die Rule-Application-Software von Andrea Ernst- Gerlach zur Erzeugung von Rechtschreibe-Varianten (vgl. [28] und [29]). Ein Servlet (5.3) generiert HTML-Seiten, über die der Benutzer in verschiedenen Wörterbüchern suchen kann. Hierzu verwenden wir JavaServer-Pages. Die Ausführung des Java-Codes und Erzeugung der HTML-Seiten geschieht mit Hilfe des Apache Tomcat. 32

39 5 Implementierung 5.2 System zur Wörterbuchsuche Das System zur Wörterbuchsuche implementiert die automatische Verknüpfung der Wörterbücher. Da wir die Verknüpfung von Wörterbüchern als Suchproblem auffassen, realisiert unser System dazu die Suche in Wörterbüchern. Diese Suche kann sowohl von einer Query des Benutzers als auch von einem Wörterbucheintrag ausgehen (vgl. 3.3) Klassendesign Ähnlichkeitssuche Die Ähnlichkeitssuche in Wörterbüchern umfasst folgende Schritte: 1. Preprocessing der Query zu Anpassung an den Zielwortschatz (vgl ) 2. Umwandlung der Query in einen Vektor mit gewichteten Termen 3. Ermitteln von Dokumenten mit gleichen Termen 4. Umwandlung dieser Dokumente in Dokumentvektoren mit gewichteten Termen 5. Berechnung der Ähnlichkeit zwischen Queryvektor und Dokumentvektoren 6. Result-Merging (bei Suche in mehreren Wörterbüchern) Das Programm zur Wörterbuch-Suche orientiert sich an diesem Schema. Abbildung 5.1 zeigt die wichtigsten Klassen und Interfaces. Wie erwähnt realisieren wie die Verlinkung der Wörterbücher über eine entsprechende Suche. So ist die Klasse Linker mit ihrer Methode getlinks() die zentrale Einheit unseres Systems. Die Klasse FeatureVector repräsentiert den gewichteten Query-Vektor. Da die Dokument-Vektoren anders als der Query-Vektor von einem Wörterbucheintrag abgeleitet sind, verfügen sie zusätzlich über eine entryid und den Titel des entsprechenden Eintrags - entry. Aus diesem Grund werden die Dokument-Vektoren von der Klasse DocumentVector, einer Unterklasse von FeatureVector repräsentiert. Um die Terme die Queryvektor und des Dokumentvektors zu gewichten, verwenden wir das Interface Weight mit seiner getweigts-methode. Durch die Verwendung des Interface ist es problemlos möglich, verschiedene Gewichtungsfunktionen zu variieren. In unserem Fall sind dies TfIdf und BM25. Bei Bedarf kann das System jedoch leicht um weitere Gewichtungsfunktionen erweitert werden. 33

40 5 Implementierung Abbildung 5.1: Klassendiagramm der wichtigsten Klassen und Interfaces 34

41 5 Implementierung Die Ähnlichkeit zwischen dem Query-Vektor und den Dokument-Vektoren bestimmen wir über das Interface Similarity. Für unser System verwenden wir in Verbindung mit der Gewichtungsfunktion TfIdf die Kosinusähnlichkeit, die in Form der Klasse Cosine- Similarity realisiert wurde. Im Falle der Gewichtungsfunktion BM25 setzen wir eine Ähnlichkeitsfunktion ein, die dem probabilistischen Retrieval-Ansatz entspricht. Unsere Implementierung erlaubt es, gleichzeitig in verschiedenen Wörterbüchern zu suchen. Um diese Suche zu beschleunigen, greifen wir auf nebenläufige Programmierung zurück. Die Klasse LinkerThread erlaubt es, die Wörterbuchsuche in einem eigenständigen Thread zu starten. Rolle der Klasse MetaLinker ist es, das Result-Merging durchzuführen. Preprocessing zur Anpassung der Query an den Zielwortschatz Das Klassendiagramm in Abbildung 5.2 zeigt die Klassen und Interfaces, die zum Preprocessing, d.h. zur Anpassung der Query an den Zielwortschatz, benötigt werden. Zu Beginn des Suchvorgangs werden die Sonderzeichen mit Hilfe des SpecialCharacterManagers ersetzt. Um die Query anschließend in einen Query-Vektor umzuwandeln, verwenden wir die Klasse QueryManager mit ihrer getqueryvector-methode, die vom Linker aufgerufen wird. Die wesentlichen Preprocessing-Schritte werden vom TermManager ausgeführt. Dazu nutzt der TermManager unter anderem das Lemmatizer-Interface, das den Einsatz verschiedener Lemmatizer und Tools zur Dekomposition wie Treetagger und Connexor erlaubt. Durch die Verwendung eines Interface kann das System leicht um andere Lemmatizer erweitert werden. Das QueryExpansion-Interface dient dem TermManager zur Query-Expansion. Zur Zeit beschränken wir uns auf Query-Expansion mit Hilfe von GermaNet. Doch auch hier können mit geringem Aufwand weitere Methoden hinzugefügt werden. Ist das Preprocessing abgeschlossen, so liefert die getappropriateterms- Methode des TermManager die umgeformten Query-Terme. Diese Query-Terme sind nicht etwa Strings, sondern Instanzen der Klasse Term. Term umfasst sowohl den ursprünglichen Query-Term, als auch den angepassten Term und die Information darüber, ob der ursprüngliche Term im Titel eines Dokuments auftritt, also einem Wörterbucheintrag entspricht. Die Term-Objekte werden mit Hilfe des Weight-Interfaces gewichtet. Um die Erstellung des Query-Vektors zu erleichtern, erzeuget der QueryManager Instanzen der Klasse Term- Weight. Diese vereinigen die Term-Information mit der Weight-Information. Klassendiagramm 5.2 zeigt die wesentlichen Klassen zum Preprocessing, während Sequenzdiagramm 5.3 den Ablauf des Preprocessing skizziert. 35

42 5 Implementierung Abbildung 5.2: Klassendiagramm der wichtigsten Klassen und Interfaces 36

43 5 Implementierung Abbildung 5.3: Sequenzdiagramm zeigt den Ablauf des Preprocessing 37

44 5 Implementierung Datenbankdesign Wir nutzen die Datenbank zum einen um die Wörterbucheinträge und den in Abschnitt 3.2 beschriebenen Inverted-Index und statistische Terminformationen zu speichern. Zum anderen dient die Datenbank dazu, Links mit den entsprechenden Termgewichtungen zu speichern. Diese Informationen benötigen wir zum Relevance-Feedback. Inverted-Index und statistische Terminformationen Wir erstellen für jedes Wörterbuch einen separaten Inverted-Index. Abbildung 5.4 zeigt das Datenbankschema zur Speicherung von Wörterbucheinträgen, Inverted-Index und statistischen Terminformationen am Beispiel des Grimmschen Wörterbuchs: Die Tabelle e_grimm repräsentiert den Wörterbucheintrag, der über eine id und den Titel des entsprechenden Wörterbucheintrags e verfügt. Die Tabelle grimm_simple entspricht der Volltext-Version des Inverted-Index. Sie beinhaltet Informationen über den Term term, den entsprechenden Wörterbucheintrag entry_id und die Anzahl der Auftreten occurrence in diesem Wörterbucheintrag. Zusätzlich speichern wir, ob der Term im Titel des Eintrags auftritt (title). Die Tabelle grimm_treetagger verfügt über die gleiche Struktur, enthält jedoch statt der Terme im Volltext lemmatisierte Terme. Auch die Tabelle grimm_connexor entspricht einem Inverted-Index, speichert jedoch dekomponierte und lemmatisierte Terme. Zum schnelleren Zugriff enthalten die Tabellen grimm_simple_term, grimm_treetagger_term und grimm_connexor_term die entsprechenden Terme sowie ihre document frequency df und inverse document frequency idf. Speicherung der Links Nicht nur die Dokumente und der Inverted-Index, sondern auch die Links können in der Datenbank gespeichert werden. Datenbankschema 5.5 zeigt die Speicherung der Links am Beispiel des Grimmschen Wörterbuchs. Zum Link gehören eine Query (query), die Ähnlichkeit zur Query similarity und eine Information über die Relevanz des Links relevance. Jeder Link, repräsentiert durch grimm_link, entspricht einem Wörterbucheintrag. Aus diesem Grund verfügt er über einen entsprechenden Fremdschlüssel, die id des Wörterbucheintrags entry_id. Um das Relevance-Feedback durchführen zu können, benötigen wir zu jedem Link Infor- 38

45 5 Implementierung Abbildung 5.4: Datenbankschema zur Speicherung von Wörterbucheinträgen, Inverted- Index und statistischen Terminformationen mationen über die entsprechenden Terme und deren Gewichtung im Rahmen des Dokument-Vektors. Diese Daten werden in der Tabelle grimm_link_term gespeichert. Wir verfügen über zahlreiche Preprocessing-Methoden, die in Kombination mit entsprechenden Parametern je nach Wörterbuch und Interesse des Benutzers varriert werden können. Diese Informationen werden in den Tabellen link_config, factors, rocchio, bm25, dictionary, weighting_function und search_schema gespeichert und mit der Link-Tabelle verknüpft. 39

46 5 Implementierung Abbildung 5.5: Datenbankschema zur Speicherung von Wörterbucheinträgen, Inverted- Index und statistischen Terminformationen 40

47 5 Implementierung 5.3 Benutzerinterface Im Rahmen unserer Arbeit haben wir ein Servlet entwickelt, das als Benutzer-Interface dient. Das Servlet generiert HTML-Seiten, mit denen der Benutzer die Suche in Wörterbüchern steuern und sich die Resultate anzeigen lassen kann. Wie in Abbildung 5.6 zu sehen, kann er auswählen, in welchen Wörterbüchern er suchen möchte. Weiterhin hat er die Möglichkeit, mit den Preprocesssing-Methoden, Gewichtungsparametern, Gewichtungsfunktionen und dem Threshold zur Feature-Selection zu experimentieren. Auf der Ergebnisseite, die in Abbildung 5.7 zu sehen ist, werden die Resultate nach ihrer Ähnlichkeit zur Query geordnet angezeigt. Zusätzlich erhält der Benutzer die Möglichkeit zur Bewertung der Links und er kann von einem Link aus nach ähnlichen Wörterbucheinträgen suchen. Abbildung 5.8 zeigt einige Resultate im Detail. Um den Benutzer auf die Ähnlichkeit von Links mit ähnlichem Titel hinzuweisen, markieren wir diese besonders. Beim Screenshot handelt es sich hierbei um alle Wörterbucheinträge, deren Titel das Wort Aal enthält. Abbildung 5.6: html-seite zur Wörterbuchsuche 41

48 5 Implementierung Abbildung 5.7: HTML-Seite mit Suchergebnissen Abbildung 5.8: Suchergebnisse im Detail 42