Sprachtechnologie in Suchmaschinen

Ähnliche Dokumente
Sprachtechnologie in Suchmaschinen

Sprachtechnologie in Suchmaschinen

Zu 3.7 Werbung Erstellt eine Werbung für eure Schule. Ihr könnt zum Beispiel ein Werbeplakat malen oder einen kurzen Werbefilm dazu drehen.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Senioren ans Netz. schreiben kurze Texte. Lektion 9 in Themen aktuell 2, nach Übung 7

Maschinelle Übersetzung

4 Ideen zur Verbesserung des -Marketings!

Thematische Abfrage mit Computerlinguistik

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Ersetzt die Suchmaschine den Verbund-OPAC? Erfahrungen, Perspektiven und mögliche Kooperationsfelder aus Sicht der Verbünde

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Dokumentenverwaltung im Internet

Arbeit zur Lebens-Geschichte mit Menschen mit Behinderung Ein Papier des Bundesverbands evangelische Behindertenhilfe e.v.

Anleitung über den Umgang mit Schildern

15 Arten von QR-Code-Inhalten!

Webseiten mit fragwürdigen Aufrufen von "spy & track" - Unternehmen

Installationsanleitung für Update SC-Line

Staatskanzlei des Kantons Zürich. Kommunikationsabteilung des Regierungsrates

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Arbeitshilfe "Tipps für Gespräche mit Vorgesetzten und KollegInnen" Was gilt für mich?

Installation OMNIKEY 3121 USB

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

STLB-Bau Kundenmanager

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Informationen zum neuen Studmail häufige Fragen

Die Einfache Suche finden Sie auf den Onleihen in der linken oder in der rechten Spalte oder im Headerbereich bzw. im Kopf der Homepage.

Resultate GfS-Umfrage November Wie bekannt ist das Phänomen Illettrismus bei der Schweizer Bevölkerung?

Stundenerfassung Version 1.8 Anleitung Arbeiten mit Replikaten

Örtliche Angebots- und Teilhabeplanung im Landkreis Weilheim-Schongau

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Die Übersetzung als Umsatzmotor - 3 Gründe für Übersetzungen

Schnelleinstieg in die (cs) AuftragPro

Nutzung des Retain-Archivs

Bilder und Dokumente in MediaWiki

Nützliche Tipps für Einsteiger

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

WinVetpro im Betriebsmodus Laptop

Dokumentation PuSCH App. android phone

BERECHNUNG DER FRIST ZUR STELLUNGNAHME DES BETRIEBSRATES BEI KÜNDIGUNG

Wie benutzen Sie diese Internetseite?

Flow Session zum Entdecken Deines idealen Lebensstils

Jederzeit Ordnung halten

Responsive Webdesign. Schritt für Schritt zum Design für jedes Endgerät

Affiliate Marketing Schnellstart Seite 1

Ich möchte meine Beitragsnachweise nach dem vereinfachten Schätzverfahren erstellen.

Nach der Installation des FolderShare-Satellits wird Ihr persönliches FolderShare -Konto erstellt.

Die 100 wichtigsten Fragen zum Assessment Center

Erweiterung AE WWS Lite Win: AES Security Verschlüsselung

64% 9% 27% INFORMATIONSSTATUS INTERNET. CHART 1 Ergebnisse in Prozent. Es fühlen sich über das Internet - gut informiert. weniger gut informiert

Arcavis Backend - Invoice Baldegger+Sortec AG

Herzlich Willkommen. Schön, dass Sie da sind.

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Azubi Plus. projekt zukunft. Gestalten Sie Ihre Ausbildungen attraktiver, interessanter und wirkungsvoller mit...

Elternzeit Was ist das?

Nicht über uns ohne uns

Veröffentlichen von Apps, Arbeitsblättern und Storys. Qlik Sense Copyright QlikTech International AB. Alle Rechte vorbehalten.

Webalizer HOWTO. Stand:

MaklerManager Ergänzung zum Handbuch 2.0

Über uns. Was bedeutet der Name traloco?

Für den ersten Eindruck gibt es keine zweite Chance:

Wir machen neue Politik für Baden-Württemberg

Der Gabelstapler: Wie? Was? Wer? Wo?

Inhaltsverzeichnis Dokumentverwaltung Organisation von Dokumenten Ordner erstellen Dokumente im Dateisystem behandeln...

Lehrer: Einschreibemethoden

Buchhaltung mit WISO EÜR & Kasse 2011

1 WEB ANALYTICS: PROFESSIONELLE WEB-ANALYSEN UND REPORTING FÜR IHR ONLINE MARKETING.

Leseprobe. Bruno Augustoni. Professionell präsentieren. ISBN (Buch): ISBN (E-Book):

Anleitung für die Teilnahme an den Platzvergaben "Studio II, Studio IV und Studio VI" im Studiengang Bachelor Architektur SS15

Namibiakids e.v./ Schule, Rehoboth, Namibia

Sei dabei und schau nicht nur zu! -Freiwillige an die Schulen

magento Inhalt: 1) Zusammenfassung der Daten 2) Grundeinstellungen ändern Schnelleinstieg

Grundlagen der Theoretischen Informatik, SoSe 2008

Shopping - Mode - Lifestyle

Hallo! Social Media in der praktischen Anwendung Warum macht man was und vor allem: wie? Osnabrück, den 07. Juli 2014.

Word 2010 Schnellbausteine

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig?

Schulung Marketing Engine Thema : Einrichtung der App

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

Anleitung Artikel schreiben

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Informationschreiben 85 / 2015

Melde- und Veröffentlichungsplattform Portal (MVP Portal) Hochladen einer XML-Datei

Familienforschung mit

MACHEN WIR S DOCH GLEICH RICHTIG... IHR HANDWERKS- BETRIEB IM INTERNET

Seco Online Store! Einkauf per Mausklick!

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

SAFER SURFING TIPPS UND TRICKS ZUM SICHEREN UMGANG MIT DEM INTERNET. Saferinternet.at

User Manual Data 24. Login und Layout

Kleinstunternehmen (bis 9 MA)

Anleitung zu Brillux Connected

Windows Explorer Das unbekannte Tool. Compi-Treff vom 19. September 2014 Thomas Sigg

Lernaufgabe Industriekauffrau/Industriekaufmann Angebot und Auftrag: Arbeitsblatt I Auftragsbeschreibung

Alltag mit dem Android Smartphone

Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen. Zentrale Prüfungen nach Klasse 10

Gemeinsame Erklärung zur inter-kulturellen Öffnung und zur kultur-sensiblen Arbeit für und mit Menschen mit Behinderung und Migrations-Hintergrund.

Mein Recht. im Netz. Der Ratgeber für die digitale Selbstbestimmung

Transkript:

Sprachtechnologie in Suchmaschinen Masterseminar Computerlinguistik Sommersemester 2014 Stefan Langer stefan.langer@cis.uni-muenchen.de

Suchmaschinen Beispiele

Übung 1 Wozu verwenden Sie Suchmaschinen? Welche Zusatzfunktionen neben der eigentlichen Suche verwenden Sie? Welche Eigenschaften/Zusatzfunktionen würden Sie sich wünschen? Wo gibt es Ihrer Meinung nach Verbesserungsmöglichkeiten? 3

Ergebnisse Übung 1 - I Wozu verwenden Sie Suchmaschinen? Einkaufen Reise - Hotel - Flüge - buchen Information Medizinische Ratschläge Beantwortung von Fragen (Wolfram Alpha) Bildersuche Liedersuche - Personensuche - Kultur Lokalisierte Suche -Lokale/Geschäfte, Ärzte (v.a. Mobil) Übersetzung Rechtschreibkorrektur Programmcode Erklärungen für Fehlermeldung Bücher/Paper (wissenschaftliche Suchen) Wetter Kinoprogramm/Theaterprogramm 4

Ergebnisse Übung 1 (Teil II) Welche Zusatzfunktionen neben der eigentlichen Suche verwenden Sie? Präfixsuche ( *) Übersetzung Rechtschreibkorrektur Kartensuche, Nachrichtensuche, Preissuche Welche Eigenschaften/Zusatzfunktionen würden Sie sich wünschen und wo gibt es Ihrer Meinung nach Verbesserungsmöglichkeiten Mehr Navigatoren bzw. Sortierung Sprache, Disambiguierung, Genres, Erstellungsdatum Vorschlagsgenerierung beim Tippen Synonyme Natürlichsprachliche Suche Bildsuche (nach Bildinhalten) Reguläre Ausdrücke Versandgebühren ermitteln 5

Websuche - Bing 6

Websuche - Google 7

8

9

10

11

12

13

Suchmaschinen Weitere Anwendungsbereiche Mobile Suche (Smartphones) Suche im Intranet von Firmen und anderen Organisationen Meist besondere Herausforderungen in Bezug auf Zugriffsrechte Desktop Suche (Suche auf dem privaten Computer) Soziale Netzwerke (e.g. Facebook) / professionelle Netzwerke (z.b. Xing, LinkedIn) Filesharing-Netzwerke 14

Suchmaschinen Architektur und Anforderungen

Grobe schematische Architektur einer Suchmaschine Dokument Dokument Dokumente INDEX Dokumentenverarbeitung Anfrageverarbeitung Anfragen 16

Dokumentenverarbeitung Erkennung von Dokumenteneigenschaften (z.b. Sprachenidentifizierung, Dokumentformat) Konversion in intern verwendetes Dokumentenformat (z.b. XML mit Unicode) Linguistische Normalisierung Tokenisierung Buchstaben(sequenzen)normalisierung Morphologische Analyse Informationsextraktion (z.b. Personennamen) Hinzufügen von Information (z.b. Synonyme) 17

Anfrageverarbeitung Erkennung von Anfrageeigenschaften (z.b. Sprache) Parsen der Anfrage Linguistische Normalisierung Tokenisierung Buchstaben(sequenzen)normalisierung Rechtschreibkorrektur Morphologische Analyse Stopwortentfernung Hinzufügen von Information (z.b. Synonyme) 18

Index Im Index werden Terme, die auf Dokumente verweisen mit der Referenz auf die Dokumente abgespeichert Term: Einzelterme, Phrasen Der Zugriff muss extrem effizient sein, um schnelle Anfrageverarbeitung zu ermöglichen 19

Linguistische Module in Suchmaschinen Eine Übersicht Sprachenidentifizierung Tokenisierung Morphologische Analyse Rechtschreibkorrektur Synonyme Informationsextraktion

Ziel computerlinguistischer Module in Suchmaschinen Verbesserung der Ergebnisqualität Recall Precision Ranking Vorauswahl von Ergebnissen Navigation in den Ergebnissen 21

Übung 2: Linguistik in Suchmaschinen Was stellen Sie sich unter linguistischen Modulen in Suchmaschinen vor? Welche Module kennen Sie, welche machen Sinn? Wie tragen linguistische Funktionalitäten zur Ergebnisverbesserung bei? Verbesserung der Ergebnisqualität Vorauswahl von Ergebnissen Navigation in den Ergebnissen 22

Ergebnisse Übung 2 Dokumentenklassifikation Rechtschreibkorrektur Auto-Vervollständigung Suche mit regulären Ausdrücken/logischen Operatoren Spracherkennung Vollformen/Stammformen Klein-/Großschreibung Satzendeerkennung Datumsnormalierung/Zahlennormalisierung allgemein Suchmaschine als Rechenmaschine natürlichsprachliche Anfragen Phrasierung Phonetische Suche Übersetzung - Dokumentenseite - Queryseitig Automatische Textzusammenfassung 23

Sprachenidentifizierung Automatische Erkennung der Sprache eines elektronischen Dokuments

Sprachenidentifizierung زبانشناسی زبانشناسی)بهانگلیسی:( علمی استکهبهمطالعهوبررسی روشمندزبانمیپردازد. درواقع زبانشناسیمیکوشدتابه پرسشهاییبنیادینهمچون»زبان چیست زبانچگونهعمل میکندوازچهساختهاییتشکیل شدهاست انسانهاچگونهبا یکدیگرارتباطبرقرارمیکنند «Lingüística La Lingüística és la ciència que estudia totes les manifestacions de la parla humana, és a dir, l'estudi de la llengua en el seu vessant escrit i oral. En un sentit ampli la lingüística és l'estudi de les llengües humanes, analitzant el que tenen en comú i el que les diferencia. Un lingüista és, per tant, una persona que estudia les llengües. Yezhoniezh Ez-ledan e c'heller lâret ez eo ar yezhoniezh studi yezhoù mab-den. Deskrivañ en un doare objektivel ha dielfennañ mont-en-dro ar yezhoù dres ma vezont implijet gant an dud hep en em soursial da varnañ Identifiziere die Sprache eines Textes (Dokumententext, Anfrage ) 25

Tokenisierung & Normalisierung

Tokenisierung Aufteilen eines Textes in indizierbare Token Recht trivial für westliche Sprachen; schwierig für Chinesisch, Japanisch, Thai

Normalisierung Groß- Kleinschreibung Akzente é e Umlaute ä a / ae (asiatische) Schriftzeichen in voller Breite/halber Breite ロ ロ Entsprechend auch lateinische Schriftzeichen im asiatischen Kontext Andere Zeichen Scharfes ß u.ä. Ohm-Zeichen, Angström-Zeichen 28

Morphologische Analyse Grundformenreduzierung Kompositasegmentierung

Grundformenreduzierung & Verwandtes shop shops kauppa NOM SG kauppa-ko NOM SG KO kauppa-kin NOM SG KIN kauppa-kaan NOM SG KAAN kauppa-han NOM SG HAN kauppa-pa NOM SG PA kauppa-ko-han NOM SG KO HAN kauppa-pa-han NOM SG PA HAN kauppa-pa-s NOM SG PA S kauppa-ko-s NOM SG KO S kauppa-kin-ko NOM SG KIN KO kauppa-kaan-ko NOM SG KAAN KO kauppa-kin-ko-han NOM SG KIN KO HAN kauppa-ni NOM SG SG1 kauppa-ni-ko NOM SG SG1 KO kauppa-ni-kin NOM SG SG1 KIN kauppa-ni-kaan NOM SG SG1 KAAN kauppa-ni-han NOM SG SG1 HAN kauppa-ni-pa NOM SG SG1 PA kauppa-ni-ko-han NOM SG SG1 KO HAN kauppa-ni-pa-han NOM SG SG1 PA HAN kauppa-ni-pa-s NOM SG SG1 PA S kauppa-ni-ko-s NOM SG SG1 KO S kauppa-ni-kin-ko NOM SG SG1 KIN KO kauppa-ni-kaan-ko NOM SG SG1 KAAN KO kauppa-ni-kin-ko-han NOM SG SG1 KIN KO HAN ETC ETC 30

Grundformenreduzierung Stemming Wörterbuchbasiert Wörterbuch + Regeln Dokumenten Suchmaschinen Rahmen Dokumenten:Dokument Suchmaschinen: Suchmaschine Rahmen:Rahmen Dokumenten:Dokument+en Suchmaschinen: Suchmaschine+n Rahmen:Rahmen+ Computers Merkels Computers:Computer Merkels:? Computers:Computer+s Merkels:Merkel+s 31

Lemmatisierung durch Expansion von Dokumententermen mit Lemmatisierung Index Document haus Lemmatizer haus Lemmas field: haus hauses häuser häusern Query häuser haus, hauses, häuser, häusern Normal field: haus ohne Alle Wortformen der Wörter im Dokument werden in den Index geschrieben. Die Sprache der Anfrage muss nicht bekannt sein 32

Lemmatisierung durch Reduktion Index Lemmas field: Mit Lemmatisierung Document maisons Lemmatizer (French) maisons maison maison - Normal field: maisons Lemmatizer maison maison Query maison ohne Wörter in Anfrage und Dokument werden auf die Grundform(en) reduziert. Dazu muss die Sprache der Anfrage bekannt sein 33

Lemmatisierung durch Anfrageexpansion Index Mit Lemmatisierung Document maisons Lemmatizer (French) NO ACTION maisons (lemma field not set) Lemmatizer maison maisons, maison Query maison ohne Lemmatisierung 34

Nominalkompositanalyse Blumen versand Internet such maschine Fuchs schwanz Bahn hof Tisch fuß ball 35

Synonyme

Übung 3 Was sind Synonyme? Was für Typen von bedeutungsähnlichen sprachlichen Einheiten, die in Suchmaschinen relevant sein könnten, gibt es außerdem? Welche Optionen gibt es, um Synonyme in die Suche einzubeziehen?

Synonyme und Verwandtes: Ergebnisse der Übung I Synonyme sind sprachliche Ausdrücke, die ohne Bedeutungsveränderung austauschbar sind. Z.B. Zündholz/Streichholz Synonyme in Suchmaschinen: sollten gleichbedeutende Ausdrücke zu gleichen Suchergebnissen führen 38

Synonyme und Verwandtes: Ergebnisse der Übung II Andere Bedeutungsähnlichkeiten: - Alle Sinnrelationen: Hyponymie, Hyperonymie, Meronymie/Holonymie - Abkürzungen und Akronyme (z.b. UNO United Nations Organisation) - Paraphrasen - Übersetzungen - Umschreibungen - Komposita Kompositatteile - Technische Umsetzung von Synonymexpansion: - Expansion der Anfrage - Expansion der Terme im Dokument ( Synonyme im Index) - Andere Einsatzmöglichkeiten: Zur Disambiguierung von Anfragen 39

Rechtschreibkorrektur

Rechtschreibkorrektur Vergleiche Anfrageterme mit bekannten Termen: Mauresegler Mauersegler Merkel Mergel Voraussetzung: Abstandsmaß zwischen Termen Algorithmus zum schnellen Abgleich zwischen Lexikon und Anfrageterm Zusätzlich: Erstellung des Lexikons auf Basis der indizierten Terme Phrasen-Rechtschreibkorrektur Britnay Speers Britney Spears

Rechtschreibkorrektur: Verwandtes Phonetische Korrektur Phonetische Suche Anfragevervollständigung 42

Stopwörter

Stoppwörter und Stoppphrasen Wo finde ich Informationen über Eric Rohmer Eric Rohmer und Godard 44

Informationsextraktion Extraktion von Eigennamen und weitergehende Ansätze

Informationsextraktion 46

Henrik Johan Ibsen (* 20. März 1828 in Skien/Norwegen; 23. Mai 1906 in Kristiania, damaliger Name von Oslo) war ein norwegischer Schriftsteller, der für den Naturalismus in Deutschland und Norwegen bedeutend war... 47

SUUCH.DE Ibsen Geburtstag Suuchen 1024 Treffer Zusammenfassung Henrik Ibsen wurde am 20. März 1828 in Skien/Norwegen geboren. Quellen: wikipedia.de ; lexikon.meyers.de; Treffer 1: Wikipedia... Auch ausgereifte Suchmaschinen wie Google setzen Computerlinguistik ein (ein Sprachtechnologieprodukt der Firma Canoo, Basel).... 48

Maschinelle Übersetzung

Maschinelle Übersetzung in Suchmaschinen Mögliche Strategien Übersetzung der Originaldokumente und Indizierung der übersetzten Dokumente Langsame Dokumentenverarbeitung Übersetzung des Index Ambiguität, wenn Kontext nicht berücksichtigt Übersetzung der angezeigten Dokumenteninhalte, evt. kombiniert mit der Übersetzung des gesamten Dokuments wenn ausgewählt verlangsamte Ergebnisverarbeitung Übersetzung der Anfragen Hier zeigt sich besonders stark das Problem der Ambiguität 50

Klassifikation und Clustering 51

Klassifizierung Zuweisung zu vordefinierten Kategorien Dokumentenklassifizierung Erfordert vordefinierte, saubere Kategorien und Trainingsdokumente oder Auswahl exemplarischer Dokumente durch den Benutzer Mögliche Dimensionen: Inhaltliche Themenbereiche Disziplinen Dokumententypen (z.b. wiss. Artikel, Zeitungsartikel, Adresssammlung) Anfrageklassifizierung 52

Clustering Bildung von ad-hoc-klassen durch Zusammenfassung ähnlicher Dokumente Meist Ergebnisclustering auf Basis des Dokumentenvektors 53

Nächstes Thema bitte vorbereiten An Introduction to Information Retrieval, Kapitel 1 Dieses Kapitel ganz lesen bis 8. Mai, bitte. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. http://nlp.stanford.edu/ir-book/information-retrieval-book.html 54