Entity Search. Michel Manthey Arne Binder 2013

Ähnliche Dokumente
Automated Feature Generation from Structured Knowledge Seminar aus maschinellem Lernen WS 11/12 Dr. Heiko Paulheim, Frederik Janssen

Google Knowledge Graph. Kursfolien Teil 2. Karin Haenelt

Swoogle. Patrice Matthias Brend amour

Text Mining for Second Screen

Semantik in Suchmaschinen Beispiele. Karin Haenelt

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Detecting Near Duplicates for Web Crawling

Named Entity Recognition auf Basis von Wortlisten

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Named Entity Recognition (NER)

Freebase Eine Datenbank mit RDF-Tripeln zu Personen, Orten, Dingen( )

Exploring the knowledge in Semi Structured Data Sets with Rich Queries

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

> 90%! > Kollegen erecruiting Nationen > AMS PAR DUS. > /p.a. SPRACHEN. IN /min.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Information Retrieval and Semantic Technologies

Learning to Rank Sven Münnich

Question Answering mit Support Vector Machines

Nachteile Boolesches Retrieval

Implementierung eines Vektormodells

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

The Potential of Semantic Technologies for Libraries

Hauptseminar Information Retrieval. S. Friedrich und M. Häsner

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Datenintegration als automatisierter Prozess

Einsatz von Semantic Web Technologien in der Industrie 4.0

YAGO YAGO. A semantic knowledge base. Paul Boeck. Humboldt Universität zu Berlin Institut für Informatik. Dezember /19

Web 3.0. Das semantische Web. Marc Rochow Hochschule Augsburg

Federated Search: Integration von FAST DataSearch und Lucene

Search Engine Evaluation. Franziska Häger, Lutz Gericke

Semantic Technologies

Ranking Functions im Web: PageRank & HITS

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome

Caliph & Emir. Retrieval und Annotation von digitalen Photos mit MPEG-7. Mathias Lux

Automatische Analyse und Exploration von Mediendaten. Prof. Dr. Ralph Ewerth Technische Informationsbibliothek (TIB)

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

Information Retrieval Einführung

Tirol: Blinder Fleck oder Leuchtturm im Web der Zukunft? Univ.-Prof. Dr. Dieter Fensel Universität Innsbruck

Ontologie Evolution. Konstantin Thierbach Problemseminar Ontologie Management Prof. Dr. E. Rahm Betreuer: M. Hartung

OntoWiki - Chancen des Semantik-Web Am Beispiel der Strukturierung und Annotierung von Lernmaterialien

Named Entity Recognition, Extraction, und Linking in deutschen Rechtstexten

Semantic Web für Menschen wie du und ich

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Ontology Learning. Michael Büttner. 25. Juli 2006

Bachelorarbeit: Wissensbasierte Identifikation von Wertebereichen einer aktiven Ontologie

Semantic Web. Ekaterina Timofeeva & Johannes Knopp Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07

1. Einführung. Datenbanken Grundlagen

die Relevanz von Webseiten bestimmt Alexander Pohl

Datenbanken. Grundlagen

Institut für Künstliche Intelligenz

Moderne Methoden der Informationsintegration

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr

Ontologien und Ontologiesprachen

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Die treffende Auswahl anbieten: Im Internet (Referat 3a)

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

Andere Logiken. o Modallogik(en) o Temporallogik(en) o Beschreibungslogik(en) Konzepte und Rollen Fragen und Entscheidbarkeit. Andere Logiken 240

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten

Corporate Semantic Search -

1. Referenzpunkt Transformation

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Vorlesung Wissensentdeckung

Automatisches Layout von Graphen

Informationssysteme für Ingenieure

Seman&sche Daten für den Webau4ri6 einer Bibliothek

in deutschsprachigen Romanen

Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots. Berlin,

Websuche. Vorlesung Computational Thinking. Kurt Mehlhorn und Kosta Panagioutou

Oracle PaaS and IaaS Public Cloud Services P I L L A R - D O K U M E N T A T I O N J U L I 2016

Semantische Suche. Ulf Leser

Corporate Smart Content im Corporate Semantic Web

Information Retrieval und Question Answering

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Hibernate Search. Unterstützung laufender Java Projekte. Perfect Match Rent-a-team Coaching on the project Inhouse Outsourcing

Deep Web. Timo Mika Gläßer

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

Universität Karlsruhe (TH)

xr, AI, ML, Mehr als ein Hype?!

Hintergrund: Web Search & Ranking in Websuchmaschinen

Seminarphase PG 402 Thema: Semantic Web Autor: Phillip Look

Das Semantic Technology Institute (STI)

Symbolisches Lernen in Go

#BEGIN State of the SERPs just how deep does the rabbit hole go?

5.2 Entity-Relationship-Modell

Herausforderungen in der Nutzung vorhandener Tools für arabische Daten

Akademisches Lehrmaterial online

#Backlinks: Was macht einen guten Backlink aus?

Context-adaptation based on Ontologies and Spreading Activation

Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG

D 1 D 2 D 3 D 4 D 5... D m S S S S n

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr

Visual Analytics: Personalisierung im E- Commerce

Semantische Suche und Visualisierung von biomedizinischen Relationsdaten

Wissenschaftliches Arbeiten ( )

Next Generation SEO Author Markups und Schema Integrationen Marcus Tober Köln

Transkript:

Entity Search Michel Manthey Arne Binder 2013

Gliederung Idee Herausforderungen Allgemeine Herangehensweise Möglichkeiten und angewandte Verfahren Ausblick Quellen

Idee Bisher: Suche nach Dokumenten, die am besten zu einer Menge von Keywords passen

Idee Bisher: Suche nach Dokumenten, die am besten zu einer Menge von Keywords passen d.h. alle Dokumente einsammeln, die die Keywords enthalten und dann nach Relevanz sortieren (PageRank)

Idee Bisher: Suche nach Dokumenten, die am besten zu einer Menge von Keywords passen d.h. alle Dokumente einsammeln, die die Keywords enthalten und dann nach Relevanz sortieren (PageRank) aber: bei Standardsuche wird meist nach einer konkreten Information gesucht

Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden

Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden besser wäre es, wenn direkt die benötigte Information zurückgegeben werden würde

Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden besser wäre es, wenn direkt die benötigte Information zurückgegeben werden würde eine Information bezieht sich meist auf ein oder mehrere konkrete Objekte und deren Beziehungen

Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden besser wäre es, wenn direkt die benötigte Information zurückgegeben werden würde eine Information bezieht sich meist auf ein oder mehrere konkrete Objekte und deren Beziehungen wir wollen also spezielle Entitäten mit bestimmten Eigenschaften finden

Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden besser wäre es, wenn direkt die benötigte Information zurückgegeben werden würde eine Information bezieht sich meist auf ein oder mehrere konkrete Objekte und deren Beziehungen wir wollen also spezielle Entitäten mit bestimmten Eigenschaften finden

Herausforderungen Was sind Entitäten?

Herausforderungen Was sind Entitäten? --> Sinntragende Einheiten Kolibri

Herausforderungen Was sind Entitäten? --> Sinntragende Einheiten Kolibri Golden Gate Bridge

Herausforderungen falsche/unvollständige Schreibweisen Addresse, Billiard, Imbus(schlüssel)

Herausforderungen Mehrdeutigkeit von Wörtern/Phrasen (Homonymie) VS.

Herausforderungen viele verschiedene Wörter können auf eine Entität verweisen (Synonymie) George W. Bush, G. Bush, GB, Bush, der ehemalige Präsident der Vereinigten Staaten von Amerika"

Herausforderungen Wie lassen sich verschiedene Vorkommen einer Entität (evtl. in verschiedenen Dokumenten) vereinigen? Java ist auch eine Insel die nun von Oracle weiterentwickelte Programmiersprache Die Programmiersprache Java ist toll.

Herausforderungen Wann bilden Wortgruppen eine Entität, wann zerfallen sie in mehrere? Was gehört alles dazu? big ben er hat in havanna liebe genossen."

Allgemeine Herangehensweise 1) Entitäten extrahieren 2) Entitäten korpusweit aggregieren 3) Entitäten bzgl. einer Anfrage ranken 4) Beste(s) Ergebnis(se) in strukturierter Form ausgeben

Möglichkeiten und Angewandte Verfahren Extraktion von Entitäten: Bestimmung der Kandidaten durch Regex, Wörterbuch, POS-Tagging etc. d.h. Teile der Einheiten ausfindig machen, ist allerdings niemals 100% korrekt Entitäten bestimmen: viele Heuristiken möglich, z.b. längstes Multitoken ist Entität

Möglichkeiten und Angewandte Verfahren Was wissen wir über die Entität? Können wir Hintergrundwissen heranziehen?

Möglichkeiten und Angewandte Verfahren Entity Rank über textbasierte Methoden (Benutzung von natural language texts) 1. VSM, Entitäten finden durch Nutzung von Wikipedia- Artikeln (welche Artikel?) 2. Unterscheidung von Keywords und Entitäten in Query (Entitäten extra angeben; z.b. Ebay Kundenservice #Telefonnummer ) 3. Machine Learning a. gleiche Idee mit den Wikipedia-Artikeln b. Feature Vector (Substrings, Abkürzungen, kontextuelle, semantische Features etc.)

Möglichkeiten und Angewandte Verfahren Entity Rank mit Hilfe Strukturierter Informationen (Graph based) Dokumente des Korpus und die Query werden mit Konzepten einer Ontologie annotiert jede Annotation ist zu einer bestimmten Wahrscheinlichkeit richtig (Score) Abhängig beispielsweise von der Ambiguität des Terms, dem Edit-Abstand und der Überdeckung des Konzeptnamens

Möglichkeiten und Angewandte Verfahren Entity Rank mit Hilfe Strukturierter Informationen (Graph based) die Scores können auf abstraktere Konzepte (verknüpft mit SubClassOf-Relationen) propagiert werden für jedes Dokument ergibt sich ein Vektor mit enthaltenen Konzept-Scores Winkel zwischen Vektor der Query und Vektoren der Dokumente führt zu einem Ranking dieser

Google Knowledge Graph

Ausblick Komplexere Anfragen werden bis jetzt noch nicht beantwortet 10 deepest lakes in the usa The destiny of search is to become the Star Trek computer, a perfect assistant by my side... Amit Singhal, senior vice president and software engineer at Google Inc.

Quellen Brauer, F., Huber, M., Hackenbroich, G., Leser, U., Naumann, F. and Barczynski, W. (2010). "Graph-Based Concept Identification and Disambiguation for Enterprise Search ". 19th Int. World Wide Web Conference, Raleigh, US. pp 171-180. Chakaravarthy, V. T., Gupta, H., Prasan, R. and Mohania, M. (2006). "Efficiently linking text documents with relevant structured information". 32nd Int. Conf. on Very Large Data Bases, Seoul, Korea. pp 667-678. Cheng, T., Yan, X. and Chang, K. C. C. (2007). "EntityRank: searching entities directly and holistically". 33rd International Conference on Very Large Data Bases, Vienna, Austria. pp 387-398. Torsten Huber (2012). Entity Linking - A Survey of Recent Approaches Terri Greene, (2012). Google s Knowledge Graph: Semantic Search Results. http://www.intouchsol.com/insights/articles/08-17- 12/Google_s_Knowledge_Graph_Semantic_Search_Results.aspx