Entity Search. Michel Manthey Arne Binder 2013

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Entity Search. Michel Manthey Arne Binder 2013"

Transkript

1 Entity Search Michel Manthey Arne Binder 2013

2 Gliederung Idee Herausforderungen Allgemeine Herangehensweise Möglichkeiten und angewandte Verfahren Ausblick Quellen

3 Idee Bisher: Suche nach Dokumenten, die am besten zu einer Menge von Keywords passen

4 Idee Bisher: Suche nach Dokumenten, die am besten zu einer Menge von Keywords passen d.h. alle Dokumente einsammeln, die die Keywords enthalten und dann nach Relevanz sortieren (PageRank)

5 Idee Bisher: Suche nach Dokumenten, die am besten zu einer Menge von Keywords passen d.h. alle Dokumente einsammeln, die die Keywords enthalten und dann nach Relevanz sortieren (PageRank) aber: bei Standardsuche wird meist nach einer konkreten Information gesucht

6 Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden

7 Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden besser wäre es, wenn direkt die benötigte Information zurückgegeben werden würde

8 Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden besser wäre es, wenn direkt die benötigte Information zurückgegeben werden würde eine Information bezieht sich meist auf ein oder mehrere konkrete Objekte und deren Beziehungen

9 Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden besser wäre es, wenn direkt die benötigte Information zurückgegeben werden würde eine Information bezieht sich meist auf ein oder mehrere konkrete Objekte und deren Beziehungen wir wollen also spezielle Entitäten mit bestimmten Eigenschaften finden

10 Idee diese muss dann händisch aus den zurückgegeben Dokumenten entnommen werden besser wäre es, wenn direkt die benötigte Information zurückgegeben werden würde eine Information bezieht sich meist auf ein oder mehrere konkrete Objekte und deren Beziehungen wir wollen also spezielle Entitäten mit bestimmten Eigenschaften finden

11 Herausforderungen Was sind Entitäten?

12 Herausforderungen Was sind Entitäten? --> Sinntragende Einheiten Kolibri

13 Herausforderungen Was sind Entitäten? --> Sinntragende Einheiten Kolibri Golden Gate Bridge

14 Herausforderungen falsche/unvollständige Schreibweisen Addresse, Billiard, Imbus(schlüssel)

15 Herausforderungen Mehrdeutigkeit von Wörtern/Phrasen (Homonymie) VS.

16 Herausforderungen viele verschiedene Wörter können auf eine Entität verweisen (Synonymie) George W. Bush, G. Bush, GB, Bush, der ehemalige Präsident der Vereinigten Staaten von Amerika"

17 Herausforderungen Wie lassen sich verschiedene Vorkommen einer Entität (evtl. in verschiedenen Dokumenten) vereinigen? Java ist auch eine Insel die nun von Oracle weiterentwickelte Programmiersprache Die Programmiersprache Java ist toll.

18 Herausforderungen Wann bilden Wortgruppen eine Entität, wann zerfallen sie in mehrere? Was gehört alles dazu? big ben er hat in havanna liebe genossen."

19 Allgemeine Herangehensweise 1) Entitäten extrahieren 2) Entitäten korpusweit aggregieren 3) Entitäten bzgl. einer Anfrage ranken 4) Beste(s) Ergebnis(se) in strukturierter Form ausgeben

20 Möglichkeiten und Angewandte Verfahren Extraktion von Entitäten: Bestimmung der Kandidaten durch Regex, Wörterbuch, POS-Tagging etc. d.h. Teile der Einheiten ausfindig machen, ist allerdings niemals 100% korrekt Entitäten bestimmen: viele Heuristiken möglich, z.b. längstes Multitoken ist Entität

21 Möglichkeiten und Angewandte Verfahren Was wissen wir über die Entität? Können wir Hintergrundwissen heranziehen?

22 Möglichkeiten und Angewandte Verfahren Entity Rank über textbasierte Methoden (Benutzung von natural language texts) 1. VSM, Entitäten finden durch Nutzung von Wikipedia- Artikeln (welche Artikel?) 2. Unterscheidung von Keywords und Entitäten in Query (Entitäten extra angeben; z.b. Ebay Kundenservice #Telefonnummer ) 3. Machine Learning a. gleiche Idee mit den Wikipedia-Artikeln b. Feature Vector (Substrings, Abkürzungen, kontextuelle, semantische Features etc.)

23 Möglichkeiten und Angewandte Verfahren Entity Rank mit Hilfe Strukturierter Informationen (Graph based) Dokumente des Korpus und die Query werden mit Konzepten einer Ontologie annotiert jede Annotation ist zu einer bestimmten Wahrscheinlichkeit richtig (Score) Abhängig beispielsweise von der Ambiguität des Terms, dem Edit-Abstand und der Überdeckung des Konzeptnamens

24 Möglichkeiten und Angewandte Verfahren Entity Rank mit Hilfe Strukturierter Informationen (Graph based) die Scores können auf abstraktere Konzepte (verknüpft mit SubClassOf-Relationen) propagiert werden für jedes Dokument ergibt sich ein Vektor mit enthaltenen Konzept-Scores Winkel zwischen Vektor der Query und Vektoren der Dokumente führt zu einem Ranking dieser

25 Google Knowledge Graph

26 Ausblick Komplexere Anfragen werden bis jetzt noch nicht beantwortet 10 deepest lakes in the usa The destiny of search is to become the Star Trek computer, a perfect assistant by my side... Amit Singhal, senior vice president and software engineer at Google Inc.

27 Quellen Brauer, F., Huber, M., Hackenbroich, G., Leser, U., Naumann, F. and Barczynski, W. (2010). "Graph-Based Concept Identification and Disambiguation for Enterprise Search ". 19th Int. World Wide Web Conference, Raleigh, US. pp Chakaravarthy, V. T., Gupta, H., Prasan, R. and Mohania, M. (2006). "Efficiently linking text documents with relevant structured information". 32nd Int. Conf. on Very Large Data Bases, Seoul, Korea. pp Cheng, T., Yan, X. and Chang, K. C. C. (2007). "EntityRank: searching entities directly and holistically". 33rd International Conference on Very Large Data Bases, Vienna, Austria. pp Torsten Huber (2012). Entity Linking - A Survey of Recent Approaches Terri Greene, (2012). Google s Knowledge Graph: Semantic Search Results. 12/Google_s_Knowledge_Graph_Semantic_Search_Results.aspx