Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen 3 2.1 Hausübungsbeispiele Semantic Technologies.............. 5 2.2 Übungsbeispiele Semantic Technologies................. 5 2.3 Weiterführende Literatur......................... 6 3 Wichtige Termine 7 4 Druckversion 7 1
1 Informationen zur Lehrveranstaltung Vortragender: Dr. Gerhard Wohlgenannt Termin und Ort: Fr 09:00-13:30. 2H363 (UZA2) Sprechstunde: Tuesday 8:00-9:00am 1.1 Inhalt Teil: Information Retrieval Einführung Wozu IR? Aufgaben, Definitionen, Teilbereiche, Evaluierung Suche und Indizierung Was sind invertierte Indizes, wie funktionieren diese? Suchmaschinen Beispiele anhand Suchmaschinen im Internet Natural Language Processing Grundlegende Methoden: Segmentation, POS-Tagging, NER, stemming, chunking, parsing Klassisches IR Grundkonzepte des klassischen IR: Schlagwörter, Klassifikationssysteme, Thesauri Clustering Was ist clustering. Wozu? Wie? (anhand KMeans) Classification Was ist classification? Wozu? Wie? Einführung in Machine Learning Methoden. IR Usecase Demonstration vieler der besprochenen Technologien anhand http://www. ecoresearch.net/climate/ Teil: Semantic Technologies Einführung, XML Warum werden Semantische Technologien benötigt? Welche Probleme sollen diese lösen? 2
Resource Description Framework (RDF) Wie stellt man Informationen in einem für Computer automatisch verarbeitbaren Format dar? Information Retrieval Usecase Wie gehen klassische IR-Methoden vor? Was ist die Ausgangsposition für Semantische Technologien? Ontologien - Theorie Was versteht man unter Ontologien? Wofür werden diese benötigt? Ontologien - Sprachen (RDFS, OWL) Wie kann man selbst Ontologien spezifizieren? Welche Sprachen werden dafür verwendet? 2 Unterlagen Teil Information Retrieval IR Basics, boolean retrival, invertierte Indizies 1 (1 slide per page) 2 Ranked retrival, Vector Space Model,... 3 (1 slide per page) 4 Regular Expressions 5 (1 slide per page) 6 Tolerant Retrieval and Index Creation 7 (1 slide per page) 8 Classic IR (selected topics) 9 (1 slide per page) 10 Advanced NLP 11 (1 slide per page) 12 Machine Learning: Clustering and Classification 13 (1 slide per page) 14 1 pdf/4_ir_intro_basics.pdf 2 pdf/ir_intro_basics.pdf 3 pdf/4_ir_ranked_retrieval.pdf 4 pdf/ir_ranked_retrieval.pdf 5 pdf/4_ir_regexp.pdf 6 pdf/ir_regexp.pdf 7 pdf/4_ir_index_creation.pdf 8 pdf/ir_index_creation.pdf 9 pdf/4_ir_classic.pdf 10 pdf/ir_classic.pdf 11 pdf/4_ir_advanced_nlp_merged.pdf 12 pdf/ir_advanced_nlp_merged.pdf 13 pdf/4_ir_cluster_classif.pdf 14 pdf/ir_cluster_classif.pdf 3
IR Research Use Case (kein Teststoff) 15 IR Projects Use case Infos 16 IR Projects Use case Methods 17 Teil Semantic Technologies XML 18 (1 slide per page) 19 Resource Description Framework (RDF) 20 (1 slide per page) 21 Information Retrieval - Usecase 22 (1 slide per page) 23 Ontologien - Theorie 24 (1 slide per page) 25 Ontologien - Sprachen (RDFS, OWL) 26 (1 slide per page) 27 Slides about Reasoning (external) 28 Linked (Open) Data 29 (1 slide per page) 30 Querying the Semantic Web (SPARQL) 31 (1 slide per page) 32 Topics 33 15 pdf/ir_research_use_case.pdf 16 pdf/ir_projects_usecase_infos_merged.pdf 17 pdf/ir_projects_usecase_methods_merged.pdf 18 pdf/4_xml.pdf 19 pdf/xml.pdf 20 pdf/4_rdf.pdf 21 pdf/rdf.pdf 22 pdf/4_ir_usecase.pdf 23 pdf/ir_usecase.pdf 24 pdf/4_owl_theory.pdf 25 pdf/owl_theory.pdf 26 pdf/4_owl_language.pdf 27 pdf/owl_language.pdf 28 http://de.slideshare.net/fulvio.corno/logic-and-reasoning-in-the-semantic-web 29 pdf/4_linked_data.pdf 30 pdf/linked_data.pdf 31 pdf/4_sparql.pdf 32 pdf/sparql.pdf 33 pdf/topics.pdf 4
2.1 Hausübungsbeispiele Semantic Technologies Die Hausübungsbeispiele sind für die entsprechende Unterrichtseinheit vorzubereiten und werden gemeinsam in der LV besprochen: unstrukturierte Daten und XML 34 Resource Description Framework 35 (Hausübung: Beispiel 1,2 und 4; nicht jedoch Beispiel 3) Regular Expressions 36 2.2 Übungsbeispiele Semantic Technologies unstrukturierte Daten und XML Stellen Sie folgenden 37 Datensatz als XML-File dar. Vergeben Sie selbst sinnvolle Namen für die Elemente. Erstellen Sie den XML-Baum für obiges Beispiel. Resource Description Framework Zur Modellierung von Aussagen in.rdf gibt es folgendes Beispiel 38 Erweitern sie den Teilgraphen für das Buch Java für Studenten um die Information, dass es sich bei den Autoren um Personen handelt. Verwenden Sie hierfür die Eigenschaft foaf:fullname (foaf:fullname kann nur Personen zugeordnet werden). Stellen Sie das Ergebnis als (Teil-)graph, in Form von Tripeln und in RDF/XML dar Ontologien Beispiel: The Robber and the Speeder 39 (von xfront.com) Gegeben ist folgende Ontologie: Beer Ontology 40 (RDF/XML) Zeichnen Sie die Klassenhierarchie für diese Ontologie auf Theorie: 34 pdf/hausuebungsbeispiele/unit1.pdf 35 pdf/hausuebungsbeispiele/unit3.pdf 36 pdf/hausuebungsbeispiele/unit2.pdf 37 pdf/examples/xml/example_xml.pdf 38 pdf/examples/rdf/example_rdf.pdf 39 pdf/examples/example4_robber_and_speeder_extended.pdf 40 http://www.schemaweb.info/webservices/rest/getrdfbyid.aspx?id=99 5
Welche Werte kann die Eigenschaft brewedby annehmen? Welche Eigenschaft muss ein Individuum aufweisen, um an dieser Beziehung teilnehmen zu können? Können Individuen der Klasse Ale an der brewedby Beziehung teilnehmen. - Wenn ja, warum? 2.3 Weiterführende Literatur Introduction to Information Retrieval 41 Buch Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008 (online verfügbar) Classic IR Folien von Prof Panny 42 Folien aus den vergangenen Semestern von Prof. Panny (Bereich: Klassisches IR) Machine Learning course (Standford Univ) 43 Online lectures on machine learning by Andrew Ng (Standford) for the very interested that have no life :-) World Wide Web Consortium 44 - die wichtigsten Spezifikationen rund um das semantische Web W3 Schools 45 - Simple and good tutorials zu XML, RDF,... The Semantic Web 46 - Ein sehr guter einführender Artikel von Tim Berners-Lee, James Hendler und Ora Lassila in Scientific America Tutorial on Semantic Web Technologies 47 Building, Sharing, and Merging Ontologies 48 - ein sehr guter Artikel von John F. Sowa SPARQL W3C 49 Offizielle Doku vom W3C. Linked Data Book 50 Ausführliche Informationen zum Thema Linked Data further reading. 41 http://nlp.stanford.edu/ir-book/ 42 http://wwwai.wu.ac.at/ panny/ir/ 43 http://www.academicearth.org/courses/machine-learning 44 http://www.w3.org/ 45 http://www.w3schools.com/ 46 http://www.sciam.com/article.cfm?articleid=00048144-10d2-1c70-84a9809ec588ef21 47 http://www.w3.org/2005/talks/1214-trento-ih/ 48 http://www.jfsowa.com/ontology/ontoshar.htm 49 http://www.w3.org/tr/rdf-sparql-query/ 50 http://linkeddatabook.com/ 6
3 Wichtige Termine Erste Einheit: 05. Apr 2013 Test: 19. Apr 2013 4 Druckversion Die Druckversion dieser Seite finden Sie auf (pdf/ir.pdf). 7