Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Größe: px
Ab Seite anzeigen:

Download "Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen"

Transkript

1 Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014

2 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale Daten enthalten! Google Studie von 2008: 14.1 Milliarden Tabellen 154 Millionen relational Beispielanwendungen: Konstruktion von Knowledge Bases Erweiterung von lokalen Datenbanken ( DrillBeyond)

3 Herausforderung Name Pop Code Germany 81.9.de Berlin England 53.1.co.uk London France 65.7.fr Paris Beispielanfrage: Population, Capital of Germany Ziel: Spalten in Webtabelle auf Attributnamen in Anfrage mappen Attributlabel finden, die Spaltennamen ersetzen/spezifizieren/erweitern Im Beispiel: Name Country Pop Population Code Internet Code Capital

4 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

5 Attributlabel finden bisherige Ansätze: entweder über Inhalt der Tabelle und Knowledge Base oder über Webseite der Tabelle als bag of words

6 Attributlabel finden bisherige Ansätze: entweder über Inhalt der Tabelle und Knowledge Base oder über Webseite der Tabelle als bag of words Hier hybrider Ansatz: 1. über Inhalt der Tabellen mit Hilfe einer Knowledge Base

7 Attributlabel finden bisherige Ansätze: entweder über Inhalt der Tabelle und Knowledge Base oder über Webseite der Tabelle als bag of words Hier hybrider Ansatz: 1. über Inhalt der Tabellen mit Hilfe einer Knowledge Base 2. über Kontext der Tabelle mit Hilfe von NLP-Techniken

8 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

9 Knowledge Base YAGO YAGO Knowledge Base aus Wikipedia und Wordnet extrahierte universelle KB mit RDF(S) modellierte Ontologie: formale Repräsentation von Wissen in maschinenlesbarem Format modelliert als Graphstruktur

10 Strategie 1. Spaltenzellen auf Entitäten einer KB abbilden 2. YAGO-Klasse finden, die am wahrscheinlichsten eine Spalte repräsentiert

11 YAGO-Entitäten zu Berlin Quelle: MPI

12 Spaltenzellen auf Entitäten abbilden DBPedia Lookup Service gibt bei Eingabe eines Strings URIs von korrespondieren Entitäten aus Ergebnisse gerankt nach: Ähnlichkeit zum eingegebenen String PageRank der Wikipedia-Seite der Entität

13 Klassen und Distanzen Ergebnisse des Lookup Klassen und ihre Distanzen zu Entitäten mit Tiefensuche ermitteln

14 Scoring und Ranking Scoring rank Rang der im URI Lookup gefundenen URI distance taxonomische Distanz der Klasse zur Entität numuris Anzahl aller zurückgegebenen URIs score class = 1 rank 1 distance numuris Ranking (für jede Spalte) alle gefundenen Klassen erhalten Scorewert Werte für jede distinkte Klasse werden aufsummiert score Capital = 2 ( ) 3 = 2 3 analoge Berechnung für alle Klassen und Ausgabe einer sortierten Liste: [Capital(0.66), CIty(0.33), Celebrity(0.33), Person(0.17)]

15 Überlegung Nachteil des KB-Ansatzes: nur Named Entities können Individuen einer universellen KB sein greift nicht bei numerischen, boolschen Werte etc. Daher: zweiter Ansatz, der Kontext der Tabelle betrachtet Nutzen von NLP-Techniken zur Informationsextraktion

16 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

17 Extraktion des Kontextes Quelle: Wikipedia

18 Extraktion des Kontextes Quelle: Wikipedia Extraktion des Textes, der Tabelle umgibt Extraktion von Überschrift der Tabelle und des gesamten Abschnittes

19 Betrachtung des Kontextes

20 Betrachtung des Kontextes

21 Extraktion von Noun Phrases Algorithmus: 1. Extraktion der Noun Phrases aus Text, der Tabelle umgibt 2. Für jede Spalte 2.1 Suche nach Spaltennamen als Substrings in Noun Phrases 2.2 Ausgabe der Noun Phrases, sortiert nach Frequenz

22 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

23 Betrachtung des Kontextes etwa 20 % der betrachteten Spaltenüberschriften: Name oder Title Suche nach diesen als Substrings im Text nicht hilfreich

24 Suche nach YAGO-Klasse im Kontext etwa 20 % der betrachteten Spaltenüberschriften: Name oder Title Suche nach diesen als Substrings im Text nicht hilfreich Kombination beider Ansätze: Suche nach gefundenen YAGO-Klassenlabels im Kontext liefert hier: secondary schools

25 Inhaltsverzeichnis Motivation Attributlabel finden Ansatz über Knowledge Base Ansatz über Kontext der Tabelle Kombination beider Ansätze Evaluation

26 Evaluation Experimente Korpus mit 50 Wikipedia-Webtabellen Varianten mit YAGO Simple (reduzierte Version der KB) YAGO Full (volle KB) nur Kontext-Ansatz Bewertung des Top-Ergebnisses und aller Ergebnisse mit: 100 korrekt und hilfreich 50 korrekt, aber nicht hilfreich 0 falsch

27 Evaluation Schwierigkeit bei Kontext-Ansatz keine Handhabe, falsche oder uninformative Noun Phrases herauszufiltern z.b: city new york city, company following company Vergleich YAGO Simple/Full unerwartet bessere Ergebnisse mit YAGO Simple Klassen in YAGO Full oft zu spezifisch z.b.: British Formula Three Championship Driver Ergebnisse mit YAGO Simple Ergebnisse mit YAGO Full

28 Ansatzpunkte für zukünftige Arbeiten Bewertung der Qualität der extrahierten Noun Phrases über feature-basierten Machine-Learning Ansatz Erweiterung des Korpus auf beliebige Webseiten und Anpassung der Algorithmen

29 Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014

30 Noun Phrase Chunking Noun Phrase (Nominalphrase): nicht-rekursive Struktur, deren Kopf ein Nomen ist, dem null oder mehr Adjektive oder Nomen vorangestellt sind Noun Phrase Chunking gegeben: Part-of-Speech getaggter Text Grammatik (z.b. <Adj >* <N >+) Noun Phrase Chunker durchsucht den getaggten Text nach Phrasen, die der Grammatik entsprechen, und gibt diese als Liste aus. Beispiele für Noun Phrases: secondary school school internet code

31 Evaluation Precision Attributnamen: 0.66 Attributnamen (nur Named Entities): 0.73 Precision Attributnamen (nur NLP-Ansatz): 0.53 Precision Relationennamen: 0.89 Coverage ca. 46 % (1000 Tabellen betrachtet)

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei

Mehr

Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008

Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008 Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008 Laut Studienordnung Master/Diplom: 16ECTS/15KP Entspricht: 480 Semesterstunden = 34h/Woche pp p.p.

Mehr

Freebase Eine Datenbank mit RDF-Tripeln zu Personen, Orten, Dingen(2005-2012)

Freebase Eine Datenbank mit RDF-Tripeln zu Personen, Orten, Dingen(2005-2012) Freebase Eine Datenbank mit RDF-Tripeln zu Personen, Orten, Dingen(2005-2012) Karin Haenelt 1.5.2015 Inhalt Historie Datenbank 2 Historie 2005-2012 Freebase 7.2005, Metaweb Technologies Inc. entwickelt

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

YAGO YAGO. A semantic knowledge base. Paul Boeck. Humboldt Universität zu Berlin Institut für Informatik. Dezember 2012 1/19

YAGO YAGO. A semantic knowledge base. Paul Boeck. Humboldt Universität zu Berlin Institut für Informatik. Dezember 2012 1/19 1/19 A semantic knowledge base Paul Boeck Humboldt Universität zu Berlin Institut für Informatik Dezember 2012 2/19 Übersicht 1 Einführung 2 Das Modell Struktur Semantik 3 Das System 4 Anwendung 3/19 Einführung

Mehr

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN

INFORMATIONSEXTRAKTION IN SUCHMASCHINEN INFORMATIONSEXTRAKTION IN SUCHMASCHINEN S E M I N A R S U C H M A S C H I N E N S O M M E R S E M ESTER 2014 S T E FA N L A N G E R, C I S, U N I V E R S I TÄT M Ü N C H E N Schematische Architektur einer

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

im folgenden eine ausführliche Keyword-Analyse von cosmobutler.com.

im folgenden eine ausführliche Keyword-Analyse von cosmobutler.com. www.seosuisse.ch info@seosuisse.ch Zilmattweg 1 6403 Küssnacht Aug 15, 2014 Ihre persönliche Keyword-Analyse für cosmobutler.com Sehr geehrter Herr Beninca im folgenden eine ausführliche Keyword-Analyse

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Ziele und Herausforderungen

Ziele und Herausforderungen Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische

Mehr

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

HEALTH Institut für Biomedizin und Gesundheitswissenschaften HEALTH Institut für Biomedizin und Gesundheitswissenschaften Konzept zur Verbesserung eines klinischen Information Retrieval Systems unter Verwendung von Apache UIMA und medizinischen Ontologien Georg

Mehr

Industrie 4.0 und Smart Data

Industrie 4.0 und Smart Data Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen

Mehr

Nomen est omen? Neue gtlds Ein SEO Rankingfaktor? Martin Scholz 26. Februar 2015 Berlin

Nomen est omen? Neue gtlds Ein SEO Rankingfaktor? Martin Scholz 26. Februar 2015 Berlin Nomen est omen? Neue gtlds Ein SEO Rankingfaktor? Martin Scholz 26. Februar 2015 Berlin SEARCHMETRICS Gegründet 2007 in Berlin 165 passionierte Mitarbeiter Innovator für SEO Software 3 Searchmetrics Inc.

Mehr

Was sind Ontologie-Editoren?

Was sind Ontologie-Editoren? Was sind Ontologie-Editoren? Kurzeinführung Protégé Sonja von Mach und Jessica Otte Gliederung Ontologie Editoren- allgemein warum nutzen wofür nutzen Probleme Marktlage Einführung in die praktische Arbeit

Mehr

Informationsextraktion

Informationsextraktion Informationsextraktion Bestimmte Anwendungen bei der semantischen Verarbeitung erfordern keine tiefe linguistische Analyse mit exakter Disambiguierung (= eine einzige und korrekte Lesart). Hierzu gehört

Mehr

Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014

Semantik in Suchmaschinen Beispiele. Karin Haenelt 7.12.2014 Semantik in Suchmaschinen Beispiele Karin Haenelt 7.12.2014 Inhalt Google Knowledge Graph Freebase schema.org 2 Google Knowledge Graph Zuordnung von Suchtermen zu Weltentitäten Darstellung von Zusammenhängen

Mehr

1 Boolesches Retrieval (2)

1 Boolesches Retrieval (2) 2. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 mit Lösungsvorschlägen Prof. Dr. Gerd Stumme, M.Sc. Wi-Inf. Beate Krause 06. Mai 2009 1 Boolesches Retrieval (2) Eine Erweiterung des

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Entwicklung eines E-Learning Topic-Map Rahmenwerks

Entwicklung eines E-Learning Topic-Map Rahmenwerks Institut für Betriebssysteme und Rechnerverbund der TU Braunschweig Verteilte Systeme, Prof. Dr. Fischer Entwicklung eines Topic-Map Rahmenwerks Betreuer: Martin Gutbrod Bearbeitet von: Yichen Yu Gliederung

Mehr

Inaugural-Dissertation. Philosophie

Inaugural-Dissertation. Philosophie Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Softwareentwicklungspraktikum Sommersemester 2007. Feinentwurf

Softwareentwicklungspraktikum Sommersemester 2007. Feinentwurf Softwareentwicklungspraktikum Sommersemester 2007 Feinentwurf Auftraggeber Technische Universität Braunschweig

Mehr

Ohne Mathematik undenkbar!

Ohne Mathematik undenkbar! Die tägliche - Suche: Ohne Mathematik undenkbar! Dipl.-Wirt.Math. Jan Maruhn FB IV - Mathematik Universität Trier 29. März 2006 29. März 2006 Seite 1 Gliederung Einleitung und Motivation Das Internet als

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 14. OKTOBER 2011 1. Schlüsselworte Semantik, Informationsextraktion, Automatisierte Syntaxanalyse, Validierung, Chunking, Tagging,

Mehr

Sie lieben das Zahlenrätsel Sudoku? Diese kostenlosen Programme helfen Ihnen dabei

Sie lieben das Zahlenrätsel Sudoku? Diese kostenlosen Programme helfen Ihnen dabei Sudoku schnell und sicher lösen X S YYY/01 795/01 Register STU Sie lieben das Zahlenrätsel Sudoku? Diese kostenlosen Programme helfen Ihnen dabei In Zeitungen und Zeitschriften finden Sie heute regelmäßig

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Erzeugen benutzerdefinierter Buchstabenlisten in EXCEL

Erzeugen benutzerdefinierter Buchstabenlisten in EXCEL Erzeugen benutzerdefinierter Buchstabenlisten in EXCEL In der Praxis werden öfter Tabellen mit Spaltenüberschriften, die Buchstabenfolgen haben, versehen. Dabei ist es müßig, diese Überschriften immer

Mehr

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten FOM Hochschulzentrum Dortmund, Fachbereich Wirtschaftsinformatik

Mehr

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen 186.172 Algorithmen und Datenstrukturen 1 VL 4.0 Übungsblatt 4 für die Übung

Mehr

Anfrage Erweiterung 03.11.2011 Jan Schrader

Anfrage Erweiterung 03.11.2011 Jan Schrader Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen

Mehr

Semantic Web Technologies I

Semantic Web Technologies I Semantic Web Technologies I Lehrveranstaltung im WS11/12 Dr. Elena Simperl PD Dr. Sebastian Rudolph M. Sc. Anees ul Mehdi Ontology Engineering Dr. Elena Simperl XML und URIs Einführung in RDF RDF Schema

Mehr

Erfolgreich suchen im Internet

Erfolgreich suchen im Internet Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität

Mehr

Datenbanken Unit 4: Das Relationale Modell & Datenintegrität

Datenbanken Unit 4: Das Relationale Modell & Datenintegrität Datenbanken Unit 4: Das Relationale Modell & Datenintegrität 15. III. 2016 Outline 1 Organisatorisches 2 SQL 3 Relationale Algebra Notation 4 Datenintegrität Organisatorisches Erster Zwischentest: nach

Mehr

Analysieren Sie Ihre Verkäufe und Lagerbestandsreichweite mit Hilfe des neuen Berichts zu allen Bestellungen.

Analysieren Sie Ihre Verkäufe und Lagerbestandsreichweite mit Hilfe des neuen Berichts zu allen Bestellungen. Analysieren Sie Ihre Verkäufe und Lagerbestandsreichweite mit Hilfe des neuen Berichts zu allen Bestellungen www.fba.amazon.de Agenda Übersicht über den Alle Bestellungen Bericht Beispielanwendungen Neu

Mehr

- Angebots- und Vertragswesen: Angebot

- Angebots- und Vertragswesen: Angebot - Angebots- und Vertragswesen: Angebot Version: 1.0(final) Projektbezeichnung Projektleiter Verantwortlich MSP-13 - Integration eines Semantischen Tagging Systems in Microsoft Sharepoint Martin John Projektleiter

Mehr

- - CodE 11 CodE 0 0 0 0 0 0 0 0 2.o C 1 10.0 C 2 off 3 3.0 4 2.0 5 off 6 1 8 20.0 9 60 C 7 4.0 10 80 C 1 38 C 12 8 k 13 on 14 30.0 15 10 16 - - CodE 11 CodE 0 0 0 0 0 0 0 0 2.o C 1 10.0 C 2

Mehr

3. Ontologien und Wissensbasen

3. Ontologien und Wissensbasen Ontologien Ontologien stellen mittlerweile die Basis für viele innovative wissensbasierte Systeme dar: 3. Ontologien und Wissensbasen ecommerce/elearning Knowledge Management Informationsextraktion/Data-mining

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Strukturelle Modelle SVMstruct Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik 16.12.2008 1 von 35 Gliederung LS 8 Künstliche Intelligenz Fakultät für

Mehr

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013 Forschunsprojekte und Independent Coursework Prof. Dr. Christian Herta 29. Januar 2013 Forschungsgebiete Suchtechnologie, Text- und Webmining Verarbeitung unstrukturierter Daten, insbesondere Text Large

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse

Mehr

Survival of the Fittest Optimierung mittels Genetischer Algorithmen

Survival of the Fittest Optimierung mittels Genetischer Algorithmen Übung zu Organic Computing Survival of the Fittest Optimierung mittels Genetischer Algorithmen Sabine Helwig Lehrstuhl für Informatik 12 (Hardware-Software-Co-Design) Universität Erlangen-Nürnberg sabine.helwig@informatik.uni-erlangen.de

Mehr

Die Funktion SVERWEIS(Suchkriterium;Matrix;Index;Bereich_Verweis)

Die Funktion SVERWEIS(Suchkriterium;Matrix;Index;Bereich_Verweis) Die Funktion SVERWEIS(Suchkriterium;Matrix;Index;Bereich_Verweis) Argumente: Suchkriterium: Ein Wert, Text oder Bezug, nach dem in der ersten Spalte eines Bereiches (Matrix) gesucht werden soll. Matrix:

Mehr

WiWi SoSe2016 Excel Grundlagen

WiWi SoSe2016 Excel Grundlagen Excel Grundlagen Agenda Grundlagen Diagramme Wenn-Formel Bezüge Grundlagen Grundlagen Aufbau einer Formel: Bestandteil Erläuterung = Gleichheitszeichen leiten den Beginn einer Berechnung ein. NAME Name

Mehr

Datenqualitätsmodelle

Datenqualitätsmodelle Datenqualitätsmodelle Stefan Willi Hart 3. Dezember 2009 Stefan Willi Hart () Datenqualitätsmodelle 3. Dezember 2009 1 / 14 Inhaltsverzeichnis 1 Motivation 2 Modelle Systemseitiges DQ-Modell Allgemein

Mehr

BonnBau. Grundrissmappe

BonnBau. Grundrissmappe Grundrissmappe Auf den folgenden Seiten finden Sie sortiert nach der Reihenfolge der Mappe Hausabbildung, Grundrissvorschläge, die als Grundlage für Ihre individuelle Planung dienen können Bitte beachten

Mehr

3. Das Relationale Datenmodell

3. Das Relationale Datenmodell 3. Das Relationale Datenmodell Das Relationale Datenmodell geht zurück auf Codd (1970): E. F. Codd: A Relational Model of Data for Large Shared Data Banks. Comm. of the ACM 13(6): 377-387(1970) DBMS wie

Mehr

Webalizer HOWTO. Stand: 18.06.2012

Webalizer HOWTO. Stand: 18.06.2012 Webalizer HOWTO Stand: 18.06.2012 Copyright 2003 by manitu. Alle Rechte vorbehalten. Alle verwendeten Bezeichnungen dienen lediglich der Kennzeichnung und können z.t. eingetragene Warenzeichen sein, ohne

Mehr

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2013: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache

Mehr

Vorlesung Computerphilologie. Ontologien und Ontologie-Sprachen

Vorlesung Computerphilologie. Ontologien und Ontologie-Sprachen Wintersemester 2006 Institut für Germanistik I Vorlesung Computerphilologie Ontologien und Ontologie-Sprachen Wie kann man Inhalte (von Webseiten) erschließen? v.hahn Uni Hamburg 2005 1 Was bringen Ontologien

Mehr

Software Analyse Tooldemo: JQuery Sommersemester 2011. Jonas Pusch

Software Analyse Tooldemo: JQuery Sommersemester 2011. Jonas Pusch Software Analyse Tooldemo: JQuery Sommersemester 2011 Jonas Pusch Gliederung 1. Was ist JQuery? 2. Browsing Code (Motivation for JQuery) 3. Wie funktioniert JQuery? i. JQuery Features ii. TyRuBa (Sprache

Mehr

Pflege der Communitydaten

Pflege der Communitydaten Pflege der Communitydaten Im Folgenden werden alle Reiter und deren Bedienfelder in der Community für Kunden- und Firmendaten betrachtet, um die Bedienung noch einfacher zu machen. In der Stammdatenverwaltung

Mehr

Semantische Reputationsinteroperabilität

Semantische Reputationsinteroperabilität Semantische sinteroperabilität Adrian Paschke (CSW) und Rehab Alnemr (HPI) Corporate Semantic Web Workshop, Xinnovations 2010, 14. September 2010, Berlin Agenda Motivation Unternehmensreputation Probleme

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Erkennung fremdsprachiger Ausdrücke im Text

Erkennung fremdsprachiger Ausdrücke im Text Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Wir basteln einen Jahreskalender mit MS Excel

Wir basteln einen Jahreskalender mit MS Excel Guido Knauf bunte akademie Wir basteln einen Jahreskalender mit MS Excel In meinen Seminaren werde ich hin und wieder nach einem Excel-Jahreskalender gefragt. Im Internet findet man natürlich eine ganze

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

Agile Knowledge Engineering und Semantic Web - Aussen gut. Innen besser.

Agile Knowledge Engineering und Semantic Web - Aussen gut. Innen besser. Agile Knowledge Engineering und Semantic Web - Aussen gut. Innen besser. Thomas Riechert*, Christian Rau** Universität Leipzig * Agile Knowledge Engineering and Semantic Web und ** Lehrstuhl für Neuere

Mehr

Semantische Inhalte für Nicht-Semantiker

Semantische Inhalte für Nicht-Semantiker Semantische Inhalte für Nicht-Semantiker Ralf Heese Freie Universität Berlin Freie Universität Berlin Der Nicht-Semantiker + Verständnis von der Anwendungsdomäne + Benutzerkenntnisse zu Desktop-Anwendungen,

Mehr

Datenmodelle im Kontext von Europeana. Stefanie Rühle (SUB Göttingen)

Datenmodelle im Kontext von Europeana. Stefanie Rühle (SUB Göttingen) Datenmodelle im Kontext von Europeana Stefanie Rühle (SUB Göttingen) Übersicht Datenmodelle RDF DCAM ORE SKOS FRBR CIDOC CRM Datenmodelle "Datenmodellierung bezeichnet Verfahren in der Informatik zur formalen

Mehr

Programmieren was ist das genau?

Programmieren was ist das genau? Programmieren was ist das genau? Programmieren heisst Computerprogramme herstellen (von griechisch programma für Vorschrift). Ein Computerprogramm ist Teil der Software eines Computers. Als Software bezeichnet

Mehr

Digitale Umsetzung und Nutzung archäologischer Terminologien

Digitale Umsetzung und Nutzung archäologischer Terminologien 50 Jahre Prähistorische Bronzefunde. Bilanz und Perspektiven (PBF Kolloquium) Sep 24 26, 2014, Akademie der Wissenschaften und Literatur, Mainz Digitale Umsetzung und Nutzung archäologischer Terminologien

Mehr

Ein Ausflug zu ACCESS

Ein Ausflug zu ACCESS Ein Ausflug zu ACCESS Die folgenden Folien zeigen beispielhaft, wie man sein DB- Wissen auf ACCESS übertragen kann betrachtet wird ACCESS 2002, da gerade im Bereich der Nutzung von SQL hier einiges nachgearbeitet

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

Datenverwaltung mit MS Excel INHALTSVERZEICHNIS

Datenverwaltung mit MS Excel INHALTSVERZEICHNIS INHALTSVERZEICHNIS Datenmatrix... 4 Datenmatrix (DB-Bereich) Aufbau:... 4 Erfassung / Bearbeitung / Löschung:... 4 Neu... 4 Löschen:... 4 Wiederherstellen:... 4 Vorherigen suchen / Weitersuchen:... 4 Kriterien:...

Mehr

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter 2 Inhaltsverzeichnis 1 Web-Kürzel 4 1.1 Einführung.......................................... 4 1.2 Web-Kürzel.........................................

Mehr

Das Komplexe einfach machen

Das Komplexe einfach machen Das Komplexe einfach machen Semantik und Visualisierung im Bibliothekskatalog der Zukunft 14. April 2015 Dr. Jens Mittelbach, SLUB Dresden Das Komplexe einfach machen Semantik und Visualisierung im Bibliothekskatalog

Mehr

Informatik 12 Datenbanken SQL-Einführung

Informatik 12 Datenbanken SQL-Einführung Informatik 12 Datenbanken SQL-Einführung Gierhardt Vorbemerkungen Bisher haben wir Datenbanken nur über einzelne Tabellen kennen gelernt. Stehen mehrere Tabellen in gewissen Beziehungen zur Beschreibung

Mehr

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! www.semantic-web-grundlagen.de Ontology Engineering! Dr. Sebastian Rudolph! Semantic Web Architecture

Mehr

AutoSPARQL. Let Users Query Your Knowledge Base

AutoSPARQL. Let Users Query Your Knowledge Base AutoSPARQL Let Users Query Your Knowledge Base Christian Olczak Seminar aus maschinellem Lernen WS 11/12 Fachgebiet Knowledge Engineering Dr. Heiko Paulheim / Frederik Janssen 07.02.2012 Fachbereich Informatik

Mehr

- Eine wirklich kurze Einführung - Tobias Heinz

- Eine wirklich kurze Einführung - Tobias Heinz - Eine wirklich kurze Einführung - Tobias Heinz 1) Was ist Latex? Übersicht Schauen und staunen... Eigentlich unkompliziert die Funktionsweise 2) Wie geht Latex? Einmal mit allem, bitte! Kann ich das auch?

Mehr

Integration verteilter Datenquellen in GIS-Datenbanken

Integration verteilter Datenquellen in GIS-Datenbanken Integration verteilter Datenquellen in GIS-Datenbanken Seminar Verteilung und Integration von Verkehrsdaten Am IPD Lehrstuhl für Systeme der Informationsverwaltung Sommersemester 2004 Christian Hennings

Mehr

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln

Mehr

Linked Data: Aktuelle Entwicklungen im EU-Projekt Linked Heritage und Europeana

Linked Data: Aktuelle Entwicklungen im EU-Projekt Linked Heritage und Europeana Linked Data: Aktuelle Entwicklungen im EU-Projekt Linked Heritage und Europeana Angela Kailus MAI-Tagung 2012, Leipzig, 21.05.2012 Deutsches Dokumentationszentrum für Kunstgeschichte Bildarchiv Foto Marburg

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Einführung in Heuristische Suche

Einführung in Heuristische Suche Einführung in Heuristische Suche Beispiele 2 Überblick Intelligente Suche Rundenbasierte Spiele 3 Grundlagen Es muss ein Rätsel / Puzzle / Problem gelöst werden Wie kann ein Computer diese Aufgabe lösen?

Mehr

Technologien des Semantic Web und ihre Anwendungen

Technologien des Semantic Web und ihre Anwendungen Fakultät Informatik, Institut für Angewandte Informatik, Professur Technische Informationssysteme Technologien des Semantic Web und ihre Ulrike Fischer Dresden, 21.06.07 Gliederung Motivation Begriff Semantic

Mehr

Inhaltsverzeichnis 18.11.2011

Inhaltsverzeichnis 18.11.2011 Inhaltsverzeichnis Zur besseren Übersicht haben wir die Inhalte auf mehrere Arbeitsblätter aufgeteilt. Dieses Inhaltsverzeichnis dient der Übersicht. Die Namen für die Arbeitsblätter unterliegen einer

Mehr

Gliederung. Dokumentverarbeitung. Das YAGO System. Das YAGO System. YAGO: Yet Another Great Ontology. D. Rösner

Gliederung. Dokumentverarbeitung. Das YAGO System. Das YAGO System. YAGO: Yet Another Great Ontology. D. Rösner Gliederung Dokumentverarbeitung YAGO: Yet Another Great Ontology 1 D. Rösner 2 Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg Winter 2013/14,

Mehr

Web 3.0. Das semantische Web. Marc Rochow Hochschule Augsburg

Web 3.0. Das semantische Web. Marc Rochow Hochschule Augsburg Web 3.0 Das semantische Web Hochschule Augsburg Web 3.0 > Gliederung > Die Evolution des Webs > Grundbausteine des Web 3.0 > Realisierung auf der eigenen Webseite > Beispiele > Vor- / Nachteile > Fazit

Mehr

JPlus Platform Independent Learning with Environmental Information in School

JPlus Platform Independent Learning with Environmental Information in School JPlus Platform Independent Learning with Environmental Information in School Mario Härtwig, Pierre Karrasch Salzburg, 7. Juli 2010 Genesis Umweltmonitoring als Beitrag zur Umweltbildung an Schulen. Kulturlandschaftsentwicklung

Mehr

Programmierung eines Besucherzählers mit Flash

Programmierung eines Besucherzählers mit Flash Die Idee...2 Die Entwicklung...2 Die Funktionen...2 Die Website...3 Die Registrierung...3 Counter einrichten...4 Der Besucherzähler...5 Wie der Benutzer ihn einbindet...5 Was dabei wirklich passiert...5

Mehr

Semantic-Web-Sprachen XML, RDF (und RDFS), OWL

Semantic-Web-Sprachen XML, RDF (und RDFS), OWL Semantic-Web-Sprachen XML, RDF (und RDFS), OWL PTI 991 Wissensmanagementsystemen Dozent: Prof. Sybilla Schwarz 1 Agenda Problem Semantisches Web Semantische Sprache XML RDF RDFS OWL Zusammenfassung 2 Problem

Mehr

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20 Suche in Spielbäumen Suche in Spielbäumen KI SS2011: Suche in Spielbäumen 1/20 Spiele in der KI Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche Einschränkung von Spielen auf: 2 Spieler:

Mehr

Algorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte

Algorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte Fachhochschule Wedel Seminararbeit Algorithmus zur komprimierten Übertragung von Textdaten an mobile Endgeräte Sven Reinck 7. Januar 2007 Inhaltsverzeichnis Inhaltsverzeichnis Motivation 2 Wörterbuch 2.

Mehr

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing? www.webindex.hmc-germany.com.

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing? www.webindex.hmc-germany.com. 21.11.2013 HMC WEB INDEX Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing? www.webindex.hmc-germany.com Ansprechpartner Dirk Kemmerling Geschäftsführer HMC Germany HMC Health

Mehr

BENUTZERHANDBUCH BAGE

BENUTZERHANDBUCH BAGE Raumentwicklung, Wirtschaftsförderung und Geoinformation (rawi) Murbacherstrasse 21 6002 Luzern Telefon 041 228 51 83 Telefax 041 228 64 93 rawi@lu.ch www.rawi.lu.ch BENUTZERHANDBUCH für Workflow BAGE

Mehr

P2P - Projekt. 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen. 3. Automatische Semantische Konvergenz

P2P - Projekt. 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen. 3. Automatische Semantische Konvergenz P2P - Projekt 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen 1. Natürlicher Suchalgorithmus 2. Small Worlds 3. Automatische Semantische Konvergenz 1. Netzwerkerstellung 2. Suche 1. Die

Mehr

Java Batch Der Standard für's Stapeln

Java Batch Der Standard für's Stapeln Java Batch Der Standard für's Stapeln Berlin Expert Days 18.09.2015 Dirk Weil, GEDOPLAN GmbH Dirk Weil GEDOPLAN GmbH, Bielefeld GEDOPLAN IT Consulting Konzeption und Realisierung von IT-Lösungen GEDOPLAN

Mehr

Spezielle Themen der KI. NLP Natural Language Processing Parsing

Spezielle Themen der KI. NLP Natural Language Processing Parsing Spezielle Themen der KI NLP Natural Language Processing Parsing Parsing Strategien top-down: Ausgehend von S Hypothesenbildung und Verifikation anhand der Grammatikregeln Ersetzung nicht-terminaler Symbole

Mehr

Das Vorgehen bei der Veränderung der Breiten wird sowohl bei Spalten als auch bei Höhe der Zeilen auf gleiche Art und Weise durchgeführt.

Das Vorgehen bei der Veränderung der Breiten wird sowohl bei Spalten als auch bei Höhe der Zeilen auf gleiche Art und Weise durchgeführt. 1 Excel Schulung Andreas Todt Inhaltsverzeichnis 1 Breite von Zeilen und Spalten... 1 1.1 Verhalten von Zahlen... 1 1.2 Verhalten von Text... 3 1.3 Spaltenbreite verändern... 3 1.3.1 Manuelles Ändern...

Mehr

OER aus Sicht der OECD

OER aus Sicht der OECD OER aus Sicht der OECD (erste Reflektionen eines laufenden Projekts) Dr. Dominic Orr external consultant (dominicjorr@gmail.com) Centre for Education Research and Innovation, OECD E-Learning-Tag Rheinland-Pfalz

Mehr

1 Part-of-Speech Tagging

1 Part-of-Speech Tagging 2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech Tagging 1.1 Grundlagen

Mehr

Lösungsvorschlag - Energiebedarfsrechnung für das Jahr 2020

Lösungsvorschlag - Energiebedarfsrechnung für das Jahr 2020 Lösungsvorschlag - Energiebedarfsrechnung für das Jahr 2020 a) Im Anhang finden Sie verschiedene Datengrundlagen der Weltbank, die uns bei der Energiewende behilflich sein können. Wählen Sie eine Datengrundlage

Mehr