Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?"

Transkript

1 Text

2 Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

3 Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte Texte HTML-Dokumente, die aus natürlichen Text bestehen und durch HTML-Tags strukturiert werden. Strukturierte Texte Datenbanken, Tabellen und XML

4 Was ist XML? Woraus besteht sie und wonach richtet sie sich?

5 XML XML (Extensible Markup Language) gehört zu den sogenannten Markup Languages Dient zur Darstellung hierarchisch strukturierter Daten in Form von Textdateien Besteht aus Tags ; Atributen und den entsprechenden Atributwerten Richtet sich nach der Wohlgeformtheit Einhaltung von allen XML Regelungen Richtet sich nach der Validität also nach der Gültigkeit der Grammatik

6 Was ist TEI?

7 Die Text Encoding Initiative: Geschichte 1987 entstanden als internationale Initiative von Philologinnen und Philologen Dokumentenformat zur Repräsentation von Texten in digitaler Form Es ist Vielseitig und Praxisnah

8 Wie lässt sich TEI differenzieren?

9 Die Text Encoding Initiative: Differenzierung das Konsortium (TEI-C), 2000 gegründet Und Richtlinien und Empfehlungen zur Kodierung+ Austausch von Textdokumenten Intention: Geisteswissenschaftler sollen über größtmögliche Freiheit verfügen, textuell vorliegende Information nach eigenem Textbegriff in XML zu codieren.

10 An welche Richtlinien und Standards hält sich TEI?

11 Die Text Encoding Initiative: Standards und Guidelines Standards der TEI schränken die schier unendlichen Auszeichnungsmöglichkeiten von XML ein. Dabei stellen sich die folgenden Grundfragen: Welche Tags und welche Attribute lassen sich verwenden, um eigene Texte auszuzeichnen? Wie lassen sich die Tags miteinander kombinieren / verschachteln?

12 Die Text Encoding Initiative: Modularisierung Flexible Auswahl von TEI-Elementen aufgrund des modularen Charakters der TEI. So muss ein eigenes Schema nicht alle Elemente und Attribute der TEI enthalten. Module, u.a.: core für Basiselemente header für Metadaten textstructure für grundlegende Textstrukturen drama für Dramen prose, poetry, etc.

13 Methodenverortung Data Mining: Einsatz auf stark strukturierten Daten Text Mining: Informationsextraktion aus (u.a. semistrukturierten) Texten; Verwendung von Verfahren / Algorithmen des Data Minings Automatisierte Strukturierung von Texten (insbes. sehr großen Mengen von Texten) Information Retrieval: Suchanfragen an einen Textcorpus Wie finde ich die von mir gesuchte Information?

14 Bedeutung

15 Tf-idf-Maß Termfrequenz,: Wie häufig findet sich die Wortform / der Term im Dokument? Inverse Dokumentfrequenz : Wie häufig findet sich die Wortform / der Term im Gesamtkorpus? Annahme: Eine Wortform, die nur in wenigen Titelaufnahmen des Gesamtbestandes anzutreffen ist, verfügt über eine höhere Trennschärfe als eine Wortform, die sich in zahlreichen Titelaufnahmen findet.

16 IDF : Text Mining Tool Termfrequenz: Häufigkeit des (Such)Terms / der Wortform im jeweiligen Dokument Bestimmung der Trennschärfe einer Wortform: Inverse Document Frequency (IDF), Inverse Dokumenthäufigkeit Annahme: Eine Wortform, die nur in wenigen Titelaufnahmen des Gesamtbestandes anzutreffen ist, verfügt über eine höhere Trennschärfe als eine Wortform, die sich in zahlreichen Titelaufnahmen findet.

17 IDF : Text Mining Tool Weitere Schritte 1) Gewichtung: Gewichtung der Suchphrase bestimmen, sprich relevante Suchterme charakterisieren

18 IDF : Text Mining Tool Weitere Schritte 2) Vektorraum Verbindungen zu verschiedenen Termen erstellen und mögliche Vergleiche aufbauen Komplexität verringern und Verbindungen aufzeigen.

19 IDF : Text Mining Tool Weitere Schritte 3) Ahnlichkeitsmaß Ähnlichkeit von Such- und Vergleichstitel bzw. der korrespondierenden Vektoren ermitteln 4) Cluster Cluster ähnlicher Titel generieren: Cluster I: Titel mit Gewichtung = Cluster II: Titel mit Gewichtung = MAB Einträge (Author Name, Place of Printing, etc.) unscharf (fuzzy) vergleichen

20 Was versteht man unter den Begriffen recall und precision und wozu dient dieses System?

21 IDF : Text Mining Tool Bewertung Trefferquote (recall) und Genauigkeit (precision) bewerten Suchergebnisse. Recall: Liefert die Suchanfrage ein relevantes Ergebnis? Precision: Ist der gefundene / zurückgelieferte Treffer für die Suchanfrage relevant?

22 Was ist das VD 18-Projekt?

23 VD 18 Projekt Ein Projekt zur Digitalisierung von historischen Werken Als Pilotprojekt gefördert Umfasst an der Universität zu Köln mehr als eine Million Titel

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

... MathML XHTML RDF

... MathML XHTML RDF RDF in wissenschaftlichen Bibliotheken (LQI KUXQJLQ;0/ Die extensible Markup Language [XML] ist eine Metasprache für die Definition von Markup Sprachen. Sie unterscheidet sich durch ihre Fähigkeit, Markup

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Containerformat Spezifikation

Containerformat Spezifikation Containerformat Spezifikation Version 1.0-09.05.2011 Inhaltsverzeichnis 0 Einführung... 4 0.1 Referenzierte Dokumente... 4 0.2 Abkürzungen... 4 1 Containerformat... 5 1.1 Aufbau des Container-Headers...

Mehr

2. Einführung in Datenbanken und XML

2. Einführung in Datenbanken und XML 2. Einführung in Datenbanken und XML Was ist XML? 2. Einführung in Datenbanken und XML XML steht für extensible Markup Language durch das W3C entwickeltes Dokumentenformat einfach, flexibel, von SGML abgeleitet

Mehr

MINERVA. EuropäischeQualitätskriterien für Webseiten kultureller Institutionen

MINERVA. EuropäischeQualitätskriterien für Webseiten kultureller Institutionen MINERVA EuropäischeQualitätskriterien für Webseiten Ministerial NEtwo twork k for Valorising Activities in digitisation Minerva / MinervaPlus Europa verfügt über eine einzigartige und vielfältige Kulturlandschaft.

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Ähnlichkeitssuche auf XML-Daten

Ähnlichkeitssuche auf XML-Daten Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen

Mehr

Containerformat Spezifikation

Containerformat Spezifikation Containerformat Spezifikation Version 1.1-21.02.2014 Inhaltsverzeichnis 0 Einführung... 4 0.1 Referenzierte Dokumente... 4 0.2 Abkürzungen... 4 1 Containerformat... 5 1.1 Aufbau des Container-Headers...

Mehr

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an 9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf

Mehr

Universität zu Köln Informationsverarbeitung WS 2009/10. Datenbanken vs. Markup Prof. Dr. M.Thaller 25.11.2009. XML als Datenbank

Universität zu Köln Informationsverarbeitung WS 2009/10. Datenbanken vs. Markup Prof. Dr. M.Thaller 25.11.2009. XML als Datenbank Universität zu Köln Informationsverarbeitung WS 2009/10 HS: Dozent: Referentin: 25.11.2009 Datenbanken vs. Markup Prof. Dr. M.Thaller Frauke Schmidt XML als Datenbank Inhalt XML Datenbanken Anforderungen

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

X-Technologien. Ein Überblick. Ulrike Henny. ulrike.henny@uni-koeln.de. IDE Summer School 2013, Chemnitz

X-Technologien. Ein Überblick. Ulrike Henny. ulrike.henny@uni-koeln.de. IDE Summer School 2013, Chemnitz X-Technologien Ein Überblick Ulrike Henny ulrike.henny@uni-koeln.de X-Technologien Das X-Universum XML im Zentrum Woher kommt XML? Einsatz von XML X-Technologien Datenhaltung Datenzugriff Umwandlung Ausgabe

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de 3.12.09 HKInformationsverarbeitung Kurs: Datenbanken vs. MarkUp WS 09/10 Dozent: Prof. Dr. M. Thaller XINDICE The Apache XML Project Inhalt Native

Mehr

Dokumenten- und Content Management

Dokumenten- und Content Management Dokumenten- und Content Management 1 Dokumentenbeschreibung...2 1.1 SGML...2 1.2 HTML...3 1.3 XML...3 1.4 XML-Anwendungen...6 1.5 Datenaustausch mit XML...6 2 Content-Management...7 2.1 Medienprodukte...7

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density» & Karl Kratz Das ist. Jana ist Diplom- Mathematikerin und Controlling-Leiterin bei der Innovation Group AG. Ihr

Mehr

http://www.therealgang.de/

http://www.therealgang.de/ http://www.therealgang.de/ Titel : Author : Kategorie : Vorlesung HTML und XML (Einführung) Dr. Pascal Rheinert Sonstige-Programmierung Vorlesung HTML / XML: Grundlegende Informationen zu HTML a.) Allgemeines:

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

Text Mining mit LingPipe

Text Mining mit LingPipe Text Mining mit LingPipe Hauptseminar Information Retrieval PD Dr. Karin Haenelt Universität Heidelberg Vortrag von Alexander Kappe im Wintersemester 2008/2009 Übersicht Text Mining Definition & Abgrenzung

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Datenbanksysteme. XML und Datenbanken. Burkhardt Renz. Sommersemester 2015. Fachbereich MNI Technische Hochschule Mittelhessen

Datenbanksysteme. XML und Datenbanken. Burkhardt Renz. Sommersemester 2015. Fachbereich MNI Technische Hochschule Mittelhessen Fachbereich MNI Technische Hochschule Mittelhessen Sommersemester 2015 Übersicht Semistrukturierte Daten Dokumenttypdefinition XML-Schema XML aus Datenbank konstruieren XML in Datenbank speichern Merkmale

Mehr

Dr. Thomas Meinike Hochschule Merseburg

Dr. Thomas Meinike Hochschule Merseburg XSLT Programmierung effektiv und schmerzfrei! Dr. Thomas Meinike Hochschule Merseburg thomas.meinike@hs merseburg.de http://www.iks.hs merseburg.de/~meinike/ @XMLArbyter Zusatzmaterial Februar

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Wissen aus unstrukturierten natürlichsprachlichen

Wissen aus unstrukturierten natürlichsprachlichen ZKI Tagung AK Supercomputing, 19.-20. Okt. 2015 Wissen aus unstrukturierten natürlichsprachlichen Daten Sprachtechnologie und Textanalytik in the large Udo Hahn Jena University Language & Information Engineering

Mehr

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen SVM Textkategorisierung Katharina Morik, Claus Weihs LS 8 Informatik 24.5.2011 1 von 46 Gliederung LS 8 Informatik 1 Web Mining Information Retrieval 2 Textklassifikation

Mehr

Strukturierung von Inhalten

Strukturierung von Inhalten Strukturierung von Inhalten extensible Markup Language Metasprache erlaubt die Definition eigener Markupsprachen zur Strukturierung von Informationen World Wide Web Consortium (W3C) Standard Basiert auf

Mehr

XML-Praxis. XML-Grammatiken. Jörn Clausen joern@techfak.uni-bielefeld.de

XML-Praxis. XML-Grammatiken. Jörn Clausen joern@techfak.uni-bielefeld.de XML-Praxis XML-Grammatiken Jörn Clausen joern@techfak.uni-bielefeld.de Übersicht formale Beschreibung von XML-Sprachen verschiedene Lösungen Document Type Definition Relax NG XML-Praxis XML-Grammatiken

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Warum werden mittelalterliche und frühneuzeitliche Rechnungsbücher eigentlich nicht digital ediert?

Warum werden mittelalterliche und frühneuzeitliche Rechnungsbücher eigentlich nicht digital ediert? Warum werden mittelalterliche und frühneuzeitliche Rechnungsbücher eigentlich nicht digital ediert? Georg Vogeler Institut für Dokumentologie und Editorik e.v. Zentrum für Informationsmodellierung

Mehr

Web Data Management Systeme

Web Data Management Systeme Web Data Management Systeme Seminar: Web-Qualitätsmanagement Arne Frenkel Agenda Einführung Suchsysteme Suchmaschinen & Meta-Suchmaschinen W3QS WebSQL WebLog Information Integration Systems Ariadne TSIMMIS

Mehr

Webdesign-Multimedia HTML und CSS

Webdesign-Multimedia HTML und CSS Webdesign-Multimedia HTML und CSS Thomas Mohr HTML Definition ˆ HTML (Hypertext Markup Language) ist eine textbasierte Auszeichnungssprache (engl. markup language) zur Strukturierung digitaler Dokumente

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Tobias Hauser. XML-Standards. schnell+kompakt

Tobias Hauser. XML-Standards. schnell+kompakt Tobias Hauser XML-Standards schnell+kompakt Tobias Hauser XML-Standards schnell+kompakt ISBN: 978-3-86802-236-0 2010 entwickler.press ein Imprint der Software & Support Media GmbH 2. vollständig aktualisierte

Mehr

Fallbasierte Bewertung von Internet-Domainnamen. Von Sebastian Dieterle

Fallbasierte Bewertung von Internet-Domainnamen. Von Sebastian Dieterle Fallbasierte Bewertung von Internet-Domainnamen Von Sebastian Dieterle Einleitung Einleitung Grundlagen Ansatz Evaluierung Schlussfolgerungen 2 Entstehung eines interdisziplinären Ansatzes 2002-: Unternehmensgründung

Mehr

Kurze Einführung in Web Data Mining

Kurze Einführung in Web Data Mining Kurze Einführung in Web Data Mining Yeong Su Lee Centrum für Informations- und Sprachverarbeitung (CIS), LMU 17.10.2007 Kurze Einführung in Web Data Mining 1 Überblick Was ist Web? Kurze Geschichte von

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen Datenintegration Datenintegration Kapitel 3: Eigenschaften von Integrationssystemen Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Einordnung

Mehr

6. Datenbanken und XML

6. Datenbanken und XML 6. Datenbanken und XML 6.0 Einführung XML (extended Markup Language) definiert ein Format für Textdateien, das sich sehr gut als Austauschformat zwischen verschiedenen Softwaresystemen (z.b. zwischen Datenbanken

Mehr

Methodenkurs Text Mining 01: Know Your Data

Methodenkurs Text Mining 01: Know Your Data Methodenkurs Text Mining 01: Know Your Data Eva Enderichs SoSe2015 Eva EnderichsSoSe2015 01: Know Your Data 1 Eva EnderichsSoSe2015 01: Know Your Data 2 Typen von Korpora annotiert VS naturbelassen wenige

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Semantic Web Technologies I

Semantic Web Technologies I Semantic Web Technologies I Lehrveranstaltung im WS11/12 Dr. Elena Simperl PD Dr. Sebastian Rudolph M. Sc. Anees ul Mehdi Ontology Engineering Dr. Elena Simperl XML und URIs Einführung in RDF RDF Schema

Mehr

Java: Kapitel 9. Java und XML. Programmentwicklung WS 2008/2009. Holger Röder holger.roeder@informatik.uni-stuttgart.de.

Java: Kapitel 9. Java und XML. Programmentwicklung WS 2008/2009. Holger Röder holger.roeder@informatik.uni-stuttgart.de. Java: Kapitel 9 Java und XML Programmentwicklung WS 2008/2009 Holger Röder holger.roeder@informatik.uni-stuttgart.de Überblick über Kapitel 9 Einführung in XML XML-Verarbeitung in Java Document Object

Mehr

Von Big Data zu Smart Information Empolis Information Management Workshop "Datenmanagement in der Zukunft"

Von Big Data zu Smart Information Empolis Information Management Workshop Datenmanagement in der Zukunft Von Big Data zu Smart Information Empolis Information Management Workshop "Datenmanagement in der Zukunft" 02.07.2014 Bamberg Andreas Nierlich Seite 1 Von 2009 bis 2020 soll das digitale Informationsvolumen

Mehr

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag Christian Zietzsch / Norman Zänker Text Mining und dessen Implementierung Diplomica Verlag Christian Zietzsch, Norman Zänker Text Mining und dessen Implementierung ISBN: 978-3-8428-0970-3 Herstellung:

Mehr

Entwicklung mit Arbortext Editor 6.1

Entwicklung mit Arbortext Editor 6.1 Entwicklung mit Arbortext Editor 6.1 Überblick Kurscode Kurslänge TRN-4410-T 3 Tag In diesem Kurs lernen Sie die grundlegenden und erweiterten Bearbeitungsfunktionen von Arbortext Editor kennen. Der Schwerpunkt

Mehr

XML und SOAP Einführung und Grundlagen

XML und SOAP Einführung und Grundlagen XML und SOAP Einführung und Grundlagen Matthias Böhmer 16.12.2005 Agenda 1. XML 2. SOAP 3. Seife im Buchladen?! E-Commerce :: XML und SOAP Matthias Böhmer 16.12.2005 2 XML :: Einführung (1) extensible

Mehr

XML 1. Einführung, oxygen. Ulrike Henny. ulrike.henny@uni-koeln.de. IDE Summer School 2013, Chemnitz

XML 1. Einführung, oxygen. Ulrike Henny. ulrike.henny@uni-koeln.de. IDE Summer School 2013, Chemnitz XML 1 Einführung, oxygen Ulrike Henny ulrike.henny@uni-koeln.de XML extensible Markup Language Was ist XML? XML-Grundlagen XML-Editoren, oxygen HTML + CSS XPath Übungen Literatur Folie 2 Was ist XML? extensible

Mehr

Daten- und Metadatenstandards Wintersemester 2011/2012 26. März 2012 Text / XML: Erste Schritte

Daten- und Metadatenstandards Wintersemester 2011/2012 26. März 2012 Text / XML: Erste Schritte Daten- und Metadatenstandards Wintersemester 2011/2012 26. März 2012 Text / XML: Erste Schritte Themenüberblick Text / XML: Erste Schritte Text Inhalt Struktur Äußeres Erscheinungsbild: Layout Extensible

Mehr

InteractiveExtractor: Durchgängige Unterstützung bei der Extraktion von anforderungsrelevanten Informationen

InteractiveExtractor: Durchgängige Unterstützung bei der Extraktion von anforderungsrelevanten Informationen InteractiveExtractor: Durchgängige Unterstützung bei der Extraktion von anforderungsrelevanten Informationen Philipp Heim 1, Timo Stegemann 1, Steffen Lohmann 1, Jürgen Ziegler 1, Haiko Cyriaks 2, Horst

Mehr

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Computerlinguistik im Service Management eine neue Suche für TOPdesk Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk

Mehr

CARL HANSER VERLAG. Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis 3-446-22562-5. www.hanser.de

CARL HANSER VERLAG. Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis 3-446-22562-5. www.hanser.de CARL HANSER VERLAG Dirk Ammelburger XML Grundlagen der Sprache und Anwendungen in der Praxis 3-446-22562-5 www.hanser.de 1 1.1 Einleitung... 2 Über dieses Buch... 3 1.2 Für wen ist das Buch gedacht?...

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Als Webtechnologien bezeichnen wir die Summe aller Technologien, mittels derer das WWW betrieben wird.

Als Webtechnologien bezeichnen wir die Summe aller Technologien, mittels derer das WWW betrieben wird. 1 of 8 Stefan Gössner 21.09.2004 Web-Technologien: Eine Einführung Stefan Gössner Webtechnologien Als Webtechnologien bezeichnen wir die Summe aller Technologien, mittels derer das WWW betrieben wird.

Mehr

Language Model basierte Suchterm Klassifizierung. Marcus Fabarius Kamila Kedzior Philipp Liepert Rim Sahnoun Enterprise Data Management SoSe 2014

Language Model basierte Suchterm Klassifizierung. Marcus Fabarius Kamila Kedzior Philipp Liepert Rim Sahnoun Enterprise Data Management SoSe 2014 Language Model basierte Suchterm Klassifizierung Marcus Fabarius Kamila Kedzior Philipp Liepert Rim Sahnoun Enterprise Data Management SoSe 2014 Problem Die Intention des Nutzers ist nicht immer eindeutig

Mehr

Linked Data und Semantic Webbasierte Funktionalität in Europeana

Linked Data und Semantic Webbasierte Funktionalität in Europeana Linked Data und Semantic Webbasierte Funktionalität in Europeana Semantic Web in Bibliotheken - SWIB09 Köln, 25. November 2009 Stefan Gradmann, Marlies Olensky Humboldt-Universität zu Berlin, Berlin School

Mehr

Data Management mit UNICORE 6

Data Management mit UNICORE 6 Data Management mit UNICORE 6 Thomas Soddemann Überblick DFG Position zur Datenhaltung DataFinder und WebDAV Unicore6 DataFinder Anbindung Weitergehendes Q&A Sicherung guter wissenschaftlicher Praxis und

Mehr

Dokumentation Data Dictionary (SIP)

Dokumentation Data Dictionary (SIP) Eidgenössisches Departement des Innern EDI Schweizerisches Bundesarchiv BAR Ressort Innovation und Erhaltung Dienst Digitale Archivierung (DDA) Dokumentation Data Dictionary (SIP) Datum: September 2009

Mehr

XML-basierte Standards für den Datenaustausch in der Logistikkette

XML-basierte Standards für den Datenaustausch in der Logistikkette XML und Electronic Data Interchange (EDI) EDIFACT-XML ein kleines Beispiel - Strukturierung von Daten Datensatz 347,M50,L Datensatz mit Pseudocode-ML strukturiert 347

Mehr

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Vortrag anlässlich der ODOK 2007 (20. September 2007, Graz) Joachim Pfister Schweizerisches

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

Visuelle Suche in Digitalen Filmarchiven Visual Search in Digital Film Archives. Visuelle Exploration Digitaler Bibliothken

Visuelle Suche in Digitalen Filmarchiven Visual Search in Digital Film Archives. Visuelle Exploration Digitaler Bibliothken Visuelle Suche in Digitalen Filmarchiven Visual Search in Digital Film Archives Visuelle Exploration Digitaler Bibliothken Prof. Dr. am Beispiel des Projektes MedioVis Harald.Reiterer@uni-konstanz.de Kurzvorstellung

Mehr

Information über die WebServices der Parlamentsdienste

Information über die WebServices der Parlamentsdienste Parlamentsdienste Services du Parlement Servizi del Parlamento Servetschs dal parlament Information über die WebServices der Parlamentsdienste Version 4 Verlauf Version Datum Kommentar Person 0.1 25.03.11

Mehr

Big Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen

Big Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen Big Data Modewort oder echter Mehrwert freenet Group Dr. Florian Johannsen freenet Group 2 Titel der Präsentation 07.07.2015 Mobilfunkgeschäft der freenet Group Austausch von Daten und Informationen Im

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! www.semantic-web-grundlagen.de Ontology Engineering! Dr. Sebastian Rudolph! Semantic Web Architecture

Mehr

Doz. Dr.-Ing. Barbara Hauptenbuchner, TU Dresden. CeBit 2005 - Hannover

Doz. Dr.-Ing. Barbara Hauptenbuchner, TU Dresden. CeBit 2005 - Hannover Fakultät Informatik: Prof. Dr. paed. habil Steffen Friedrich Fakultät Maschinenwesen: Prof. Dr.-Ing. habil. Ralph Stelzer Fakultät Elektrotechnik: Prof. Dr.-Ing. habil Wolf Fischer Fakultät Bauingenieurwesen:

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Informationsverwaltung als selbstorganisierendes

Informationsverwaltung als selbstorganisierendes Informationsverwaltung als selbstorganisierendes und kontext-basiertes System Kerstin Schmidt, Competence Center Wirtschaftsinformatik, Hochschule München Prof. Dr. Peter Mandl, Competence Center Wirtschaftsinformatik,

Mehr

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013 Forschunsprojekte und Independent Coursework Prof. Dr. Christian Herta 29. Januar 2013 Forschungsgebiete Suchtechnologie, Text- und Webmining Verarbeitung unstrukturierter Daten, insbesondere Text Large

Mehr

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39 1 Einführung.......................................................... 11 1.1 Eine kurze Geschichte von fast allem.................................. 12 1.2 Die Bedeutung von Suchmaschinen gestern, heute

Mehr

XML Schema vs. Relax NG

XML Schema vs. Relax NG XML Schema vs. Relax NG p. 1/2 XML Schema vs. Relax NG Semistrukturierten Daten 1 Präsentation der Gruppe 2 XML Schema vs. Relax NG p. 2/2 Wozu XML Schema? W3C Empfehlung zur Definition von XML-Dokumentstrukturen

Mehr

Programmieren lernen mit Groovy Informationsstrukturen - Datenstrukturen - Textstrukturen (CSV, HTML, XML)

Programmieren lernen mit Groovy Informationsstrukturen - Datenstrukturen - Textstrukturen (CSV, HTML, XML) Programmieren lernen mit Groovy Informationsstrukturen - Datenstrukturen - Textstrukturen (CSV, HTML, XML) Seite 1 Logische Struktur, Textstruktur, Datenstruktur Daten in unterschiedlichen Repräsentationen

Mehr

Integration lokaler Daten in ifuice

Integration lokaler Daten in ifuice : Integration lokaler Daten in ifuice Bearbeiter: Sarah Gebhardt Betreuer: Andreas Thor Seite 1 Motivation Warum eine Integration lokaler Daten? Viele Infos im Web, aber andere Listen im Web, aber nicht

Mehr

Ressourcen-Beschreibung im Semantic Web

Ressourcen-Beschreibung im Semantic Web Ressourcen-Beschreibung im Semantic Web Cristina Vertan Inhaltsübersicht Wie sollen die Ressourcen für Semantic Web annotiert werden? Was ist und wie funktioniert RDF? Wie kodiert man RDF-Statements in

Mehr

Datenaustauschformate. Datenaustauschformate - FLV

Datenaustauschformate. Datenaustauschformate - FLV Datenaustauschformate FLV-Dateien CSV-Dateien XML-Dateien Excel-Dateien Access- Backupdateien Günter M. Goetz 108 Datenaustauschformate - FLV Fixed Length Values Repräsentation einer Tabelle als 'Flat-File'

Mehr

XML Extensible Markup Language

XML Extensible Markup Language XML-Praxis XML Extensible Markup Language Jörn Clausen joern@techfak.uni-bielefeld.de Übersicht Woher? Wohin? Warum? Bestandteile von XML XML-Dokumente erstellen und bearbeiten XML-Praxis XML Extensible

Mehr

design kommunikation development

design kommunikation development http://www.dkd.de dkd design kommunikation development Apache Solr - A deeper look Stefan Sprenger, Developer dkd Olivier Dobberkau, Geschäftsführer dkd Agenda Einführung Boosting Empfehlungen Ausblick

Mehr

Crashkurs Webseitenerstellung mit HTML

Crashkurs Webseitenerstellung mit HTML Ziel Crashkurs Webseitenerstellung mit HTML Das Ziel dieser Einführung in die Webseitenerstellung ist das Kennenlernen der Seitenbeschreibungssprache HTML und die Nutzung für einfach strukturierte Seiten,

Mehr

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Suchmaschinen und ihre Architektur Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Ziel Rudimentäre Grundkenntnisse über die Funktionsweise von Suchmaschinen und Trends Einführung in

Mehr

Business Intelligence Explorer

Business Intelligence Explorer Business Intelligence Explorer Discovering BI on the Web David Spretke Bachelor IE, 5. Semester Universität Konstanz Seminar Business Intelligence WS 2006/07 30.01.2007 Gliederung 1 Einleitung Definitionen

Mehr

Vorlesung Computerphilologie. Ontologien und Ontologie-Sprachen

Vorlesung Computerphilologie. Ontologien und Ontologie-Sprachen Wintersemester 2006 Institut für Germanistik I Vorlesung Computerphilologie Ontologien und Ontologie-Sprachen Wie kann man Inhalte (von Webseiten) erschließen? v.hahn Uni Hamburg 2005 1 Was bringen Ontologien

Mehr

Kontextbasiertes Information Retrieval

Kontextbasiertes Information Retrieval Kontextbasiertes Information Retrieval Modell, Konzeption und Realisierung kontextbasierter Information Retrieval Systeme Karlheinz Morgenroth Lehrstuhl für Medieninformatik Fakultät Wirtschaftsinformatik

Mehr

Inhaltsverzeichnis. Vorwort... Einleitung... Einführung... 1

Inhaltsverzeichnis. Vorwort... Einleitung... Einführung... 1 Vorwort... Einleitung... V VII Einführung... 1 1 Grundlagen... 7 1.1 Dokumentmodelle... 7 1.1.1 Multimedia... 8 1.1.2 Hypermedia... 9 1.1.3 Verteilung... 11 1.2 Geschichte des WWW... 13 1.2.1 Struktur...

Mehr

Online-Publikationen des Deutschen Historischen Instituts in Rom

Online-Publikationen des Deutschen Historischen Instituts in Rom Online-Publikationen des Deutschen Historischen Instituts in Rom Pubblicazioni online dell Istituto Storico Germanico di Roma Michael Matheus und Hubert Wolf (Hg.): Bleibt im Vatikanischen Geheimarchiv

Mehr

XML-Praxis. XML-Grammatiken. joern@techfak.uni-bielefeld.de

XML-Praxis. XML-Grammatiken. joern@techfak.uni-bielefeld.de XML-Praxis XML-Grammatiken Jörn Clausen joern@techfak.uni-bielefeld.de 1 Übersicht formale Beschreibung von XML-Sprachen verschiedene Lösungen Document Type Definition Relax NG 2 wohlgeformtes vs. valides

Mehr

Java API for XML Binding

Java API for XML Binding Java API for XML Binding Eine Einführung Tim Speier Fachbereich MNI Fachhochschule Gießen-Friedberg 24. Juni 2010 1 / 27 XM und Java Teil 1: Aufgabenstellung Aufgabenstellung: In einem XML-Dokument werden

Mehr

XML/TEI eine Einführung

XML/TEI eine Einführung XML/TEI eine Einführung Teil 1/3: Datenmodellierung und XML 1 Was Sie hier erwartet Datenmodellierung XML Model-View-Controller Datenverarbeitung mittels Relationalen Datenbanken Strukturierte vs. semi-strukturierte

Mehr

XML - die zukünftige Sprache des WWW? Daten im WWW strukturiert speichern, übertragen, darstellen und verketten. Max Riegel XML

XML - die zukünftige Sprache des WWW? Daten im WWW strukturiert speichern, übertragen, darstellen und verketten. Max Riegel XML - die zukünftige Sprache des WWW? Daten im WWW strukturiert speichern, übertragen, darstellen und verketten. Max Riegel kongress99-xml.ppt-1 (1999-12-01) Inhalt in einem einfachen Beispiel Ein wohlgeformtes

Mehr

Webseite in XML Kurzeinführung

Webseite in XML Kurzeinführung Webseite in XML Kurzeinführung 1. Entwicklung... 1 2. Erste Webpage in XML... 2 2.1 Erstes Beispiel... 2 2.2 Tags definieren... 4 2.3 Kommentare in XML... 5 2.4 XML mittels CSS im Browser ansehen... 5

Mehr

Jens Kupferschmidt Universitätsrechenzentrum

Jens Kupferschmidt Universitätsrechenzentrum Einordnung der Metadaten im MyCoRe Projekt Connection to other databases Data presentations MyCoResearch over instances Classifications Metadate and search Derivate User and access rights GUI Workflow

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Gliederung Vorlesung Maschinelles Lernen SVM Textkategorisierung 1 Web Mining Information Retrieval Katharina Morik, Claus Weihs 24.5.2011 2 Textklassifikation 3 Verwendung des Modells zur Textklassifikation

Mehr

Information Retrieval in P2P-Netzen

Information Retrieval in P2P-Netzen Information Retrieval in P2P-Netzen Vorstellung der Vortragsthemen zum Seminar Henrik Nottelmann 30. Oktober 2003 Henrik Nottelmann 1/21 Grundstruktur A) Filesharing-Systeme (3 Themen) B) Zugriffsstrukturen

Mehr

Text Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai 2010 1 / 37

Text Mining Gliederung. Text Mining. OS Datamining SS 10. Thomas Boy. 25. Mai 2010 1 / 37 Gliederung Text Mining OS Datamining SS 10 Thomas Boy 25. Mai 2010 1 / 37 Gliederung 1 Gliederung 2 Einleitung Motivation Konkretisierung 3 Allgemeines Definiton Text Mining Ablaufschema 4 Anwendungen

Mehr

Allianz AG Finanzen / Alternative Investments. XML Hype and Reality

Allianz AG Finanzen / Alternative Investments. XML Hype and Reality XML Hype and Reality Dr. Uta Störl Dresdner Bank AG Software-Technologie und -Architektur für Allianz-Gruppe Deutschland Research and Innovations Frankfurt am Main Uta.Stoerl@Dresdner-Bank.com Agenda Kurzvorstellung

Mehr