Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?"

Transkript

1 Text

2 Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

3 Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte Texte HTML-Dokumente, die aus natürlichen Text bestehen und durch HTML-Tags strukturiert werden. Strukturierte Texte Datenbanken, Tabellen und XML

4 Was ist XML? Woraus besteht sie und wonach richtet sie sich?

5 XML XML (Extensible Markup Language) gehört zu den sogenannten Markup Languages Dient zur Darstellung hierarchisch strukturierter Daten in Form von Textdateien Besteht aus Tags ; Atributen und den entsprechenden Atributwerten Richtet sich nach der Wohlgeformtheit Einhaltung von allen XML Regelungen Richtet sich nach der Validität also nach der Gültigkeit der Grammatik

6 Was ist TEI?

7 Die Text Encoding Initiative: Geschichte 1987 entstanden als internationale Initiative von Philologinnen und Philologen Dokumentenformat zur Repräsentation von Texten in digitaler Form Es ist Vielseitig und Praxisnah

8 Wie lässt sich TEI differenzieren?

9 Die Text Encoding Initiative: Differenzierung das Konsortium (TEI-C), 2000 gegründet Und Richtlinien und Empfehlungen zur Kodierung+ Austausch von Textdokumenten Intention: Geisteswissenschaftler sollen über größtmögliche Freiheit verfügen, textuell vorliegende Information nach eigenem Textbegriff in XML zu codieren.

10 An welche Richtlinien und Standards hält sich TEI?

11 Die Text Encoding Initiative: Standards und Guidelines Standards der TEI schränken die schier unendlichen Auszeichnungsmöglichkeiten von XML ein. Dabei stellen sich die folgenden Grundfragen: Welche Tags und welche Attribute lassen sich verwenden, um eigene Texte auszuzeichnen? Wie lassen sich die Tags miteinander kombinieren / verschachteln?

12 Die Text Encoding Initiative: Modularisierung Flexible Auswahl von TEI-Elementen aufgrund des modularen Charakters der TEI. So muss ein eigenes Schema nicht alle Elemente und Attribute der TEI enthalten. Module, u.a.: core für Basiselemente header für Metadaten textstructure für grundlegende Textstrukturen drama für Dramen prose, poetry, etc.

13 Methodenverortung Data Mining: Einsatz auf stark strukturierten Daten Text Mining: Informationsextraktion aus (u.a. semistrukturierten) Texten; Verwendung von Verfahren / Algorithmen des Data Minings Automatisierte Strukturierung von Texten (insbes. sehr großen Mengen von Texten) Information Retrieval: Suchanfragen an einen Textcorpus Wie finde ich die von mir gesuchte Information?

14 Bedeutung

15 Tf-idf-Maß Termfrequenz,: Wie häufig findet sich die Wortform / der Term im Dokument? Inverse Dokumentfrequenz : Wie häufig findet sich die Wortform / der Term im Gesamtkorpus? Annahme: Eine Wortform, die nur in wenigen Titelaufnahmen des Gesamtbestandes anzutreffen ist, verfügt über eine höhere Trennschärfe als eine Wortform, die sich in zahlreichen Titelaufnahmen findet.

16 IDF : Text Mining Tool Termfrequenz: Häufigkeit des (Such)Terms / der Wortform im jeweiligen Dokument Bestimmung der Trennschärfe einer Wortform: Inverse Document Frequency (IDF), Inverse Dokumenthäufigkeit Annahme: Eine Wortform, die nur in wenigen Titelaufnahmen des Gesamtbestandes anzutreffen ist, verfügt über eine höhere Trennschärfe als eine Wortform, die sich in zahlreichen Titelaufnahmen findet.

17 IDF : Text Mining Tool Weitere Schritte 1) Gewichtung: Gewichtung der Suchphrase bestimmen, sprich relevante Suchterme charakterisieren

18 IDF : Text Mining Tool Weitere Schritte 2) Vektorraum Verbindungen zu verschiedenen Termen erstellen und mögliche Vergleiche aufbauen Komplexität verringern und Verbindungen aufzeigen.

19 IDF : Text Mining Tool Weitere Schritte 3) Ahnlichkeitsmaß Ähnlichkeit von Such- und Vergleichstitel bzw. der korrespondierenden Vektoren ermitteln 4) Cluster Cluster ähnlicher Titel generieren: Cluster I: Titel mit Gewichtung = Cluster II: Titel mit Gewichtung = MAB Einträge (Author Name, Place of Printing, etc.) unscharf (fuzzy) vergleichen

20 Was versteht man unter den Begriffen recall und precision und wozu dient dieses System?

21 IDF : Text Mining Tool Bewertung Trefferquote (recall) und Genauigkeit (precision) bewerten Suchergebnisse. Recall: Liefert die Suchanfrage ein relevantes Ergebnis? Precision: Ist der gefundene / zurückgelieferte Treffer für die Suchanfrage relevant?

22 Was ist das VD 18-Projekt?

23 VD 18 Projekt Ein Projekt zur Digitalisierung von historischen Werken Als Pilotprojekt gefördert Umfasst an der Universität zu Köln mehr als eine Million Titel

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

... MathML XHTML RDF

... MathML XHTML RDF RDF in wissenschaftlichen Bibliotheken (LQI KUXQJLQ;0/ Die extensible Markup Language [XML] ist eine Metasprache für die Definition von Markup Sprachen. Sie unterscheidet sich durch ihre Fähigkeit, Markup

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

http://www.therealgang.de/

http://www.therealgang.de/ http://www.therealgang.de/ Titel : Author : Kategorie : Vorlesung HTML und XML (Einführung) Dr. Pascal Rheinert Sonstige-Programmierung Vorlesung HTML / XML: Grundlegende Informationen zu HTML a.) Allgemeines:

Mehr

2. Einführung in Datenbanken und XML

2. Einführung in Datenbanken und XML 2. Einführung in Datenbanken und XML Was ist XML? 2. Einführung in Datenbanken und XML XML steht für extensible Markup Language durch das W3C entwickeltes Dokumentenformat einfach, flexibel, von SGML abgeleitet

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Containerformat Spezifikation

Containerformat Spezifikation Containerformat Spezifikation Version 1.0-09.05.2011 Inhaltsverzeichnis 0 Einführung... 4 0.1 Referenzierte Dokumente... 4 0.2 Abkürzungen... 4 1 Containerformat... 5 1.1 Aufbau des Container-Headers...

Mehr

Ich baue ein eigenes Korpus

Ich baue ein eigenes Korpus Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte

Mehr

Crashkurs Webseitenerstellung mit HTML

Crashkurs Webseitenerstellung mit HTML Ziel Crashkurs Webseitenerstellung mit HTML Das Ziel dieser Einführung in die Webseitenerstellung ist das Kennenlernen der Seitenbeschreibungssprache HTML und die Nutzung für einfach strukturierte Seiten,

Mehr

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de

XINDICE. The Apache XML Project 3.12.09. Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de Name: J acqueline Langhorst E-Mail: blackyuriko@hotmail.de 3.12.09 HKInformationsverarbeitung Kurs: Datenbanken vs. MarkUp WS 09/10 Dozent: Prof. Dr. M. Thaller XINDICE The Apache XML Project Inhalt Native

Mehr

MINERVA. EuropäischeQualitätskriterien für Webseiten kultureller Institutionen

MINERVA. EuropäischeQualitätskriterien für Webseiten kultureller Institutionen MINERVA EuropäischeQualitätskriterien für Webseiten Ministerial NEtwo twork k for Valorising Activities in digitisation Minerva / MinervaPlus Europa verfügt über eine einzigartige und vielfältige Kulturlandschaft.

Mehr

Containerformat Spezifikation

Containerformat Spezifikation Containerformat Spezifikation Version 1.1-21.02.2014 Inhaltsverzeichnis 0 Einführung... 4 0.1 Referenzierte Dokumente... 4 0.2 Abkürzungen... 4 1 Containerformat... 5 1.1 Aufbau des Container-Headers...

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Informationsextraktion mit XSLT

Informationsextraktion mit XSLT 1/29 Informationsextraktion mit XSLT + Einbindung in eine Pythonanfrage an Wikipedia/Dbpedia Jani Takhsha HS Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12. Januar 2015

Mehr

Ähnlichkeitssuche auf XML-Daten

Ähnlichkeitssuche auf XML-Daten Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

Dokumenten- und Content Management

Dokumenten- und Content Management Dokumenten- und Content Management 1 Dokumentenbeschreibung...2 1.1 SGML...2 1.2 HTML...3 1.3 XML...3 1.4 XML-Anwendungen...6 1.5 Datenaustausch mit XML...6 2 Content-Management...7 2.1 Medienprodukte...7

Mehr

Universität zu Köln Informationsverarbeitung WS 2009/10. Datenbanken vs. Markup Prof. Dr. M.Thaller 25.11.2009. XML als Datenbank

Universität zu Köln Informationsverarbeitung WS 2009/10. Datenbanken vs. Markup Prof. Dr. M.Thaller 25.11.2009. XML als Datenbank Universität zu Köln Informationsverarbeitung WS 2009/10 HS: Dozent: Referentin: 25.11.2009 Datenbanken vs. Markup Prof. Dr. M.Thaller Frauke Schmidt XML als Datenbank Inhalt XML Datenbanken Anforderungen

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

TEI und XSLT. Referat von Hannah Goldschmidt und Christian Lütticke Datenbanktechnologie Sommersemester 2011

TEI und XSLT. Referat von Hannah Goldschmidt und Christian Lütticke Datenbanktechnologie Sommersemester 2011 TEI und XSLT Referat von Hannah Goldschmidt und Christian Lütticke Datenbanktechnologie Sommersemester 2011 Text Encoding Initiative Organisation wurde1987 gegründet, um Richtlinien zum Kodieren von maschinen-lesbaren

Mehr

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist.

Kill Keyword Density. Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density Weshalb die Keyword Density blanker Unsinn ist. Kill Keyword Density» & Karl Kratz Das ist. Jana ist Diplom- Mathematikerin und Controlling-Leiterin bei der Innovation Group AG. Ihr

Mehr

Text-Mining: Datenaufbereitung und -repräsentation

Text-Mining: Datenaufbereitung und -repräsentation Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert

Mehr

Webdesign-Multimedia HTML und CSS

Webdesign-Multimedia HTML und CSS Webdesign-Multimedia HTML und CSS Thomas Mohr HTML Definition ˆ HTML (Hypertext Markup Language) ist eine textbasierte Auszeichnungssprache (engl. markup language) zur Strukturierung digitaler Dokumente

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Prototypische Komponenten eines Information Retrieval Systems: Vektormodell Implementierung & Präsentation: Stefan Schmidt (Uni Mannheim) Kontakt: powder@gmx.de Seminar: Information Retrieval WS2002/2003

Mehr

Midas Metadata yield by Data Analysis

Midas Metadata yield by Data Analysis Midas Metadata yield by Data Analysis Glossar powered by Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Semantic Web Technologies I

Semantic Web Technologies I Semantic Web Technologies I Lehrveranstaltung im WS11/12 Dr. Elena Simperl PD Dr. Sebastian Rudolph M. Sc. Anees ul Mehdi Ontology Engineering Dr. Elena Simperl XML und URIs Einführung in RDF RDF Schema

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik. Exposé zur Bachelorarbeit

Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik. Exposé zur Bachelorarbeit Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik Exposé zur Bachelorarbeit eingereicht von Irina Glushanok 23.04.2015 1 Einführung Um eine bequeme Suche nach passender Literatur

Mehr

XML und SOAP Einführung und Grundlagen

XML und SOAP Einführung und Grundlagen XML und SOAP Einführung und Grundlagen Matthias Böhmer 16.12.2005 Agenda 1. XML 2. SOAP 3. Seife im Buchladen?! E-Commerce :: XML und SOAP Matthias Böhmer 16.12.2005 2 XML :: Einführung (1) extensible

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an 9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf

Mehr

X-Technologien. Ein Überblick. Ulrike Henny. ulrike.henny@uni-koeln.de. IDE Summer School 2013, Chemnitz

X-Technologien. Ein Überblick. Ulrike Henny. ulrike.henny@uni-koeln.de. IDE Summer School 2013, Chemnitz X-Technologien Ein Überblick Ulrike Henny ulrike.henny@uni-koeln.de X-Technologien Das X-Universum XML im Zentrum Woher kommt XML? Einsatz von XML X-Technologien Datenhaltung Datenzugriff Umwandlung Ausgabe

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

Methodenkurs Text Mining 01: Know Your Data

Methodenkurs Text Mining 01: Know Your Data Methodenkurs Text Mining 01: Know Your Data Eva Enderichs SoSe2015 Eva EnderichsSoSe2015 01: Know Your Data 1 Eva EnderichsSoSe2015 01: Know Your Data 2 Typen von Korpora annotiert VS naturbelassen wenige

Mehr

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! www.semantic-web-grundlagen.de Ontology Engineering! Dr. Sebastian Rudolph! Semantic Web Architecture

Mehr

Entwicklung mit Arbortext Editor 6.1

Entwicklung mit Arbortext Editor 6.1 Entwicklung mit Arbortext Editor 6.1 Überblick Kurscode Kurslänge TRN-4410-T 3 Tag In diesem Kurs lernen Sie die grundlegenden und erweiterten Bearbeitungsfunktionen von Arbortext Editor kennen. Der Schwerpunkt

Mehr

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech Metadaten bei der Digitalisierung von analogen archivalischen Quellen Kathrin Mileta, Dr. Martina Wiech 2014 Metadaten Aufgabe des LAV NRW im DFG-Pilotprojekt zur Digitalisierung archivalischer Quellen:

Mehr

Dokumenten-Modelle im CMS CoreMedia

Dokumenten-Modelle im CMS CoreMedia Dokumenten-Modelle im CMS CoreMedia Einleitung Das Content Management System CoreMedia ist ein innovatives Produkt der Hamburger Firma CoreMedia, das hauptsächlich im Unternehmensbereich und für komplexe

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

CARL HANSER VERLAG. Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis 3-446-22562-5. www.hanser.de

CARL HANSER VERLAG. Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis 3-446-22562-5. www.hanser.de CARL HANSER VERLAG Dirk Ammelburger XML Grundlagen der Sprache und Anwendungen in der Praxis 3-446-22562-5 www.hanser.de 1 1.1 Einleitung... 2 Über dieses Buch... 3 1.2 Für wen ist das Buch gedacht?...

Mehr

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus Document Engineering Langzeitarchivierungsaspekte im enlebenszyklus Motivation Disziplin der Computer Wissenschaft, welche Systeme für e aller Formen und Medien erforscht. enlebenszyklus en Management

Mehr

Ressourcen-Beschreibung im Semantic Web

Ressourcen-Beschreibung im Semantic Web Ressourcen-Beschreibung im Semantic Web Cristina Vertan Inhaltsübersicht Wie sollen die Ressourcen für Semantic Web annotiert werden? Was ist und wie funktioniert RDF? Wie kodiert man RDF-Statements in

Mehr

Webseite in XML Kurzeinführung

Webseite in XML Kurzeinführung Webseite in XML Kurzeinführung 1. Entwicklung... 1 2. Erste Webpage in XML... 2 2.1 Erstes Beispiel... 2 2.2 Tags definieren... 4 2.3 Kommentare in XML... 5 2.4 XML mittels CSS im Browser ansehen... 5

Mehr

Tobias Hauser. XML-Standards. schnell+kompakt

Tobias Hauser. XML-Standards. schnell+kompakt Tobias Hauser XML-Standards schnell+kompakt Tobias Hauser XML-Standards schnell+kompakt ISBN: 978-3-86802-236-0 2010 entwickler.press ein Imprint der Software & Support Media GmbH 2. vollständig aktualisierte

Mehr

Contao Schulung. Martin Kozianka <martin@kozianka.de> Donnerstag, 20.11.2014

Contao Schulung. Martin Kozianka <martin@kozianka.de> Donnerstag, 20.11.2014 Contao Schulung Martin Kozianka Donnerstag, 20.11.2014 Theorieteil 1 - Begriffe Frontend: Die eigentliche Webseite (Ansicht für die Besucher) Backend: Administrationsbereich bzw. Oberfläche

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

elml Flexibilität und Nachhaltigkeit dank XML

elml Flexibilität und Nachhaltigkeit dank XML elml Flexibilität und Nachhaltigkeit dank XML Dipl. natw. Joël Fisler - GITTA Koordinator MNF elearning Tag 6.10.2005 www.elml.ch Inhalt Das GITTA Projekt Didaktisches Konzept von GITTA Einschub: Was ist

Mehr

Daten- und Metadatenstandards Wintersemester 2011/2012 26. März 2012 Text / XML: Erste Schritte

Daten- und Metadatenstandards Wintersemester 2011/2012 26. März 2012 Text / XML: Erste Schritte Daten- und Metadatenstandards Wintersemester 2011/2012 26. März 2012 Text / XML: Erste Schritte Themenüberblick Text / XML: Erste Schritte Text Inhalt Struktur Äußeres Erscheinungsbild: Layout Extensible

Mehr

Computerlinguistik im Service Management eine neue Suche für TOPdesk

Computerlinguistik im Service Management eine neue Suche für TOPdesk Computerlinguistik im Service Management eine neue Suche für TOPdesk Anna Hunecke Diplom Computerlinguistin TOPdesk A.Hunecke@topdesk.com Inhalt TOPdesk Suchen in TOPdesk Lucene Lucene in TOPdesk TOPdesk

Mehr

In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was

In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was 1 In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was die wichtigsten Konzepte sind. Den Themenbereich XML

Mehr

Visuelle Suche in Digitalen Filmarchiven Visual Search in Digital Film Archives. Visuelle Exploration Digitaler Bibliothken

Visuelle Suche in Digitalen Filmarchiven Visual Search in Digital Film Archives. Visuelle Exploration Digitaler Bibliothken Visuelle Suche in Digitalen Filmarchiven Visual Search in Digital Film Archives Visuelle Exploration Digitaler Bibliothken Prof. Dr. am Beispiel des Projektes MedioVis Harald.Reiterer@uni-konstanz.de Kurzvorstellung

Mehr

Wissen aus unstrukturierten natürlichsprachlichen

Wissen aus unstrukturierten natürlichsprachlichen ZKI Tagung AK Supercomputing, 19.-20. Okt. 2015 Wissen aus unstrukturierten natürlichsprachlichen Daten Sprachtechnologie und Textanalytik in the large Udo Hahn Jena University Language & Information Engineering

Mehr

Warum werden mittelalterliche und frühneuzeitliche Rechnungsbücher eigentlich nicht digital ediert?

Warum werden mittelalterliche und frühneuzeitliche Rechnungsbücher eigentlich nicht digital ediert? Warum werden mittelalterliche und frühneuzeitliche Rechnungsbücher eigentlich nicht digital ediert? Georg Vogeler Institut für Dokumentologie und Editorik e.v. Zentrum für Informationsmodellierung

Mehr

Kurze Einführung in Web Data Mining

Kurze Einführung in Web Data Mining Kurze Einführung in Web Data Mining Yeong Su Lee Centrum für Informations- und Sprachverarbeitung (CIS), LMU 17.10.2007 Kurze Einführung in Web Data Mining 1 Überblick Was ist Web? Kurze Geschichte von

Mehr

Arbortext 6.1. Lehrplan-Handbuch

Arbortext 6.1. Lehrplan-Handbuch Arbortext 6.1 Lehrplan-Handbuch Lehrplan-Handbuch für Kurse unter Anleitung Erstellen mit Arbortext Editor 6.1 Entwicklung für DITA mit Arbortext Editor 6.1 Arbortext Styler 6.1 verwenden Einführung in

Mehr

medani webdesign Webagentur in Wien Gründung: 1998 Suchmaschinenoptimierung: seit 2004

medani webdesign Webagentur in Wien Gründung: 1998 Suchmaschinenoptimierung: seit 2004 medani webdesign Webagentur in Wien Gründung: 1998 Suchmaschinenoptimierung: seit 2004 Weitere Dienstleistungen: Webdesign, Online-Shops, Google AdWords Mitarbeiter: 5 Internet: www.medani.at email: office@medani.at

Mehr

Dr. Thomas Meinike Hochschule Merseburg

Dr. Thomas Meinike Hochschule Merseburg XSLT Programmierung effektiv und schmerzfrei! Dr. Thomas Meinike Hochschule Merseburg thomas.meinike@hs merseburg.de http://www.iks.hs merseburg.de/~meinike/ @XMLArbyter Zusatzmaterial Februar

Mehr

Fünf einfache Möglichkeiten, wie Sie Ihre Unternehmenskosten senken.

Fünf einfache Möglichkeiten, wie Sie Ihre Unternehmenskosten senken. Fünf einfache Möglichkeiten, wie Sie Ihre Unternehmenskosten senken. Enterprise Content Management ist Software für digitale Archivierung, Dokumentenmanagement und Workflowprozesse. Mit ECM hat jeder Mitarbeiter

Mehr

Data Mining im Internet

Data Mining im Internet Data Mining im Internet Dipl.-Dok. Helga Walter Bayer HealthCare, Wuppertal PH-R-EU Scientific Information and Documentation 1 Arten / Quellen wissenschaftlicher Information Strukturierte Informationen:

Mehr

Java: Kapitel 9. Java und XML. Programmentwicklung WS 2008/2009. Holger Röder holger.roeder@informatik.uni-stuttgart.de.

Java: Kapitel 9. Java und XML. Programmentwicklung WS 2008/2009. Holger Röder holger.roeder@informatik.uni-stuttgart.de. Java: Kapitel 9 Java und XML Programmentwicklung WS 2008/2009 Holger Röder holger.roeder@informatik.uni-stuttgart.de Überblick über Kapitel 9 Einführung in XML XML-Verarbeitung in Java Document Object

Mehr

Textauszeichnung mit XML

Textauszeichnung mit XML Ulrike Henny & Patrick Sahle Fahrplan XML: wieso weshalb warum? XML als Markup XML essentiell XML schreiben am Beispiel XML schreiben im Editor XML, die Regeln XML, die Philosophie Folie 2 XML, wieso,

Mehr

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013 Forschunsprojekte und Independent Coursework Prof. Dr. Christian Herta 29. Januar 2013 Forschungsgebiete Suchtechnologie, Text- und Webmining Verarbeitung unstrukturierter Daten, insbesondere Text Large

Mehr

Linux I II III Res WN/TT NLTK XML Weka E XML BNC XSLT BNC/XML 7 BNC/XML XML BNC XSLT. Ressourcen-Vorkurs

Linux I II III Res WN/TT NLTK XML Weka E XML BNC XSLT BNC/XML 7 BNC/XML XML BNC XSLT. Ressourcen-Vorkurs BNC/XML 7 BNC/XML XML BNC XSLT extensible Markup Language I XML erlaubt es, strukturierte Daten in Textdateien zu speichern. Zum Schreiben und Lesen von XML-Dateien genügen einfache Text-Editoren wie Emacs

Mehr

Datenaustauschformate. Datenaustauschformate - FLV

Datenaustauschformate. Datenaustauschformate - FLV Datenaustauschformate FLV-Dateien CSV-Dateien XML-Dateien Excel-Dateien Access- Backupdateien Günter M. Goetz 108 Datenaustauschformate - FLV Fixed Length Values Repräsentation einer Tabelle als 'Flat-File'

Mehr

Unterrichtseinheiten zur Thematik Ökobilanz. Übersicht. Motivation und Lernziele. Einführung. Ablauf einer Ökobilanz. Beispiel.

Unterrichtseinheiten zur Thematik Ökobilanz. Übersicht. Motivation und Lernziele. Einführung. Ablauf einer Ökobilanz. Beispiel. en Übersicht Motivation und Motivation Sorge zur Umwelt tragen Herausfinden, welches Produkt weniger umweltschädlich ist als andere Wissen wie man en erstellt nach der anerkannten Norm ISO14040 Verstehen,

Mehr

XML Extensible Markup Language

XML Extensible Markup Language XML-Praxis XML Extensible Markup Language Jörn Clausen joern@techfak.uni-bielefeld.de Übersicht Woher? Wohin? Warum? Bestandteile von XML XML-Dokumente erstellen und bearbeiten XML-Praxis XML Extensible

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

design kommunikation development

design kommunikation development http://www.dkd.de dkd design kommunikation development Apache Solr - A deeper look Stefan Sprenger, Developer dkd Olivier Dobberkau, Geschäftsführer dkd Agenda Einführung Boosting Empfehlungen Ausblick

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen SVM Textkategorisierung Katharina Morik, Claus Weihs LS 8 Informatik 24.5.2011 1 von 46 Gliederung LS 8 Informatik 1 Web Mining Information Retrieval 2 Textklassifikation

Mehr

Spotlight - KABEL DEUTSCHLAND

Spotlight - KABEL DEUTSCHLAND Spotlight - KABEL DEUTSCHLAND GIEDRE ALEKNONYTE Kabel Deutschland (KD), der größte Kabelnetzbetreiber in Deutschland, stellt seinen Kunden digitale, HD- und analoge TV-, Pay- TV- und DVR-Angebote, Video-on-Demand,

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

SUCHMASCHINEN - OPTIMIERUNG WORAUF KOMMT ES AN?

SUCHMASCHINEN - OPTIMIERUNG WORAUF KOMMT ES AN? SUCHMASCHINEN - OPTIMIERUNG WORAUF KOMMT ES AN? 1 Was wollen wir? Wir wollen, dass unsere Zielgruppe unsere Website besucht und effizient für sich nutzen kann. 2 Wie kommt unsere Zielgruppe auf unsere

Mehr

Information Retrieval in P2P-Netzen

Information Retrieval in P2P-Netzen Information Retrieval in P2P-Netzen Vorstellung der Vortragsthemen zum Seminar Henrik Nottelmann 30. Oktober 2003 Henrik Nottelmann 1/21 Grundstruktur A) Filesharing-Systeme (3 Themen) B) Zugriffsstrukturen

Mehr

!!!!T!!! Systems!() Multimedia Solutions

!!!!T!!! Systems!() Multimedia Solutions Inhalt. Was ist das semantische Web? Wie findet man einen Arzttermin mit Hilfe des semantischen Web? Wie gibt man Inhalten einen Sinn? Welche Werkzeuge stehen zur Verfügung? Wo können strukturierte Inhalte

Mehr

HTML5. Wie funktioniert HTML5? Tags: Attribute:

HTML5. Wie funktioniert HTML5? Tags: Attribute: HTML5 HTML bedeutet Hypertext Markup Language und liegt aktuell in der fünften Fassung, also HTML5 vor. HTML5 ist eine Auszeichnungssprache mit der Webseiten geschrieben werden. In HTML5 wird festgelegt,

Mehr

Fallbasierte Bewertung von Internet-Domainnamen. Von Sebastian Dieterle

Fallbasierte Bewertung von Internet-Domainnamen. Von Sebastian Dieterle Fallbasierte Bewertung von Internet-Domainnamen Von Sebastian Dieterle Einleitung Einleitung Grundlagen Ansatz Evaluierung Schlussfolgerungen 2 Entstehung eines interdisziplinären Ansatzes 2002-: Unternehmensgründung

Mehr

Von Big Data zu Smart Information Empolis Information Management Workshop "Datenmanagement in der Zukunft"

Von Big Data zu Smart Information Empolis Information Management Workshop Datenmanagement in der Zukunft Von Big Data zu Smart Information Empolis Information Management Workshop "Datenmanagement in der Zukunft" 02.07.2014 Bamberg Andreas Nierlich Seite 1 Von 2009 bis 2020 soll das digitale Informationsvolumen

Mehr

Erfolgreiche Maßnahmen für Ihr Reputationsmanagement

Erfolgreiche Maßnahmen für Ihr Reputationsmanagement Erfolgreiche Maßnahmen für Ihr Reputationsmanagement Roland Ballacchino Es dauert zwanzig Jahre, sich eine Reputation zu erwerben und fünf Minuten, sie zu verlieren. Wenn man das im Auge behält, handelt

Mehr

Programmieren lernen mit Groovy Informationsstrukturen - Datenstrukturen - Textstrukturen (CSV, HTML, XML)

Programmieren lernen mit Groovy Informationsstrukturen - Datenstrukturen - Textstrukturen (CSV, HTML, XML) Programmieren lernen mit Groovy Informationsstrukturen - Datenstrukturen - Textstrukturen (CSV, HTML, XML) Seite 1 Logische Struktur, Textstruktur, Datenstruktur Daten in unterschiedlichen Repräsentationen

Mehr

Doz. Dr.-Ing. Barbara Hauptenbuchner, TU Dresden. CeBit 2005 - Hannover

Doz. Dr.-Ing. Barbara Hauptenbuchner, TU Dresden. CeBit 2005 - Hannover Fakultät Informatik: Prof. Dr. paed. habil Steffen Friedrich Fakultät Maschinenwesen: Prof. Dr.-Ing. habil. Ralph Stelzer Fakultät Elektrotechnik: Prof. Dr.-Ing. habil Wolf Fischer Fakultät Bauingenieurwesen:

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

XML 1. Einführung, oxygen. Ulrike Henny. ulrike.henny@uni-koeln.de. IDE Summer School 2013, Chemnitz

XML 1. Einführung, oxygen. Ulrike Henny. ulrike.henny@uni-koeln.de. IDE Summer School 2013, Chemnitz XML 1 Einführung, oxygen Ulrike Henny ulrike.henny@uni-koeln.de XML extensible Markup Language Was ist XML? XML-Grundlagen XML-Editoren, oxygen HTML + CSS XPath Übungen Literatur Folie 2 Was ist XML? extensible

Mehr

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur

Mehr

Die TEI. in einer halben Stunde

Die TEI. in einer halben Stunde Die TEI in einer halben Stunde Die TEI ist eine Personengruppe ist ein Satz an Computerbefehlen ist eine Reflexion über Text ist gar nicht so schwer! Geschichte 1987 XI Vassar College, Conference Ziel:

Mehr

XML/TEI eine Einführung

XML/TEI eine Einführung XML/TEI eine Einführung Teil 1/3: Datenmodellierung und XML 1 Was Sie hier erwartet Datenmodellierung XML Model-View-Controller Datenverarbeitung mittels Relationalen Datenbanken Strukturierte vs. semi-strukturierte

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Strukturierung von Inhalten

Strukturierung von Inhalten Strukturierung von Inhalten extensible Markup Language Metasprache erlaubt die Definition eigener Markupsprachen zur Strukturierung von Informationen World Wide Web Consortium (W3C) Standard Basiert auf

Mehr

Konzeptionelle Modellierung von XML-Dokumenttypen

Konzeptionelle Modellierung von XML-Dokumenttypen Konzeptionelle Modellierung von XML-Dokumenttypen Rainer Eckstein Institut für Informatik LFE DBIS Humboldt-Universität zu Berlin Rainer Eckstein 1 Konzeptionelle Modellierung von XML: XML (extensible

Mehr

Eine Dokumenttypdefinition lässt sich im Kopfbereich des XML-Dokumentes (interne DTD) oder in einer separaten Datei formulieren (externe DTD).

Eine Dokumenttypdefinition lässt sich im Kopfbereich des XML-Dokumentes (interne DTD) oder in einer separaten Datei formulieren (externe DTD). IT-Zertifikat: Daten- und Metadatenstandards XML: wohlgeformt vs. gültig XML-Dokumente können gültig sein. Gültige (valide) Dokumente müssen strengeren Anforderungen bzgl. Ihrer Struktur genügen. Diese

Mehr

Datenbanksysteme. XML und Datenbanken. Burkhardt Renz. Sommersemester 2015. Fachbereich MNI Technische Hochschule Mittelhessen

Datenbanksysteme. XML und Datenbanken. Burkhardt Renz. Sommersemester 2015. Fachbereich MNI Technische Hochschule Mittelhessen Fachbereich MNI Technische Hochschule Mittelhessen Sommersemester 2015 Übersicht Semistrukturierte Daten Dokumenttypdefinition XML-Schema XML aus Datenbank konstruieren XML in Datenbank speichern Merkmale

Mehr