Midas Metadata yield by Data Analysis

Ähnliche Dokumente
Qualitative Aspekte Enterprise Search Volltextsuche & Text Mining. Franz Kögl Vorstand IntraFind Software AG

EinfÅhrung in die objektorientiere Programmierung (OOP) unter Delphi 6.0. EDV Kurs 13/2

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

MedizinischeDokumentation. Wiederholung, Taxonomien, Ontologien, Terminologien

INFORMATIONSLOGISTIK VERSUS SUCHE. Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.

Numerisches Programmieren

FORD FOCUS FOCUS_2015_V3_MASTER_240x185 Cover ORIGINALS PLACED.indd /10/ :22:06

Containerformat Spezifikation

Additional Cycle Index (ACIX) Thomas Theuerzeit

unter Verwendung von Folien von Herrn Prof. Dr. Flensburg, von Laudon/Laudon/Schoder und von Frau Prof. Dr. Schuhbauer

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Musterlösung zur Vorlesung Modellbasierte Softwareentwicklung Wintersemester 2014/2015 Übungsblatt 9

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Data Mining im Internet

PinK meets Web2.0, Maya Biersack. Tagging auch für s Geschäft interessant

Containerformat Spezifikation

FORD B-MAX BMAX_ _V3_Cover.indd /06/ :50:35

Kapitel 6. Vererbung

Whitepaper Walkyre Enterprise Resource Manangement

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Objektorientierte Datenmodelle und - verwaltung

Kreditorenrechnungen schnell und kostengünstig verarbeiten

VisualCockpit. agile business analytics

2 SharePoint-Produkte und -Technologien

Terminologieextraktion mit Acrolinx IQ. Verbesserung von Unternehmenssprache und Übersetzungsprozess Melanie Siegel

Erläuterung des Begriffs Plagiat

Kapitel 6. Vererbung

4.1 Aktualisierung der topographischen Kartenbasis auf Grundlage von Satellitenbildern

Web Mining und Farming

Kapitel 6. Vererbung

Wissen aus unstrukturierten natürlichsprachlichen

RIS-ABFRAGEHANDBUCH REICHS-, STAATS- UND BUNDESGESETZBLATT

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Folge 19 - Bäume Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Darstellung der Methodik von SPORT+MARKT in der Online Media Evaluation. Eine Expertise der SPORT+MARKT AG

BIG DATA Die Bewältigung riesiger Datenmengen

Programmiersprachen und Übersetzer

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

CAS genesisworld.exchange connect Abgleich von Adressen und Terminen

Abschlussarbeiten 2010 in der Medizininformatik

Data Mining-Projekte

ACDSee 2009 Tutorials: Importien von Fotos mit dem Fenster "Importieren von"

Allerdings ist die Bearbeitung von Standardobjekten vorerst eingeschränkt. Wir wollen uns dies im folgenden Beispiel genauer betrachten.

Projekt AGB-10 Fremdprojektanalyse

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

EXZELLENTES MASTERDATENMANAGEMENT. Creactives-TAM. (Technical Attribute Management)

Word Grundkurs 89

Regelbasiertes Routing unstrukturierter Daten

Kapitel 1 Überblick Content Management und Digitale Bibliotheken

PREMIS Aktuelle Entwicklungen und Perspektiven

Vertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main

Abschnitt 16: Objektorientiertes Design

Das Kompetenzmodell digi.comp8 (NMS, AHS Unterstufe)

2.5.2 Primärschlüssel

Web Data Management Systeme

Text-Mining und Metadaten-Anreicherung Eine Einführung. Die Automatisierung in der semantischen Anreicherung von Text-Dokumenten

Die CAS Premium-Edition

Der M-Bus: Ausdehnung des Netzes bei unterschiedlichen Baudraten. Version 1 vom

SemTalk Services Stand: Februar 2015

Test-Strategien. Grundsätzliches Blackbox-Testen Whitebox-Testen Graybox-Testen Ablauf von Tests Zusammenfassung. HS Mannheim

VARONIS DATADVANTAGE. für Exchange

Entwicklung eines Scheduling-Verfahrens zur Optimierung der Reihenfolge von Prototypentests. Masterarbeit

mehr funktionen, mehr e-commerce:

Mehr Ergebnisse: Linguistische Funktionen und Ähnlichkeitssuche mit SQL. Carsten Czarski ORACLE Deutschland B.V. & Co KG München

Von der UML nach C++

Rechtschreiben mit der FRESCH Methode

Im Folgenden werden die jeweiligen Elemente erklärt. Im Anschluss folgt ein Beispieldatensatz in xml.

3. Konzepte der objektorientierten Programmierung

Projektabwicklung. Konfiguration des Projekttools v1.0

RIS-ABFRAGEHANDBUCH LANDESGESETZBLATT AUTHENTISCH

Software-Metriken. Wolfgang Globke. Seminar Moderne Softwareentwicklung SS Software-Metriken. Wolfgang Globke. Metriken und Qualitätsmodelle

ER-Modell. Entity-Relationship-Model

Corporate Smart Process Content. Wissensmanagement mittels Prozesskontext

Metadaten für INSPIRE im Geoportal Baden-Württemberg

Phasen und Tätigkeiten des Produktlebenszyklus

!!!!T!!! Systems!() Multimedia Solutions

PRÄSENTATIONSTRAINING. In 10 Schritten zur Präsentation der VWA

Lineare Gleichungssysteme

Nullserie zur Prüfungsvorbereitung

Big Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen

XML-Austauschformat für Sicherheitsdatenblätter

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder

Data Mining-Modelle und -Algorithmen

Website-Usability - Überprüfung der Gebrauchstauglichkeit von Websites

Transkript:

Midas Metadata yield by Data Analysis Glossar powered by

Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten textuellen Daten. Ein solches System erzeugt demnach Metadaten, die den Inhalt eines Dokumentes aus unterschiedlichen Perspektiven näher beschreiben. Midas ist ein Text Mining System und kann bei allen übermittelten textuellen Informationen folgende Analysen durchführen: Spracherkennung Kategorisierung Entitäten Erkennung Stichwort Erkennung Tag-Cloud Erstellung Erstellung einer automatischen Zusammenfassung Was ist ein Score-Wert? Ein Score-Wert ist ein numerischer Wert, durch welchen Relevanzen (Wichtigkeit) für einen bestimmten Zusammenhang bemessen werden. Grundsätzlich gilt die Regel: je höher der Score-Wert, desto stärker die Relevanz. Was ist Spracherkennung? Unter Spracherkennung versteht sich die Fähigkeit, die in einem Text vorkommenden Sprachen zu erkennen. Dabei ist es Midas möglich, auch mehrere Sprachen in einem Text zu identifizieren und diese über einen Score-Wert zu gewichten. Was ist Kategorisierung? Unter Kategorisierung versteht sich das Identifizieren von einem oder mehreren Themen, welche in einem Text behandelt werden. Solche Themen werden im Allgemeinen als Klassen oder Kategorien bezeichnet und sind üblicherweise in Klassifikationsschemata (Taxonomien) geordnet. Solche Taxonomien können mit Unter- und Oberklassen hierarchisch oder einfach nur flach aufgebaut sein. Midas unterstützt standardmäßig hierarchische Klassifikationsschemata und liefert zu einem übermittelten Text eine oder mehrere Kategorien. Jede Kategorie wird zusätzlich mit einem Score-Wert versehen, der ihre Relevanz bezogen auf den analysierten Text ausdrückt. Was ist Entitäten Erkennung? Unter Entitäten Erkennung versteht sich das Auffinden von eindeutig identifizierbaren Objekten, sogenannten Entitäten, die in einem Text auftreten. Normalerweise sind Entitäten in Typen strukturiert, besitzen eine eindeutige Identität und haben häufig einen beschreibenden Namen (Label). Midas erkennt die in einem Text vorkommenden Entitäten vom Typ Person, Organisation und Ort. Jede Entität wird mit einer numerischen Identität und einem Label geliefert. Der ermittelte Score-Wert bringt die Relevanz der Entität im Text zum Ausdruck. Des Weiteren werden alle Ausprägungen einer Entität geliefert, sogenannte Fundstellen, die im Text ermittelt werden konnten. Bei einwohnerreichen Orten werden zusätzlich auch Geo-Koordinaten übertragen. Midas liefert nicht alle Entitäten, sondern nur jene, die als besonders relevant angesehen werden. Diese werden als Fokus-Entitäten bezeichnet. Midas, picturesafe, 2015 Seite 2 von 5

Was ist Stichwort Erkennung? Unter Stichwort Erkennung bezeichnet man das Verfahren, welches relevante Worte oder Wortgruppen (Phrasen) in einem Text erkennt. Hierbei werden immer nur Worte ermittelt, die tatsächlich im Text auftreten. Häufig werden Worte jedoch zusätzlich normalisiert, sprich in ihre Grundform (Nominativ) gebracht. Midas liefert normalisierte, gewichtete Stichworte, wobei der Score-Wert eines Stichwortes seine Relevanz im Text beschreibt. Was ist die Tag-Cloud Funktionalität? Eine Tag-Cloud bezeichnet im Allgemeinen ein Menge an Worten und Phrasen, welche grafisch als Wortwolke dargestellt werden. Tag-Clouds dienen häufig dazu, um dem Leser einen ersten Überblick über einen Text zu verschaffen. Die Midas Tag-Cloud ist eine Metafunktionalität, welche auf der Entitäten- und Stichwort Erkennung aufsetzt. Die ermittelte Wortmenge setzt sich demnach aus den wichtigsten Fokus-Entitäten und Stichworten zusammen. Was ist eine automatische Zusammenfassung? Unter einer automatischen Zusammenfassung versteht man die automatische Kürzung eines Textes in wenige Sätze, die seinen wesentlichen Inhalt wiedergeben. Solche Systeme können grundsätzlich in zwei Arten unterteilt werden: In Systeme, welche die relevantesten Sätze ermitteln, bzw. in Systeme, die den relevanten Inhalt wiedergeben und dabei neue Sätze formulieren. Midas erstellt Zusammenfassungen eines Textes durch die Ermittlung der Sätze mit dem größten Informationsgehalt. Midas, picturesafe, 2015 Seite 3 von 5

Glossar: Text Mining: Text Mining beschreibt den Prozess der Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten textuellen Daten. Score-Wert: Ein Score-Wert ist ein numerischer Wert, durch welchen Relevanzen für einen bestimmten Zusammenhang bemessen werden Ampelwert: Der Ampelwert dient einer vereinfachten Darstellung des Score-Wertes durch lediglich drei Werte. Grün entspricht der höchsten und rot der geringsten Relevanz. Klasse: Eine Klasse bezeichnet das durch das Text-Mining-System ermittelte Thema in einem Text. Klassen (auch Kategorien genannt) werden nicht spontan generiert sondern sind fest vorgegeben. Sie werden in einem Klassifikationsschema häufig hierarchisch geordnet. Kategorie: siehe Klasse Klassifikationsschema: Ein Klassifikationsschema oder Taxonomie ist eine Anordnung von Klassen. Häufig sind Klassifikationsschemata hierarchisch strukturiert und bestehen aus einer Menge von Ober- und Unterklassen. Taxonomie: siehe Klassifikationsschema Thesaurus: siehe Klassifikationsschema Entität: Eine Entität ist ein eindeutig identifizierbares Datenobjekt. Jede Entität besitzt eine eindeutige Identität und ist einem Entitätentyp zugeordnet. Fundstelle: Eine Fundstelle beschreibt die Ausprägung einer Entität, die in einem Text gefunden wurde. Entitätentyp: Ein Entitätentyp bezeichnet einen Überbegriff für Entitäten. Klassische Entitätentypen sind: Person, Organisation, Ort Fokus-Entität: Eine Fokus-Entität ist eine für einen Text besonders relevante Entität. Geo-Koordinaten: Durch Geo-Koordinaten können beliebige Standorte auf der Erde beschrieben werden. Midas, picturesafe, 2015 Seite 4 von 5

Stichwort: Ein Stichwort beschreibt ein besonders wichtiges Wort eines Textes. Tag-Cloud: Eine Tag-Cloud bezeichnet eine Menge an Worten und Phrasen, die grafisch als Wortwolke dargestellt werden. Dabei können Informationen über Relevanz und Typ durch Wortgröße und Wortfarbe kodiert dargestellt werden. Verschlagwortung: Verschlagwortung oder Auszeichnung eines Textes bezeichnet den Vorgang, textuelle Daten durch Text Mining mit Metadaten anzureichern: Klassen, Entitäten, Stichworte Label (Entität): Das Label ist der beschreibende Name einer Entität. Im Gegensatz zu einer Identität muss ein Label kein eindeutiger Bezeichner sein. Term: siehe Label Schreibweise: Eine Schreibweise bezeichnet eine spezielle Ausprägung einer Entität, mit Hilfe derer nach dem Auftreten von Entitäten im Text gesucht wird. Jede Entität kann mehrere Schreibweisen besitzen. Führt eine Schreibweise zum Auffinden einer Entität so spricht man von einer Fundstelle. Midas, picturesafe, 2015 Seite 5 von 5