Midas Metadata yield by Data Analysis Glossar powered by
Was ist Text Mining? Unter Text Mining versteht sich im Allgemeinen die Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten textuellen Daten. Ein solches System erzeugt demnach Metadaten, die den Inhalt eines Dokumentes aus unterschiedlichen Perspektiven näher beschreiben. Midas ist ein Text Mining System und kann bei allen übermittelten textuellen Informationen folgende Analysen durchführen: Spracherkennung Kategorisierung Entitäten Erkennung Stichwort Erkennung Tag-Cloud Erstellung Erstellung einer automatischen Zusammenfassung Was ist ein Score-Wert? Ein Score-Wert ist ein numerischer Wert, durch welchen Relevanzen (Wichtigkeit) für einen bestimmten Zusammenhang bemessen werden. Grundsätzlich gilt die Regel: je höher der Score-Wert, desto stärker die Relevanz. Was ist Spracherkennung? Unter Spracherkennung versteht sich die Fähigkeit, die in einem Text vorkommenden Sprachen zu erkennen. Dabei ist es Midas möglich, auch mehrere Sprachen in einem Text zu identifizieren und diese über einen Score-Wert zu gewichten. Was ist Kategorisierung? Unter Kategorisierung versteht sich das Identifizieren von einem oder mehreren Themen, welche in einem Text behandelt werden. Solche Themen werden im Allgemeinen als Klassen oder Kategorien bezeichnet und sind üblicherweise in Klassifikationsschemata (Taxonomien) geordnet. Solche Taxonomien können mit Unter- und Oberklassen hierarchisch oder einfach nur flach aufgebaut sein. Midas unterstützt standardmäßig hierarchische Klassifikationsschemata und liefert zu einem übermittelten Text eine oder mehrere Kategorien. Jede Kategorie wird zusätzlich mit einem Score-Wert versehen, der ihre Relevanz bezogen auf den analysierten Text ausdrückt. Was ist Entitäten Erkennung? Unter Entitäten Erkennung versteht sich das Auffinden von eindeutig identifizierbaren Objekten, sogenannten Entitäten, die in einem Text auftreten. Normalerweise sind Entitäten in Typen strukturiert, besitzen eine eindeutige Identität und haben häufig einen beschreibenden Namen (Label). Midas erkennt die in einem Text vorkommenden Entitäten vom Typ Person, Organisation und Ort. Jede Entität wird mit einer numerischen Identität und einem Label geliefert. Der ermittelte Score-Wert bringt die Relevanz der Entität im Text zum Ausdruck. Des Weiteren werden alle Ausprägungen einer Entität geliefert, sogenannte Fundstellen, die im Text ermittelt werden konnten. Bei einwohnerreichen Orten werden zusätzlich auch Geo-Koordinaten übertragen. Midas liefert nicht alle Entitäten, sondern nur jene, die als besonders relevant angesehen werden. Diese werden als Fokus-Entitäten bezeichnet. Midas, picturesafe, 2015 Seite 2 von 5
Was ist Stichwort Erkennung? Unter Stichwort Erkennung bezeichnet man das Verfahren, welches relevante Worte oder Wortgruppen (Phrasen) in einem Text erkennt. Hierbei werden immer nur Worte ermittelt, die tatsächlich im Text auftreten. Häufig werden Worte jedoch zusätzlich normalisiert, sprich in ihre Grundform (Nominativ) gebracht. Midas liefert normalisierte, gewichtete Stichworte, wobei der Score-Wert eines Stichwortes seine Relevanz im Text beschreibt. Was ist die Tag-Cloud Funktionalität? Eine Tag-Cloud bezeichnet im Allgemeinen ein Menge an Worten und Phrasen, welche grafisch als Wortwolke dargestellt werden. Tag-Clouds dienen häufig dazu, um dem Leser einen ersten Überblick über einen Text zu verschaffen. Die Midas Tag-Cloud ist eine Metafunktionalität, welche auf der Entitäten- und Stichwort Erkennung aufsetzt. Die ermittelte Wortmenge setzt sich demnach aus den wichtigsten Fokus-Entitäten und Stichworten zusammen. Was ist eine automatische Zusammenfassung? Unter einer automatischen Zusammenfassung versteht man die automatische Kürzung eines Textes in wenige Sätze, die seinen wesentlichen Inhalt wiedergeben. Solche Systeme können grundsätzlich in zwei Arten unterteilt werden: In Systeme, welche die relevantesten Sätze ermitteln, bzw. in Systeme, die den relevanten Inhalt wiedergeben und dabei neue Sätze formulieren. Midas erstellt Zusammenfassungen eines Textes durch die Ermittlung der Sätze mit dem größten Informationsgehalt. Midas, picturesafe, 2015 Seite 3 von 5
Glossar: Text Mining: Text Mining beschreibt den Prozess der Extraktion von strukturierten Informationen aus unstrukturierten oder semistrukturierten textuellen Daten. Score-Wert: Ein Score-Wert ist ein numerischer Wert, durch welchen Relevanzen für einen bestimmten Zusammenhang bemessen werden Ampelwert: Der Ampelwert dient einer vereinfachten Darstellung des Score-Wertes durch lediglich drei Werte. Grün entspricht der höchsten und rot der geringsten Relevanz. Klasse: Eine Klasse bezeichnet das durch das Text-Mining-System ermittelte Thema in einem Text. Klassen (auch Kategorien genannt) werden nicht spontan generiert sondern sind fest vorgegeben. Sie werden in einem Klassifikationsschema häufig hierarchisch geordnet. Kategorie: siehe Klasse Klassifikationsschema: Ein Klassifikationsschema oder Taxonomie ist eine Anordnung von Klassen. Häufig sind Klassifikationsschemata hierarchisch strukturiert und bestehen aus einer Menge von Ober- und Unterklassen. Taxonomie: siehe Klassifikationsschema Thesaurus: siehe Klassifikationsschema Entität: Eine Entität ist ein eindeutig identifizierbares Datenobjekt. Jede Entität besitzt eine eindeutige Identität und ist einem Entitätentyp zugeordnet. Fundstelle: Eine Fundstelle beschreibt die Ausprägung einer Entität, die in einem Text gefunden wurde. Entitätentyp: Ein Entitätentyp bezeichnet einen Überbegriff für Entitäten. Klassische Entitätentypen sind: Person, Organisation, Ort Fokus-Entität: Eine Fokus-Entität ist eine für einen Text besonders relevante Entität. Geo-Koordinaten: Durch Geo-Koordinaten können beliebige Standorte auf der Erde beschrieben werden. Midas, picturesafe, 2015 Seite 4 von 5
Stichwort: Ein Stichwort beschreibt ein besonders wichtiges Wort eines Textes. Tag-Cloud: Eine Tag-Cloud bezeichnet eine Menge an Worten und Phrasen, die grafisch als Wortwolke dargestellt werden. Dabei können Informationen über Relevanz und Typ durch Wortgröße und Wortfarbe kodiert dargestellt werden. Verschlagwortung: Verschlagwortung oder Auszeichnung eines Textes bezeichnet den Vorgang, textuelle Daten durch Text Mining mit Metadaten anzureichern: Klassen, Entitäten, Stichworte Label (Entität): Das Label ist der beschreibende Name einer Entität. Im Gegensatz zu einer Identität muss ein Label kein eindeutiger Bezeichner sein. Term: siehe Label Schreibweise: Eine Schreibweise bezeichnet eine spezielle Ausprägung einer Entität, mit Hilfe derer nach dem Auftreten von Entitäten im Text gesucht wird. Jede Entität kann mehrere Schreibweisen besitzen. Führt eine Schreibweise zum Auffinden einer Entität so spricht man von einer Fundstelle. Midas, picturesafe, 2015 Seite 5 von 5