KI und Sprachanalyse (KISA)



Ähnliche Dokumente
Aufbau eines IT-Servicekataloges am Fallbeispiel einer Schweizer Bank

Contents. Interaction Flow / Process Flow. Structure Maps. Reference Zone. Wireframes / Mock-Up

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

EEX Kundeninformation

Daten haben wir reichlich! The unbelievable Machine Company 1

unter Verwendung von Folien von Herrn Prof. Dr. Flensburg, von Laudon/Laudon/Schoder und von Frau Prof. Dr. Schuhbauer

Preisliste für The Unscrambler X

Handbuch. Artologik EZ-Equip. Plug-in für EZbooking version 3.2. Artisan Global Software

Wenn Russland kein Gas mehr liefert

STRATEGISCHES BETEILIGUNGSCONTROLLING BEI KOMMUNALEN UNTERNEHMEN DER FFENTLICHE ZWECK ALS RICHTSCHNUR FR EIN ZIELGERICHTETE

Horst Pohlmann, The Phone House Telecom GmbH

Vorstellung RWTH Gründerzentrum

Gern beraten wir auch Sie. Sprechen Sie uns an!

Titelbild1 ANSYS. Customer Portal LogIn

QS solutions GmbH. präsentiert das Zusammenspiel von. Ihr Partner im Relationship Management

GAUSS towards a common certification process for GNSS applications using the European Satellite System Galileo

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

time marker cluster term term URL Link to AEC media

LiLi. physik multimedial. Links to e-learning content for physics, a database of distributed sources

Grundbegriffe der Wirtschaftsinformatik Informationssystem I

Office 365 Partner-Features

Softwareupdate-Anleitung // AC Porty L Netzteileinschub

KURZANLEITUNG. Firmware-Upgrade: Wie geht das eigentlich?

creative Factory GmbH

arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

2 Evaluierung von Retrievalsystemen

Schreiben auf Englisch

Datenanpassung: Erdgas und Emissionsrechte

J RG IMMENDORFF STANDORT F R KRITIK MALEREI UND INSPIRATION ERSCHEINT ZUR AUSSTELLUNG IM MUSEUM LU

Medizinische Nomenklaturen

Studieninformationsveranstaltung. Informatik. Institut für Informatik IV Universität Bonn. Tel.: 0228/

p^db=`oj===pìééçêíáåñçêã~íáçå=

Mitglied der Leibniz-Gemeinschaft

Perceptive Document Composition

Technische Universität Kaiserslautern Lehrstuhl für Virtuelle Produktentwicklung

EU nimmt neues Programm Mehr Sicherheit im Internet in Höhe von 55 Millionen für mehr Sicherheit für Kinder im Internet an


Dominik Stockem Datenschutzbeauftragter Microsoft Deutschland GmbH

Remotely Anywhere Verwendung von Zertifikaten Schritt für Schritt Anleitung zur Implementation von Zertifikaten in Remotely Anywhere

Schriftenreihe des Fachbereiches Wirtschaft Sankt Augustin

Benutzer- und Referenzhandbuch

Wörterbücher von MS nach Ooo konvertieren

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

UC4 Rapid Automation HP Service Manager Agent Versionshinweise

Big Data Projekte richtig managen!

Was kann ich wissen? Was will ich wissen? Wissensmanagement und technische Dokumentation

ISO Reference Model

Lehrveranstaltungen im Wintersemester 2012/2013

Smartphone Benutzung. Sprache: Deutsch. Letzte Überarbeitung: 25. April

MobiDM-App Handbuch für Windows Mobile

ISO Reference Model

UPU / CEN / ETSI. E-Zustellung in Europa & weltweit

Seminar: Software Engineering verteilter Systeme

elearning SIGNAL project Hans Dietmar Jäger 1

There are 10 weeks this summer vacation the weeks beginning: June 23, June 30, July 7, July 14, July 21, Jul 28, Aug 4, Aug 11, Aug 18, Aug 25

UM ALLE DATEN ZU KOPIEREN. ZUNÄCHST die Daten des alten Telefons auf einen Computer kopieren

Readme-USB DIGSI V 4.82

miditech 4merge 4-fach MIDI Merger mit :

! "# $% &'!( $ ) *(+,(,-

Algorithms for graph visualization

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler

Proxmox Mail Gateway Spam Quarantäne Benutzerhandbuch

Repositioning University Collections as Scientific Infrastructures.

Der Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren:

Semantic Web. RDF, RDFS, OWL, and Ontology Engineering. F. Abel, N. Henze, and D. Krause IVS Semantic Web Group

Chair of Information Management Wissenschaftsdisskussion

«Zukunft Bildung Schweiz»

Geistes-, Natur-, Sozial- und Technikwissenschaften gemeinsam unter einem Dach. Programmes for refugees at Bielefeld University

CERTIFIED FINANCIAL ENGINEER (CFE) EDUCATION IS THE KEY

ADVERTISING IMAGES ANZEIGENMOTIVE. Spring/Summer 2014 Frühjahr/Sommer 2014

Übersicht. Normung von Software in der Medizin. Vorstellung der DKE. Vorstellung der Normungsgremien. Normen im Bereich Software.

Unterstützung des Wissensmanagements durch Informations- und Kommunikationstechnologie

Workflow, Business Process Management, 4.Teil

H Mcast Future Internet made in Hamburg?

Kapitel 1 Applikations-Architektur VI

CABLE TESTER. Manual DN-14003

Der Begriff Cloud. Eine Spurensuche. Patric Hafner geops

Anforderungen, KEFs und Nutzen der Software- Prozessverbesserung

Einführung in die Informatik

Einführung in die Informatik

WAS IST DER KOMPARATIV: = The comparative

Release Notes BRICKware Copyright 23. March 2010 Funkwerk Enterprise Communications GmbH Version 1.0

Study guide written by René Koglbauer

Parameter-Updatesoftware PF-12 Plus

connect.it Campus Literaturverwaltung mit Mendeley

15. ISACA TrendTalk. Sourcing Governance Audit. C. Koza, 19. November 2014, Audit IT, Erste Group Bank AG

Anforderungen zur Entwicklung von E-CAD-Systemen

Ein Maulwurf kommt immer allein PDF

Symbio system requirements. Version 5.1

Formatting the TrekStor i.beat run

Remote Control - LeCroy Oszilloskop WaveSurfer 3000 mit LabVIEW via VICP LAN-Schnittstelle

VDE Prüf- und Zertifizierungsinstitut Gutachten mit Fertigungsüberwachung

Zum Download von ArcGIS 10, 10.1 oder 10.2 die folgende Webseite aufrufen (Serviceportal der TU):

Markus BöhmB Account Technology Architect Microsoft Schweiz GmbH

Transkript:

Folie 1 Überblick VTF KI und Sprachanalyse (KISA) Studiengänge DMM, MI (B. Sc.) Sommer Semester 15 Prof. Adrian Müller, PMP, PSM1 HS Kaiserslautern e: adrian.mueller@ hs-kl.de

2 Folie 2 INHALT VOM ZEICHEN ZUR BEDEUTUNG Bezugssysteme Definitionen Manuelle Verfahren Indexierung Schemata, Thesauri Vom Zeichen zur Bedeutung - Definition von Bedeutung durch Einsatz von Merkmalen, Kategorien, Prototypen - Wissenschaftliche und Technische Modelle zur Darstellung von Bedeutung - Schriftliche Texte in multimedialen Kontexten

3 Folie 3 BESCHREIBUNG VON INHALTEN Deskriptor / Index Term / Kontrolliert oder frei Zuweisung: Indexierung, Verschlagwortung, Vokabular: Schema, Schlüsselwörter, Konzepte, Metadaten, Begriffe aus der Domäne, Vorgehen: dies kann automatisch oder manuell erfolgen Das Vorwissen und die Erwartungshaltung des Benutzers muss bei der Indexierung beachtet werden Controlled Specific for specialized domains Potential for increased consistency of indexing and precision of retrieval - Un-controlled (free) Potentially all the terms in the documents

4 Folie 4 MANUAL AND AUTOMATIC INDEXING Eigenschaften Manual Human indexers assign index terms to documents A computer system may be used to record the descriptors generated by the human Automatic The system extracts typical / significant terms The human may contribute by setting the parameters or thresholds, or by choosing components or algorithms Semi-automatic The system s contribution may be support in terms of word lists, thesauri, reference system, etc, following or not the automatic processing of the text Manual Is based on intellectual judgment and semantic interpretation (concepts, themes) Slow and expensive Low consistency over time and different human indexers Automatic Fast and inexpensive Mechanical execution of algorithms, with no intelligent interpretation (aboutness / relevance) Consistent Manual = intellectual Indexers typically use standardized terminology and follow a specific protocol 2. The computer makes the indexing assignments, usually by identifying all or typical words, phrases, or combinations of words. Vocabulary (indexing language, Index-Terme) The set of concepts (terms or phrases) that can be used to index documents in a collection - Potential for increased recall

5 Folie 5 DEFINITIONEN Klassifikationssystem Klassifikationssysteme sind Hilfsmittel zur Ordnung von Gegenständen oder Wissen über Gegenstände. (DIN 32705) Klassifikation Eine Klassifikation ist eine strukturierte Darstellung von Klassen und der zwischen den Klassen bestehenden Begriffsbeziehungen, wobei die Klassen durch (von natürlichen Sprachen unabhängigen) Notationen repräsentiert werden. (DIN 32705, 2) Thesaurus Ein Thesaurus ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient (DIN 1463/1,2)

6 Folie 6 VERGLEICH QUELLE: J. GALLA Klassifikation Thesaurus Begriffssystem i.d.r. monohierarchisch geordnet systematisch geordnet von natürlichen Sprachen unabhängig viele Wortkombinationen weniger ausdrucksfähig abgegrenztes fachliches Begriffssystem i.d.r. polyhierarchisch geordnet alphabetisch geordnet natürlichsprachiger Zugang wenige Wortkombinationen ausdrucksfähig

7 Folie 7 KLASSIFIKATION: KATALOGE UND SCHEMATA Classification schemes can be defined by several categories, but can be broadly divided into: Universal schemes - examples include the Dewey Decimal Classification (DDC), the Universal Decimal Classification (UDC) and the Library of Congress Classification (LCC); National general schemes - universal in subject coverage but usually designed for use in a single country. Examples include the Nederlandse Basisclassificatie (BC) and the Sveriges Allmäma Biblioteksförening (SAB);

8 Folie 8 INDEXIERUNG STANDARDS Subject specific schemes - designed for use by a particular subject community. Examples include Iconclass for art resources, the National Library of Medicine (NLM) scheme for medicine Engineering Information (Ei) for engineering subjects ACM classification scheme (IT related) Home-grown schemes - schemes devised for use in a particular service. An example from the Internet is the 'ontology' developed for the Yahoo! search service

9 Folie 9 THE DEWEY DECIMAL SYSTEM The Dewey Decimal Classification System (DCC) was first produced by Melvil Dewey in 1876, originally being produced for a small North American college library. It is currently in its 21st edition DDC is used by more libraries than any other classification scheme. It is currently used in 135 different countries and has been translated into 30 languages It is used by the Library of Congress Cataloguing Service in the bibliographic records it creates, alongside the Library of Congress Classification (LCC).

10 Folie 10 THE DEWEY DECIMAL SYSTEM 1876 Melvil Devey, USA: Devey Decimal Classification (DDC) Universal Decimal Classification (UDC, Otlet & Lafontaine) Struktur: 10 main classes hierarchical organization max 10 branches from 1 node today 130 000 classes

11 Folie 11 THE DEWEY DECIMAL SYSTEM Overview 000 Generalities 100 Philosophy and Psychology 200 Religion 300 Social Science 400 Language 500 Natural Science and Mathematics 600 Technology (Applied Sciences) 700 Arts 800 Literature 900 Geography and History

12 Folie 12 THE DEWEY DECIMAL SYSTEM The 700 s 700 The arts 701 Philosophy & theory 702 Miscellany 703 Dictionaries & encyclopedias 704 Special topics 705 Serial publications 706 Organizations & management 707 Education, research, related topics 708 Galleries, museums, private collections 709 Historical, areas, persons treatment 710 Civic & landscape art 711 Area planning (Civic art) 712 Landscape architecture 713 Landscape architecture of trafficways 714 Water features 715 Woody plants 716 Herbaceous plants 717 Structures

13 Folie 13 THE DEWEY DECIMAL SYSTEM Universal Decimal Classification, an example: 3 Social science, laws, administration 33 National economics 336 Finances 336.7 Banking 336.76 Stock exchange 336.763 Share market

14 Folie 14 HOW TO CLASSIFY WORKS USING ACM S COMPUTING CLASSIFICATION SYSTEM An important aspect of preparing your paper for publication by ACM Press is to provide the proper indexing and retrieval information from the ACM Computing Classification System (CCS). This scheme can also be found at http://www.acm.org/class/1998 The CCS involves a four-level tree that has three coded levels and an uncoded level of subject descriptors (usually appearing at the fourth level). This tree comprises the categories and subject descriptors.

15 Folie 15 ACM TOP LEVEL CATEGORIES A. General Literature B. Hardware C. Computer Systems Organization D. Software/Software Engineering E. Data F. Theory of Computation G. Mathematics of Computing H. Information Technology and Systems I. Computing Methodologies J. Computer Applications K. Computing Milieux Top-2 level: html file for http://www.acm.org/class/1998/overview.html Founded in 1947, ACM is a major force in advancing the skills of information technology professionals and students worldwide. Today, our 80,000 members...

16 Folie 16 THE ACM COMPUTING CLASSIFICATION SYSTEM (1998) The ACM Computing Classification System (1998) A. General Literature A.0 GENERAL Biographies/autobiographies Conference proceedings General literary works (e.g., fiction, plays) A.1 INTRODUCTORY AND SURVEY A.2 REFERENCE (e.g., dictionaries, encyclopedias, glossaries) A.m MISCELLANEOUS B. Hardware B.0 GENERAL B.1 CONTROL STRUCTURES AND MICROPROGRAMMING (D.3.2) B.1.0 General B.1.1 Control Design Styles Hardwired control [**] Microprogrammed logic arrays [**] Writable control store [**] B.1.2 Control Structure Performance Analysis and Design Aids Automatic synthesis [**] Formal models [**] Simulation [**] ** Indicates that the classification is no longer used as of January 1998, but that the item is still searchable for previously classified documents.

17 Folie 17 HOW TO CLASSIFY WORKS USING ACM S COMPUTING CLASSIFICATION SYSTEM Example: Categories: H. INFORMATION TECHNOLOGY AND SYSTEMS H.2. DATABASE MANAGEMENT H.2.3 Languages Subject descriptor: Query languages Uncoded items are subject descriptors. Nodes in parentheses indicate a cross-reference to related material. Implicit Subject Descriptors (also called "Proper Noun Subject Descriptors") are names of products, systems, languages, and prominent people in the computing field, along with the category code under which they are classified. For example, "C++" is under "D.3.2 Language Classifications". Listing is alphabetical by name. Sort of people's names is by first name, not surname. Implicit Subject Descriptors do not appear as part of the formal scheme because they are too numerous to include without making the scheme too cumbersome

18 Folie 18 Data- und Text Mining, 2013 Prof. A. Müller, PMP Quelle: http://blog.semantic-web.at/wp-content/uploads/2010/02/poolparty-wiki- Frontend.png

19 Folie 19 THESAURI Capture relationships between indexing terms Hierarchical Synonymous Related (see: Wordnet) Creation of thesauri Manual vs. automatic s.a.: Hierarchisches Clustering generiert Strukturvorschlag Use of thesauri In manual / semi-automatic / automatic fashion Syntagmatic co-ordination / thesaurus-based query expansion during indexing / searching UB OB UA OA TP SP Unterbegriff Oberbegriff Unterbegriff Abstraktionsrelation Oberbegriff Abstraktionsrelation Teilbegriff Verbandsbegriff

20 Folie 20 WIEDERHOLUNG: VERGLEICH QUELLE: J. GALLA Klassifikation Thesaurus Begriffssystem i.d.r. monohierarchisch geordnet systematisch geordnet von natürlichen Sprachen unabhängig viele Wortkombinationen weniger ausdrucksfähig abgegrenztes fachliches Begriffssystem i.d.r. polyhierarchisch geordnet alphabetisch geordnet natürlichsprachiger Zugang wenige Wortkombinationen ausdrucksfähig Hinweis: diachron / synchron Vgl. Ontolgoien - KL-ONE (T-Box und A-Box) - Wordnet

21 Folie 21 WORDNET See: http://wordnet.princeton.edu/

22 Folie 22 OPAC WO IST WAS? Schlagwort AZ: Ein Schlagwort ist ein möglichst kurzer, umfassender, normierter Ausdruck für den sachlichen Inhalt einer Veröffentlichung. Bsp.: Inferenzstatistik / Lehrbuch / Statistik / Wahrscheinlichkeitsrechnung Im Unterschied zur Stichwortsuche recherchieren Sie also über das Schlagwortfeld nach normierten Bezeichnungen für den sachlichen Inhalt der Veröffentlichung. Nach Schlagwortketten können Sie auf zwei verschiedenen Wegen recherchieren: Eingabe eines Schlagwortes der Kette in das erste Eingabefeld und eines weiteren Schlagwortes dieser Kette in das zweite Eingabefeld Eingabe der Schlagwortkette in das erste Eingabefeld. Die einzelnen Schlagwörter dieser Kette geben Sie bitte mit "/" getrennt ein. MEHRERE SCHLAGWÖRTER pro Buch vgl. ACM ------ Systematik: Bsp Systematik:I800 - Computergraphik, allgemein Unterschied zwischen Systematik und Notation: Die Systematik spiegelt den Zusammenhang und die Gliederung aller Wissensgebiete wider. Ausgangspunkt ist die einzelne Wissenschaft, die in immer kleinere, speziellere Begriffe untergliedert wird. Die Notation stellt eine bestimmte Systemgruppe oder -stelle innerhalb einer Systematik dar. Durch Notationen lassen sich hierarchische Abhängigkeiten zwischen Wissenschaftsgebieten abbilden.

23 Folie 23 BEISPIEL: DESKRIPTOREN IN DER BIBLIOTHEK (GENANNT: SCHLAGWORT) Information Information / Dienstleistungsbetrieb Information / Dienstleistungsbetrieb / Organisation / Unternehmenskooperation / Wissen Information / Dienstleistungsbetrieb / Unternehmenskooperation / Organisation / Wissen Information / Dienstleistungsbetrieb / Wissen / Organisation / Unternehmenskooperation Information / Dokumentation Information / Dokumentation / IuD Information / Evaluation / Informationsökonomie Information / Graphische Darstellung Information / Informationsökonomie / Evaluation Information / Informationsverarbeitung Information / Innerbetriebliche Kommunikation / Mitarbeiter Information / Mitarbeiter / Innerbetriebliche Kommunikation Information / Online-Recherche / Suchmaschine / Internet Information / Organisation / Dienstleistungsbetrieb / Unternehmenskooperation / Wissen Information / Organisation / Unternehmenskooperation / Dienstleistungsbetrieb / Wissen Information / Suchmaschine / Internet / Online-Recherche Information / Suchmaschine / Online-Recherche / Internet Information / Unternehmenskooperation / Dienstleistungsbetrieb / Organisation / Wissen Information / Unternehmenskooperation / Organisation / Dienstleistungsbetrieb / Wissen...

24 Folie 24 BEISPIEL: SYSTEMATIK I100 Informatik,Datenverarbeitung allgemein I110 Informatik, Lexika, Wörterbücher I130 Konferenzen und Jahrbücher I140 Informatik, Übersichten I140/1 I150 Einführende Lehrbücher über Informatik I160 Anwendungen der Informatik in Funktionsbereichen und Branchen I161 Verwaltungsinformatik I162 Umweltinformatik I163 Medizininformatik I164 DV-Organisation I165 Bioinformatik I170 Künstliche Intelligenz I175 Neuronale Netze I176 Fuzzy logic I177 Probabilistische Netze I180 Juristische Aspekte in der DV I181 Datenschutz und Datensicherheit I182 DV-Recht I190 Leistungs-Bewertung...

25 Folie 25 ZUSAMMENFASSUNG UND DISKUSSION Für den Gegenstandsbereich eine Hochschule in Deutschland und die Nutzergruppe Studienanfänger Erstellen Sie beispielhaft (a) Ein Kategorienschema (b) Einen Thesaurus (c) Schlagwörter um die Web-Seiten der Hochschule Kaiserslautern in einen inhaltlichen Bezug zueinander zu setzen.