Zum State of the Art automatischer Inhaltsanalyse

Ähnliche Dokumente

Abwesenheitsnotiz im Exchange Server 2010

Was meinen die Leute eigentlich mit: Grexit?

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Wir machen neue Politik für Baden-Württemberg

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Grundbegriffe der Informatik

Beweisbar sichere Verschlüsselung

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Was ist das Budget für Arbeit?

Informationsblatt Induktionsbeweis

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Die Bedeutung von Breitband als Standortfaktor für Unternehmen

Wir machen uns stark! Parlament der Ausgegrenzten

Was ich als Bürgermeister für Lübbecke tun möchte

Senioren ans Netz. schreiben kurze Texte. Lektion 9 in Themen aktuell 2, nach Übung 7

Welche Gedanken wir uns für die Erstellung einer Präsentation machen, sollen Ihnen die folgende Folien zeigen.

VibonoCoaching Brief -No. 18

Die SPD und die Grünen machen im Niedersächsischen Landtag. Alle Menschen sollen in der Politik mitmachen können.

Deutsches Rotes Kreuz. Kopfschmerztagebuch von:

Sind wir attraktiv für Mitarbeiter? Employer Branding für Unternehmen auf Wachstumskurs.

Einführung in die Fuzzy Logic

Rhetorik und Argumentationstheorie.

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

ALEMÃO. Text 1. Lernen, lernen, lernen

Dr. Hans-Ulrich Rülke. Der nächste Schritt für unser Land Das Kurz-Wahlprogramm in Leichter Sprache

Formeln. Signatur. aussagenlogische Formeln: Aussagenlogische Signatur

Clustering Seminar für Statistik

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Grundlagen der Gesprächsführung: Argumentation

Bestandesaufnahme und Bedürfnisanalyse

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Erstspracherwerb. Sprachentwicklung: Wortschatz

Anmeldung zu Seminaren und Lehrgängen

Erfahrungen mit Hartz IV- Empfängern

4. Das neue Recht der GmbH ein Überblick

teamsync Kurzanleitung

Die Invaliden-Versicherung ändert sich

Das Institut für berufliche Aus- und Fortbildung stellt sich vor

Zwischenablage (Bilder, Texte,...)

1.3. Installation und Konfiguration von Filr Desktop

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Kontaktvorlage MikroPublic

Professionelle Seminare im Bereich MS-Office

Warum Sie jetzt kein Onlinemarketing brauchen! Ab wann ist Onlinemarketing. So finden Sie heraus, wann Ihre Website bereit ist optimiert zu werden

Software- und Druckerzuweisung Selbstlernmaterialien

Grundlagen der Theoretischen Informatik, SoSe 2008

Gezielt über Folien hinweg springen

Die Post hat eine Umfrage gemacht

Kompetenzen und Aufgabenbeispiele Englisch Schreiben

Tragen Sie bitte im Anmeldefeld die Daten ein, die Sie von uns erhalten haben.

Seminar Datenbanksysteme

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Portfolio: "Kabale und Liebe" von Friedrich von Schiller

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Anleitung über den Umgang mit Schildern

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Versetzungsgefahr als ultimative Chance. ein vortrag für versetzungsgefährdete

4 Ideen zur Verbesserung des -Marketings!

7 Rechnen mit Polynomen

Fernabi.de. Vielleicht kennen Sie LEO - das Online-Wörterbuch.

Schulung Marketing Engine Thema : Einrichtung der App

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Elternzeit Was ist das?

4 Aufzählungen und Listen erstellen

1. Weniger Steuern zahlen

Grünes Wahlprogramm in leichter Sprache

Bewertung des Blattes

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

Lassen Sie sich entdecken!

Schola 21.de. Eine Projektplattform für selbstständiges Schülerlernen der DKJS

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Abi-Retter-Strategien: Texterörterung. Das komplette Material finden Sie hier:

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Part-of-Speech- Tagging

Bedienungsanleitung Anlassteilnehmer (Vereinslisten)

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

2.1 Präsentieren wozu eigentlich?

Maschinelle Übersetzung

Grundbegriffe der Informatik

bagfa ist die Abkürzung für unseren langen Namen: Bundes-Arbeits-Gemeinschaft der Freiwilligen-Agenturen.

Dr. Guido Schwarz Forschung, Schulung, Beratung; A Wien, Edelhofgasse 31/8; Tel: Mobil:

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

Der kleine große Unterschied

Europäischer Fonds für Regionale Entwicklung: EFRE im Bundes-Land Brandenburg vom Jahr 2014 bis für das Jahr 2020 in Leichter Sprache

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Darum geht es in diesem Heft

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Kundengewinnung mit Internet-Videos. Falk Kähny

Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation

Tutorial: Homogenitätstest

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

Linienland, Flächenland und der Hyperraum Ein Ausflug durch die Dimensionen

Primzahlen und RSA-Verschlüsselung

Bürger legen Wert auf selbstbestimmtes Leben

100 Mikrokredite und Abschluss der Pilotphase. Ruedi Winkler, Präsident Verein GO! Ziel selbstständig

Alle gehören dazu. Vorwort

Transkript:

Zum State of the Art automatischer Inhaltsanalyse Michael Scharkow, M.A. Universität Hohenheim Institut für Kommunikationswissenschaft (540G) michael.scharkow@uni-hohenheim.de

Typologie der Verfahren deskriptive/explorative Verfahren überwachte, gelenkte Verfahren keine Hypothesen hypothesengeleitet keine Kontrolle über das Verfahren vor allem zur ersten Exploration der Textdaten Kontrolle über die Codierung manuelle (Vor-)Arbeit nötig sinnvolle Kategorien vollautomatisch und effizient

Ungelenkte Verfahren - Mal schauen, was da ist

Textstatistische Verfahren Beschreibung des Textes durch Wortfrequenzen, Histogramme Wort-, Satz und Textstatistiken sind nützliche Indikatoren für journalistische Praktiken, Genre und Textsorten Autorenschaft/Stilometrie Komplexität der Texte und Lesbarkeit

Beispiele Zuordnung von Autoren bei den Federalist Papers spezifisches Vokabular hilft bei der Identifikation Messung der Verständlichkeit von (politischen) Texten Wortlänge und Satzlänge als Indikator von Verständlichkeit Umfang des benutzten Wortschatzes als Indikator für Komplexität Visualisierung von Textdaten, z.b. für qualitative Interviews oder offene Antworten aus Fragebögen

Co-Occurrence und Latent Semantic Indexing Wörter tauchen gern gemeinsam in bestimmten Kontexten (Sätzen, Absätzen, Dokumenten) auf über alle Dokumente kann daher eine Ähnlichkeitsmatrix von Wörtern bzw. Wortgruppen erstellt werden (wie oft tauchen Begriffe zusammen auf) Clusteranalyse und Multidimensionale Skalierung arbeiten mit Ähnlichkeitsmatrizen LSI verdichtet zusammengehörige Wörter zu Faktoren, sog. Semantischen Indizes, mit denen weitergearbeitet wird (ähnlich wie bei einer klassischen Hauptkomponentenanalyse)

Term-Dokument-Matrix (Co-Occurrence) Peter sehen Student Seminar im Telefon Tag am d1 1 1 1 1 1 0 0 0 d2 0 0 0 0 0 1 1 2 d3 1 1 0 0 0 0 2 1

Beispiel Co-Occurrence-Analyse (Landmann/Züll)

Automatische Dokumentklassifikation Term-Dokument-Matrix lädt zum Clustern von Dokumenten ein, die ein ähnliches Wortprofil haben k-means (partitionierend) Clusteranalyse als häufigstes Verfahren Hierarchische Clusteranalyse (agglomerativ) skaliert sehr schlecht mit vielen Fällen und Variablen Clusteranzahl und Interpretation unklar, oft wenig sinnvolle Kategorien

Term-Dokument-Matrix (Document-Clustering) Peter sehen Student Seminar im Telefon Tag am d1 1 1 1 1 1 0 0 0 d2 0 0 0 0 0 1 1 2 d3 1 1 0 0 0 0 2 1

Beispiel Clustering von Web-Dokumenten (Google)

Gelenkte Verfahren - es wird ernst!

Gelenkte Verfahren - Induktion und Deduktion Standardfall für die Kommunikationsforschung Wir haben Hypothesen, die wir überprüfen wollen! Computersoftware muss gezielt gesteuert werden, aber wie? durch explizite Begriffe - ^(Finanz Banken Kredit)krise*$ durch explizite Regeln - html.title.content.string.split[1] durch annotierte Beispiele - doc1 = SPORT; doc2 = WIRTSCH

Gelenkte Verfahren - Ansatz und Gegenstand Bag-of-Words-Verfahren betrachten Texte als eine (ungeordnete) Ansammlung von Wörtern bzw. Zeichen rein lexikalische Ebene, Analyseeinheit ist der Text klassische Inhaltsanalyse (Codierung von Themen, Nachrichtenfaktoren) Syntaktisch-semantische Ansätze Texte bestehen aus Aussagen bzw. Propositionen Computer soll die Bestandteile der Aussage erkennen und analysieren

Typologie gelenkter Verfahren deduktiv, regelbasiert TEXTPACK VRA KEDS/TABARI RCA/SNA statistisch linguistisch Wordscores TIE ReadMe induktiv, beispielbasiert

Diktionärsbasierte Verfahren Urgestein der automatischen Inhaltsanalyse (General Inquirer seit den 60ern) Forscher definieren Wortlisten (Diktionäre), nach denen dann Dokumente klassifiziert werden Wenn das Dokument das Wort Fußball enthält, wird es als Sportmeldung codiert. Freitextrecherche über Suchmaschinen funktioniert ähnlich, allerdings ist die Grundgesamtheit oft unbekannt, also Validität der Ergebnisse unklar. vollständige Reliabilitität und gute Effizienz, Validität bei komplexen Konstrukten oft sehr problematisch und Diktionärsentwicklung aufwändig

Aufgabe - Entwickelt ein Diktionär für... Medienresonanzanalyse bei Volkswagen (leicht!) Polo, Golf, Vfl Wolfsburg, Betriebsrat + Prostituierte,... Nachrichtenfaktor Schaden (auch nicht schwer, aber lang) sterben, Unfall, verunglücken, Tote, Verletzte, Absturz, Amok,... Wirtschaftsnachrichten -??? Personalisierung der Wahlkampfberichterstattung -??? Postmaterialismus in Wahlprogrammen -???

Regelbasierte linguistische Verfahren Umwandlung von Aussagen in analysierbare Graphenstruktur Information wird aus den Dokumenten extrahiert, d.h. offene Frage Wer tut was mit wem? soll beantwortet werden Syntaktische Parser und andere Verfahren funktionieren nur bei domainspezifischen Texten, Beispiel: Extraktion von int. Ereignissen aus Tickermeldungen sowohl automatisches Parsing als auch die Definition von Codierregeln sind extrem aufwändig, meistens werden Diktionäre zur Hilfe geholt Verfahren eignen sich super für Online-Inhaltsanalyse, weil HTML, XML, Mails stark strukturiert sind

Induktive überwachte Textklassifikation da die Definition von Diktionären bzw. Regeln sehr aufwändig und wenig dem manuellen beispielgeleiteten Codierprozess entspricht: lernende Klassifikatoren Klassifikator erhält Trainingsdaten, die Rohtext und Kategorie enthalten, extrahiert daraus Feature-Gewichte (vgl. Regressionskoeffizienten), mit denen dann neue Dokumente klassifiziert werden man erhält ein probabilistisches Diktionär, das man nicht selbst definiert Beispiele: Wordscores zur Links-Rechts-Codierung von Wahlprogrammen viel Trainingsmaterial und gute Algorithmen verbessern die Validität

Automated Content Analysis to Enhance Empirical Legal Research 1 Funktionsweise induktiver Klassifikation 1: The machine learning approach to text classification. Labeled Documents Unlabeled Documents Text Classifier Feature Selection Supervised Machine Learning Algorithm This figure illustrates the basic elements of the machine learning approach to ation. The task involves applying a supervised machine learning algorithm to trai ents of known categorical values ( labeled documents ) to train a text classifier that t

Induktive Informationsextraktion siehe linguistische, regelbasierte Codierung, aber ohne explizite Regeln der Computer soll selbst lernen, was ein Akteur, eine Handlung, ein Termin, ein Ort ist Annotierung der Aussagen und Inferenz auf andere Texte mit anderen Strukturen und anderen Inhalten (!) funktioniert bislang nur sehr begrenzt wäre aber das mächtigste Verfahren neben der vollautomatischen Textinterpretation

Fazit alle Verfahren haben in bestimmten Situationen noch Sinn Diktionäre eignen sich bei einfachen Konstrukten, Eigennamen, Marken etc. Lesbarkeit und Stilometrie sind bislang relativ selten in kommwiss. Forschung (außerhalb von Hohenheim!) Induktive Verfahren sind toll, weil sie anschlussfähig an bestehende manuelle Codierpraxis sind und trotzdem super mit vielen, vielen Dokumenten skalieren Linguistische Verfahren sind noch nicht weit genug für Standardfragestellungen.

Danke für die Einladung und die Aufmerksamkeit! michael.scharkow@uni-hohenheim.de