Sentiment Analysis und Ontologien

Ähnliche Dokumente
6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Zeichen bei Zahlen entschlüsseln

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

2 Evaluierung von Retrievalsystemen

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Flash, Network und Facebook. Steven Mohr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie.

Professionelle Seminare im Bereich MS-Office

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Herzlich Willkommen! EC-Ruhr-Kongress Donnerstag, 20. September 12

Ontologien. Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Ontologien: Konstrukte. Konzepte/Klassen

Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr

Business-Rule-Management als Instrument des Software-Reengineering

1 Mathematische Grundlagen

SharePoint Demonstration

Statuten in leichter Sprache

Part-of-Speech- Tagging

Grundlagen der Künstlichen Intelligenz

Konfiguration VLAN's. Konfiguration VLAN's IACBOX.COM. Version Deutsch

Erstellen einer digitalen Signatur für Adobe-Formulare

Eine Logikschaltung zur Addition zweier Zahlen

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Umgang mit Schaubildern am Beispiel Deutschland surft

Anlage zur Deputationsvorlage L 30/17. Änderung der Verordnungen zur Umgestaltung des fünften Prüfungselements. Zeugnisordnung AP-V 2008

Grundbegriffe der Informatik

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Informationen zu den regionalen Startseiten

Häufig wiederkehrende Fragen zur mündlichen Ergänzungsprüfung im Einzelnen:

Herzlich Willkommen zur Präsentation von. Erfahren Sie alles über Ihre Chancen als GDA. (c) by HaWo Holding Inc., 2015, All rights reserved

e LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen

Inverted Classroom für anspruchsvolle Themen

DAUERHAFTE ÄNDERUNG VON SCHRIFTART, SCHRIFTGRÖßE

Die Bundes-Zentrale für politische Bildung stellt sich vor

FIS: Projektdaten auf den Internetseiten ausgeben

Multicheck Schülerumfrage 2013

Covermount-Rahmenvertrag. Microsoft Deutschland GmbH, Konrad-Zuse-Straße 1, Unterschleißheim - nachfolgend Microsoft -

Risikomanagement bei PPP Projekten: Erfahrungen aus Deutschland

XML-Austauschformat für Sicherheitsdatenblätter

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Lehrer: Einschreibemethoden

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Step by Step Webserver unter Windows Server von Christian Bartl

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Gewinnen Sie in Dynamics CRM Erkenntnisse über Ihre Kunden und Ihr Unternehmen im gesamten Social Web in Echtzeit. Version 3.0

Zusatzprämientarif. Gültig ab 1. April 2013 (Version 5.0/2013)

Nicht über uns ohne uns

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

Zitieren leicht gemacht // Die amerikanische sowie die deutsche Art der Zitation

Tevalo Handbuch v 1.1 vom

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

2.1.1 Wer ist zur Bilanzierung verpflichtet?

Leichte-Sprache-Bilder

Design Pattern - Strukturmuster. CAS SWE - OOAD Marco Hunziker Klaus Imfeld Frédéric Bächler Marcel Lüthi

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Was meinen die Leute eigentlich mit: Grexit?

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Werte und Grundsätze des Berufskodexes für interkulturell Dolmetschende. Ethische Überlegungen: Was ist richtig? Wie soll ich mich verhalten?

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Abi-Retter-Strategien: Texterörterung. Das komplette Material finden Sie hier:

FlowFact Alle Versionen

Mining High-Speed Data Streams

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Anwendungsbeispiele Sign Live! Secure Mail Gateway

XONTRO Newsletter. Makler. Nr. 16

OP-LOG

Verhindert, dass eine Methode überschrieben wird. public final int holekontostand() {...} public final class Girokonto extends Konto {...

User Manual Data 24. Login und Layout

Installation und Bedienung von vappx unter ios

Media Teil III. Begriffe, Definitionen, Übungen

Primzahlen und RSA-Verschlüsselung

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

Wie Google Webseiten bewertet. François Bry

Benutzerhandbuch - Elterliche Kontrolle

Lernende Suchmaschinen

Whoop! Bid Management - Anwendungsfall Elektronikbranche

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Konzepte der Informatik

Maximizing the Spread of Influence through a Social Network

teischl.com Software Design & Services e.u. office@teischl.com

Formeln. Signatur. aussagenlogische Formeln: Aussagenlogische Signatur

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Wahl- und Wechselmöglichkeiten im Lebensphasenmodell

Social Media bei der Kreissparkasse Ludwigsburg

Ein neues System für die Allokation von Spenderlungen. LAS Information für Patienten in Deutschland

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Kapitalerhöhung - Verbuchung

Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Das System der gewerblichen Schutzrechte und der Grundzüge des Urheberrechts aus gründerspezifischer Sicht

Transkript:

Sentiment Analysis und Ontologien Universität zu Köln Sprachliche Informationsverarbeitung Künstliche Intelligenz Dozent: C. Neuefeind 13.06.2012 Linus Franzke und Carina Berning

Inhalt Was ist Sentiment Analysis? Gründe für SD Social Web/Semantic Web Grundlagen Tokenisierung Textklassifikation Naive-Bayes-Klassifikator Ontologien Was sind Ontologien? Ontologiesprachen Erstellung einer Ontologie / Protégé Probleme Anwendungsbereiche der SD 2

Was ist Sentiment Analysis? Auch: Sentiment Detection Stimmungserkennung Methoden aus Statistik, maschinellen Lernen, etc. Benutzt u.a. zu kommerziellen Zwecken Unternehmen, Einkaufsportale, etc. Domänespezifisch (Horrorfilm vs. Liebesfilm) 3

Was ist Sentiment Analysis? Ziel: Analyse menschlicher Sprache Analyse von Kommentaren/Meinungen Grundstimmung soll ermittelt werden Ist der Kommentar positiv? Oder ist er negativ? 4

Gründe Informationsflut, stetiges Wachstum Entwicklung des Internets Social Web 5

6

Exkurs: Social Web Kommunikation über das WWW durch Verlinkung Social Networks verbinden Menschen Individuelle Einbringung der Nutzer Prosumer Vom Wissenspool zum Netz der User 7

Exkurs: Social Web Das Internet wird stärker in das tägliche Leben integriert Geschäftsabwicklungen Einkäufe/Verkäufe Pflegung sozialer Kontakte etc. 8

Die Grundlagen für die Sentiment Analysis 9

Sentiment Analysis Model Dokumente Dokumentvorverarbeitung Dokumentanalyse Sentiment Klassifikation z.b. Tokenisierung Stemming POS tagging Negation tagging Ergebnis 10

Tokenisierung Wortbegrenzung und Satzsegmentierung Segmentierung in sogenannte Tokens White space Tokenisierung z.b. Das ist ein Satz. Das ist ein Satz. Sprachspezifische Probleme: z.b. これは 文 です 11

Weitere Aufgaben: 1. Abkürzungen erkennen und isolieren: etc., sog., usw. 2. Interpunktionen und Sonderzeichen erkennen:!,?, @,, $, (, ), / 3. kontrahierte Formen expandiere: That's awesome. That is awesome. 4. komplexe Tokens erkennen und isolieren: 1 Token: 1 000 000, email@gmx.de 1 Token oder mehr: Bill Gates 5. ggf. Tokens normalisieren: {U. S. A. USA U. S. of America} -> U. S. A 12

Segmentierung Grundidee: Sätze an satztrennenden Interpunktionszeichen trennen Problem: Punktambiguität Lösung: Algorithmus zur Punktdesambiguierung Der Punkt ist ein Abkürzungspunkt, falls das Token in einer Abkürzungsliste steht; nach dem Token [, ;a-z] folgt; das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht; das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punkt vorkommt. 13

Stemming Gleiche Wörter in verschiedenen Formen werden nicht wiedererkannt Stemming-> reduzierung von Wörtern zu ihrem Stamm am, are, is be car, cars, car s, cars car 14

Porter Algorithmus 5 Phasen der Wortreduktion Wörter werden nach bestimmten Regeln reduziert Rule SSES SS IES I SS SS S Example caresses caress ponies poni caress caress cats cat Prüft ob eine Reduktion sinnvoll ist, anhand der Anzahl der Silben 15

Verschiedene Stemmer Sample text: Such an analysis can reveal features that are not easily visible from the variations in the individual genes and can lead to a picture of expression that is more biologically transparent and accessible to Interpretation Lovins stemmer: such an analys can reve featur that ar not eas vis from th vari in th individu gen and can lead to a pictur of expres that is mor biolog transpar and acces to interpres Porter stemmer: such an analysi can reveal featur that ar not easili visibl from the variat in the individu gene and can lead to a pictur of express that is more biolog transpar and access to interpret Paice stemmer: such an analys can rev feat that are not easy vis from the vary in the individ gen and can lead to a pict of express that is mor biolog transp and access to interpret 16

Sentiment Klassifizierung Einteilung von Dokumenten in Klassen 2 Klassen: positiv und negativ Supervised learning Stimmungswörter sind von Bedeutung 17

Klassifikation basierend auf Sentiment Phrasen basiert auf der Arbeit von Turney zur Klassifizierung von Reviews macht nutzen vom part-of-speech(pos) tagging Extrahiert Phrasen, die Adjektive und Adverbien enthalten und einem bestimmten Muster entsprechen Berechnet die semantic/opinion orientation der Phrase Berechnet den Durchschnittlichen SO aller Phrasen in einem Review Genauigkeit: 84% bei Auto-reviews, 66% bei Film-reviews 18

Klassifizierung durch Textklassifizierungs-Methoden Einfachste Ansatz: Behandlung als themenbasierende Textklassifizierung Jeder herrkömmliche Textklassifizierungsalgorithmus: naive Bayes,SVM etc. Getestet von Pang et al. an Filmreviews: nur positive und negative, keine neutrale Reviews, kein Stemming oder stopword-removal Genauigkeit: naive Bayes-81%, SVM-82,9% 19

Klassifizierung durch eine score function von Dave et al. für jedes Wort im Trainingsset wird ein Wert berechnet: (Pr(t i C)-Pr(t i C'))/(Pr(t i C)+Pr(t i C'))=score(t i ), wobei t i das Wort und C die Klasse, C' das Komplement von C(nicht C) und Pr(t i C) die Wahrscheinlichkeit, dass t i in C ist, ist. zur Klassifizierung neuer Dokumente: Addition aller Wert, wenn Summe>0, dann ist das Dokument aus Klasse C Genauigkeit:84,6-88,3% 20

Bayes Klassifikation Statistische Klassifikationsmethode Mit welcher Wahrscheinlichkeit gehört ein Objekt zu einer Gruppe 21

Naive Bayes Basiert auf Bayes-Theorem lernend durch Trainingsdaten Gültigkeit der Unabhängigkeitsannahme naiv in der Praxis nicht immer gültig Die möglichst beste Klasse soll ermittelt werden 22

Naive Bayes Menge an Dokumenten: Bag of Words Menge an Klassen: prior probability Wahrscheinlichkeit, das der Term im Dokument der Klasse c auftaucht 23

Klassifizierung basierend auf Ontologien vielseitig anwendbar: zur Klassifikation selbst oder unterstützend z.b. Ontologie mit Adjektiven und Adverbien, die einer positiven und negativen Klasse zugeordnet werden Abgleich des Dokuments mit Ontologie 24

Ontologien - Defintion Generell: Viele verschiedene Definitionen geordnete Darstellung von Begrifflichkeiten und deren Beziehungen An Ontology is a formal, explicit specification of a shared conceptualisation Dieter Fensel 25

Ontologien Definition (ii) Domänenspezifisch 26

Erstellung Bestimmung eines Themen- und Anwendungsbereichs (Domäne) Competency Questions Vorhandene Ontologien? Begriffe sammeln Festlegen von Klassen und Klassenhierarchien Definition von Relationen Erstellung von Instanzen 27

Erstellung Bestimmung eines Themen- und Anwendungsbereichs (Domäne) Competency Questions Vorhandene Ontologien? Begriffe sammeln Festlegen von Klassen und Klassenhierarchien Definition von Relationen Erstellung von Instanzen 28

Erstellung Bestimmung eines Themenbereichs z.b. : Film Für eine Anwendung, mit der ein User Filminfos und Empfehlungen für weitere Filme erhalten kann, soll eine Ontologien als Wissensbasis erstellt werden 29

Erstellung Bestimmung eines Themen- und Anwendungsbereichs (Domäne) Competency Questions Vorhandene Ontologien? Begriffe sammeln Festlegen von Klassen und Klassenhierarchien Definition von Relationen Erstellung von Instanzen 30

Erstellung Bestimmung eines Themen- und Anwendungsbereichs (Domäne) Competency Questions Vorhandene Ontologien? Begriffe sammeln Festlegen von Klassen und Klassenhierarchien Definition von Relationen Erstellung von Instanzen 31

Erstellen Sammeln von Begriffen für die Ontologie Genre Titel Schauspieler Produzent Film Filmmusik Regisseur Land Laufzeit Erscheinungs datum 32

Erstellung Bestimmung eines Themen- und Anwendungsbereichs (Domäne) Competency Questions Vorhandene Ontologien? Begriffe sammeln Festlegen von Klassen und Klassenhierarchien Definition von Relationen Erstellung von Instanzen 33

Erstellung Erstellung von Klassen u. Klassenhierarchien Film Genre Person Fantasy Klasse Klasse Unterklasse von Genre Klasse Schauspieler Regisseur Produzent Unterklasse Unterklasse Unterklasse 34

Erstellung Bestimmung eines Themen- und Anwendungsbereichs (Domäne) Competency Questions Vorhandene Ontologien? Begriffe sammeln Festlegen von Klassen und Klassenhierarchien Definition von Relationen Erstellung von Instanzen 35

Erstellung Definition von Relationen hatkomponiert Filmmusik istmusikvon hatmusik wurdekomponiert Film Komponist 36

Erstellung Bestimmung eines Themen- und Anwendungsbereichs (Domäne) Competency Questions Vorhandene Ontologien? Begriffe sammeln Festlegen von Klassen und Klassenhierarchien Definition von Relationen Erstellung von Instanzen 37

Erstellung Erstellen der Ontologie mit Protégé Mittlerweile sind wenig Kenntnisse nötig, Editoren erleichtern die Arbeit :-) 38

Probleme beim Opinion Mining Sarkasmus Unterscheidung zwischen Fakten und Meinungen Kontext/Domänenabhänig Bei twitter etc.: Rechtschreibung Reihenfolge von Meinungen Zwischen den Zeilenlesen Negation 39

Sentiment Analysis mit Python Den Code findet ihr hier 40

Anwendungsbeispiele American Idol - Wer gewinnt? Twitter tweetfeel DARPA 41

Diskussion Inwieweit ist die Sentiment Analysis auch in der Zukunft relevant? 42

Quellen Manning, C.: Introduction To Information Retrieval Liu, Bing: Web Data Mining Bang, Po; Lee, Lillian: Opinion Mining and Sentiment Analysis Stuckenschmidt: Ontologien Protégé 43