Sentiment Classification

Größe: px
Ab Seite anzeigen:

Download "Sentiment Classification"

Transkript

1 Universität Duisburg-Essen, SS 2008 Seminar Soziales Retrieval im Web 2.0 Dozent: Prof. Dr.-Ing. Norbert Fuhr Betreuer: Ingo Frommholz Sentiment Classification Daniel Jansen 04. Oktober 2008 Institut für Informatik und Interaktive Systeme an der Universität Duisburg-Essen

2 Inhaltsverzeichnis 1 Einführung Motivation Grundlagen Klassifikation Wertende Aussagen in Diskussionsforen und Blogs Hauptteil Lösungsverfahren Maschinelle Lernverfahren Linguistische Lernverfahren Vergleich und Bewertung Beispiel: MoodViews Schluss Diskussion und Ausblick Literaturverzeichnis 17 Abbildungsverzeichnis 18 Tabellenverzeichnis 19 2

3 1 Einführung 1.1 Motivation Es gibt eine Vielzahl von Diskussionsforen und Blogs im World Wide Web. Meinungen von Laien sowie Fachleuten werden veröffentlicht. Jeden Tag kommen tausende neue Informationen hinzu. Diese Vielzahl von Beiträgen in Form von Blogs und Diskussionsforen machen es dem Informationssuchenden schwer das Passende zu finden. Eine automatische Textklassifikation könnte dabei helfen, die für den User relevanten Themen besser zu finden und zu kategorisieren. Hier setzen die Verfahren der Sentiment Classification an. Nicht nur für private Nutzer sondern gerade auch für Unternehmen sind diese Verfahren interessant. So ist es möglich Diskussionsforen oder Blogs dahin zu untersuchen, ob die Beiträge sich positiv oder negativ über ein Produkt äussern. Allgemein gesehen wird ein Dokument einer Polarität zugeordnet. Man betrachtet immer das ganze Dokument und prüft ob es sich positiv oder negativ über etwas äussert. Der Inhalt dieser Seminararbeit soll einen Überblick über mögliche Lösungsansätze der automatischen Sentiment Classification geben und die Ergebnisse bewerten. 1.2 Grundlagen Sentiment Classification dient zur Klassifikation von wertenden Aussagen in Diskussionsforen oder Blogs Klassifikation Bei der Klassifikation wird ein Dokument in die Polaritäten positiv oder negativ unterteilt und anschliessend klassifiziert. Entscheidend hierfür ist die subjektive Meinung die in dem betrachteten Dokument geäussert wird. Interessant könnte auch die Intensität sein, mit der eine Meinung vertreten wird. 3

4 1.2.2 Wertende Aussagen in Diskussionsforen und Blogs Ein Internetforum (lat. forum, Marktplatz), auch Diskussionsforum, ist ein virtueller Platz zum Austausch und Archivierung von Gedanken, Meinungen und Erfahrungen. Die Kommunikation findet dabei asynchron, dass heisst nicht in Echtzeit, statt. 1 Abbildung 1.1: Struktur eines Diskussionsforums Die Abbildung 1.1 zeigt ein Beispiel für eine Diskussionsstruktur. Die Diskussion beginnt ein Benutzer mit einem Thema. Danach folgen weiter Kommentare von anderen Benutzern zu diesem Thema. Innerhalb einer Diskussion kann es auch vorkommen, dass sich die Themengebiete ändern. Das macht es unter Umständen schwer, heraus zu finden, welcher Beitrag sich noch auf das Ausgangsthema bezieht. Ein Beispiel für verteilte Ansichten ist die Diskussion eines Films. Nach einigen Beiträgen wird schließlich die Filmmusik diskutiert. Diese hat dann aber unter Umständen nichts mehr mit der Bewertung des Films zu tun. Ein Webblog, meist abgekürzt als Blog, ist ein auf einer Webseite geführtes und damit öffentlich einsehbares Tagebuch oder Journal. Ein Blog ist ein für den Herausgeber ( Blogger ) und seine Leser einfach zu handhabendes Medium zur Darstellung von Aspekten des eigenen Lebens und von Meinungen zu oftmals spezifischen Themengruppen. Weiter vertieft kann es auch sowohl dem Austausch von Informationen, Gedanken 1 letzter Zugriff

5 und Erfahrungen als auch der Kommunikation dienen. 2 Unter wertende Aussagen versteht man diejenigen Wörter oder Phrasen, die sich in eine der beiden Polaritäten einteilen lassen. Abbildung 1.2: Beispiel einer Bewertung bei In Abbildung 1.2 sehen wir nun ein Beispiel für einen Kommentar mit wertenden Aussagen. Desweiteren ist es möglich, eine Anzahl von Sternen zu vergeben. Diese können ebensfalls zur Analyse der Produktbewertung herangezogen werden. Weitere Beispiele für wertende Aussagen wären Wörter wie gut, schlecht oder begeistert. Diese lassen sich eindeutig in die Polaritäten positiv oder negativ einordnen. Problematisch wird es bei zusammenhängende Wörtern wie zum Beispiel kein nachziehen. Betrachtet man die Wörter seperat, würden man sagen, dass kein und nachziehen eher negativ zu bewerten sind. Bei der Bewertung eines Fernsehers sind die Wörter im Zusammenhang aber positiv zu bewerten. Sentiment Classification versucht nun, diese wertenden Aussagen heraus zu filtern und anhand derer das ganze Dokument zu klassifizieren. 2 letzter Zugriff

6 2 Hauptteil 2.1 Lösungsverfahren Die nächsten Abschnitte sollen einen Überblick über verschiedenen Lösungsverfahren verschaffen und Alternativen zeigen, wie man eine automatische Klassifikation von Dokumenten durchführen kann Maschinelle Lernverfahren Maschinelles Lernen ist ein Oberbegriff für die künstliche Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern, d.h. es lernt nicht einfach die Beispiele auswendig, sondern es erkennt Gesetzmäßigkeiten in den Lerndaten. So kann das System auch unbekannte Daten beurteilen. 1 Es gibt zwei verschiedene Arten des maschinellen Lernens. Einmal das unüberwachte Lernen. Dabei existieren Lernmuster in der Eingabe, aber es liegen keine spezifischen Ausgabewerte vor. Zum zweiten das überwachte Lernen. Hier liegen bereits Klassifikationen vor. Die Testdatenmenge (Eingabe) wird anhand eines vorgegebenen Bereichs klassifiziert. Man gibt sozusagen die Ausgabe vor. Naive Bayes Klassifizierer Es handelt sich um ein auf das Bayes-Theorem basierende, statistischen Klassifizierer. Als Grundlage dient der Satz von Bayes: P (c d) = P (c)p (d c) P (d) (2.1) mit P(c) = A priori-wahrscheinlichkeit für ein Ereignis c. P(d) = A priori-wahrscheinlichkeit für ein Ereignis d. 1 Lernen, letzter Zugriff

7 P(c d) = Von charakteristischen Wörtern in einem Dokument d wird auf die Eigenschaft, der Klasse c ( positiv oder negativ ) zu gehören, geschlossen. P(d c) = die bedingte Wahrscheinlichkeit für ein Ereignis d unter der Bedingung, dass c eingetreten ist. Mit einem gegebenen Dokument d und der Klasse c: c = arg max c P (c d) (2.2) Der Naive Bayes Klassifizierer definiert sich dann folgender Maßen: P NB (c d) := P (c)( m i=1 P (f i c) n i(d) ) P (d) (2.3) mit (f i,..., f n ) ist ein Set von n Eigenschaften, die in einem Dokument vorkommen können. n i (d) ist die Anzahl von Eigenschaften f i die in einem Dokument auftreten. Unsere Trainingsmethoden bestehen aus relativen Häufigkeiten von P (c) und P (f i c) und fügen noch die Glättung hinzu (Um Nullwahrscheinlichkeiten zu vermeiden). Zu Beginn verfügt man über eine Menge von Trainingsdaten, bei denen die Klassenzugehörigkeit bekannt ist. Dabei handelt es sich um strukturierte Daten. Der Naive Bayes Klassifizierer ist aber ebenfalls anwendbar auf unstrukturierte Daten wie zum Beispiel Texte oder Webdokumente. Die Grundlegende Funktionsweise ist nun, die wahrscheinlichste Klassifizierung durch Kombination aller Hypothesen vorzunehmen. Der Unterschied zur SVM (Support Vector Machine) ist, dass der Naive Bayes Klassifizierer Wahrscheinlichkeiten berechnet, während die SVM eine binäre Einteilung vornimmt. Studien haben ergeben, dass der Naive Bayes Klassifizierer bei der Identifizierung von Spam-Mails die besten Ergebnisse liefert. Maximum Entropy Die Entropie ist ein Maß für den Informationsgehalt eines Wortes. Zum Beispiel hat das Wort super eine höhere Gewichtung als das Wort gut. Die Maximum Entropy Klassifizierung ist eine alternative Technik zum Naive Bayes Klassifizierer. Anders als beim Naive Bayes Klassifizierer, werden hier die Eigenschaften 7

8 (Wörter) gewichtet. Man geht davon aus, dass Attribute mit einem hohen Gewichtungsfaktor die Trainingsmenge am besten klassifizieren. Maximum Entropy macht allerdings keine Vermutung über Beziehungen von Wörtern. [PLV02] Folgende Exponentialfunktion dient zur Berechnung der Maximum Entropy: P ME (c d) := 1 Z(d) exp( λ i,c F i,c (d, c)) (2.4) mit Z(d) = normalisierte Funktion, F i,c ist eine Eigenschaft/Klassen-Funktion für unsere f i und unsere Klasse c, die dann wie folgt definiert ist: F i,c (d, c) := { 1, n i (d) > 0 and c = c, 0, otherwise (2.5) Die λ i,c s in Gleichung 2.4 sind die Parameter für die Gewichtung der einzelnen Eigenschaften. Support Vector Machines Eine Support Vector Machine unterteilt eine Menge von Objekten so in Klassen, dass um die Klassengrenzen herum ein möglichst breiter Bereich frei von Objekten bleibt. Sie ist ein sogenannter Large Margin Classifier. 2 Es handelt sich dabei um ein überwachtes Lernverfahren. Die Support Vector Machine arbeitet nur mit numerischen Attributen, der sogenannten Bag-of-Words-Repräsentation. Die Grundlegende Funktionsweise einer SVM (Support Vector Machine) ist es, in einem Vektorraum eine Hyperebene zu positionieren, die die Trainingsdaten in zwei unterschiedliche Klassen teilt. Es entstehen dabei sogenannte Support Vectoren. Support Vektoren sind die Vektoren, die der Hyperebene am nächsten liegen und der Abstand zur Hyperebene sollte maximiert werden. Es entsteht dadurch ein breiter leerer Raum zwischen der Hyperebene und den Support Vektoren. Er dient später dazu, Objekte, die nicht genau den Trainingsdaten entsprechen, einzuordnen. Auf der linken Seite in Abbildung 2.1 sehen wir, wie eine Hyperebene zwischen den positiven und den negativen Dokumentenvektoren gezogen wurde. Sie trennt die Gesamtheit aller Dokumente in zwei Klassen. Je nachdem, auf welcher Seite der Hyperebene ein neuer Dokumentenvektor auftaucht, gehört das Dokument entweder zur Klasse positiv oder negativ. Auf der rechten Seite sehen wir die Lage einer Hyperebene bei nicht-linearen Daten. 2 Vector Machine, letzter Zugriff

9 Abbildung 2.1: Trennung durch Hyperebene Da nicht-lineare Daten schwerer zu trennen sind, wendet man den so genannten Kerneltrick an. Dieser überführt den Vektorraum in eine höhere Dimension. Somit lassen sich dann die nicht-linearen Daten trennen. Anschließend wird der Vektorraum wieder in einen 2-dimensionalen Vektorraum zurück transferiert. Der Vorteil einer Support Vector Machine ist, dass sie gute Genauigkeiten vorweisen kann (siehe auch Abschnitt 2.2). Mit schon bekannten und relativ einfachen Rechentechniken ist eine schnelle Berechnung möglich. Formal sieht es dann so aus, dass wir zwei verschiedene Klassen betrachten c j (1, 1) (2.6) Die 1 steht in unserem Fall für positiv und -1 für negativ. Die korrekten Klassen der Dokumente d j sind dann w := ( j a j, c j, d j ) a > 0 (2.7) d j und a j > 0 sind Support Vektoren, da sie zum Vektor w beisteuern Linguistische Lernverfahren Linguistische Verfahren beschäftigen sich mit der Bedeutung von Wörtern, Phrasen oder Sätzen. Sentiment Analysis bezeichnet die automatische Auswertung von Texten mit 9

10 dem Ziel, die Meinung des Verfassers ausfindig zu machen. Linguistische Lernverfahren benötigen keine Trainingdaten. Sie stützen sich auf die Grammatik der jeweiligen Sprache. PMI-IR Der PMI-IR Algorithmus (Pointwise Mutual Information and Information Retrieval) gehört zu den linguistischen Lernverfahren. Er wurde entwickelt um einen Text (oder Satz) nach seiner semantischen Orientierung zu bewerten. Der Algorithmus bekommt eine Review als Input und liefert eine Klassifikation als Output zurück. Klassifiziert wird in die Bereiche empfehlenswert und nicht empfehlenswert. Der PMI-IR Algorithmus arbeitet in 3 Schritten. Als erstes wird eine Extraktion der Phrasen nach 5 POS-Mustern vorgenommen. POS steht für part of speech. Abbildung 2.2: Part of speech In der folgenden Abbildung 2.2 sehen wir die 5 POS-Muster. Traditionelle Grammatik klassifiziert die Wordbasis nach 8 POS. PMI-IR verwendet diese fünf. Jeder POS erklärt nicht, was das Wort ist, sondern wie das Wort benutzt wird. Ein Beispiel aus der traditionellen Grammatik wären diese beiden Sätze: - Books are made of ink, paper and glue. Hier ist das Wort Books ein Nomen, wärend beim nächsten Satz: - Paul waits patiently while Paul books tickets. das Wort books ein Verb ist. Somit hat das Wort books zwei verschiedene Bedeutungen. 10

11 Als zweiter Schritt wird die SO (Sentiment Orientation) bestimmt. P MI(word 1, word 2 ) = log 2 ( P (word 1&word 2 ) P (word 1 )P (word 2 ) ) (2.8) P (word 1 &word 2 ) ist die Wahrscheinlichkeit, das word 1 und word 2 zusammen auftreten. Sind die Wörter statistisch unabhängig, dann ist die Wahrscheinlichkeit gegeben durch das Produkt P (word 1 )P (word 2 ). Demnach ist das Verhältnis zwischen P (word 1 &word 2 ) und P (word 1 )P (word 2 ) ein Maß für den Grad der Abhängigkeit zwischen den Wörtern. Die SO eines Ausdrucks lässt sich dann folgendermaßen ermitteln: SO(phrase) = P M I(phrase, excellent) P M I(phrase, poor) (2.9) Die Sentiment Orientation ist positiv wenn der Ausdruck (Satz, Text) mehr in Richtung excellent geht und negativ wenn der Satz mehr in Richtung poor geht. Der dritte und letzte Schritt ist dann die Berechnung des Mittelwertes der SO für den ganzen Text. Ist der Durchschnitt positiv so hat die Bewertung den Status empfehlenswert. Ist der Durchschnitt negativ, ist die Bewertung nicht empfehlenswert. Der Zusatz IR (Information Retrieval) resultiert daraus, da man diesen Algorithmus auch auf Suchmaschinen wie zum Beispiel AlterVista anwenden kann. Es werden dann auch die Klicks einer Suchmaschine mit in die Berechnung aufgenommen. 11

12 LSA LSA (Latent Semantic Analysis) ist ein weiteres linguistisches Verfahren für die Klassifikation von Texten. Die Wörter und Dokumente des Textkorpus werden auf der Basis ihrer Auftretenshäufigkeit mit anderen Wörtern und Dokumenten in einem n- dimensionalen Raum (semantischer Raum) angeordnet. Je häufiger verschiedene Wörter und Dokumente in ähnlichen Kontexten auftreten, desto näher liegen ihre Koordinaten beieinander. Berechnet man den Cosinus des Zwischenwinkels zwischen den Vektoren zweier Koordinaten des semantischen Raumes, so erhält man ein Maß für die semantische Ähnlichkeit der beiden Wörter oder Dokumente, wobei ein Wert von 1 maximale Übereinstimmung und von 0 keine Übereinstimmung bedeutet. 3 Abbildung 2.3: Cosinus des Zwischenwinkels Die Abbildung 2.3 zeigt zwei Dokumentenvektoren. Je näher sie aneinander liegen, desto größer ist die Übereinstimmung ihrer semantischen Orientierung. Somit gehören zwei nahe aneinander liegende Vektoren in die gleiche Klasse. 3 Semantische Analyse, letzter Zugriff

13 2.2 Vergleich und Bewertung Die linguistischen Verfahren PMI-IR und LSA kommen auf eine durchschnittliche Genauigkeit von 74% bzw. 64%. Bei Experimenten mit 410 Reviews kam der PMI-IR Algorithmus auf eine durchschnittliche Genauigkeit von 74%. Es scheint so, als seien Film-Reviews schwer zu klassifizieren, da Teile einer Review nicht unbedingt zu einem Ganzen zusammen geführt werden können. Hier erreicht der Algorithmus eine Genauigkeit von 66%. Anders ist es in den Bereichen Bank und Automobile. Hier scheint es so, als lassen sich Einzelreviews zusammenführen. Somit erreicht der Algorithmus in diesen Bereichen eine Genauigkeit von 80% bis 84%. [TURNEY02] No. Features #of features frequency or presence? NB ME SVM (1) unigrams freq N/A 72.8 (2) unigrams pres (3) unigrams+bigrams pres (4) bigrams pres (5) unigrams+pos pres (6) adjectives 2633 pres (7) top 2633 unigrams 2633 pres (8) unigrams+position pres Tabelle 2.1: Average accuracies für Machine Learning Verfahren In Tabelle 2.1 sind die durchschnittlichen Genauigkeiten der einzelnen Machine Learning Verfahren aufgelistet. Diese Ergebnisse basieren auf eine Auswertung von Bo Pang, Lillian Lee und Shivakumar Vaithyanathan. [PLV02] Die Auswertung basiert auf 8 verschiedene Arten, wie Eigenschaften in einem Dokument vorkommen. Unigrams sind einzelnen Wörter. Bigrams sind zwei aufeinander folgende Wörter, die im Kontext zueinander betrachtet werden. Frequency gibt an, wie häufig ein Wort vorkommt, während bei Presence das einmalige Vorkommen eines Wortes ausreicht. Die Zahlen in Spalte 5, 6 und 7 sind die prozentualen Genauigkeiten der einzelnen Verfahren. Man kann zum Beipspiel in Zeile (2) gut erkennen, dass eine Support Vector Machine beim auftreten (presence) einzelner Wörter (unigrams) mit 82.9% das beste Ergebnis liefert. Man sieht also, dass beide Verfahren durchaus gut funktionieren. Je nach Einsatzgebiet muss dann individuell entschieden werden, welche Technik das beste Ergebnis liefert. Maschinelle Lernverfahren benötigen zu Beginn Trainingdaten. Diese sind bei linguistischen Verfahren nicht notwendig. Ein weiteres Problem tritt auch bei Diskussionsforen auf. Da diese meist eine sehr tiefe Diskussionstruktur haben, ist es oft nicht möglich, zu beurteilen ob sich der zum Beispiel 12. Beitrag überhaupt noch auf das Ursprungsthema bezieht. Es ist durchaus möglich, dass sich die Themen innerhalb einer Diskussion ändern. 13

14 2.3 Beispiel: MoodViews Bei Mood Views handelt es sich um eine Software niederländischer Forscher, die die Gefühlsregungen der Web-Community erfasst. Das Programm basiert auf einem Bloggerportal in den USA. Blogger können dort ihre Texte mit sogenannten Gefühlsmarken versehen. Es stehen ca. 132 Gefühlsmarken zur Auswahl. Von amüsiert bis traurig oder sauer. Diese Mood-Tags werden ausgewertet und in Diagrammen mit s.g. Gefühlskurven dargestellt. Auswählen kann man den Zeitraum und ein Mood-Tag. Das Tool Moodgrapher zeigt einem dann die Stimmungskurve zum ausgewählten Zeitraum. Mit dem Tool Moodteller versuchen die Forscher die Gefühle der Blogger allein aus dem erfassten Text zu ermitteln. Das Auftauchen verschiedener Wörter beeinflusst die Emotionale Einstufung des Textes. Ebenfalls soll das Programm ermitteln, welche Wörter am häufigsten mit welchen Gefühlsmarken verwendet werden. Man geht davon aus, dass eine Genauigkeit von 90 Prozent erreicht wird. Dies gelte allerdings nur für einfache Zustände. Um Emotionen mit globalen Ereignissen in Verbindung zu bringen, wurde das Tool Moodsignals entwickelt. So konnte man genau erkennen, dass die Einführung eines neuen Harry Potter Bandes sich eindeutig in den Emotionen der Community wiederspiegelte. 4 Abbildung 2.4: Das Tool Moodgrapher In Abbildung 2.4 sehen wir das Basictool Moodgrapher. In diesem Beispiel wird die Gefühlsmarke relaxed im Zeitraum bis betrachtet. Man kann erkennen, dass am Samstag der der tag relaxed öfter benutzt wird als zum Beispiel am Mittoch oder Donnerstag. Am Montagmorgen den scheint die Community ebenfalls entspannt zu sein. 4 letzter Zugriff

15 Abbildung 2.5: Das Tool Moodsignals In Abbildung 2.5 sehen wir ein Beipiel für das Tool Moodsignals und wie globale Ereignisse die Stimmung der Community verändern können. Am war der Amoklauf an der Virginia Tech in den USA. Wie man in Abbildung 2.3 sehen kann, wurde am Abend des der tag shocked fast 4-mal so oft verwendet als an anderen Tagen. Das Tool Moodsearch wurde neu in die drei bestehenden Tools aufgenommen. Es ermöglicht die Anzeige von Beiträgen auf Grundlage einer bestimmten Stimmung in einem gewählten Zeitraum. 15

16 3 Schluss 3.1 Diskussion und Ausblick Betrachten und Vergleichen wir nun die Ergebnisse der Machine Learning Verfahren und den semantischen Verfahren, stellen wir fest, dass sich beide Verfahren sehr gut zur Textklassifikation eignen. Machine Learning Verfahren benötigen zu Beginn Trainingsdaten, was die Anfangskonfiguration evtl. erschwert. Allerdings können diese Verfahren dann leichter verfeinert und, je nach Anwendungsgebiet, umgestellt werden. Diese Trainingsdaten fallen bei linguistischen Verfahren weg. Diese beziehen sich auf schon bekannte Grammatik. Ein Beispiel für eine lexikalische Datenbank ist Sicher werden die Forschungen im Bereich der Sentiment Classification weiter gehen. Täglich werden immer mehr Daten im Internet veröffentlicht. Für Unternehmen die ihre Produktbewertungen analysieren wollen, stellen diese Verfahren eine kostengünstige und einfache Alternative da. Da sich User im Internet für anonym halten, werden wohl auch ehrlichere Meinungen und Beurteilungen niedergeschrieben, als es vielleicht in Gesprächen oder Fragebögen der Fall ist. Ein weiteres Einsatzgebiet der Sentiment Classification könnte die Betrachtung von Videos werden. Auf der Homepage von Zdnet.de werden Produkte von Mitarbeitern getestet und dann per Video veröffentlicht. Interessant wäre nun die Klassifizierung dieser Videos in Polaritäten (Klassen). Als Eingabe für unsere Lösungsansätze würden dann nicht mehr Dokumente dienen, sondern Videos. Als Hilfsmittel könnten man den Speech Recognizer einsetzten. Dieser Spracherkenner ist heute schon bei vielen Firmen im Einsatz, zum Beispiel bei der Deutschen Bahn als automatische Fahrplanauskunft. MoodViews macht dort sicherlich einen Schritt in die richtige Richtung. Die Module sind einfach zu bedienen und Ergebnisse werden grafisch dargestellt. Das Problem von MoodViews ist, dass es zur Zeit nur auf der Basis von arbeitet und die Mood-Tags benötigt. Dies wird sich in Zukunft sicherlich ändern. Zudem sind meist User aus den Vereinigten Staaten auf der Homepage von zu finden. Zudem ist die Blogger Community deutlich jünger als der Durchschnittsbürger. 16

17 Literaturverzeichnis [PLV02] [TURNEY02] PANG, Bo; LEE, Lillian and VAITHYANATHAN, Shivakumar: Thumbs up? Sentiment Classification using Machine Learning Techniques. July 2002, pp TURNEY, Peter D.: Thumbs up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. July 2002, pp

18 Abbildungsverzeichnis 1.1 Struktur eines Diskussionsforums Beispiel einer Bewertung bei Trennung durch Hyperebene Part of speech Cosinus des Zwischenwinkels Das Tool Moodgrapher Das Tool Moodsignals

19 Tabellenverzeichnis 2.1 Average accuracies für Machine Learning Verfahren

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Sentiment Analysis. Eine Einführung. Robert Remus 1 rremus@informatik.uni-leipzig.de. Fakultät für Mathematik und Informatik Universität Leipzig

Sentiment Analysis. Eine Einführung. Robert Remus 1 rremus@informatik.uni-leipzig.de. Fakultät für Mathematik und Informatik Universität Leipzig Sentiment Analysis Eine Einführung Robert Remus 1 rremus@informatik.uni-leipzig.de 1 Abteilung Automatische Sprachverarbeitung Fakultät für Mathematik und Informatik Universität Leipzig Seminar Anwendungen

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Internet sinnvoll nutzen. Blog(gen) ein virtuelles Tagebuch

Internet sinnvoll nutzen. Blog(gen) ein virtuelles Tagebuch Internet sinnvoll nutzen Blog(gen) ein virtuelles Tagebuch Seite 2 Inhalt Wikipedia zu Blog was ist...? Blog anmelden Blog einrichten - Einstellungen - Darstellung und mit Inhalten füllen - Artikel - Links

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Datamining Cup Lab 2005

Datamining Cup Lab 2005 Datamining Cup Lab 2005 Arnd Issler und Helga Velroyen 18. Juli 2005 Einleitung Jährlich wird der Datamining Cup 1 von der Firma Prudsys und der TU Chemnitz veranstaltet. Im Rahmen des Datamining-Cup-Praktikums

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Lernende Suchmaschinen

Lernende Suchmaschinen Lernende Suchmaschinen Qingchui Zhu PG 520 - Intelligence Service (WiSe 07 / SoSe 08) Verzeichnis 1 Einleitung Problemstellung und Zielsetzung 2 Was ist eine lernende Suchmaschine? Begriffsdefinition 3

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik technische universität RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik Name Autor Ort und Datum Informatik: Linguistik: Methoden + Verfahren Forschungsfragen, Anforderungen

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

One-class Support Vector Machines

One-class Support Vector Machines One-class Support Vector Machines Seminar Wissensbasierte Systeme Dietrich Derksen 3. Januar 204 Motivation One-class Support Vector Machines: Detektion von Ausreißern (Systemfehlererkennung) Klassifikation

Mehr

Info zum Junk-Mail-Filter in Thunderbird:

Info zum Junk-Mail-Filter in Thunderbird: Datenverarbeitungszentrale Datenverarbeitungszentrale dvz@fh-muenster.de www.fh-muenster.de/dvz Info zum Junk-Mail-Filter in Thunderbird: Der Grossteil der Benutzer verwendet zusätzlich zum zentralen Mail-Filter

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Sentiment Analysis und Ontologien

Sentiment Analysis und Ontologien Sentiment Analysis und Ontologien Universität zu Köln Sprachliche Informationsverarbeitung Künstliche Intelligenz Dozent: C. Neuefeind 13.06.2012 Linus Franzke und Carina Berning Inhalt Was ist Sentiment

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

Computerlinguistische Textanalyse

Computerlinguistische Textanalyse Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller

Mehr

Weka: Software-Suite mit Maschineller Lernsoftware

Weka: Software-Suite mit Maschineller Lernsoftware : Software-Suite mit Maschineller Lernsoftware Computational Linguistics Universität des Saarlandes Sommersemester 2011 21.04.2011 Erste Schritte Waikato Environment for Knowledge Analysis entwickelt von

Mehr

Hinweise zur. Auswertung. Markus Scholz Michael Wagner Version 1.0

Hinweise zur. Auswertung. Markus Scholz Michael Wagner Version 1.0 Hinweise zur Auswertung Markus Scholz Michael Wagner Version 1.0 Struktur der Auswertung Die Auswertung der Ergebnisse und somit der Vergleich der Einschätzungen verschiedener Personen erfolgt mittels

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Conversion Attribution

Conversion Attribution Conversion Attribution Eines der Trendthemen über das zurzeit jeder spricht ist Attribution. Das heißt allerdings nicht, dass auch jeder weiß was genau Attribution ist, was man damit machen kann und für

Mehr

Klassifikationsaufgaben mit der SENTRAX. Konkreter Fall: Automatische Detektion von SPAM. Dirk T. Frobese

Klassifikationsaufgaben mit der SENTRAX. Konkreter Fall: Automatische Detektion von SPAM. Dirk T. Frobese Proceedings des Fünften Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2006) Klassifikationsaufgaben mit der SENTRAX. Konkreter Fall: Automatische Detektion von SPAM Dirk T. Frobese Universität

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Selbstorganisierende Karten

Selbstorganisierende Karten Selbstorganisierende Karten Yacin Bessas yb1@informatik.uni-ulm.de Proseminar Neuronale Netze 1 Einleitung 1.1 Kurzüberblick Die Selbstorganisierenden Karten, auch Self-Organizing (Feature) Maps, Kohonen-

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Zum State of the Art automatischer Inhaltsanalyse

Zum State of the Art automatischer Inhaltsanalyse Zum State of the Art automatischer Inhaltsanalyse Michael Scharkow, M.A. Universität Hohenheim Institut für Kommunikationswissenschaft (540G) michael.scharkow@uni-hohenheim.de Typologie der Verfahren deskriptive/explorative

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Researcher s Workbench : Verwalten, Annotieren und Finden von Dokumenten

Researcher s Workbench : Verwalten, Annotieren und Finden von Dokumenten Researcher s Workbench : Verwalten, Annotieren und Finden von Dokumenten Ingo Frommholz, Henrik Nottelmann, Norbert Fuhr IIIS Universität Duisburg-Essen, Campus Duisburg Studienprojekt SS05 UNIVERSITÄT

Mehr

Bachelorarbeit. Tobias Eichler. Sentiment-Analysis durch überwachtes Lernen: Vergleich und Bewertung von Konzepten zur Vorverarbeitung

Bachelorarbeit. Tobias Eichler. Sentiment-Analysis durch überwachtes Lernen: Vergleich und Bewertung von Konzepten zur Vorverarbeitung Bachelorarbeit Tobias Eichler Sentiment-Analysis durch überwachtes Lernen: Vergleich und Bewertung von Konzepten zur Vorverarbeitung Fakultät Technik und Informatik Studiendepartment Informatik Faculty

Mehr

LiLa Portal Leitfaden für Dozierende

LiLa Portal Leitfaden für Dozierende Library of Labs Lecturer s Guide LiLa Portal Leitfaden für Dozierende Meist werden Dozierende die Lerninhalte ihrer Studierenden festlegen und aus der großen Auswahl von LiLa Experimenten diejenigen auswählen,

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

http://www.jimdo.com Mit Jimdo eine Homepage erstellen Kapitel 16 Seite 1 Die eigene Homepage mit Jimdo http://benutzername.jimdo.com Der Benutzername

http://www.jimdo.com Mit Jimdo eine Homepage erstellen Kapitel 16 Seite 1 Die eigene Homepage mit Jimdo http://benutzername.jimdo.com Der Benutzername Kapitel 16 Seite 1 Die eigene Homepage mit Jimdo Mit Jimdo ist das Erstellen einer eigenen Homepage ganz besonders einfach. Auch ohne Vorkenntnisse gelingt es in kurzer Zeit, mit einer grafisch sehr ansprechenden

Mehr

Materialien für Veranstalter

Materialien für Veranstalter HowTo Blog Seminardoku mittels Weblog Es gibt unterschiedliche Möglichkeiten zur Seminardokumentation und Mitwirkung der Ein Blog oder auch Web-Log, Wortkreuzung aus engl. World Wide Web und Log für Logbuch,

Mehr

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Suchmaschinen und ihre Architektur Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Ziel Rudimentäre Grundkenntnisse über die Funktionsweise von Suchmaschinen und Trends Einführung in

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Klausurteilnehmer. Wichtige Hinweise. Note: Klausur Informatik Programmierung, 17.09.2012 Seite 1 von 8 HS OWL, FB 7, Malte Wattenberg.

Klausurteilnehmer. Wichtige Hinweise. Note: Klausur Informatik Programmierung, 17.09.2012 Seite 1 von 8 HS OWL, FB 7, Malte Wattenberg. Klausur Informatik Programmierung, 17.09.2012 Seite 1 von 8 Klausurteilnehmer Name: Matrikelnummer: Wichtige Hinweise Es sind keinerlei Hilfsmittel zugelassen auch keine Taschenrechner! Die Klausur dauert

Mehr

1.1 Das Ziel: Basisdaten strukturiert darzustellen

1.1 Das Ziel: Basisdaten strukturiert darzustellen MS Excel 203 Kompakt PivotTabellen. Das Ziel: Basisdaten strukturiert darzustellen Jeden Tag erhalten wir umfangreiche Informationen. Aber trotzdem haben wir oft das Gefühl, Entscheidungen noch nicht treffen

Mehr

XDOC Extraktion, Repräsentation und Auswertung von Informationen

XDOC Extraktion, Repräsentation und Auswertung von Informationen XDOC Extraktion, Repräsentation und Auswertung von Informationen Manuela Kunze Otto-von-Guericke Universität Magdeburg Fakultät für Informatik Institut für Wissens- und Sprachverarbeitung Gliederung Ausgangspunkt

Mehr

Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining

Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining Wissenschaftliches Arbeiten (2014) Aufgabe 5 Kai Kühne 798797 Beuth Hochschule für Technik Berlin Fachbereich VI Informatik und

Mehr

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation)

Mehr

Erweiterung für Premium Auszeichnung

Erweiterung für Premium Auszeichnung Anforderungen Beliebige Inhalte sollen im System als Premium Inhalt gekennzeichnet werden können Premium Inhalte sollen weiterhin für unberechtigte Benutzer sichtbar sein, allerdings nur ein bestimmter

Mehr

Opinion Mining in der Marktforschung

Opinion Mining in der Marktforschung Opinion Mining in der Marktforschung von andreas.boehnke@stud.uni-bamberg.de S. 1 Überblick I. Motivation Opinion Mining II. Grundlagen des Text Mining III. Grundlagen des Opinion Mining IV. Opinion Mining

Mehr

Aufgabe 6. Gedichtinterpretation worte sind schatten

Aufgabe 6. Gedichtinterpretation worte sind schatten Aufgabe 6 Dennis Blöte, 08.12.2006 Gedichtinterpretation worte sind schatten Das Gedicht worte sind schatten wurde 1969 von Eugen Gomringer geschrieben und befasst sich auf spielerische Art und Weise mit

Mehr

T-Systems Multimedia Solutions

T-Systems Multimedia Solutions Heute schon gereviewt gereviewt? Anforderungen und Reviews in einem System erhöhen die Effizienz in den Projekten T-Systems Multimedia Solutions Die T-Systems MMS auf einen Blick Sie finden uns hier. über

Mehr

Lenstras Algorithmus für Faktorisierung

Lenstras Algorithmus für Faktorisierung Lenstras Algorithmus für Faktorisierung Bertil Nestorius 9 März 2010 1 Motivation Die schnelle Faktorisierung von Zahlen ist heutzutage ein sehr wichtigen Thema, zb gibt es in der Kryptographie viele weit

Mehr

Unterrichtsinhalte Informatik

Unterrichtsinhalte Informatik Unterrichtsinhalte Informatik Klasse 7 Einführung in die Arbeit mit dem Computer Was ist Informatik? Anwendungsbereiche der Informatik Was macht ein Computer? Hardware/Software Dateiverwaltung/Dateien

Mehr

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG DB Fernverkehr AG Dr.-Ing. Axel Schulz, Dr. Matthias Platho P.FMB 2, DB Fernverkehr AG Frankfurt, 22.05.2015 Motivation An meinem

Mehr

Kapitel 3: Etwas Informationstheorie

Kapitel 3: Etwas Informationstheorie Stefan Lucks 3: Informationstheorie 28 orlesung Kryptographie (SS06) Kapitel 3: Etwas Informationstheorie Komplexitätstheoretische Sicherheit: Der schnellste Algorithmus, K zu knacken erfordert mindestens

Mehr

Requirements Analysis Document

Requirements Analysis Document Requirements Analysis Document 1. Einleitung Dieses Dokument beschreibt die Anforderungen an ein automatisches Korrektur- und Abgabesystem für Uebungen mit dem Ziel einer Arbeitserleichterung für Assistenten.

Mehr

Social Media für Gründer. BPW Business Juni 2012

Social Media für Gründer. BPW Business Juni 2012 Social Media für Gründer BPW Business Juni 2012 Internetnutzung 77% der deutschen Haushalten haben einen Onlinezugang das sind ca. 60 Mio. 93% davon haben einen Breitbandzugang 19% der deutschen Haushalte

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Blog Forum - Gästebuch

Blog Forum - Gästebuch Blog Forum - Gästebuch 1 Blog (Weblog, Tagebuch) Von einem Herausgeber (Blogger) werden Beiträge in einer chronologischen Reihenfolge veröffentlicht. Zum Beispiel berichtet er über die neuesten Entwicklungen

Mehr

Überblick. Seite 2 von 5

Überblick. Seite 2 von 5 Überblick Der ESEMOS MediaMiner ist ein Stimmungsbarometer und Monitoring-Werkzeug für soziale Netzwerke. MediaMiner zeichnet sich insbesondere durch die Sentiment-Analyse, die Spracherkennung sowie anspruchsvolle

Mehr

6. Künstliche Intelligenz

6. Künstliche Intelligenz 6.1. Turing-Test 6.2. Lernen In diesem Abschnitt besprechen wir wie man an Hand von Beispielen lernt, Objekte zu erkennen und verschiedene Dinge voneinander zu unterscheiden. Diese sogenannte Mustererkennung

Mehr

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert Maika Büschenfeldt Datenbanken: Skript 1 1. Was ist eine relationale Datenbank? In Datenbanken können umfangreiche Datenbestände strukturiert abgelegt werden. Das Konzept relationaler Datenbanken soll

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel Datenauswertung mit Hilfe von Pivot-Tabellen in Excel Begleitendes Manual zu den Workshops zur Datenerfassung und verarbeitung im Juni / Juli 2004 Datenauswertung mit Hilfe von Pivot-Tabellen in Excel...3

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Vorlesung. Funktionen/Abbildungen 1

Vorlesung. Funktionen/Abbildungen 1 Vorlesung Funktionen/Abbildungen 1 1 Grundlagen Hinweis: In dieser Vorlesung werden Funktionen und Abbildungen synonym verwendet. In der Schule wird eine Funktion häufig als eindeutige Zuordnung definiert.

Mehr

Diplom Informatik Anwender 1 SIZ

Diplom Informatik Anwender 1 SIZ Diplom Informatik Anwender 1 SIZ MIT WISSEN WEITERKOMMEN 2 Berufsbild / Einsatzgebiet Der Informatik Anwender 1 SIZ verfügt über Basiskenntnisse in der Informatik sowie über Grundkenntnisse für den zweckmässigen

Mehr

Februar 06 Uni Basel Seminar Künstliche Intelligenz Stefan Pauwels Emotion Recognition :-)

Februar 06 Uni Basel Seminar Künstliche Intelligenz Stefan Pauwels Emotion Recognition :-) Emotion Recognition :-) Themenüberblick Emotionen Emotion Recognition Speech Facial Expression Mulitmodal Emotion Recognition Integrationsmöglichkeiten der zwei Kanäle Emotionen: Grundlagen Konsens in

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte

tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte IVDW-Workshop 2011, Berlin (6. Oktober) Institut für Visualisierung und Interaktive Systeme tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte Philipp

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Inaugural-Dissertation. Philosophie

Inaugural-Dissertation. Philosophie Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät

Mehr

RuleSpeak - Kommentare zu den Basisdokumenten

RuleSpeak - Kommentare zu den Basisdokumenten RuleSpeak - Kommentare zu den Basisdokumenten Version 1.2 Dieses Dokument wurde verfasst von Dr. Jürgen Pitschke, BCS-Dr. Jürgen Pitschke, www.enterprise-design.eu RuleSpeak wurde von Ronald G. Ross, Business

Mehr

Medienführerschein Presse

Medienführerschein Presse A B C mct media consulting team zum Blog, der oder das: Der Begriff Blog oder auch Weblog ist eine Mischung aus den Wörtern Web für Internet (siehe www) und Log für Logbuch. Ein Logbuch ist eigentlich

Mehr

Algorithms for Regression and Classification

Algorithms for Regression and Classification Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik

Mehr

Präsentation zum Thema XML Datenaustausch und Integration

Präsentation zum Thema XML Datenaustausch und Integration Sebastian Land Präsentation zum Thema XML Datenaustausch und Integration oder Warum eigentlich XML? Gliederung der Präsentation 1. Erläuterung des Themas 2. Anwendungsbeispiel 3. Situation 1: Homogene

Mehr

Erste Schritte mit LimeSurvey Pädagogische Hochschule Heidelberg

Erste Schritte mit LimeSurvey Pädagogische Hochschule Heidelberg 1 Dieses Script ist als Schnellstart gedacht, um das Prinzip von LimeSurvey zu verstehen. Zahlreiche Optionen stehen zur individuellen Erstellung von Umfragen zur Verfügung ein ausführliches Benutzerhandbuch

Mehr

Gliederung. Biologische Motivation Künstliche neuronale Netzwerke. Anwendungsbeispiele Zusammenfassung. Das Perzeptron

Gliederung. Biologische Motivation Künstliche neuronale Netzwerke. Anwendungsbeispiele Zusammenfassung. Das Perzeptron Neuronale Netzwerke Gliederung Biologische Motivation Künstliche neuronale Netzwerke Das Perzeptron Aufbau Lernen und Verallgemeinern Anwendung Testergebnis Anwendungsbeispiele Zusammenfassung Biologische

Mehr

Microsoft Access Doku

Microsoft Access Doku Microsoft Access Doku Grundlegende Funktionen Eine Datenbank besteht aus einzelnen Datensätzen. Grundlegend besteht eine Datenbank immer aus einer Tabelle. Microsoft Access ähnelt im Aufbau stark den anderen

Mehr

Automatische Ontologie-Optimierung in Ontologie-basierten Systemen

Automatische Ontologie-Optimierung in Ontologie-basierten Systemen Automatische Ontologie-Optimierung in Ontologie-basierten Systemen Diplomarbeit am Fachgebiet Agententechnologien in betrieblichen Anwendungen und der Telekommunikation (AOT) Prof. Dr.-Ing. habil. Sahin

Mehr

SEMINAR AUTOMATISCHE GESICHTSERKENNUNG

SEMINAR AUTOMATISCHE GESICHTSERKENNUNG SEMINAR AUTOMATISCHE GESICHTSERKENNUNG OBERSEMINAR AUTOMATISCHE ANALYSE VON GESICHTSAUSDRÜCKEN Organisation, Überblick, Themen Überblick heutige Veranstaltung 1. Organisatorisches 2. Überblick über beide

Mehr

Das Studiengangsinformationssystem (SGIS)

Das Studiengangsinformationssystem (SGIS) Das Studiengangsinformationssystem (SGIS) Hinweise für Studiengangsverantwortliche und Typo3-Redakteure Version 1.a Mai 2015 Kontakt: Christian Birringer, Referat 1.4 - Allgemeine Studienberatung und Career

Mehr

Auszüge eines Vortrags von Axel Braunger im Rahmen der TOPIX Tour 2009

Auszüge eines Vortrags von Axel Braunger im Rahmen der TOPIX Tour 2009 Ressourcenplanung Auszüge eines Vortrags von Axel Braunger im Rahmen der TOPIX Tour 2009 28.09.09 bis 08.10.09 TOPIX Informationssysteme AG Ressourcenplanung Grundlagen Im Zuge des Aufbaus der Ressourcenplanung

Mehr

Multicheck Schülerumfrage 2013

Multicheck Schülerumfrage 2013 Multicheck Schülerumfrage 2013 Die gemeinsame Studie von Multicheck und Forschungsinstitut gfs-zürich Sonderauswertung ICT Berufsbildung Schweiz Auswertung der Fragen der ICT Berufsbildung Schweiz Wir

Mehr

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II 1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

Teil II Optimierung. Peter Buchholz 2016. Modellgestützte Analyse und Optimierung Kap. 9 Einführung Optimierung

Teil II Optimierung. Peter Buchholz 2016. Modellgestützte Analyse und Optimierung Kap. 9 Einführung Optimierung Teil II Optimierung Gliederung 9 Einführung, Klassifizierung und Grundlagen 10 Lineare Optimierung 11 Ganzzahlige und kombinatorische Optimierung 12 Dynamische Optimierung Literatur: zu 10-12: Neumann,

Mehr

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Informationen im Internet zu finden ist ein Kinderspiel! Wer sich für die Entwicklung des Ozonlochs interessiert, gibt auf

Mehr