Sentiment Classification

Größe: px
Ab Seite anzeigen:

Download "Sentiment Classification"

Transkript

1 Universität Duisburg-Essen, SS 2008 Seminar Soziales Retrieval im Web 2.0 Dozent: Prof. Dr.-Ing. Norbert Fuhr Betreuer: Ingo Frommholz Sentiment Classification Daniel Jansen 04. Oktober 2008 Institut für Informatik und Interaktive Systeme an der Universität Duisburg-Essen

2 Inhaltsverzeichnis 1 Einführung Motivation Grundlagen Klassifikation Wertende Aussagen in Diskussionsforen und Blogs Hauptteil Lösungsverfahren Maschinelle Lernverfahren Linguistische Lernverfahren Vergleich und Bewertung Beispiel: MoodViews Schluss Diskussion und Ausblick Literaturverzeichnis 17 Abbildungsverzeichnis 18 Tabellenverzeichnis 19 2

3 1 Einführung 1.1 Motivation Es gibt eine Vielzahl von Diskussionsforen und Blogs im World Wide Web. Meinungen von Laien sowie Fachleuten werden veröffentlicht. Jeden Tag kommen tausende neue Informationen hinzu. Diese Vielzahl von Beiträgen in Form von Blogs und Diskussionsforen machen es dem Informationssuchenden schwer das Passende zu finden. Eine automatische Textklassifikation könnte dabei helfen, die für den User relevanten Themen besser zu finden und zu kategorisieren. Hier setzen die Verfahren der Sentiment Classification an. Nicht nur für private Nutzer sondern gerade auch für Unternehmen sind diese Verfahren interessant. So ist es möglich Diskussionsforen oder Blogs dahin zu untersuchen, ob die Beiträge sich positiv oder negativ über ein Produkt äussern. Allgemein gesehen wird ein Dokument einer Polarität zugeordnet. Man betrachtet immer das ganze Dokument und prüft ob es sich positiv oder negativ über etwas äussert. Der Inhalt dieser Seminararbeit soll einen Überblick über mögliche Lösungsansätze der automatischen Sentiment Classification geben und die Ergebnisse bewerten. 1.2 Grundlagen Sentiment Classification dient zur Klassifikation von wertenden Aussagen in Diskussionsforen oder Blogs Klassifikation Bei der Klassifikation wird ein Dokument in die Polaritäten positiv oder negativ unterteilt und anschliessend klassifiziert. Entscheidend hierfür ist die subjektive Meinung die in dem betrachteten Dokument geäussert wird. Interessant könnte auch die Intensität sein, mit der eine Meinung vertreten wird. 3

4 1.2.2 Wertende Aussagen in Diskussionsforen und Blogs Ein Internetforum (lat. forum, Marktplatz), auch Diskussionsforum, ist ein virtueller Platz zum Austausch und Archivierung von Gedanken, Meinungen und Erfahrungen. Die Kommunikation findet dabei asynchron, dass heisst nicht in Echtzeit, statt. 1 Abbildung 1.1: Struktur eines Diskussionsforums Die Abbildung 1.1 zeigt ein Beispiel für eine Diskussionsstruktur. Die Diskussion beginnt ein Benutzer mit einem Thema. Danach folgen weiter Kommentare von anderen Benutzern zu diesem Thema. Innerhalb einer Diskussion kann es auch vorkommen, dass sich die Themengebiete ändern. Das macht es unter Umständen schwer, heraus zu finden, welcher Beitrag sich noch auf das Ausgangsthema bezieht. Ein Beispiel für verteilte Ansichten ist die Diskussion eines Films. Nach einigen Beiträgen wird schließlich die Filmmusik diskutiert. Diese hat dann aber unter Umständen nichts mehr mit der Bewertung des Films zu tun. Ein Webblog, meist abgekürzt als Blog, ist ein auf einer Webseite geführtes und damit öffentlich einsehbares Tagebuch oder Journal. Ein Blog ist ein für den Herausgeber ( Blogger ) und seine Leser einfach zu handhabendes Medium zur Darstellung von Aspekten des eigenen Lebens und von Meinungen zu oftmals spezifischen Themengruppen. Weiter vertieft kann es auch sowohl dem Austausch von Informationen, Gedanken 1 letzter Zugriff

5 und Erfahrungen als auch der Kommunikation dienen. 2 Unter wertende Aussagen versteht man diejenigen Wörter oder Phrasen, die sich in eine der beiden Polaritäten einteilen lassen. Abbildung 1.2: Beispiel einer Bewertung bei In Abbildung 1.2 sehen wir nun ein Beispiel für einen Kommentar mit wertenden Aussagen. Desweiteren ist es möglich, eine Anzahl von Sternen zu vergeben. Diese können ebensfalls zur Analyse der Produktbewertung herangezogen werden. Weitere Beispiele für wertende Aussagen wären Wörter wie gut, schlecht oder begeistert. Diese lassen sich eindeutig in die Polaritäten positiv oder negativ einordnen. Problematisch wird es bei zusammenhängende Wörtern wie zum Beispiel kein nachziehen. Betrachtet man die Wörter seperat, würden man sagen, dass kein und nachziehen eher negativ zu bewerten sind. Bei der Bewertung eines Fernsehers sind die Wörter im Zusammenhang aber positiv zu bewerten. Sentiment Classification versucht nun, diese wertenden Aussagen heraus zu filtern und anhand derer das ganze Dokument zu klassifizieren. 2 letzter Zugriff

6 2 Hauptteil 2.1 Lösungsverfahren Die nächsten Abschnitte sollen einen Überblick über verschiedenen Lösungsverfahren verschaffen und Alternativen zeigen, wie man eine automatische Klassifikation von Dokumenten durchführen kann Maschinelle Lernverfahren Maschinelles Lernen ist ein Oberbegriff für die künstliche Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann nach Beendigung der Lernphase verallgemeinern, d.h. es lernt nicht einfach die Beispiele auswendig, sondern es erkennt Gesetzmäßigkeiten in den Lerndaten. So kann das System auch unbekannte Daten beurteilen. 1 Es gibt zwei verschiedene Arten des maschinellen Lernens. Einmal das unüberwachte Lernen. Dabei existieren Lernmuster in der Eingabe, aber es liegen keine spezifischen Ausgabewerte vor. Zum zweiten das überwachte Lernen. Hier liegen bereits Klassifikationen vor. Die Testdatenmenge (Eingabe) wird anhand eines vorgegebenen Bereichs klassifiziert. Man gibt sozusagen die Ausgabe vor. Naive Bayes Klassifizierer Es handelt sich um ein auf das Bayes-Theorem basierende, statistischen Klassifizierer. Als Grundlage dient der Satz von Bayes: P (c d) = P (c)p (d c) P (d) (2.1) mit P(c) = A priori-wahrscheinlichkeit für ein Ereignis c. P(d) = A priori-wahrscheinlichkeit für ein Ereignis d. 1 Lernen, letzter Zugriff

7 P(c d) = Von charakteristischen Wörtern in einem Dokument d wird auf die Eigenschaft, der Klasse c ( positiv oder negativ ) zu gehören, geschlossen. P(d c) = die bedingte Wahrscheinlichkeit für ein Ereignis d unter der Bedingung, dass c eingetreten ist. Mit einem gegebenen Dokument d und der Klasse c: c = arg max c P (c d) (2.2) Der Naive Bayes Klassifizierer definiert sich dann folgender Maßen: P NB (c d) := P (c)( m i=1 P (f i c) n i(d) ) P (d) (2.3) mit (f i,..., f n ) ist ein Set von n Eigenschaften, die in einem Dokument vorkommen können. n i (d) ist die Anzahl von Eigenschaften f i die in einem Dokument auftreten. Unsere Trainingsmethoden bestehen aus relativen Häufigkeiten von P (c) und P (f i c) und fügen noch die Glättung hinzu (Um Nullwahrscheinlichkeiten zu vermeiden). Zu Beginn verfügt man über eine Menge von Trainingsdaten, bei denen die Klassenzugehörigkeit bekannt ist. Dabei handelt es sich um strukturierte Daten. Der Naive Bayes Klassifizierer ist aber ebenfalls anwendbar auf unstrukturierte Daten wie zum Beispiel Texte oder Webdokumente. Die Grundlegende Funktionsweise ist nun, die wahrscheinlichste Klassifizierung durch Kombination aller Hypothesen vorzunehmen. Der Unterschied zur SVM (Support Vector Machine) ist, dass der Naive Bayes Klassifizierer Wahrscheinlichkeiten berechnet, während die SVM eine binäre Einteilung vornimmt. Studien haben ergeben, dass der Naive Bayes Klassifizierer bei der Identifizierung von Spam-Mails die besten Ergebnisse liefert. Maximum Entropy Die Entropie ist ein Maß für den Informationsgehalt eines Wortes. Zum Beispiel hat das Wort super eine höhere Gewichtung als das Wort gut. Die Maximum Entropy Klassifizierung ist eine alternative Technik zum Naive Bayes Klassifizierer. Anders als beim Naive Bayes Klassifizierer, werden hier die Eigenschaften 7

8 (Wörter) gewichtet. Man geht davon aus, dass Attribute mit einem hohen Gewichtungsfaktor die Trainingsmenge am besten klassifizieren. Maximum Entropy macht allerdings keine Vermutung über Beziehungen von Wörtern. [PLV02] Folgende Exponentialfunktion dient zur Berechnung der Maximum Entropy: P ME (c d) := 1 Z(d) exp( λ i,c F i,c (d, c)) (2.4) mit Z(d) = normalisierte Funktion, F i,c ist eine Eigenschaft/Klassen-Funktion für unsere f i und unsere Klasse c, die dann wie folgt definiert ist: F i,c (d, c) := { 1, n i (d) > 0 and c = c, 0, otherwise (2.5) Die λ i,c s in Gleichung 2.4 sind die Parameter für die Gewichtung der einzelnen Eigenschaften. Support Vector Machines Eine Support Vector Machine unterteilt eine Menge von Objekten so in Klassen, dass um die Klassengrenzen herum ein möglichst breiter Bereich frei von Objekten bleibt. Sie ist ein sogenannter Large Margin Classifier. 2 Es handelt sich dabei um ein überwachtes Lernverfahren. Die Support Vector Machine arbeitet nur mit numerischen Attributen, der sogenannten Bag-of-Words-Repräsentation. Die Grundlegende Funktionsweise einer SVM (Support Vector Machine) ist es, in einem Vektorraum eine Hyperebene zu positionieren, die die Trainingsdaten in zwei unterschiedliche Klassen teilt. Es entstehen dabei sogenannte Support Vectoren. Support Vektoren sind die Vektoren, die der Hyperebene am nächsten liegen und der Abstand zur Hyperebene sollte maximiert werden. Es entsteht dadurch ein breiter leerer Raum zwischen der Hyperebene und den Support Vektoren. Er dient später dazu, Objekte, die nicht genau den Trainingsdaten entsprechen, einzuordnen. Auf der linken Seite in Abbildung 2.1 sehen wir, wie eine Hyperebene zwischen den positiven und den negativen Dokumentenvektoren gezogen wurde. Sie trennt die Gesamtheit aller Dokumente in zwei Klassen. Je nachdem, auf welcher Seite der Hyperebene ein neuer Dokumentenvektor auftaucht, gehört das Dokument entweder zur Klasse positiv oder negativ. Auf der rechten Seite sehen wir die Lage einer Hyperebene bei nicht-linearen Daten. 2 Vector Machine, letzter Zugriff

9 Abbildung 2.1: Trennung durch Hyperebene Da nicht-lineare Daten schwerer zu trennen sind, wendet man den so genannten Kerneltrick an. Dieser überführt den Vektorraum in eine höhere Dimension. Somit lassen sich dann die nicht-linearen Daten trennen. Anschließend wird der Vektorraum wieder in einen 2-dimensionalen Vektorraum zurück transferiert. Der Vorteil einer Support Vector Machine ist, dass sie gute Genauigkeiten vorweisen kann (siehe auch Abschnitt 2.2). Mit schon bekannten und relativ einfachen Rechentechniken ist eine schnelle Berechnung möglich. Formal sieht es dann so aus, dass wir zwei verschiedene Klassen betrachten c j (1, 1) (2.6) Die 1 steht in unserem Fall für positiv und -1 für negativ. Die korrekten Klassen der Dokumente d j sind dann w := ( j a j, c j, d j ) a > 0 (2.7) d j und a j > 0 sind Support Vektoren, da sie zum Vektor w beisteuern Linguistische Lernverfahren Linguistische Verfahren beschäftigen sich mit der Bedeutung von Wörtern, Phrasen oder Sätzen. Sentiment Analysis bezeichnet die automatische Auswertung von Texten mit 9

10 dem Ziel, die Meinung des Verfassers ausfindig zu machen. Linguistische Lernverfahren benötigen keine Trainingdaten. Sie stützen sich auf die Grammatik der jeweiligen Sprache. PMI-IR Der PMI-IR Algorithmus (Pointwise Mutual Information and Information Retrieval) gehört zu den linguistischen Lernverfahren. Er wurde entwickelt um einen Text (oder Satz) nach seiner semantischen Orientierung zu bewerten. Der Algorithmus bekommt eine Review als Input und liefert eine Klassifikation als Output zurück. Klassifiziert wird in die Bereiche empfehlenswert und nicht empfehlenswert. Der PMI-IR Algorithmus arbeitet in 3 Schritten. Als erstes wird eine Extraktion der Phrasen nach 5 POS-Mustern vorgenommen. POS steht für part of speech. Abbildung 2.2: Part of speech In der folgenden Abbildung 2.2 sehen wir die 5 POS-Muster. Traditionelle Grammatik klassifiziert die Wordbasis nach 8 POS. PMI-IR verwendet diese fünf. Jeder POS erklärt nicht, was das Wort ist, sondern wie das Wort benutzt wird. Ein Beispiel aus der traditionellen Grammatik wären diese beiden Sätze: - Books are made of ink, paper and glue. Hier ist das Wort Books ein Nomen, wärend beim nächsten Satz: - Paul waits patiently while Paul books tickets. das Wort books ein Verb ist. Somit hat das Wort books zwei verschiedene Bedeutungen. 10

11 Als zweiter Schritt wird die SO (Sentiment Orientation) bestimmt. P MI(word 1, word 2 ) = log 2 ( P (word 1&word 2 ) P (word 1 )P (word 2 ) ) (2.8) P (word 1 &word 2 ) ist die Wahrscheinlichkeit, das word 1 und word 2 zusammen auftreten. Sind die Wörter statistisch unabhängig, dann ist die Wahrscheinlichkeit gegeben durch das Produkt P (word 1 )P (word 2 ). Demnach ist das Verhältnis zwischen P (word 1 &word 2 ) und P (word 1 )P (word 2 ) ein Maß für den Grad der Abhängigkeit zwischen den Wörtern. Die SO eines Ausdrucks lässt sich dann folgendermaßen ermitteln: SO(phrase) = P M I(phrase, excellent) P M I(phrase, poor) (2.9) Die Sentiment Orientation ist positiv wenn der Ausdruck (Satz, Text) mehr in Richtung excellent geht und negativ wenn der Satz mehr in Richtung poor geht. Der dritte und letzte Schritt ist dann die Berechnung des Mittelwertes der SO für den ganzen Text. Ist der Durchschnitt positiv so hat die Bewertung den Status empfehlenswert. Ist der Durchschnitt negativ, ist die Bewertung nicht empfehlenswert. Der Zusatz IR (Information Retrieval) resultiert daraus, da man diesen Algorithmus auch auf Suchmaschinen wie zum Beispiel AlterVista anwenden kann. Es werden dann auch die Klicks einer Suchmaschine mit in die Berechnung aufgenommen. 11

12 LSA LSA (Latent Semantic Analysis) ist ein weiteres linguistisches Verfahren für die Klassifikation von Texten. Die Wörter und Dokumente des Textkorpus werden auf der Basis ihrer Auftretenshäufigkeit mit anderen Wörtern und Dokumenten in einem n- dimensionalen Raum (semantischer Raum) angeordnet. Je häufiger verschiedene Wörter und Dokumente in ähnlichen Kontexten auftreten, desto näher liegen ihre Koordinaten beieinander. Berechnet man den Cosinus des Zwischenwinkels zwischen den Vektoren zweier Koordinaten des semantischen Raumes, so erhält man ein Maß für die semantische Ähnlichkeit der beiden Wörter oder Dokumente, wobei ein Wert von 1 maximale Übereinstimmung und von 0 keine Übereinstimmung bedeutet. 3 Abbildung 2.3: Cosinus des Zwischenwinkels Die Abbildung 2.3 zeigt zwei Dokumentenvektoren. Je näher sie aneinander liegen, desto größer ist die Übereinstimmung ihrer semantischen Orientierung. Somit gehören zwei nahe aneinander liegende Vektoren in die gleiche Klasse. 3 Semantische Analyse, letzter Zugriff

13 2.2 Vergleich und Bewertung Die linguistischen Verfahren PMI-IR und LSA kommen auf eine durchschnittliche Genauigkeit von 74% bzw. 64%. Bei Experimenten mit 410 Reviews kam der PMI-IR Algorithmus auf eine durchschnittliche Genauigkeit von 74%. Es scheint so, als seien Film-Reviews schwer zu klassifizieren, da Teile einer Review nicht unbedingt zu einem Ganzen zusammen geführt werden können. Hier erreicht der Algorithmus eine Genauigkeit von 66%. Anders ist es in den Bereichen Bank und Automobile. Hier scheint es so, als lassen sich Einzelreviews zusammenführen. Somit erreicht der Algorithmus in diesen Bereichen eine Genauigkeit von 80% bis 84%. [TURNEY02] No. Features #of features frequency or presence? NB ME SVM (1) unigrams freq N/A 72.8 (2) unigrams pres (3) unigrams+bigrams pres (4) bigrams pres (5) unigrams+pos pres (6) adjectives 2633 pres (7) top 2633 unigrams 2633 pres (8) unigrams+position pres Tabelle 2.1: Average accuracies für Machine Learning Verfahren In Tabelle 2.1 sind die durchschnittlichen Genauigkeiten der einzelnen Machine Learning Verfahren aufgelistet. Diese Ergebnisse basieren auf eine Auswertung von Bo Pang, Lillian Lee und Shivakumar Vaithyanathan. [PLV02] Die Auswertung basiert auf 8 verschiedene Arten, wie Eigenschaften in einem Dokument vorkommen. Unigrams sind einzelnen Wörter. Bigrams sind zwei aufeinander folgende Wörter, die im Kontext zueinander betrachtet werden. Frequency gibt an, wie häufig ein Wort vorkommt, während bei Presence das einmalige Vorkommen eines Wortes ausreicht. Die Zahlen in Spalte 5, 6 und 7 sind die prozentualen Genauigkeiten der einzelnen Verfahren. Man kann zum Beipspiel in Zeile (2) gut erkennen, dass eine Support Vector Machine beim auftreten (presence) einzelner Wörter (unigrams) mit 82.9% das beste Ergebnis liefert. Man sieht also, dass beide Verfahren durchaus gut funktionieren. Je nach Einsatzgebiet muss dann individuell entschieden werden, welche Technik das beste Ergebnis liefert. Maschinelle Lernverfahren benötigen zu Beginn Trainingdaten. Diese sind bei linguistischen Verfahren nicht notwendig. Ein weiteres Problem tritt auch bei Diskussionsforen auf. Da diese meist eine sehr tiefe Diskussionstruktur haben, ist es oft nicht möglich, zu beurteilen ob sich der zum Beispiel 12. Beitrag überhaupt noch auf das Ursprungsthema bezieht. Es ist durchaus möglich, dass sich die Themen innerhalb einer Diskussion ändern. 13

14 2.3 Beispiel: MoodViews Bei Mood Views handelt es sich um eine Software niederländischer Forscher, die die Gefühlsregungen der Web-Community erfasst. Das Programm basiert auf einem Bloggerportal in den USA. Blogger können dort ihre Texte mit sogenannten Gefühlsmarken versehen. Es stehen ca. 132 Gefühlsmarken zur Auswahl. Von amüsiert bis traurig oder sauer. Diese Mood-Tags werden ausgewertet und in Diagrammen mit s.g. Gefühlskurven dargestellt. Auswählen kann man den Zeitraum und ein Mood-Tag. Das Tool Moodgrapher zeigt einem dann die Stimmungskurve zum ausgewählten Zeitraum. Mit dem Tool Moodteller versuchen die Forscher die Gefühle der Blogger allein aus dem erfassten Text zu ermitteln. Das Auftauchen verschiedener Wörter beeinflusst die Emotionale Einstufung des Textes. Ebenfalls soll das Programm ermitteln, welche Wörter am häufigsten mit welchen Gefühlsmarken verwendet werden. Man geht davon aus, dass eine Genauigkeit von 90 Prozent erreicht wird. Dies gelte allerdings nur für einfache Zustände. Um Emotionen mit globalen Ereignissen in Verbindung zu bringen, wurde das Tool Moodsignals entwickelt. So konnte man genau erkennen, dass die Einführung eines neuen Harry Potter Bandes sich eindeutig in den Emotionen der Community wiederspiegelte. 4 Abbildung 2.4: Das Tool Moodgrapher In Abbildung 2.4 sehen wir das Basictool Moodgrapher. In diesem Beispiel wird die Gefühlsmarke relaxed im Zeitraum bis betrachtet. Man kann erkennen, dass am Samstag der der tag relaxed öfter benutzt wird als zum Beispiel am Mittoch oder Donnerstag. Am Montagmorgen den scheint die Community ebenfalls entspannt zu sein. 4 letzter Zugriff

15 Abbildung 2.5: Das Tool Moodsignals In Abbildung 2.5 sehen wir ein Beipiel für das Tool Moodsignals und wie globale Ereignisse die Stimmung der Community verändern können. Am war der Amoklauf an der Virginia Tech in den USA. Wie man in Abbildung 2.3 sehen kann, wurde am Abend des der tag shocked fast 4-mal so oft verwendet als an anderen Tagen. Das Tool Moodsearch wurde neu in die drei bestehenden Tools aufgenommen. Es ermöglicht die Anzeige von Beiträgen auf Grundlage einer bestimmten Stimmung in einem gewählten Zeitraum. 15

16 3 Schluss 3.1 Diskussion und Ausblick Betrachten und Vergleichen wir nun die Ergebnisse der Machine Learning Verfahren und den semantischen Verfahren, stellen wir fest, dass sich beide Verfahren sehr gut zur Textklassifikation eignen. Machine Learning Verfahren benötigen zu Beginn Trainingsdaten, was die Anfangskonfiguration evtl. erschwert. Allerdings können diese Verfahren dann leichter verfeinert und, je nach Anwendungsgebiet, umgestellt werden. Diese Trainingsdaten fallen bei linguistischen Verfahren weg. Diese beziehen sich auf schon bekannte Grammatik. Ein Beispiel für eine lexikalische Datenbank ist Sicher werden die Forschungen im Bereich der Sentiment Classification weiter gehen. Täglich werden immer mehr Daten im Internet veröffentlicht. Für Unternehmen die ihre Produktbewertungen analysieren wollen, stellen diese Verfahren eine kostengünstige und einfache Alternative da. Da sich User im Internet für anonym halten, werden wohl auch ehrlichere Meinungen und Beurteilungen niedergeschrieben, als es vielleicht in Gesprächen oder Fragebögen der Fall ist. Ein weiteres Einsatzgebiet der Sentiment Classification könnte die Betrachtung von Videos werden. Auf der Homepage von Zdnet.de werden Produkte von Mitarbeitern getestet und dann per Video veröffentlicht. Interessant wäre nun die Klassifizierung dieser Videos in Polaritäten (Klassen). Als Eingabe für unsere Lösungsansätze würden dann nicht mehr Dokumente dienen, sondern Videos. Als Hilfsmittel könnten man den Speech Recognizer einsetzten. Dieser Spracherkenner ist heute schon bei vielen Firmen im Einsatz, zum Beispiel bei der Deutschen Bahn als automatische Fahrplanauskunft. MoodViews macht dort sicherlich einen Schritt in die richtige Richtung. Die Module sind einfach zu bedienen und Ergebnisse werden grafisch dargestellt. Das Problem von MoodViews ist, dass es zur Zeit nur auf der Basis von arbeitet und die Mood-Tags benötigt. Dies wird sich in Zukunft sicherlich ändern. Zudem sind meist User aus den Vereinigten Staaten auf der Homepage von zu finden. Zudem ist die Blogger Community deutlich jünger als der Durchschnittsbürger. 16

17 Literaturverzeichnis [PLV02] [TURNEY02] PANG, Bo; LEE, Lillian and VAITHYANATHAN, Shivakumar: Thumbs up? Sentiment Classification using Machine Learning Techniques. July 2002, pp TURNEY, Peter D.: Thumbs up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. July 2002, pp

18 Abbildungsverzeichnis 1.1 Struktur eines Diskussionsforums Beispiel einer Bewertung bei Trennung durch Hyperebene Part of speech Cosinus des Zwischenwinkels Das Tool Moodgrapher Das Tool Moodsignals

19 Tabellenverzeichnis 2.1 Average accuracies für Machine Learning Verfahren

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Sentiment Analysis. Eine Einführung. Robert Remus 1 rremus@informatik.uni-leipzig.de. Fakultät für Mathematik und Informatik Universität Leipzig

Sentiment Analysis. Eine Einführung. Robert Remus 1 rremus@informatik.uni-leipzig.de. Fakultät für Mathematik und Informatik Universität Leipzig Sentiment Analysis Eine Einführung Robert Remus 1 rremus@informatik.uni-leipzig.de 1 Abteilung Automatische Sprachverarbeitung Fakultät für Mathematik und Informatik Universität Leipzig Seminar Anwendungen

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Internet sinnvoll nutzen. Blog(gen) ein virtuelles Tagebuch

Internet sinnvoll nutzen. Blog(gen) ein virtuelles Tagebuch Internet sinnvoll nutzen Blog(gen) ein virtuelles Tagebuch Seite 2 Inhalt Wikipedia zu Blog was ist...? Blog anmelden Blog einrichten - Einstellungen - Darstellung und mit Inhalten füllen - Artikel - Links

Mehr

Lernende Suchmaschinen

Lernende Suchmaschinen Lernende Suchmaschinen Qingchui Zhu PG 520 - Intelligence Service (WiSe 07 / SoSe 08) Verzeichnis 1 Einleitung Problemstellung und Zielsetzung 2 Was ist eine lernende Suchmaschine? Begriffsdefinition 3

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

Info zum Junk-Mail-Filter in Thunderbird:

Info zum Junk-Mail-Filter in Thunderbird: Datenverarbeitungszentrale Datenverarbeitungszentrale dvz@fh-muenster.de www.fh-muenster.de/dvz Info zum Junk-Mail-Filter in Thunderbird: Der Grossteil der Benutzer verwendet zusätzlich zum zentralen Mail-Filter

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Datamining Cup Lab 2005

Datamining Cup Lab 2005 Datamining Cup Lab 2005 Arnd Issler und Helga Velroyen 18. Juli 2005 Einleitung Jährlich wird der Datamining Cup 1 von der Firma Prudsys und der TU Chemnitz veranstaltet. Im Rahmen des Datamining-Cup-Praktikums

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik technische universität RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik Name Autor Ort und Datum Informatik: Linguistik: Methoden + Verfahren Forschungsfragen, Anforderungen

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

One-class Support Vector Machines

One-class Support Vector Machines One-class Support Vector Machines Seminar Wissensbasierte Systeme Dietrich Derksen 3. Januar 204 Motivation One-class Support Vector Machines: Detektion von Ausreißern (Systemfehlererkennung) Klassifikation

Mehr

Conversion Attribution

Conversion Attribution Conversion Attribution Eines der Trendthemen über das zurzeit jeder spricht ist Attribution. Das heißt allerdings nicht, dass auch jeder weiß was genau Attribution ist, was man damit machen kann und für

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Computerlinguistische Textanalyse

Computerlinguistische Textanalyse Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

Weka: Software-Suite mit Maschineller Lernsoftware

Weka: Software-Suite mit Maschineller Lernsoftware : Software-Suite mit Maschineller Lernsoftware Computational Linguistics Universität des Saarlandes Sommersemester 2011 21.04.2011 Erste Schritte Waikato Environment for Knowledge Analysis entwickelt von

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

Sentiment Analysis und Ontologien

Sentiment Analysis und Ontologien Sentiment Analysis und Ontologien Universität zu Köln Sprachliche Informationsverarbeitung Künstliche Intelligenz Dozent: C. Neuefeind 13.06.2012 Linus Franzke und Carina Berning Inhalt Was ist Sentiment

Mehr

Researcher s Workbench : Verwalten, Annotieren und Finden von Dokumenten

Researcher s Workbench : Verwalten, Annotieren und Finden von Dokumenten Researcher s Workbench : Verwalten, Annotieren und Finden von Dokumenten Ingo Frommholz, Henrik Nottelmann, Norbert Fuhr IIIS Universität Duisburg-Essen, Campus Duisburg Studienprojekt SS05 UNIVERSITÄT

Mehr

Kapitel 3: Etwas Informationstheorie

Kapitel 3: Etwas Informationstheorie Stefan Lucks 3: Informationstheorie 28 orlesung Kryptographie (SS06) Kapitel 3: Etwas Informationstheorie Komplexitätstheoretische Sicherheit: Der schnellste Algorithmus, K zu knacken erfordert mindestens

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik

Mehr

Hinweise zur. Auswertung. Markus Scholz Michael Wagner Version 1.0

Hinweise zur. Auswertung. Markus Scholz Michael Wagner Version 1.0 Hinweise zur Auswertung Markus Scholz Michael Wagner Version 1.0 Struktur der Auswertung Die Auswertung der Ergebnisse und somit der Vergleich der Einschätzungen verschiedener Personen erfolgt mittels

Mehr

LiLa Portal Leitfaden für Dozierende

LiLa Portal Leitfaden für Dozierende Library of Labs Lecturer s Guide LiLa Portal Leitfaden für Dozierende Meist werden Dozierende die Lerninhalte ihrer Studierenden festlegen und aus der großen Auswahl von LiLa Experimenten diejenigen auswählen,

Mehr

Zum State of the Art automatischer Inhaltsanalyse

Zum State of the Art automatischer Inhaltsanalyse Zum State of the Art automatischer Inhaltsanalyse Michael Scharkow, M.A. Universität Hohenheim Institut für Kommunikationswissenschaft (540G) michael.scharkow@uni-hohenheim.de Typologie der Verfahren deskriptive/explorative

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Diplom Informatik Anwender 1 SIZ

Diplom Informatik Anwender 1 SIZ Diplom Informatik Anwender 1 SIZ MIT WISSEN WEITERKOMMEN 2 Berufsbild / Einsatzgebiet Der Informatik Anwender 1 SIZ verfügt über Basiskenntnisse in der Informatik sowie über Grundkenntnisse für den zweckmässigen

Mehr

Bachelorarbeit. Tobias Eichler. Sentiment-Analysis durch überwachtes Lernen: Vergleich und Bewertung von Konzepten zur Vorverarbeitung

Bachelorarbeit. Tobias Eichler. Sentiment-Analysis durch überwachtes Lernen: Vergleich und Bewertung von Konzepten zur Vorverarbeitung Bachelorarbeit Tobias Eichler Sentiment-Analysis durch überwachtes Lernen: Vergleich und Bewertung von Konzepten zur Vorverarbeitung Fakultät Technik und Informatik Studiendepartment Informatik Faculty

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation)

Mehr

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel Datenauswertung mit Hilfe von Pivot-Tabellen in Excel Begleitendes Manual zu den Workshops zur Datenerfassung und verarbeitung im Juni / Juli 2004 Datenauswertung mit Hilfe von Pivot-Tabellen in Excel...3

Mehr

1.1 Das Ziel: Basisdaten strukturiert darzustellen

1.1 Das Ziel: Basisdaten strukturiert darzustellen MS Excel 203 Kompakt PivotTabellen. Das Ziel: Basisdaten strukturiert darzustellen Jeden Tag erhalten wir umfangreiche Informationen. Aber trotzdem haben wir oft das Gefühl, Entscheidungen noch nicht treffen

Mehr

Selbstorganisierende Karten

Selbstorganisierende Karten Selbstorganisierende Karten Yacin Bessas yb1@informatik.uni-ulm.de Proseminar Neuronale Netze 1 Einleitung 1.1 Kurzüberblick Die Selbstorganisierenden Karten, auch Self-Organizing (Feature) Maps, Kohonen-

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining

Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining Ausarbeitung Twitter as a Corpus for Sentiment Analysis and Opinion Mining Wissenschaftliches Arbeiten (2014) Aufgabe 5 Kai Kühne 798797 Beuth Hochschule für Technik Berlin Fachbereich VI Informatik und

Mehr

Opinion Mining in der Marktforschung

Opinion Mining in der Marktforschung Opinion Mining in der Marktforschung von andreas.boehnke@stud.uni-bamberg.de S. 1 Überblick I. Motivation Opinion Mining II. Grundlagen des Text Mining III. Grundlagen des Opinion Mining IV. Opinion Mining

Mehr

T-Systems Multimedia Solutions

T-Systems Multimedia Solutions Heute schon gereviewt gereviewt? Anforderungen und Reviews in einem System erhöhen die Effizienz in den Projekten T-Systems Multimedia Solutions Die T-Systems MMS auf einen Blick Sie finden uns hier. über

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

Unterrichtsinhalte Informatik

Unterrichtsinhalte Informatik Unterrichtsinhalte Informatik Klasse 7 Einführung in die Arbeit mit dem Computer Was ist Informatik? Anwendungsbereiche der Informatik Was macht ein Computer? Hardware/Software Dateiverwaltung/Dateien

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

http://www.jimdo.com Mit Jimdo eine Homepage erstellen Kapitel 16 Seite 1 Die eigene Homepage mit Jimdo http://benutzername.jimdo.com Der Benutzername

http://www.jimdo.com Mit Jimdo eine Homepage erstellen Kapitel 16 Seite 1 Die eigene Homepage mit Jimdo http://benutzername.jimdo.com Der Benutzername Kapitel 16 Seite 1 Die eigene Homepage mit Jimdo Mit Jimdo ist das Erstellen einer eigenen Homepage ganz besonders einfach. Auch ohne Vorkenntnisse gelingt es in kurzer Zeit, mit einer grafisch sehr ansprechenden

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Klausurteilnehmer. Wichtige Hinweise. Note: Klausur Informatik Programmierung, 17.09.2012 Seite 1 von 8 HS OWL, FB 7, Malte Wattenberg.

Klausurteilnehmer. Wichtige Hinweise. Note: Klausur Informatik Programmierung, 17.09.2012 Seite 1 von 8 HS OWL, FB 7, Malte Wattenberg. Klausur Informatik Programmierung, 17.09.2012 Seite 1 von 8 Klausurteilnehmer Name: Matrikelnummer: Wichtige Hinweise Es sind keinerlei Hilfsmittel zugelassen auch keine Taschenrechner! Die Klausur dauert

Mehr

Materialien für Veranstalter

Materialien für Veranstalter HowTo Blog Seminardoku mittels Weblog Es gibt unterschiedliche Möglichkeiten zur Seminardokumentation und Mitwirkung der Ein Blog oder auch Web-Log, Wortkreuzung aus engl. World Wide Web und Log für Logbuch,

Mehr

Klassifikationsaufgaben mit der SENTRAX. Konkreter Fall: Automatische Detektion von SPAM. Dirk T. Frobese

Klassifikationsaufgaben mit der SENTRAX. Konkreter Fall: Automatische Detektion von SPAM. Dirk T. Frobese Proceedings des Fünften Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2006) Klassifikationsaufgaben mit der SENTRAX. Konkreter Fall: Automatische Detektion von SPAM Dirk T. Frobese Universität

Mehr

Erweiterung für Premium Auszeichnung

Erweiterung für Premium Auszeichnung Anforderungen Beliebige Inhalte sollen im System als Premium Inhalt gekennzeichnet werden können Premium Inhalte sollen weiterhin für unberechtigte Benutzer sichtbar sein, allerdings nur ein bestimmter

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Indextest bietet klare und schnelle Antworten auf immer wiederkehrende Fragen

Indextest bietet klare und schnelle Antworten auf immer wiederkehrende Fragen 06. August 2013 ForschungsWerk mit Innovation auf dem Markt: Indextest bietet klare und schnelle Antworten auf immer wiederkehrende Fragen NÜRNBERG - ForschungsWerk hat mit Indextest ein Tool entwickelt,

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Suchmaschinen und ihre Architektur Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Ziel Rudimentäre Grundkenntnisse über die Funktionsweise von Suchmaschinen und Trends Einführung in

Mehr

Gliederung. Biologische Motivation Künstliche neuronale Netzwerke. Anwendungsbeispiele Zusammenfassung. Das Perzeptron

Gliederung. Biologische Motivation Künstliche neuronale Netzwerke. Anwendungsbeispiele Zusammenfassung. Das Perzeptron Neuronale Netzwerke Gliederung Biologische Motivation Künstliche neuronale Netzwerke Das Perzeptron Aufbau Lernen und Verallgemeinern Anwendung Testergebnis Anwendungsbeispiele Zusammenfassung Biologische

Mehr

Requirements Analysis Document

Requirements Analysis Document Requirements Analysis Document 1. Einleitung Dieses Dokument beschreibt die Anforderungen an ein automatisches Korrektur- und Abgabesystem für Uebungen mit dem Ziel einer Arbeitserleichterung für Assistenten.

Mehr

Microsoft Access Doku

Microsoft Access Doku Microsoft Access Doku Grundlegende Funktionen Eine Datenbank besteht aus einzelnen Datensätzen. Grundlegend besteht eine Datenbank immer aus einer Tabelle. Microsoft Access ähnelt im Aufbau stark den anderen

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG DB Fernverkehr AG Dr.-Ing. Axel Schulz, Dr. Matthias Platho P.FMB 2, DB Fernverkehr AG Frankfurt, 22.05.2015 Motivation An meinem

Mehr

5 Eigenwerte und die Jordansche Normalform

5 Eigenwerte und die Jordansche Normalform Mathematik für Physiker II, SS Mittwoch 8.6 $Id: jordan.tex,v.6 /6/7 8:5:3 hk Exp hk $ 5 Eigenwerte und die Jordansche Normalform 5.4 Die Jordansche Normalform Wir hatten bereits erwähnt, dass eine n n

Mehr

SEMINAR AUTOMATISCHE GESICHTSERKENNUNG

SEMINAR AUTOMATISCHE GESICHTSERKENNUNG SEMINAR AUTOMATISCHE GESICHTSERKENNUNG OBERSEMINAR AUTOMATISCHE ANALYSE VON GESICHTSAUSDRÜCKEN Organisation, Überblick, Themen Überblick heutige Veranstaltung 1. Organisatorisches 2. Überblick über beide

Mehr

Vendor Rating System 2.0

Vendor Rating System 2.0 MANN+HUMMEL Vendor Rating System 2.0 Lieferantenbewertung Version Date Version Change Name / Dpt. 29.05.2013 A.01 Initial Nicolas Ast/PU-SD-SC Seite 1 von 16 Inhalt: 1 EINFÜHRUNG... 4 2 ZIELE UND BEITRAG

Mehr

Social Media für Gründer. BPW Business Juni 2012

Social Media für Gründer. BPW Business Juni 2012 Social Media für Gründer BPW Business Juni 2012 Internetnutzung 77% der deutschen Haushalten haben einen Onlinezugang das sind ca. 60 Mio. 93% davon haben einen Breitbandzugang 19% der deutschen Haushalte

Mehr

Teil 2 - Softwaretechnik. Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2. Übersicht. Softwaretechnik

Teil 2 - Softwaretechnik. Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2. Übersicht. Softwaretechnik Grundlagen der Programmierung 1 Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2 Softwaretechnik Prof. Dr. O. Drobnik Professur Architektur und Betrieb verteilter Systeme Institut für

Mehr

Blog Forum - Gästebuch

Blog Forum - Gästebuch Blog Forum - Gästebuch 1 Blog (Weblog, Tagebuch) Von einem Herausgeber (Blogger) werden Beiträge in einer chronologischen Reihenfolge veröffentlicht. Zum Beispiel berichtet er über die neuesten Entwicklungen

Mehr

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Informationen im Internet zu finden ist ein Kinderspiel! Wer sich für die Entwicklung des Ozonlochs interessiert, gibt auf

Mehr

XDOC Extraktion, Repräsentation und Auswertung von Informationen

XDOC Extraktion, Repräsentation und Auswertung von Informationen XDOC Extraktion, Repräsentation und Auswertung von Informationen Manuela Kunze Otto-von-Guericke Universität Magdeburg Fakultät für Informatik Institut für Wissens- und Sprachverarbeitung Gliederung Ausgangspunkt

Mehr

Überblick. Seite 2 von 5

Überblick. Seite 2 von 5 Überblick Der ESEMOS MediaMiner ist ein Stimmungsbarometer und Monitoring-Werkzeug für soziale Netzwerke. MediaMiner zeichnet sich insbesondere durch die Sentiment-Analyse, die Spracherkennung sowie anspruchsvolle

Mehr

Einführung in QtiPlot

Einführung in QtiPlot HUWagner und Julia Bek Einführung in QtiPlot 1/11 Einführung in QtiPlot Mit Bezug auf das Liebig-Lab Praktikum an der Ludwig-Maximilians-Universität München Bei Fragen und Fehlern: jubech@cup.lmu.de Inhaltsverzeichnis

Mehr

Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten

Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten Inhaltsverzeichnis 3 Hans-Christoph Hobohm (Hrsg.) Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten Information Science between Virtual Infrastructure and Material

Mehr

Februar 06 Uni Basel Seminar Künstliche Intelligenz Stefan Pauwels Emotion Recognition :-)

Februar 06 Uni Basel Seminar Künstliche Intelligenz Stefan Pauwels Emotion Recognition :-) Emotion Recognition :-) Themenüberblick Emotionen Emotion Recognition Speech Facial Expression Mulitmodal Emotion Recognition Integrationsmöglichkeiten der zwei Kanäle Emotionen: Grundlagen Konsens in

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18 Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive

Mehr

tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte

tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte IVDW-Workshop 2011, Berlin (6. Oktober) Institut für Visualisierung und Interaktive Systeme tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte Philipp

Mehr

How2 Moodle 2.UP Aufgaben in Moodle anlegen

How2 Moodle 2.UP Aufgaben in Moodle anlegen How2 Moodle 2.UP wird herausgegeben von: AG elearning Service und Beratung für E Learning und Mediendidaktik How2 Moodle 2.UP Aufgaben in Moodle anlegen Universität Potsdam Am Neuen Palais 10 Haus 2, Raum

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Grundlagen verteilter Systeme

Grundlagen verteilter Systeme Universität Augsburg Insitut für Informatik Prof. Dr. Bernhard Bauer Wolf Fischer Christian Saad Wintersemester 08/09 Übungsblatt 5 26.11.08 Grundlagen verteilter Systeme Lösungsvorschlag Aufgabe 1: Erläutern

Mehr

tentoinfinity Apps 1.0 EINFÜHRUNG

tentoinfinity Apps 1.0 EINFÜHRUNG tentoinfinity Apps Una Hilfe Inhalt Copyright 2013-2015 von tentoinfinity Apps. Alle Rechte vorbehalten. Inhalt der online-hilfe wurde zuletzt aktualisiert am August 6, 2015. Zusätzlicher Support Ressourcen

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

RuleSpeak - Kommentare zu den Basisdokumenten

RuleSpeak - Kommentare zu den Basisdokumenten RuleSpeak - Kommentare zu den Basisdokumenten Version 1.2 Dieses Dokument wurde verfasst von Dr. Jürgen Pitschke, BCS-Dr. Jürgen Pitschke, www.enterprise-design.eu RuleSpeak wurde von Ronald G. Ross, Business

Mehr

Inaugural-Dissertation. Philosophie

Inaugural-Dissertation. Philosophie Ontology On Demand Vollautomatische Ontologieerstellung aus deutschen Texten mithilfe moderner Textmining-Prozesse Inaugural-Dissertation zur Erlangung des Grades eines Doktors der Philosophie in der Fakultät

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr