Opinion Spam Detection

Größe: px
Ab Seite anzeigen:

Download "Opinion Spam Detection"

Transkript

1 Opinion Spam Detection Emotion Mining in Images and Text Seminararbeit eingereicht bei Prof. Dr. Ute Schmid Angewandte Informatik insb. Kognitive Systeme Otto-Friedrich-Universität Bamberg von Tobias Goldbach Studienrichtung: Master Wirtschaftsinformatik 2. Fachsemester Matrikelnummer:

2 Tobias Goldbach - II - Inhaltsverzeichnis Abbildungsverzeichnis... III 1 Einleitung Grundlagen Abgrenzung von Mining-Verfahren Abgrenzung von Spam-Arten Stand der Forschung Beitragsqualität und Bewertungen Klassifizierender Lernansatz Duplicate Detection Lügenerkennung Spezieller Ansatz Datenerhebung Automatisierte Analyse-Ansätze Ergebnisse Praktischer Teil Linguistic Inquiry and Word Count Blogspam.net Plugin Zusammenfassung und Bewertung Literaturverzeichnis Anhang

3 Tobias Goldbach - III - Abbildungsverzeichnis Abbildung 1: KDD-Prozess... 2 Abbildung 2: Beziehungen zwischen Mining-Verfahren... 3 Abbildung 3: Gegenüberstellung Spam und Qualität... 4 Abbildung 4: Online-Testversion des LIWC... 12

4 Tobias Goldbach Einleitung Möchte man in der heutigen Zeit ein Produkt kaufen, schaut man für gewöhnlich im Internet nach Meinungen von anderen Kunden über dieses Produkt. Sind diese Reviews positiv, ist es wahrscheinlicher das Produkt zu kaufen, als wenn das Produkt überwiegend negativ bewertet wurde. Negative Bewertungen verleiten eher dazu, ein anderes Produkt zu kaufen (Jindal/Liu 2008). Das Internet hat dramatisch die Art und Weise wie Menschen ihre Meinungen verbreiten verändert (Liu 2010). Es können Reviews auf Händlerseiten abgegeben und eigene Meinungen über Foren, Diskussionsgruppen und Blogs verbreitet werden. Diese Inhalte werden allgemein als user generated content bezeichnet. Diese neuen Inhalte bieten neue Möglichkeiten, Informationen und Wissen zu sammeln. Hierfür entstehen immer mehr Analysetechniken, die Unternehmen und Individuen bei der effektiven Informationsbeschaffung unterstützen sollen (Liu 2010). Da überwiegend keine Qualitätskontrolle vorhanden ist, kann jeder Beliebige alles Beliebige im Internet schreiben und weitergeben. Dies führt immer mehr zu minderwertigen Reviews und zu Review-Spam bzw. Opinion-Spam. Unter Opinion-Spam versteht man allgemein die gezielte Irreführung von Lesern durch die eigene unwahre Meinung (Jindal/Liu 2008). Hierzu kann vieles gehören, von Eigenwerbung auf anderen Internetseiten oder Blogs bis hin zu bewusst gefälschten Reviews von bisher schlecht bewerteten Produkten (Ott et al. 2011). Das Aufdecken von Opinion-Spam durch den Menschen ist kaum möglich, eher zufälliger Natur und bedarf daher einer Automatisierung, die bisherigen Forschungsarbeiten gerecht wird (Ott et al. 2011). Da die Verbreitung von Kundenmeinungen im Internet immer mehr zunimmt, wird dieses Problem immer kritischer und wichtiger (Liu 2010). Das automatisierte Erkennen und Interpretieren von Meinungen und Emotionen gehört hierbei zum Gebiet des Opinion-Mining und der Sentiment Analysis die als Ansatzpunkte für die Problematik Opinion-Spam dienen können (Pang/Lee 2008). Eine Möglichkeit, den Unterschied zwischen wahrer und unwahrer Meinung aufzudecken, kann über die verwendete Sprache gehen (Newman et al 2003), über die Ähnlichkeit zu anderen Beiträgen (Jindal/Liu 2008), oder auch über eine Kombination verschiedener Verfahren (Ott et al.2011). Diese Arbeit soll das Thema Opinion-Spam näher betrachten und dabei die Fragen beantworten, was Opinion-Spam ist, wie es sich von anderen Spam-Arten abgrenzen lässt und mit welchen traditionellen und neueren Ansätzen es aufgedeckt werden kann. Im Grundlagenkapitel wird hierzu zunächst der Begriff Opinion-Mining und die Verbindung zu anderen Mining-Verfahren geklärt sowie der Begriff Opinion-Spam und andere Spam-Arten definiert. Im Anschluss wird der aktuelle Stand der Forschung zur Erkennung von Opinion-Spam erläutert. Daraufhin wird ein spezieller Ansatz detaillierter beleuchtet, ein Service zur Blog-Spam Erkennung getestet und abschließend eine Bewertung sowie ein Ausblick gegeben.

5 Tobias Goldbach Grundlagen 2.1 Abgrenzung von Mining-Verfahren Opinion-Mining/Sentiment Analysis Bezogen auf Pang/Lee (2008) haben sich die Begriffe Opinion-Mining und Sentiment Analysis historisch gesehen getrennt voneinander entwickelt, zeigen aber wesentliche Parallelen auf und werden heute überwiegend synonym verwendet. Unter Opinion- Mining versteht man the computational treatment of opinion, sentiment, and subjectivity in text (Pang/Lee 2008, p. 6), also die automatisierte computergestützte Behandlung und Erkennung von Meinungen, Gefühlen, Emotionen und Subjektivität in Text. Meinungen können auf unterschiedliche Objekte, wie Produkte, Services, Personen, Organisationen, Ereignisse oder allgemein auf Themen bezogen werden. Liu (2010) benutzt den Begriff Objekt um diese Ziele der Meinungsäußerung zu benennen. Opinion-Mining stellt ein Anwendungsgebiet von Text-Mining dar. Text-Mining ist eine Spezialisierung von Data-Mining. Der Fokus von Text-Mining lag bisher auf der Extrahierung von faktischen Informationen. Mining von Meinungen und Emotionen wird erst seit wenigen Jahren aktiv erforscht. (Liu 2010). Data-Mining Data-Mining steht in enger Verbindung mit Knowledge Discovery in Databases (KDD), also der Wissensentdeckung in Datenbanken. Zum Prozess des KDD gehören vorbereitende Schritte, wie das Bereitstellen von Hintergrundwissen, Definition der Ziele, Datenauswahl und Datenbereinigung und die Auswahl eines Verfahrens sowie nach der eigentlichen Datenanalyse die abschließende Interpretation der Daten. Data- Mining kann definiert werden als ein Schritt des KDD-Prozesses der darin besteht Datenanalyse- und Entdeckungsalgorithmen anzuwenden, die unter akzeptablen Effizienzbegrenzungen eine spezielle Auflistung von Mustern (oder Modellen) der Daten liefern (Fayyad et al. 1996, Hotho/Nürnberger/Paaß 2005). Hintergrund -wissen Ziel Definition Daten Auswahl Daten Bereinigung Verfahren auswählen Data- Mining Daten Interpretation Abbildung 1: KDD-Prozess Als Verfahren der Mustererkennung, also der Erkennung von Regelmäßigkeiten und Ähnlichkeiten und der darauf basierenden Zuordnung zu einer Klasse, sollen hier beispielhaft die logistische Regression, der naive Bayes und Support Vector Machines (SVM) genannt werden. Trainingsobjekte in SVMs werden als Vektoren in einem Vektorraum dargestellt. Die SVM sucht ausgehend davon eine Ebene in diesem Vektorraum, von der die Datenobjekte den größtmöglichen Abstand haben, also der Fehler verringert wird. Man spricht daher auch von Structural Risk Minimization (Joachims 1998). Die logistische Regression gibt dagegen nicht direkt die Gruppenzugehörigkeit

6 Tobias Goldbach von einem Objekt wieder, sondern bestimmt die Wahrscheinlichkeit, dass dieses Objekt zu einer bestimmten Gruppe gehört, abhängige von einer logistischen Funktion. Text-Mining Unter Text-Mining als Spezialisierung von Data-Mining versteht man die Anwendung von Algorithmen und Methoden aus den Bereichen maschinelles Lernen und Statistik auf Text, um nützliche Muster aufzudecken (Hotho/Nürnberger/Paaß 2005, p. 23). Maschinelles Lernen gehört zum Bereich der künstlichen Intelligenz und bezieht sich auf Computer, die durch die Analyse von Daten neues Wissen generieren und somit aus Erfahrungen automatisiert lernen können. Um Text-Mining anzuwenden, muss der Text zunächst vorbereitet werden. Hierzu werden Verfahren aus dem Bereich Information Extraction und Natural Language Processing verwendet. Ersteres dient der Herausnahme von spezifischen Informationen aus Text, zweiteres zielt auf das bessere Verständnis von natürlicher Sprache. Auf die so extrahierten Daten können im Anschluss Data-Mining Verfahren angewendet werden. Daneben kann Text-Mining von Information Retrieval abgegrenzt werden, welches rein für das Auffinden von Dokumenten zuständig ist, die Antworten zu dem vorliegenden Problem enthalten (Hotho/Nürnberger/Paaß 2005, do Prado/Ferneda 2008). Eine gängige Analysemethode von Texten stellen N-Gramme dar. Hierbei werden Texte in einzelne Fragmente verschiedener Länge zerlegt, die aus Buchstaben oder aus ganzen Wörtern bestehen können. Typische N-Gramme sind Unigramme(ein Zeichen), Bigramme (zwei Zeichen) und Trigramme (drei Zeichen). Aufbauend auf die N- Gram-Fragmentierung findet eine Analyse statt, um die Wahrscheinlichkeit zu ermitteln, dass auf bestimmte N-Gramme andere Wörter oder Buchstaben folgen (Manning/Schütze 1999). Data-Mining Text-Mining Web-Mining Opinion-Mining Web-Content Abbildung 2: Beziehungen zwischen Mining-Verfahren Web-Mining Neben Text-Mining stellt Web-Mining eine weitere Spezialisierung von Data-Mining dar, hier auf dem Datentyp Webseite. Web-Mining zielt dabei auf drei Untersuchungsgegenstände: Die Struktur der Verlinkungen (Web Structure Mining), die Inhalte (Web Content Mining) und das Benutzerverhalten (Web Usage Mining). Der Prozess ist hierbei ähnlich zum KDD-Prozess, der Hauptunterschied und die große Herausforderung liegt in der Datenbeschaffung, da hierfür eine große Anzahl an Webseiten durchsucht werden muss (Liu 2011). Zu Web-Content-Mining gehört zum einen die automatisierte Klassifizierung von Webseiten anhand bestimmter Thematiken. Zum anderen können auch Muster aus Produktbeschreibungen, Foren- und Blogeinträgen extrahiert werden. Hierauf setzt wiederum Opinion-Mining auf, das Kundenrezensionen und Foreneinträge auf enthaltende Meinungen analysiert (Liu 2011).

7 Tobias Goldbach Abgrenzung von Spam-Arten Web-Spam / -Spam Die bekanntesten Spam-Arten stellen Web-Spam und -Spam dar. Das Täuschen von Suchmaschinen um höhere Bewertungen in Suchlisten zu erhalten wird als Web- Spam bezeichnet und zielt darauf ab, eine höhere Aufmerksamkeit als die jeweiligen Wettbewerber zu bekommen. Typische Vorgehensweisen sind das Content- Spamming und das Link-Spamming. Ersteres füllt die Webseite mit Begriffen, die in Suchmaschinen häufig verwendet werden, um dadurch eine höhere Relevanz zugeschrieben zu bekommen. Zweiteres hat dieselben Beweggründe, setzt dies aber mit durchdachten und zusätzlichen Linkstrukturen um (Gyöngyi/Garcia-Molina 2004). -Spam stellt unerwünschte elektronische Nachrichten dar, die meist unerwünschte Werbung enthalten. Grund für die hohe Verbreitung von -Spam ist die Möglichkeit der kostenlosen Versendung von s und das schnelle Reagieren auf geblockte Spamadressen mit neuen Senderadressen (Drucker H. 1999). Jindal/Liu (2008) haben herausrausgefunden, dass Opinion-Spam zwar Ähnlichkeiten zu Web- und -Spam aufweist, bezüglich der Identifizierung aber deutlich anders gehandhabt werden muss. Zudem sei Opinion-Spam ähnlich weit verbreitet wie Webund -Spam, aber kaum erforscht, woraus sich eine Handlungsdringlichkeit ergibt. Opinion-Spam Nach Liu (2010) bezieht sich Opinion-Spam auf menschliche Aktivitäten, die gezielt versuchen Leser oder automatisierte Opinion-Mining-Systeme in die Irre zu führen, um durch unverdiente positive Meinungen Objekte zu fördern und/oder durch ungerechte falsche negative Meinungen den Ruf von anderen Objekten zu schädigen. Den ersten Fall, der Unterstützung von bspw. eigenen Produkten, bezeichnen Jindal/Liu (2008) als Hype-Spam, den zweiten Fall, der Schädigung von bspw. Konkurrenzprodukten, als Defaming-Spam. Jindal/Liu (2008) stellen in einer Tabelle positiven und negativen Opinion-Spam guten und schlechten Objekten bzw. Produkten gegenüber, um die Dringlichkeit einer Spam- Identifikation zu analysieren. Abbildung 3: Gegenüberstellung Spam und Qualität Opinion-Spam in den Bereichen 1, 3 und 5 wird typischerweise von den Produktherstellern oder von Personen mit ökonomischem Interesse am Erfolg des Produkts verfasst, mit dem Ziel das Produkt zu fördern. Spam in 2, 4 und 6 wird dagegen von Wettbewerbern geschrieben, mit der Intention, das Konkurrenzprodukt zu deformieren. Die Texte in den Bereichen 1 und 4 haben als Spam die geringste schädigende Wirkung, da sie lediglich die Statistik verzerren. Opinion-Spam in den anderen Berei-

8 Tobias Goldbach chen kann hingegen sehr schädigend sein und sollten daher bei der Spam- Identifizierung besonders berücksichtigt werden (Jindal/Liu, 2008). Daneben kann zwischen manuell und automatisch geschriebenem Spam unterschieden werden. Ersteres ist besonders schwierig aufzudecken, da diese häufig so abgeändert werden, dass sich gleiche Einträge nicht mehr ähneln (Jindal/Liu, 2008). Review-Spam Jindal/Liu (2008) beziehen sich in ihrer Ausarbeitung zu Opinion-Spam hauptsächlich auf Rezensionen (engl. reviews) wie sie auf amazon.com oder tripadvisior.com vorkommen. Reviews dienen der Meinungsäußerung von Kunden über bestimmte Objekte, also Produkte oder Services. Sie machen jedoch deutlich, dass ihre Ausführung auch auf Meinungen in anderer Form, wie Foreneinträge und Blogs, anwendbar sind. Sie unterscheiden drei unterschiedliche Typen von Review-Spam. Typ1 Reviews (untruthful opinions) versuchen gezielt Leser oder Opinion-Mining- Systeme in die Irre zu führen. Solche Meinungen werden auch Fake-Opinions bzw. betrügerische Meinungen genannt und entsprechen der eigentlichen oben genannten Definition von Opinion-Spam. Typ 2 Reviews (reviews on brands only) kommentieren nicht das vorliegende Produkt, sondern die Marke, den Hersteller oder den Verkäufer. Obwohl sie als generalisierte Meinung nützlich sein können, werden sie trotzdem von Jindal/Liu (2008) als Opinion- Spam angesehen. Typ 3 Non-Reviews (non-reviews) enthalten lediglich Werbung oder irrelevante Fragen, Antworten oder sonstige Texte die nicht mit der Bewertung des eigentlichen Produkts in Verbindung stehen. Ott et al. (2011) teilen Opinion-Spam in die beiden Typen Deceptive- und Disruptive- Opinion-Spam ein, wobei ersteres mit dem Typ 1 von Jindal/Liu (2008) und zweiteres mit Typ 2 und 3 gleichgesetzt werden kann. 3 Stand der Forschung Im Folgenden werden einige Ansätze zum Aufdecken von Opinion-Spam dargestellt. 3.1 Beitragsqualität und Bewertungen Weimar et al (2007) untersuchen in ihrer Arbeit eine automatisierte Herangehensweise um qualitativ hochwertige Forenbeiträge von anderen zu unterscheiden. Geht man davon aus, das Opinion-Spam von geringer Qualität ist, kann dies als ein erster Ansatz zur Identifizierung angesehen werden. Weimar et al (2007) ermitteln hierbei einen Zusammenhang zwischen bestimmen Merkmalen der Beiträge und der Beitragsqualität, welche durch die Benutzer als Bewertung abgegeben werden kann. Als Merkmale verwenden sie bspw. die Häufigkeit von Rechtschreibfehlern und Schimpfwörtern, die Häufigkeit von Fragezeichen und Ausrufezeichen sowie einige forenspezifische Merkmale wie Anzahl an Zitaten des Beitrags, Verweise auf URLs aus dem Beitrag heraus, Verwendung von Beiträgen aus Mailinglisten, usw. Zur Durchführung des Experiments wurde eine Support Vector Machine eingesetzt, mit der bei der besten Konfiguration eine Trefferquote von 89,1% erreicht werden

9 Tobias Goldbach konnte. In Zukunft sollen hier vor allem sprachliche Eigenschaften in die Untersuchung mit einbezogen werden (Weimar et al., 2007). Wu et al. (2010) betrachten Kundenbewertungen für Hotels und ermitteln hierbei, für das Aufdecken von verdächtigen Reviews, Verzerrungen in Statistiken. Als verdächtige Reviews definieren sie den Begriff Shill-Reviews, welcher beschreibt, dass ein Review alleinstehend, als Singelton, ein Hotel bewusst positiv fördert. Ihre Ausarbeitung basiert darauf, dass das Entfernen von zufällig gewählten Reviews keine signifikante Auswirkung auf die durchschnittliche Bewertung hat, während das Entfernen von Shill- Reviews eine Veränderung bzw. Verzerrung hervorrufen sollte. Als Ergebnis nennen Wu et al. (2010), dass die Analyse von Verzerrungen bei der Aufdeckung von verdächtigen Reviews behilflich ist, allerdings nicht eigenständig erfolgreich eingesetzt werden kann. Hierbei soll in Zukunft die Betrachtung von Shill- Reviews in ein multivariates Verfahren, in dem mehrere Merkmale betrachtet werden, integriert und somit Synergieeffekte genutzt werden. 3.2 Klassifizierender Lernansatz Zur Erkennung von Opinion-Spam des Typs 2 und 3 verwenden Jindal/Liu (2008) klassifizierende Lernansätze wie die logistische Regression und Support Vector Maschines. Hierfür werden in Trainingsdaten Reviews als Spam oder Nicht-Spam markiert, anhand derer das System in einer Lernphase Wissen aufbaut und anschließend anwenden kann. Die Merkmale zur Zuordnung in die Klassen Spam oder Nicht-Spam teilen Jindal/Liu (2008) in drei Kategorien ein, welche als Review Centric Features, Reviewer Centric Features und Product Centric Features bezeichnet werden. Review Centric Features sind Merkmale des Reviews selber. Hierzu gehören Länge des Reviews und Länge des Review-Titels, Anzahl an Feedbacks, Position des Reviews bei einer Datumssortierung und Bewertungen des Reviews. Hinzu kommen Textmerkmale wie die Anzahl von positiven und negativen Wörtern, Ähnlichkeit zur Produktbeschreibung, Anzahl von Nennungen des Markennamens, und Anzahl von Zahlen und Großbuchstaben, was eher auf eine technische Diskussion hinweist. Eine Liste von möglichen positiven und negativen Wörtern ist in Hu/Liu (2004) zu finden. Zu den Reviewer Centric Features gehören die Häufigkeit, die ein Reviewer das erste oder das einzige Review abgegeben hat, die durchschnittliche Bewertung und ob ausschließlich negative oder positive Bewertungen abgegeben wurden. Product Centric Features beinhalten u.a. den Preis und den Verkaufsrang des Produkts, da davon ausgegangen wird, dass Opinion-Spam vor allem bei sich schlecht verkaufenden Produkten stattfindet. Mit diesen Merkmalen und der Verwendung einer logistischen Regression konnten Jindal/Liu (2008) bei 470 als Spam (vom Typ 2 und 3) und Nicht-Spam markierten Reviews eine Trefferquote von 98% erreichen. Folglich sei dieses Vorgehen gut geeignet um Opinion-Spam des Typs 2 und 3 zu erkennen. Dieses sehr hohe Ergebnis erklären Jindal/Liu (2008) allerdings damit, dass sich die Reviewer keine große Mühe beim Verdecken des Spams gegeben haben.

10 Tobias Goldbach Duplicate Detection Für das Aufdecken von Review-Spam des Typs 1, also die gezielte Irreführung von Lesern, gehen Jindal/Liu (2008) davon aus, dass Duplikate und Beinahe-Duplikate mit fast 100%tiger Sicherheit Opinion-Spam von Typ 1 darstellen. Hierbei unterscheiden sie zwischen vier Gruppen von Review-Duplikaten. Duplikate von gleicher Benutzer-ID auf ein gleiches Produkt Duplikate von anderer Benutzer-ID auf ein gleiches Produkt Duplikate von gleicher Benutzer-ID auf ein anderes Produkt Duplikate von anderer Benutzer-ID auf ein anderes Produkt Zum Ermitteln von Duplikaten verwenden Jindal/Liu (2008) eine Shingle-Methode, wie sie in Broder (1997) vorgestellt wird. Hierbei werden Texte auf syntaktische Ähnlichkeit überprüft und bei einer Übereinstimmung von 90% als Duplikat eingestuft. Im nächsten Schritt wurde wiederum eine logistische Regressionsanalyse mit den Merkmalen aus 3.2 durchgeführt, diesmal mit den Duplikaten als Trainingsdaten. Die Erkennung von Opinion-Spam des Typs 1 anhand von Duplikaten konnte bei Jindal/Liu (2009) mit einer Trefferquote von 78% Prozent durchgeführt werden. Weiterhin haben sich folgende Erkenntnisse ergeben (vgl. auch Liu 2010): Negative Ausreiser, mit deutlich schlechter Bewertung als der Durchschnitt, sind mit einer hohen Wahrscheinlichkeit Spam. Einzige Reviews eines Produkts sind mit einer hohen Wahrscheinlichkeit Spam, da gerade solche Produkte gefördert werden. Ebenso enthalten Produkte mit einer niedrigen Verkaufszahl mit hoher Wahrscheinlichkeit Spam. Gutbewertete Reviewer sind mit einer höheren Wahrscheinlichkeit Spammer, da solche Reviewer meist auch viele Reviews schreiben, die Anzahl aber oft über das menschlich Schaffbare hinausgeht. Spam Reviews können positives Feedback bekommen, demgegenüber echte Reviews negatives Feedback. Benutzern fällt es folglich schwer, Spam nichtautomatisiert als solchen zu identifizieren. In die Zukunft blickend wollen Jindal/Liu (2008) vor allem die Methoden für das Erkennen von Opinion-Spam verbessern, sowie in Nicht-Duplikate Opinion-Spam identifizieren können und andere Medien wie Foren und Blogs berücksichtigen. 3.4 Lügenerkennung Newman et al. (2003) verwenden in ihrer Arbeit den Begriff Opinion-Spam nicht direkt, untersuchen aber, wie anhand von Wörtern und linguistischen Stilen, Lügen und Irreführungen entdeckt werden können. Dies überschneidet sich inhaltlich mit dem Typ 1 des Opinion-Spams und soll daher hier näher betrachtet werden. Newman et al (2003) basieren ihre Ausarbeitung darauf, dass Wörtern, die widerspiegeln wie sich Menschen ausdrücken, einen höheren Informationsgehalt zur Lügenerkennung aufweisen, als Wörter, die das eigentlich Gesagte darstellen. Verschiedene sprachliche Stile können bestimmten Verhaltens- und Emotionshintergründen zugeordnet werden. Hierzu gehören vor allem die Verwendung von Pronomen, emotionsgeprägten Wörtern sowie Präpositionen und Konjunktionen.

11 Tobias Goldbach Darauf basierend definieren Newman et al. (2003) drei Hypothesen, die mit Irreführung in Verbindung gebracht werden können. Diese sind: weniger Selbst-Referenzen, mehr negative emotionale Wörter und weniger Hinweise auf kognitive Komplexität. Die Verwendung von Selbst-Referenzen (z.b. Ich, mein, mir) bringt eine Person subtil mit der Aussage in direkte Verbindungen. Lügner würden solche besitzanzeigenden Formulierungen vermeiden, um sich von der Aussage zu distanzieren, oder da sie kaum Erfahrung mit der angesprochenen Thematik haben. Personen, die die Wahrheit sagen, würden Aussagen viel eher auf sich selber beziehen als Lügner. Vor allem bei persönlichen Themen distanzieren sich Lügner eher von der erzählten Geschichte, um keine Verantwortung für die Aussagen übernehmen zu müssen. Wenn Lügner dann darauf hingewiesen werden, selbstbewusster zu sein, steige auch deren Verwendung von ichbezogenen Wörtern. Irreführende Texte sollten folglich weniger Selbst- Referenzierende Pronomen enthalten. Daneben hat sich herausgestellt, dass Lügner auch weniger Pronomen in der dritten Person (z.b. er, sie, es) verwenden und eher zu neutralen Formulierungen tendieren (Newman et al., 2003). Die Verwendung von mehr negativen emotionalen Wörtern ist nach Newman et al. (2003) darauf zurückzuführen, dass Lügner sich häufig schuldig fühlen, entweder weil sie lügen, oder wegen der Thematik, die sie normalerweise nicht diskutieren. Menschen fühlen sich unwohl und schuldig, zum einen während sie lügen, als auch direkt danach, was sich in ihrer Sprachverwendung ausdrücken kann. Irreführende Texte sollten folglich mehr Wörter enthalten, die negative und schuldige Emotionen ausdrücken (z.b. hassen, wertlos, traurig). Nach Newman et al. (2003) werden für den Aufbau von unwahren Geschichten mehr kognitive Ressourcen verbraucht, was bei Lügnern dazu führt, dass weniger komplexe Geschichten erzählt werden und folglich Hinweise auf kognitive Komplexität fehlen. Vor allem ausschließende Wörter (z.b. aber, außer, ohne) werden weniger verwendet. Hinzu kommt, dass Lügner sich mehr auf konkrete Verben konzentrieren als auf Bewertungen und Evaluierungen von Handlungen. Als Beispiel wird genannt, dass Lügner sich auf Ich bin nach Hause gelaufen beschränken, anstatt zu sagen: Normalerweise nehme ich den Bus, aber es war so ein schöner Tag zum Laufen. Zum Belegen der Hypothesen sammeln Newman et al (2003) zunächst Daten mit wahren und unwahren Aussagen zu verschiedenen Themen. So lassen sie Personen zunächst über ihre wahre Haltung gegenüber Abtreibung berichten und anschließend fordern sie einen Bericht mit der gegensätzlichen Haltung ein. Dies führen sie sowohl mündlich, als auch schriftlich durch. Als weitere Methode der Datensammlung befragen sie Personen über ihre Gefühle zu nahestehenden Freunden. Hieraus entsteht eine Datenbank mit bereits als wahr oder unwahr markierten Texten. Zum Auslesen der Texte wurde auf das Textanalyseprogramm Linguistic Inquiry and Word Count (LIWC) zurückgegriffen, welches in Pennebaker et al. (2001) ausführlich beschrieben wird. LIWC kann geschriebene und gesprochene Sprache Wort für Wort analysieren und Wörter bestimmten Wortgruppen zuordnen. Darauf aufbauend wurde ähnlich wie in Kapitel 3.2 eine Kombination von verschiedenen logistischen Regressionen durchgeführt, um wahre und unwahre Aussagen anhand der oben genannten Hypothesen zu klassifizieren.

12 Tobias Goldbach Als Ergebnis ergab sich eine Trefferquote von 67%, womit sie ihre Hypothesen als bestätigt ansehen. Auf ein ähnliches Ergebnis mit einem linguistischem Ansatz kommen auch Mihalcea/Strapparava (2009). Hier wurde ebenfalls eine eigene Datenbank mit wahren und unwahren Aussagen aufgebaut und mittels logistischer Regression getestet. Als Ergebnis wurde hier entdeckt, dass sich Lügner häufig von sich selber abgrenzen und zusätzlich Wörter verwenden, die eine Gewissheit ihrer Aussage deutlich machen sollen (z.b. immer, wirklich, total). 4 Spezieller Ansatz Im Folgenden wird ein aktueller Ansatz im Detail vorgestellt. Dieser widmet sich zunächst dem Problem, eine Datenbank mit Reviews aufzubauen, die zu 50% Opinion- Spam des Typs 1 enthält. Anschließend werden drei Ansätze aus verschiedenen Bereichen zusammengeführt und damit Klassifikatoren zur Erkennung von Opinion- Spam aufgebaut, die in der besten Konfiguration eine Trefferquote von 90% erreichen. Ott et al. (2011) kritisieren zu Beginn, das verwandte Arbeiten keine Goldstandard Datenbank besitzen und deren Ansätze eher Adhoc-Evaluationen darstellen. Der Aufbau einer neuen Datenbank und die Verwendung einer neuen Herangehensweise werden hier als allgemeingültiger Standard, also als Goldstandard, vorgeschlagen. 4.1 Datenerhebung Für den Aufbau der Goldstandard-Datenbank wählen Ott et al. (2011) zunächst 20 Hotels aus einer bestimmten Region aus, die auf TripAdvisor.com die besten Bewertungen erhielten. Für diese Hotels werden im Anschluss sowohl 20 wahre als auch 20 unwahre Reviews zusammengestellt, woraus sich ein Gesamtbestand von 800 ergibt. Für unwahren Reviews greifen Ott et al. (2008) auf das Crowdsourcing-Angebot von Amazon Mechanical Turk (AMT) zurück ( Unter Crowdsourcing versteht man eine interaktive Form der Leistungserbringung, die kollaborativ oder wettbewerbsorientiert organisiert ist und eine große Anzahl extrinsisch oder intrinsisch motivierter Akteure unterschiedlichen Wissensstands unter Verwendung moderner IuK- Systeme auf Basis von Web 2.0 einbezieht (Martin/Lessmann/Voß 2008, pp. 1256). In diesem Fall wurden 400 Aufgaben (genannt Hits) erstellt, welche von den Akteuren (genannt Turkers) forderten, ein echtklingendes Review für eines der Hotels zu schreiben. Die Akteure mussten sich vorstellen, für die Marketing-Abteilung des Hotels zu arbeiten und mit Fake-Reviews das eigene Hotel zu promoten. Hierbei wurden nur unterschiedliche Akteure zugelassen, eine Zeitrestriktion von 30 Minuten vorgegeben und pro abgeschlossene Aufgabe wurde ein US-Dollar gezahlt. Jede Aufgabe enthielt den Namen und die Webseite des Hotels. Nach 14 Tagen waren die 400 Aufgaben abgeschlossen und die Fake-Reviews gesammelt. Die Zeit pro Aufgabe betraf im Durchschnitt 8 Minuten, die Länge der Reviews lag zwischen 25 und 425 Wörtern, in Durchschnitt bei 115 Wörtern. 12% der Aufgaben wurde in unter einer Minute gelöst, was darauf schließen lässt, das die einzelnen Akteure bereits vorgearbeitet hatten (Ott et al. 2011). Für die wahren Reviews wurden echte Reviews der 20 Hotels von TripAdvisor.com gesammelt. Davon wurden alle gelöscht, die keine 5 Sterne als Bewertung abgaben, die nicht in Englisch geschrieben und weniger als 150 Zeichen lang waren. Außerdem

13 Tobias Goldbach wurden solche gelöscht, die das einzige Review von Benutzer darstellen, da solche Reviews mit höherer Wahrscheinlichkeit Spam sind. Aus den übrigen ca Reviews wurden solche in die Datenbank aufgenommen, die ungefähr die gleiche Länge wie die unwahren Reviews hatten. 4.2 Automatisierte Analyse-Ansätze Genre Identifizierung Biber et al. (1999) haben herausgefunden, dass die Verwendung von gewissen Wortarten, wie Nomen, Pronomen und Adjektiven sowie deren Verbindung zu voranstehenden und nachfolgenden Wörtern und Satzzeichen, ein Hinweis auf das Genre des Textes geben kann. Dies stellt ein ähnlicher Ansatz wie in 3.4 dar, in dem Newman et al (2003) einen Zusammenhang zwischen Wortarten und Lügen evaluiert haben. Um herauszufinden, ob wahre und unwahre Reviews auch als verschiedene Genres identifiziert werden können, verwenden Ott et al. (2011) einen standardisierten POS- Parser (POS = part-of-speech) der die Häufigkeit einzelner Wortarten in den Reviews analysiert und ausgibt Psycholinguistic Deception Detection Ähnlich wie in Kapitel 3.4 setzen auch Ott et al. (2011) für eine linguistische Opinion- Spam-Identifizierung zunächst auf die Software LIWC um Wörter zu zählen und in Gruppen einzuteilen. Während Newman et al. (2003) eigene Merkmale für die anschließende Analyse definieren, erstellen Ott et al. (2011) für jede Gruppe, in die durch LIWC Wörter eingeteilt wurden, ein eigenes Merkmal. Dadurch seien schon die meisten Merkmale aus verwandten Arbeiten abgedeckt. Diese Merkmale lassen sich in 4 Kategorien unterteilen: sprachliche Merkmale (Anzahl von Wörtern, Rechtschreibfehlern und Schimpfwörtern) psychologische Merkmale (emotionale, soziale und wahrnehmende Wörter) persönliche Merkmale (Wörter mit Bezug auf Beruf, Hobby, Geld, Religion) gesprochene Merkmale (Füllwörter) Standard Text Kategorisierung Neben den beiden erstgenannten Methoden führen Ott et al. (2011) eine N-Gramm Analyse durch, wie sie im Grundlagenkapitel 2.1 dargestellt wurde. Hierbei werden Unigrams, Bigrams und Trigrams als Merkmale zum Lernen verwendet. Der Text wird zuvor von Leerzeichen bereinigt und auf Kleinbuchstaben getrimmt Klassifizierer Zur Umsetzung und Klassifizierung der drei Methoden verwenden Ott et al. (2011) sowohl ein naive Bayes als auch eine Support Vector Machine (SVM). Da sie sich in der Evaluierung auf die Ergebnisse einer linearen SVM beschränken, muss dies auch in dieser Arbeit so geschehen. Das SVM Model wird auf allen drei Ansätze, also POS, LIWC, UNIGRAMS, BIGRAMS, TRIGAMS sowie alle Kombinationen dieser Ansätze (bspw. LIWC + BIGRAMS) trainiert und anschließend separat voneinander evaluiert. Hierdurch soll die Performance der einzelnen Ansätze analysiert und verglichen, als auch die bestmögliche Kombination gefunden werden.

14 Tobias Goldbach Ergebnisse Genre Identifizierung Wie sich herausstellte, enthalten wahre Reviews deutlich mehr Nomen, Adjektive und Präpositionen. Unwahre Reviews hingegen enthalten mehr Verben, Adverbien und Pronomen. Laut Ott et al. (2011) stimmt dieses Ergebnis mit den beiden Genres Informativ und Imaginär überein, mit denen sich Rayson et al (2001) auseinander gesetzt haben. Folglich kann bereits über die Anzahl von bestimmten Wortarten festgestellt werden, ob ein Review eher imaginär, also unwahr ist, oder eher informativ, also wahr. Die Trefferquote betrug hier 73% und ist nach Ott et al. (2011) besser als die menschliche Entscheidungskraft für Spam-Identifizierung, die lediglich bei ca. 60% liegt. Eine Ausnahme stellt das hohe Aufkommen von Superlativen dar, die eigentlich nicht in unwahren Text derart oft vorkommen. Ott et al. (2011) erklären dies, da imaginäres Schreiben in Reviews vor allem mit Loben und Fördern vom Objekte in Verbindung steht und folglich mehr Superlative als normal verwendet werden Linguistisch und Text Kategorisierung Beide Ansätze, die linguistische Herangehensweise und die Text Kategorisierung, arbeiten besser als die Genre Identifizierung. LIWC kam dabei auf eine Trefferquote von 76,8%, die getesteten N-Gramme sogar nahe an 89%. Die höchste Trefferquote von 89,8% konnte allerdings mit einer Kombination von LIWC und Bigrammen erreicht werden. Als besonders ist hier anzumerken, das simple N-Gramm Analyse über UNIGRAM mit 88,4% deutlich besser als die linguistische und die POS Analyse ausgeführt werden konnte. Daraus schließen die Autoren, dass die linguistische Auswertung über Wortarten nicht als bestmöglicher Ansatz für die Entdeckung von Opinion-Spam verwendet werden kann Weitere Erkenntnisse Analysiert man die Merkmale der gelernten Modelle für die Klassen Spam und Nicht- Spam, stellt sich bei Ott et al. (2011) heraus, dass vermehrt sensorische und konkrete Sprache bei wahren Reviews verwendet wurde. So treten oft raumbeschreibende Wörter auf, wie small, bathroom, on und location. Solche detaillierten Beschreibungen werden in Fake-Reviews kaum berücksichtigt. In Fake-Reviews werden vor allem Aspekte beschrieben, die nicht direkt mit dem Hotel in Verbindung stehen, sondern lediglich extern auftauchen. Hierzu gehören Wörter wie Geschäftsreise, Ehemann, Urlaub und Erfahrung. Dies lässt sich nach Ott et al (2011) darauf zurückführen, dass Lügnern das räumliche Erlebnis vor Ort fehlt und folglich eine externe Geschichte erfunden wird. Daneben haben sich Erkenntnisse anderer Arbeiten als nicht zutreffend erwiesen. Die von Newman et al (2003) propagierten negativen und emotionalen Wörter bei der Formulierung von Lügen konnten in Review-Spam nicht erkannt werden. Dies lässt sich auch auf die gewollt positiven Meinungen für die Hotels zurückführen. Auch die von Newman et al. (2003) geringe Verwendung von Ich-Referenz lassen sich nicht bestätigen. Hier liegt die Vermutung nahe, dass die Review-Schreiber durch Ich- Referenzen versuchen, bewusst glaubwürdiger zu klingen.

15 Tobias Goldbach Ott et al. (2011) sehen es als besonders wichtige an, verschiedene Verfahren und Ansätze miteinander zu kombinieren, um die höchstmögliche Trefferquote zu erhalten. In die Zukunft blickend wollen sie vor allem negative Reviews sowie Opinion-Spam außerhalb von Reviews betrachten. 5 Praktischer Teil Die Suche nach einer Open Source Software zur Erkennung von Opinion Spam hat sich als nicht ergiebig erwiesen. Dennoch konnten einige Versuche zur Erkennung von Opinion-Spam durchgeführt werden. 5.1 Linguistic Inquiry and Word Count Die Software LIWC, die bereits in 3.4 und 4.2 verwendet wurde, steht auf als Online-Testversion zur Verfügung. Hiermit können einige grundlegende Merkmale in Texten ausgewertet werden. Hierzu gehören die Anzahl an Selbst- Referenzen, Häufigkeit von positiven und negativen Wörtern, die Verwendung von sozialen und kognitiven Wörtern sowie die Anzahl an Artikeln. Abbildung 4: Online-Testversion des LIWC Der eigene eingegebene Text wird entsprechend den Merkmalen analysiert und anschließend durchschnittlichen Ergebnissen von persönlichen und formalen Texten gegenüber gestellt. Hierdurch kann der eingegebene Text bereits ungefähr diesen Ausprägungen zugeordnet werden. Allerdings liegt der einzige signifikante Unterschied zwischen persönlichen und formalen Texten in der Verwendung von Selbst-

16 Tobias Goldbach Referenzen, die bei persönlichen Texten höher sein soll. Gerade dieser Punkt wurde aber von Ott et al. (2011) bei der Erkennung von Opinion-Spam nicht bestätigt Die reine Verwendung der Online-Testversion von LIWC ist zur Identifizierung von O- pinion-spam folglich eher ungeeignet. Erstens fehlt die eigentliche Auswertung nach der Kategorisierung des Textes und zweitens sind die angebotenen Merkmale nicht ausreichend, um einen Text den Klassen Spam oder Nicht-Spam zu zuordnen. 5.2 Blogspam.net Plugin Auf blogspam.net wird ein Service angeboten, der in Echtzeit entscheiden kann, ob es sich bei einem Blog- oder Foreneintrag um Spam handelt oder nicht. Da auf der Seite der dahinterliegende Algorithmus nicht dargestellt oder erläutert wird, kann zunächst nur durch ausprobieren und später durch Analyse des Programmcodes die Funktionsweise und Effektivität ermittelt werden. Für die Verwendung des Services werden unterschiedliche Plugins angeboten, unter anderem für Wordpress und ikiwiki, wodurch der Service direkt in die Onlineplattform eingebunden werden kann. Daneben besteht die Möglichkeit, den Service über einen Remote Procedure Call (RPC) aufzurufen und somit aus vielen unterschiedlichen Programmiersprachen und Systemen heraus zu nutzen. Für den vorliegenden Versuchsaufbau wurde ein RPC-Aufruf mit einem Ruby-Script aufgebaut, das aus Netbeans heraus gestartet und somit direkt getestet werden kann (Anhang A). Für die Durchführung des Versuches wurden manuell 10 echte Blogeinträge sowie 5 als Spam vermutete Einträge gesammelt. Dazu wurden weitere 5 Einträge selbst verfasst, die ebenfalls Spam darstellen (Anhang B). Die gesamte Anzahl von 20 Blogeinträgen wurde daraufhin über das Ruby-Script an den Service gesandt und dort evaluiert. Für die Evaluierung konnten zu jedem Eintrag die IP-Adresse des Schreibers (soweit bekannt), eine -Adresse und der eigentliche Inhalt übermittelt werden. Wie sich herausstellte, hat der dahinterliegende Algorithmus die meisten Opinion- Spams nicht erkennen können und sogar einige echte Einträge fälschlicherweise als Spam eingeordnete (Anhang B). Beispielsweise werden Einträge, die weniger als 12 Zeichen lang sind, immer als Spam klassifiziert. Einträge wie this is nice sind folglich nicht möglich. Daneben wird offensichtlicher Spam, wie I like your blog, please visit mine at nicht als Spam identifiziert. Erst bei über drei Verlinkungen aus einem Blog heraus klassifiziert der Algorithmus den Eintrag als Spam, was wiederum zu falschen Einordnungen führen kann. Die Analyse des Programmcodes zeigte, dass der Algorithmus lediglich einige externe Merkmale untersucht. Hierzu gehören die Gültigkeit der IP- und -Adresse sowie die Länge des Textes und die Anzahl an Verlinkungen auf andere Seiten. Daneben kann man eigene Black- und Whitelisten definieren. Linguistische oder sonstige inhaltliche Merkmale werden für die Identifizierung nicht berücksichtigt. Zusammengefasst bietet der Algorithmus trotzdem eine erste Möglichkeit, Spam in Blog- und Foreneinträgen zu entdecken. Opinion-Spam, der zur Irreführung von Lesern dient, wie es in Grundlagenkapitel definiert wurde, wird hier nur zufällig erkannt. Trotzdem ist hierdurch ein erster Ansatz geboten um die Flut an Spam im Internet einzudämmen.

17 Tobias Goldbach Zusammenfassung und Bewertung Im Verlauf dieser Arbeit wurden zunächst die Begriffe Opinion-Mining und Opinion- Spam definiert. Opinion-Mining stellt ein Anwendungsgebiet von Text-Mining dar und zielt auf die Analyse von Meinungen und Emotionen in Texten. Text-Mining ist ähnlich wie Web-Mining eine Spezialisierung von Data-Mining. Opinion-Spam kann in drei Typen eingeteilt werden, wobei Typ 1 die gezielte Irreführung von Lesern darstellt, Typ 2 lediglich auf die Marke des Produkts abzielt und Typ 3 andere Inhalte wie Fragen und Antworten enthält. Im Anschluss daran wurde der aktuelle Stand der Forschung dargestellt. Weimar et al. (2007) analysierten die Qualität von Forenbeiträgen anhand von Kriterien wie Häufigkeit von Rechtschreibfehlern und Schimpfwörtern und konnten dabei Zusammenhänge zu angegebenen Beitragsbewertungen feststellen. Wu et al. (2010) betrachteten die Verzerrungen in Statistiken, falls bestimmte Reviews entfernt werden. Sie sehen darin Potential, allerdings nur in Verbindung mit einem Multi-Variaten-Verfahren. Beide Ansätze genügen nicht der Aufdeckung von Opinion-Spam des Typ 1. Jindal/Liu (2008) verwendeten zur Identifizierung von Typ 2 und 3 eine logistische Regression und untersuchten dabei Merkmale die sich auf das Review, auf den Reviewer und auf das Produkt beziehen. Ihre hohe Trefferquote erklären sie sich allerdings damit, dass die Spam-Reviews nicht gut verdeckt waren. Für die Entdeckung von Typ 1 Opinion Spam wurden von Jindal/Liu (2008) Duplikate und Beinahe-Duplikate analysiert und darüber Opinion-Spam identifiziert. Hier bleibt die Frage offen, wie Opinion- Spam in Nicht-Duplikaten zu finden ist. Newman et al. (2003) beschäftigten sich mit der Lügenerkennung in Text und konnte drei Hypothesen belegen: dass Lügner weniger Selbst-Referenzen verwenden, mehr negative emotionale Wörter und weniger Hinweise auf kognitive Komplexität vorhanden ist. Unter Einsatz der LIWC-Software kamen sie auf eine Trefferquote von 67%. Ob die Lügenerkennung auf für Opinion-Spam praktikabel ist, wurde an dieser Stelle noch nicht beantwortet. Im Kapitel 4 wurde der Ansatz von Ott et al. (2011) dargestellt. Die Autoren verbanden drei Ansätze, Genre Identifizierung, linguistische Irreführung und Textkategorisierung, und erreichten damit eine Trefferquote von fast 90%. Allerdings wurden hierbei nur positive Reviews betrachtet, die bewusste Deformierung anderer Produkt ist weiterhin offen. Daneben stellten sie fest, dass Teile des linguistischen Ansatzes zur Lügenerkennungen nicht auf das Aufdecken von Opinion-Spam übertragen werden konnte. Selbst-Referenzen erscheinen sehr häufig in den Reviews und negative und emotionale Wörter weniger als erwartet. Ein weiteres wichtiges Ergebnis ist, dass N-Gramm- Analysen genauer identifzieren können als linguistische und part-of-speech Ansätze Im praktischen Teil der Arbeit wurde ein Service zur Entdeckung von Opinion-Spam in Blogeinträgen betrachtet. Dieser konnte allerdings kein Opinion-Spam des Typs 1 erkennen, sondern lediglich anhand von äußeren Merkmalen Spam vermuten. Zusammengefasst kann gesagt werden, dass bisherige Ansätze nur Teilbereiche der Opinion-Spam-Aufdeckung betrachten, dort aber schon gute Erfolge erzielen. Es ist zu hoffen, dass Ott et al. (2011) auch für negative Opinion-Spam und Jindal/Liu(2008) auch außerhalb der Duplikaten-Erkennung erfolgreiche Ansätze finden.

18 Tobias Goldbach Literaturverzeichnis D. Biber/S. Johansson/G. Leech/S. Conrad/E. Finegan/R. Quirk (1999): Longman grammar of spoken and written English, Vol. 2, MIT Press, Cambridge A. Z. Broder (1997) On the resemblance and containment of documents, in: Proceedings of Compression and Complexity of Sequences 1997, IEEE Computer Society H. Drucker/D. Wu/V.N. Vapnik (1999): Support vector machines for spam categorization, in: Neural Net-works, IEEE Transactions on, 10(5): U. M. Fayyad/G. Piatetsky-Shapiro/P. Smyth (1996): From Data Mining to Knowledge Discovery in Databases, in: AI Magazine, Vol. 17, No. 3, S Z. Gyöngyi/H. Garcia-Molina (2005): Web Spam Taxonomy, in: First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb 2005), May 10-14, 2005, Chiba, Japan. A. Hotho/A. Nürnberger/G. Paaß (2005): A Brief Survey of Text Mining, in: Journal for Computational Linguistics and Language Technology, Vol. 20, No. 1, pp M. Hu/B. Liu (2004): Mining and summarizing customer reviews, in: KDD 2004, August, pp N. Jindal/B. Liu (2008): Opinion spam and analysis, in: Proceedings of the Conference on Web Search and Web Data Mining (WSDM), pp T. Joachims (1998): Text categorization with support vector machines: Learning with many relevant features, in: Machine Learning: ECML-98, pages B. Liu (2010): Sentiment Analysis and Subjectivity, in: Indurkhya, N./Damerau, F.J.(ed.): Handbook of Natural Language Processing, Second Edition B. Liu (2011): Web Data Mining, 2 nd Edition, Heidelberg et al. C. D. Manning/H. Schütze (1999): Foundations of Statistical Natural Language Processing, MIT Press, Cambridge N. Martin/S. Lessmann/S. Voß (2008): Crowdsourcing: Systematisierung praktischer Ausprägungen und verwandter Konzepte, Institut für Wirtschaftsinformatik, Universität Hamburg R. Mihalcea/C. Strapparava (2009): The lie detector: Explorations in the automatic recognition of deceptive language, in: Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, pages Association for Computational Linguistics M.L. Newman/J.W. Pennebaker/D.S. Berry/J.M.Richards. (2003): Lying words: Predicting deception from linguistic styles, in: Personality and Social Psychology Bulletin, 29(5):665 M. Ott/Y. Choi/C. Cardie/J.T Hancock (2011): Finding Deceptive Opinion Spam by Any Stretch of the Imagination, in: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pages , June 19-24, Association for Computational Linguistics H.A. do Prado/E. Ferneda (2008): Emerging Technologies of Text Mining: Techniques and Applications, 1 st Edition, IGI Global, London B. Pang/L. Lee (2008): Opinion mining and sentiment analysis, in: Foundations and Trends in Information Retrieval 2(1-2), pp J.W. Pennebaker/M.E. Francis/R.J. Booth (2001): Linguistic Inquiry and Word Count(LIWC): LIWC2001, Mahwah, Lawrence Erlbaum Associates P. Rayson/A. Wilson/G. Leech (2001): Grammatical word class variation within the British National Corpus sampler, in: Language and Computers, 36(1): M. Weimer/I. Gurevych/M. Mühlhäuser (2007). Automatically assessing the post quality in online discussions on software, in: Proceedings of the 45th Annual Meeting

19 Tobias Goldbach of the ACL on Interactive Poster and Demonstration Sessions, pages Association for Computational Linguistics. G. Wu/D. Greene/B. Smyth/P. Cunningham (2010): Distortion as a validation criterion in the identification of suspicious reviews, Technical report, UCD-CSI , University College Dublin.

20 Tobias Goldbach Anhang A

21 Tobias Goldbach Anhang B Nr Spam Ident Blogeintrag 1 Ja OK I was going to write a similar blog concerning this topic, you beat me to it. You did a nice job! Thanks and I well add your RSS to our blogs. Thanks so much, Jon B. 2 Ja OK The way you have described this is very thorough. I will link your blog page to mine. 3 Ja OK i am enjoying this phase of my life to the fullest as i am being showered with cashback cashback n cashback. i did online shopping at ebuy2save.co.uk and you know what? they are giving us  10 for registration man!!! its awesome! and for getting my insurance done from prudential through it, i got a cheque of  50 4 Ja OK Posts like this are what make the internet great, thanks for sharing. 5 Ja OK Great post, love the design of the site too. 6 Ja OK Completely agree with your comments on this thanks for taking the time to post. 7 Ja OK I really like your blog, please visit mine at 8 Ja Spam Good article 9 Ja Spam This is very nice 10 Ja OK You should check out my page, there are also some articles about the new iphone and more similar stuff. 11 Nein OK iphones are really good but if we believe latest market scenario Android phones are more popular among users because they are cheaper and come with great apps, features. Lets see what these new iphones brings for users 12 Nein OK Every day Al wakes up and wonders: "What will be fatter today, my head or my ass?" Today, despite stiff competition, his head is the clear winner. 13 Nein OK As long as he was speaking freely, people missed an opportunity to ask him when the new ipad would be coming out. 15 Nein Spam IP: Nein Spam IP: Nein OK Talking about a product before it's official launch is a colossal blunder especially when your a board member of the largest publicly traded company in America but come on Steve you have to admit you're reaching a little on this one, no? I've been following Apple for quite some time now [ ] Talking about a product before an official announcement is a BIG no-no. Couldn't he have meant iphone's? As in, "the new iphone is coming 17 Nein Spam mike@spammer.com First order of business for Tim Cook. Can that loser. 18 Nein Spam mike@spammer.com Congrats! In one sentence you happened to get two tired, cliched right wing talking points across. Impressive. 19 Nein OK HE is smarter than the rest of us, except for maybe THE ONE. 20 Nein OK IPhones as in the 40M they will sell in the quarter. If he was on RIMM's board he wouldn't use plurals or future tense.

Opinion Spam Detection

Opinion Spam Detection Emotion Mining in Images and Text Opinion Spam Detection Tobias Goldbach S. 1 Motivation S. 2 Motivation Problem Keine Qualitätskontrolle vorhanden Folge: Opinion Spam Aufdeckung durch Menschen kaum möglich

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Multicheck Schülerumfrage 2013

Multicheck Schülerumfrage 2013 Multicheck Schülerumfrage 2013 Die gemeinsame Studie von Multicheck und Forschungsinstitut gfs-zürich Sonderauswertung ICT Berufsbildung Schweiz Auswertung der Fragen der ICT Berufsbildung Schweiz Wir

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

Listening Comprehension: Talking about language learning

Listening Comprehension: Talking about language learning Talking about language learning Two Swiss teenagers, Ralf and Bettina, are both studying English at a language school in Bristo and are talking about language learning. Remember that Swiss German is quite

Mehr

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser Dokumentation Black- und Whitelists Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser Inhalt INHALT 1 Kategorie Black- und Whitelists... 2 1.1 Was sind Black- und Whitelists?...

Mehr

! " # $ " % & Nicki Wruck worldwidewruck 08.02.2006

!  # $  % & Nicki Wruck worldwidewruck 08.02.2006 !"# $ " %& Nicki Wruck worldwidewruck 08.02.2006 Wer kennt die Problematik nicht? Die.pst Datei von Outlook wird unübersichtlich groß, das Starten und Beenden dauert immer länger. Hat man dann noch die.pst

Mehr

Leichte-Sprache-Bilder

Leichte-Sprache-Bilder Leichte-Sprache-Bilder Reinhild Kassing Information - So geht es 1. Bilder gucken 2. anmelden für Probe-Bilder 3. Bilder bestellen 4. Rechnung bezahlen 5. Bilder runterladen 6. neue Bilder vorschlagen

Mehr

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten Meet the Germans Lerntipp zur Schulung der Fertigkeit des Sprechens Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten Handreichungen für die Kursleitung Seite 2, Meet the Germans 2. Lerntipp

Mehr

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung Bearbeitet von Martina Sümnig Erstauflage 2015. Taschenbuch. 176 S. Paperback ISBN 978 3 95485

Mehr

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken. In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access Die Grundlagen der Datenbanken kurspc15 Inhaltsverzeichnis Access... Fehler! Textmarke nicht

Mehr

Kreativ visualisieren

Kreativ visualisieren Kreativ visualisieren Haben Sie schon einmal etwas von sogenannten»sich selbst erfüllenden Prophezeiungen«gehört? Damit ist gemeint, dass ein Ereignis mit hoher Wahrscheinlichkeit eintritt, wenn wir uns

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.

Mehr

Geld Verdienen im Internet leicht gemacht

Geld Verdienen im Internet leicht gemacht Geld Verdienen im Internet leicht gemacht Hallo, Sie haben sich dieses E-book wahrscheinlich herunter geladen, weil Sie gerne lernen würden wie sie im Internet Geld verdienen können, oder? Denn genau das

Mehr

Das Persönliche Budget in verständlicher Sprache

Das Persönliche Budget in verständlicher Sprache Das Persönliche Budget in verständlicher Sprache Das Persönliche Budget mehr Selbstbestimmung, mehr Selbstständigkeit, mehr Selbstbewusstsein! Dieser Text soll den behinderten Menschen in Westfalen-Lippe,

Mehr

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense Keywords sind das Salz in der Suppe des Online Marketing Keywords - Das Salz in der Suppe des Online Marketing Keyword Arten Weitgehend passende Keywords, passende Wortgruppe, genau passende Wortgruppe

Mehr

Was meinen die Leute eigentlich mit: Grexit?

Was meinen die Leute eigentlich mit: Grexit? Was meinen die Leute eigentlich mit: Grexit? Grexit sind eigentlich 2 Wörter. 1. Griechenland 2. Exit Exit ist ein englisches Wort. Es bedeutet: Ausgang. Aber was haben diese 2 Sachen mit-einander zu tun?

Mehr

Es sollte die MS-DOS Eingabeaufforderung starten. Geben Sie nun den Befehl javac ein.

Es sollte die MS-DOS Eingabeaufforderung starten. Geben Sie nun den Befehl javac ein. Schritt 1: Installation des Javacompilers JDK. Der erste Start mit Eclipse Bevor Sie den Java-Compiler installieren sollten Sie sich vergewissern, ob er eventuell schon installiert ist. Gehen sie wie folgt

Mehr

1. Einführung 2. 2. Erstellung einer Teillieferung 2. 3. Erstellung einer Teilrechnung 6

1. Einführung 2. 2. Erstellung einer Teillieferung 2. 3. Erstellung einer Teilrechnung 6 Inhalt 1. Einführung 2 2. Erstellung einer Teillieferung 2 3. Erstellung einer Teilrechnung 6 4. Erstellung einer Sammellieferung/ Mehrere Aufträge zu einem Lieferschein zusammenfassen 11 5. Besonderheiten

Mehr

Die Quantitative und Qualitative Sozialforschung unterscheiden sich bei signifikanten Punkten wie das Forschungsverständnis, der Ausgangspunkt oder

Die Quantitative und Qualitative Sozialforschung unterscheiden sich bei signifikanten Punkten wie das Forschungsverständnis, der Ausgangspunkt oder 1 2 3 Die Quantitative und Qualitative Sozialforschung unterscheiden sich bei signifikanten Punkten wie das Forschungsverständnis, der Ausgangspunkt oder die Forschungsziele. Ein erstes Unterscheidungsmerkmal

Mehr

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint Bilingual konkret Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint Moderner Unterricht ist ohne die Unterstützung durch Computer und das Internet fast

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche etutor Benutzerhandbuch Benutzerhandbuch XQuery Georg Nitsche Version 1.0 Stand März 2006 Versionsverlauf: Version Autor Datum Änderungen 1.0 gn 06.03.2006 Fertigstellung der ersten Version Inhaltsverzeichnis:

Mehr

Geld verdienen als Affiliate

Geld verdienen als Affiliate Geld verdienen als Affiliate Wie Sie Top-Provisionen mit dieser revolutionären und doch sehr einfachen Marketing-Methode erhalten! So starten Sie Ihr Business richtig! Eine Einführung in Affiliate-Marketing

Mehr

LinguLab GmbH. Bedienungsanleitung Allgemeine Definition

LinguLab GmbH. Bedienungsanleitung Allgemeine Definition LinguLab GmbH Bedienungsanleitung Allgemeine Definition LinguLab GmbH T: +49.711.49030.370 Maybachstr. 50 F: +49.711.49030.22.370 70469 Stuttgart E: mba@lingulab.de I: www.lingulab.de Inhaltsverzeichnis

Mehr

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können. Tutorial: Wie erfasse ich einen Termin? In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können. Neben den allgemeinen Angaben zu einem

Mehr

Berechnung der Erhöhung der Durchschnittsprämien

Berechnung der Erhöhung der Durchschnittsprämien Wolfram Fischer Berechnung der Erhöhung der Durchschnittsprämien Oktober 2004 1 Zusammenfassung Zur Berechnung der Durchschnittsprämien wird das gesamte gemeldete Prämienvolumen Zusammenfassung durch die

Mehr

GEVITAS Farben-Reaktionstest

GEVITAS Farben-Reaktionstest GEVITAS Farben-Reaktionstest GEVITAS Farben-Reaktionstest Inhalt 1. Allgemeines... 1 2. Funktionsweise der Tests... 2 3. Die Ruhetaste und die Auslösetaste... 2 4. Starten der App Hauptmenü... 3 5. Auswahl

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang sysplus.ch outlook - mail-grundlagen Seite 1/8 Outlook Mail-Grundlagen Posteingang Es gibt verschiedene Möglichkeiten, um zum Posteingang zu gelangen. Man kann links im Outlook-Fenster auf die Schaltfläche

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

Kennen, können, beherrschen lernen was gebraucht wird www.doelle-web.de

Kennen, können, beherrschen lernen was gebraucht wird www.doelle-web.de Inhaltsverzeichnis Inhaltsverzeichnis... 1 Grundlagen... 2 Hyperlinks innerhalb einer Datei... 2 Verweisziel definieren... 2 Einen Querverweis setzen... 3 Verschiedene Arten von Hyperlinks... 3 Einfache

Mehr

Und im Bereich Lernschwächen kommen sie, wenn sie merken, das Kind hat Probleme beim Rechnen oder Lesen und Schreiben.

Und im Bereich Lernschwächen kommen sie, wenn sie merken, das Kind hat Probleme beim Rechnen oder Lesen und Schreiben. 5.e. PDF zur Hördatei und Herr Kennedy zum Thema: Unsere Erfahrungen in der Kennedy-Schule Teil 2 Herr Kennedy, Sie haben eine Nachhilfeschule in der schwerpunktmäßig an Lernschwächen wie Lese-Rechtschreibschwäche,

Mehr

PK-Website: Besuche & Seitenaufrufe 2010 und 2011

PK-Website: Besuche & Seitenaufrufe 2010 und 2011 Abb. 2011-4/278 (Ausschnitt) PK-Website: Besuche & Seitenaufrufe bis 31. Dezember 2011, 248.993 Besuche, 425.183 Seitenaufrufe SG Dezember 2011 / Januar 2012 PK-Website: Besuche & Seitenaufrufe 2010 und

Mehr

How to do? Projekte - Zeiterfassung

How to do? Projekte - Zeiterfassung How to do? Projekte - Zeiterfassung Stand: Version 4.0.1, 18.03.2009 1. EINLEITUNG...3 2. PROJEKTE UND STAMMDATEN...4 2.1 Projekte... 4 2.2 Projektmitarbeiter... 5 2.3 Tätigkeiten... 6 2.4 Unterprojekte...

Mehr

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig?

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig? Pädagogik Melanie Schewtschenko Eingewöhnung und Übergang in die Kinderkrippe Warum ist die Beteiligung der Eltern so wichtig? Studienarbeit Inhaltsverzeichnis 1. Einleitung.2 2. Warum ist Eingewöhnung

Mehr

Spezielle Websites für die technische Analyse

Spezielle Websites für die technische Analyse 18 Spezielle Websites für die technische Analyse»Every ship at the bottom of the sea was loaded with charts.«jon Najarian Teil 4: Die Websites In diesem Kapitel In diesem Kapitel werden ausschließlich

Mehr

A1.7: Entropie natürlicher Texte

A1.7: Entropie natürlicher Texte A1.7: Entropie natürlicher Texte Anfang der 1950er Jahre hat Claude E. Shannon die Entropie H der englischen Sprache mit einem bit pro Zeichen abgeschätzt. Kurz darauf kam Karl Küpfmüller bei einer empirischen

Mehr

1. Was ihr in dieser Anleitung

1. Was ihr in dieser Anleitung Leseprobe 1. Was ihr in dieser Anleitung erfahren könnt 2 Liebe Musiker, in diesem PDF erhaltet ihr eine Anleitung, wie ihr eure Musik online kostenlos per Werbevideo bewerben könnt, ohne dabei Geld für

Mehr

Daten haben wir reichlich! 25.04.14 The unbelievable Machine Company 1

Daten haben wir reichlich! 25.04.14 The unbelievable Machine Company 1 Daten haben wir reichlich! 25.04.14 The unbelievable Machine Company 1 2.800.000.000.000.000.000.000 Bytes Daten im Jahr 2012* * Wenn jedes Byte einem Buchstaben entspricht und wir 1000 Buchstaben auf

Mehr

Programm 4: Arbeiten mit thematischen Karten

Programm 4: Arbeiten mit thematischen Karten : Arbeiten mit thematischen Karten A) Anteil der ausländischen Wohnbevölkerung an der Wohnbevölkerung insgesamt 2001 in Prozent 1. Inhaltliche und kartographische Beschreibung - Originalkarte Bei dieser

Mehr

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter 2 Inhaltsverzeichnis 1 Web-Kürzel 4 1.1 Einführung.......................................... 4 1.2 Web-Kürzel.........................................

Mehr

WAS finde ich WO im Beipackzettel

WAS finde ich WO im Beipackzettel WAS finde ich WO im Beipackzettel Sie haben eine Frage zu Ihrem? Meist finden Sie die Antwort im Beipackzettel (offiziell "Gebrauchsinformation" genannt). Der Aufbau der Beipackzettel ist von den Behörden

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Antworten in Anhang dieser Brief! Montag, 23. Juli 2012

Antworten in Anhang dieser Brief! Montag, 23. Juli 2012 1&1 Internet AG Elgendorfer Straße 57 56410 Montabaur support@hosting.1und1.de rechnungsstelle@1und1.de info@1und1.de KdNr.: 25228318 Antworten in Anhang dieser Brief! Montag, 23. Juli 2012 Betreff: zwei

Mehr

Schüler und Lehrer. Teil 1: Was ist Erleuchtung? von Anssi Antila

Schüler und Lehrer. Teil 1: Was ist Erleuchtung? von Anssi Antila Schüler und Lehrer Teil 1: Was ist Erleuchtung? von Anssi Antila Dieses E-Book wurde erstellt für Tamara Azizova (tamara.azizova@googlemail.com) am 25.06.2014 um 11:19 Uhr, IP: 178.15.97.2 Inhaltsverzeichnis

Mehr

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3 Handbuch Fischertechnik-Einzelteiltabelle V3.7.3 von Markus Mack Stand: Samstag, 17. April 2004 Inhaltsverzeichnis 1. Systemvorraussetzungen...3 2. Installation und Start...3 3. Anpassen der Tabelle...3

Mehr

Einkaufen im Internet. Lektion 5 in Themen neu 3, nach Übung 10. Benutzen Sie die Homepage von: http://www.firstsurf.de/klietm9950_f.

Einkaufen im Internet. Lektion 5 in Themen neu 3, nach Übung 10. Benutzen Sie die Homepage von: http://www.firstsurf.de/klietm9950_f. Themen neu 3 Was lernen Sie hier? Sie formulieren Ihre Vermutungen und Meinungen. Was machen Sie? Sie erklären Wörter und Ausdrücke und beurteilen Aussagen. Einkaufen im Internet Lektion 5 in Themen neu

Mehr

10.3.1.10 Übung - Konfigurieren einer Windows-XP-Firewall

10.3.1.10 Übung - Konfigurieren einer Windows-XP-Firewall 5.0 10.3.1.10 Übung - Konfigurieren einer Windows-XP-Firewall Drucken Sie diese Übung aus und führen Sie sie durch. In dieser Übung werden Sie erfahren, wie man die Windows XP-Firewall konfiguriert und

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003

Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003 Nicht kopieren Der neue Report von: Stefan Ploberger 1. Ausgabe 2003 Herausgeber: Verlag Ploberger & Partner 2003 by: Stefan Ploberger Verlag Ploberger & Partner, Postfach 11 46, D-82065 Baierbrunn Tel.

Mehr

Anwendungshinweise zur Anwendung der Soziometrie

Anwendungshinweise zur Anwendung der Soziometrie Anwendungshinweise zur Anwendung der Soziometrie Einführung Die Soziometrie ist ein Verfahren, welches sich besonders gut dafür eignet, Beziehungen zwischen Mitgliedern einer Gruppe darzustellen. Das Verfahren

Mehr

Interaktive Medien Richtlinien für das Codieren Version vom 18. Juni 2014

Interaktive Medien Richtlinien für das Codieren Version vom 18. Juni 2014 Interaktive Medien Richtlinien für das Codieren Version vom 18. Juni 2014 Martin Vollenweider Dateinamen im Internet Da wir im Internet in gemischten Hard- und Softwareumgebungen (z.b. Windows, Unix, Macintosh,

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

Gestaltung wissenschaftlicher Poster

Gestaltung wissenschaftlicher Poster Gestaltung wissenschaftlicher Poster Andreas Schoknecht INSTITUT FÜR ANGEWANDTE INFORMATIK UND FORMALE BESCHREIBUNGSVERFAHREN (AIFB) KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum

Mehr

Partitionieren in Vista und Windows 7/8

Partitionieren in Vista und Windows 7/8 Partitionieren in Vista und Windows 7/8 Windows Vista und Windows 7 können von Haus aus Festplatten partitionieren. Doch die Funktion ist etwas schwer zu entdecken, denn sie heißt "Volume verkleinern".

Mehr

Inhalt. Allgemeine Einführung. Argumentationsvermögen. Räumliches Vorstellungsvermögen. Begabungen und Fähigkeiten messen

Inhalt. Allgemeine Einführung. Argumentationsvermögen. Räumliches Vorstellungsvermögen. Begabungen und Fähigkeiten messen Beispielheft Inhalt Allgemeine Einführung Test Eins: Test Zwei: Test Drei: Test Vier: Test Fünf: Argumentationsvermögen Auffassungsvermögen Zahlenvermögen Sprachverständnis Räumliches Vorstellungsvermögen

Mehr

Quiz mit Google Docs erstellen

Quiz mit Google Docs erstellen IT-Coaching 2go von computertraining4you 1 Quiz mit Google Docs erstellen Mit Google Docs erstellt man ein tolles Quiz. Das Programm Hot Potatoes kann zwar die Reihenfolge der Fragen und Antworten mixen

Mehr

Leseprobe. Bruno Augustoni. Professionell präsentieren. ISBN (Buch): 978-3-446-44285-6. ISBN (E-Book): 978-3-446-44335-8

Leseprobe. Bruno Augustoni. Professionell präsentieren. ISBN (Buch): 978-3-446-44285-6. ISBN (E-Book): 978-3-446-44335-8 Leseprobe Bruno Augustoni Professionell präsentieren ISBN (Buch): 978-3-446-44285-6 ISBN (E-Book): 978-3-446-44335-8 Weitere Informationen oder Bestellungen unter http://wwwhanser-fachbuchde/978-3-446-44285-6

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

Traditionelle Suchmaschinenoptimierung (SEO)

Traditionelle Suchmaschinenoptimierung (SEO) Traditionelle Suchmaschinenoptimierung (SEO) Mit der stetig voranschreitenden Veränderung des World Wide Web haben sich vor allem auch das Surfverhalten der User und deren Einfluss stark verändert. Täglich

Mehr

Studie über die Bewertung von Wissen in kleinen und mittleren Unternehmen in Schleswig-Holstein

Studie über die Bewertung von Wissen in kleinen und mittleren Unternehmen in Schleswig-Holstein Studie über die Bewertung von Wissen in kleinen und mittleren Unternehmen in Schleswig-Holstein Sehr geehrte Damen und Herren, in der heutigen Wissensgesellschaft sind die zentralen Ressourcen erfolgreicher

Mehr

Affiliate Marketing Schnellstart Seite 1

Affiliate Marketing Schnellstart Seite 1 Affiliate Marketing Schnellstart Seite 1 Inhaltsangabe Einführung...3 Gewinnbringende Nischen auswählen...4 Brainstorming...4 Mögliche Profitabilität prüfen...6 Stichwortsuche...7 Traffic und Marketing...9

Mehr

Telenet SocialCom. verbindet Sie mit Social Media.

Telenet SocialCom. verbindet Sie mit Social Media. Telenet SocialCom verbindet Sie mit Social Media. (Titelseite des Vortrags: Kurze Begrüßung bzw. Überleitung von einem anderen Thema. Die Einleitung folgt ab der nächsten Seite...) Ein Kunde ruft an...

Mehr

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst. 40-Tage-Wunder- Kurs Umarme, was Du nicht ändern kannst. Das sagt Wikipedia: Als Wunder (griechisch thauma) gilt umgangssprachlich ein Ereignis, dessen Zustandekommen man sich nicht erklären kann, so dass

Mehr

Alle gehören dazu. Vorwort

Alle gehören dazu. Vorwort Alle gehören dazu Alle sollen zusammen Sport machen können. In diesem Text steht: Wie wir dafür sorgen wollen. Wir sind: Der Deutsche Olympische Sport-Bund und die Deutsche Sport-Jugend. Zu uns gehören

Mehr

Windows Server 2012 R2 Essentials & Hyper-V

Windows Server 2012 R2 Essentials & Hyper-V erklärt: Windows Server 2012 R2 Essentials & Hyper-V Windows Server 2012 R2 Essentials bietet gegenüber der Vorgängerversion die Möglichkeit, mit den Boardmitteln den Windows Server 2012 R2 Essentials

Mehr

Dokumentation von Ük Modul 302

Dokumentation von Ük Modul 302 Dokumentation von Ük Modul 302 Von Nicolas Kull Seite 1/ Inhaltsverzeichnis Dokumentation von Ük Modul 302... 1 Inhaltsverzeichnis... 2 Abbildungsverzeichnis... 3 Typographie (Layout)... 4 Schrift... 4

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Psychologie im Arbeitsschutz

Psychologie im Arbeitsschutz Fachvortrag zur Arbeitsschutztagung 2014 zum Thema: Psychologie im Arbeitsschutz von Dipl. Ing. Mirco Pretzel 23. Januar 2014 Quelle: Dt. Kaltwalzmuseum Hagen-Hohenlimburg 1. Einleitung Was hat mit moderner

Mehr

Abenteuer e-commerce Erfolgreich mit dem eigenen Onlineshop.

Abenteuer e-commerce Erfolgreich mit dem eigenen Onlineshop. Content & Contentpflege in oscommerce CMS - oder geht es auch günstiger? Seit Jahren gibt es keine Fachzeitschrift, welche das Thema Wichtigkeit von Content im Bezug auf Suchmaschinenoptimierung ausließ.

Mehr

Speicher in der Cloud

Speicher in der Cloud Speicher in der Cloud Kostenbremse, Sicherheitsrisiko oder Basis für die unternehmensweite Kollaboration? von Cornelius Höchel-Winter 2013 ComConsult Research GmbH, Aachen 3 SYNCHRONISATION TEUFELSZEUG

Mehr

Online Schulung Anmerkungen zur Durchführung

Online Schulung Anmerkungen zur Durchführung Online Schulung Anmerkungen zur Durchführung 1.0 Einleitung Vielen Dank, dass Sie sich für die Online Schulung von SoloProtect entschieden haben. Nachfolgend finden Sie Informationen für Identicomnutzer

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Fotostammtisch-Schaumburg

Fotostammtisch-Schaumburg Der Anfang zur Benutzung der Web Seite! Alles ums Anmelden und Registrieren 1. Startseite 2. Registrieren 2.1 Registrieren als Mitglied unser Stammtischseite Wie im Bild markiert jetzt auf das Rote Register

Mehr

Anlegen eines DLRG Accounts

Anlegen eines DLRG Accounts Anlegen eines DLRG Accounts Seite 1 von 6 Auf der Startseite des Internet Service Centers (https:\\dlrg.de) führt der Link DLRG-Account anlegen zu einer Eingabemaske, mit der sich jedes DLRG-Mitglied genau

Mehr

Task: Nmap Skripte ausführen

Task: Nmap Skripte ausführen Task: Nmap Skripte ausführen Inhalt Einfache Netzwerkscans mit NSE Ausführen des Scans Anpassung der Parameter Einleitung Copyright 2009-2015 Greenbone Networks GmbH Herkunft und aktuellste Version dieses

Mehr

Festplatte defragmentieren Internetspuren und temporäre Dateien löschen

Festplatte defragmentieren Internetspuren und temporäre Dateien löschen Festplatte defragmentieren Internetspuren und temporäre Dateien löschen Wer viel mit dem Computer arbeitet kennt das Gefühl, dass die Maschine immer langsamer arbeitet und immer mehr Zeit braucht um aufzustarten.

Mehr

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor Allgemeines zu Suchmaschinen Was ist eine Suchmaschine? Ein Programm das die Suche nach Dokumenten/Webseiten im Internet durch die Eingabe

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

mit attraktiven visuellen Inhalten

mit attraktiven visuellen Inhalten Besser bloggen mit attraktiven visuellen Inhalten Copyright 2015 und für den Inhalt verantwortlich: Online Marketing Services LCC. 108 West 13th Street 19801 Wilmington USA Google Doodles die modifizierten

Mehr

Patch-Management. Leibniz-Akademie Hannover Wirtschaftsinformatik B. Sc. Praxisreflexion im Bereich Management im SS 2011

Patch-Management. Leibniz-Akademie Hannover Wirtschaftsinformatik B. Sc. Praxisreflexion im Bereich Management im SS 2011 Leibniz-Akademie Hannover Wirtschaftsinformatik B. Sc. Praxisreflexion im Bereich Management im SS 2011 Patch-Management Thomas Beer Abgabedatum: 28.03.2011 Anmerkung: Diese Wissenschaftliche Arbeit ist

Mehr

FORUM HANDREICHUNG (STAND: AUGUST 2013)

FORUM HANDREICHUNG (STAND: AUGUST 2013) FORUM HANDREICHUNG (STAND: AUGUST 2013) Seite 2, Forum Inhalt Ein Forum anlegen... 3 Forumstypen... 4 Beiträge im Forum schreiben... 5 Beiträge im Forum beantworten... 6 Besondere Rechte der Leitung...

Mehr

Study guide written by René Koglbauer

Study guide written by René Koglbauer Published November 2013 WITH SUPPORT FROM Aufgabe während des Films Was erfährst du über diese Themen? (What did you learn about these topics?) Fußball Familie Nachkriegszeit 2 Aufgabe 1 Die Hauptfigur:

Mehr

Outsourcing und Offshoring. Comelio und Offshoring/Outsourcing

Outsourcing und Offshoring. Comelio und Offshoring/Outsourcing Outsourcing und Offshoring Comelio und Offshoring/Outsourcing INHALT Outsourcing und Offshoring... 3 Comelio und Offshoring/Outsourcing... 4 Beauftragungsmodelle... 4 Projektleitung vor Ort und Software-Entwicklung

Mehr

Kostenstellen verwalten. Tipps & Tricks

Kostenstellen verwalten. Tipps & Tricks Tipps & Tricks INHALT SEITE 1.1 Kostenstellen erstellen 3 13 1.3 Zugriffsberechtigungen überprüfen 30 2 1.1 Kostenstellen erstellen Mein Profil 3 1.1 Kostenstellen erstellen Kostenstelle(n) verwalten 4

Mehr

Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen!

Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen! Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen! www.wee24.de. info@wee24.de. 08382 / 6040561 1 Experten sprechen Ihre Sprache. 2 Unternehmenswebseiten

Mehr

Der/die KursleiterIn kann sowohl die Einträge als auch die geposteten Kommentare in allen drei Blog- Typen bearbeiten, kommentieren und löschen.

Der/die KursleiterIn kann sowohl die Einträge als auch die geposteten Kommentare in allen drei Blog- Typen bearbeiten, kommentieren und löschen. Blogs Blogs sind ein öffentliches Kommunikationstool, das den KursteilnehmerInnen die Aufzeichnung und den Austausch von Gedanken etc. ermöglicht. Ein Blog besteht grundsätzlich aus den Blog-Einträgen

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU 2 DIE MEDIZINISCH-PSYCHOLOGISCHE UNTERSUCHUNG (MPU) IST HOCH ANGESEHEN Das Image der Medizinisch-Psychologischen Untersuchung (MPU) ist zwiespältig: Das ist

Mehr

Kurzanleitung für eine erfüllte Partnerschaft

Kurzanleitung für eine erfüllte Partnerschaft Kurzanleitung für eine erfüllte Partnerschaft 10 Schritte die deine Beziehungen zum Erblühen bringen Oft ist weniger mehr und es sind nicht immer nur die großen Worte, die dann Veränderungen bewirken.

Mehr

Energetische Klassen von Gebäuden

Energetische Klassen von Gebäuden Energetische Klassen von Gebäuden Grundsätzlich gibt es Neubauten und Bestandsgebäude. Diese Definition ist immer aktuell. Aber auch ein heutiger Neubau ist in drei (oder vielleicht erst zehn?) Jahren

Mehr

Berechtigungen im Kalender Anleitung für die Rechtevergabe im Outlook Kalender 2010. FHNW, Services, ICT

Berechtigungen im Kalender Anleitung für die Rechtevergabe im Outlook Kalender 2010. FHNW, Services, ICT Berechtigungen im Kalender Anleitung für die Rechtevergabe im Outlook Kalender 2010 FHNW, Services, ICT Windisch, März 2013 Berechtigungen im Kalender 1 1 Gruppen 3 1.1 Die Gruppe/der Benutzer Standard

Mehr

Pflegende Angehörige Online Ihre Plattform im Internet

Pflegende Angehörige Online Ihre Plattform im Internet Pflegende Angehörige Online Ihre Plattform im Internet Wissen Wichtiges Wissen rund um Pflege Unterstützung Professionelle Beratung Austausch und Kontakt Erfahrungen & Rat mit anderen Angehörigen austauschen

Mehr

Applikations-Performance in Citrix Umgebungen

Applikations-Performance in Citrix Umgebungen Applikations-Performance in Citrix Umgebungen Monitoring und Troubleshooting mit OPNET Lösungen Page 1 of 6 CITRIX ist langsam! Mit dieser Frage sehen sich immer wieder IT Administratoren konfrontiert.

Mehr

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung Anleitung zur Daten zur Datensicherung und Datenrücksicherung Datensicherung Es gibt drei Möglichkeiten der Datensicherung. Zwei davon sind in Ges eingebaut, die dritte ist eine manuelle Möglichkeit. In

Mehr

juergen.vogt@uni-ulm.de

juergen.vogt@uni-ulm.de Benutzerregistrierung für SciFinder on WWW Mitglieder, auch Studenten, der Universität Ulm können SciFinder Scholar für nicht-kommerzielle Zwecke nutzen. Allerdings ist der Zugang personalisiert. Damit

Mehr

Datenanalyse - Schnittstellendesign

Datenanalyse - Schnittstellendesign Datenanalyse - Schnittstellendesign Der Plan ist es eine Schnittstelle zu konstruieren, die aus Future Wertpapier- und Kontotransaktionen eine Wertpapiertransaktion generiert, die bereits den aus dem Geschäft

Mehr

Auswertung der Teilnehmerumfrage zum. vom 04. 05. November 2010

Auswertung der Teilnehmerumfrage zum. vom 04. 05. November 2010 Auswertung der Teilnehmerumfrage zum vierten deutschen MeetMagentoEvent vom 04. 05. November 2010 1. Wie sind Sie auf das Event aufmerksam geworden? Presse 5% Sonstiges 8% Suchmaschine (Yahoo, Google..)

Mehr