Abusive Language Detection in Online User Content

Größe: px

Ab Seite anzeigen:

Download "Abusive Language Detection in Online User Content"

Gert Goldschmidt
vor 5 Jahren
Abrufe

1 Abusive Language Detection in Online User Content Basierend auf Chikashi Nobata, Joel R. Tetreault, Achint Thomas, Yashar Mehdad, and Yi Chang (2016) Proseminar: Natural Language Processing and the Web Valentin Kany

2 Inhalt 1. Einführung / Motivation 2. Daten 3. Methoden Konklusion 2 / 37

3 Inhalt 1. Einführung / Motivation Warum Abusive Language Detection? Welche Methoden werden aktuell verwendet? 2. Daten 3. Methoden Konklusion 3 / 37

4 Wo würdet ihr eher eure Werbung platzieren wollen? Einführung / Motivation 4 / 37

5 Wo würdet ihr eher eure Werbung platzieren wollen? Einführung / Motivation 5 / 37

6 Warum ist Abusive Language Detection im Internet wichtig? Für Betreiber: Werbeeinnahmen werden negativ beeinflusst User springen ab Problem mit konventionellen Methoden nur schwer in den Griff zu bekommen Einführung / Motivation 6 / 37

7 Warum ist Abusive Language Detection im Internet wichtig? Für User: Erlebnis im Internet wird beeinträchtigt Fühlen sich unwohl Fühlen sich persönlich angegriffen Werden dazu verleitet, ebenfalls unangebrachte Sprache zu verwenden Einführung / Motivation 7 / 37

8 State of the art Blacklists und Regular Expressions Menschliche Annotatoren Einführung / Motivation 8 / 37

9 Schwierigkeiten Absichtliche Verschleierung von Wörtern z.b.: ni9 9er, kill yrslef a$$hole Schwierigkeit, alle Beleidungen abzudecken Abusive Language ist nicht auf einen Satz beschränkt z.b.: In vielen Ländern haben Frauen keine Rechte. So gehört sich das. Einführung / Motivation 9 / 37

10 Inhalt 1. Einführung / Motivation 2. Daten 3. Methoden Konklusion 10 / 37

11 Daten Alle Test- und Trainingsdaten bestehen aus Kommentaren auf Yahoo! Finance und Yahoo! News Gelabelt von geschulten Yahoo-Mitarbeitern Daten 11 / 37

12 Data Set Kommentare von Yahoo! Finance und News zwischen Oktober 2012 und Januar % aller geschriebenen Kommentare zufällig Alle Kommentare, welche durch User als abusive gemeldet wurden Daten 12 / 37

13 13 / 37

14 Data Set Finance data Absolut Clean 705,886 93% Abusive 53,516 7% In Prozent Total 759, % News data Absolut In Prozent Clean 1,162, % Abusive 228, % Total 1,390, % 80% Trainingsdaten Die verbleibenden 20%: Testdaten Daten 14 / 37

15 Inhalt 1. Einführung / Motivation 2. Daten 3. Methoden Konklusion 15 / 37

16 Inhalt 1. Einführung / Motivation 2. Datasets 3. Methoden N-Gramme Linguistische Features Syntaktische Features Distributional Semantics Features Konklusion 16 / 37

17 N-Gramme Token n-grams Unigramme und Bigramme Character n-grams 3-5 Zeichen, inklusive Leerzeichen Um Verschleierungen zu erkennen a s s h o l e z z z Methoden 17 / 37

18 Linguistische Features Anzahl an Modalverben Anzahl an Großbuchstaben z.b.:...sind ALLES DRECKIGE MISTSTÜCKE! Anzahl an nicht-alphabetischen Zeichen innerhalb eines Wortes Verschleierungen Anzahl an Ausrufezeichen z.b.: Du XYZ!!!!!!!!!!!!! Methoden 18 / 37

19 Syntaktische Features Nutzung von Natural Language Parser Erfassen von long-range Abhängigkeiten zwischen Wörtern N-Gramme sind dazu nicht in der Lage Jews are lower class pigs. Methoden 19 / 37

20 Distributional Semantics Features Pre-trained embeddings Von einem Nachrichtentext-Korpus Word2vec Eigener Korpus Comment2vec Berücksichtigt Kontexte aus Kommentaren Methoden 20 / 37

21 Inhalt 1. Einführung / Motivation 2. Daten 3. Methoden Konklusion 21 / 37

22 Features F-Score Finance F-Score News Lexicon Trained Lexicon Linguistic Token N-grams Character N-grams Syntactic Word2vec Pretrained Comment2vec All Features / 37

23 Features F-Score Finance F-Score News Lexicon Trained Lexicon Linguistic Token N-grams Character N-grams Syntactic Word2vec Pretrained Comment2vec All Features / 37

24 Lexicons Features F-Score Finance F-Score News Lexicon Trained Lexicon Dienen als Baseline Trained Lexicon: Blacklist Lexicon mit unterschiedlicher Gewichtung der Einträge deutliche Verbesserung des F-Scores 24 / 37

25 Features F-Score Finance F-Score News Lexicon Trained Lexicon Linguistic Token N-grams Character N-grams Syntactic Word2vec Pretrained Comment2vec All Features / 37

26 N-Gramme Features F-Score Finance F-Score News Token N-grams Character N-grams Beide Features: hohe F-Scores Character N-grams: zusätzliche Abdeckung der Verschleierungen noch einmal leichte Steigerung des F-Scores 26 / 37

27 Features F-Score Finance F-Score News Lexicon Trained Lexicon Linguistic Token N-grams Character N-grams Syntactic Word2vec Pretrained Comment2vec All Features / 37

28 Distributional Features Features F-Score Finance F-Score News Word2vec Pretrained Comment2vec Pretrained: Trainingskorpus allgemeiner Schwächstes Feature comment2vec: zusätzlich: Berücksichtigung des Kommentares als Ganzes Steigerung des F-Scores gegenüber word2vec 28 / 37

29 Features F-Score Finance F-Score News Lexicon Trained Lexicon Linguistic Token N-grams Character N-grams Syntactic Word2vec Pretrained Comment2vec All Features / 37

30 Char. N-grams vs. All Features Features F-Score Finance F-Score News Character N-grams All Features Unterschied nicht sehr groß Character N-grams sehr effektiv alle anderen Features bringen keine große Steigerung Lohnenswert? 30 / 37

31 Features F-Score Finance F-Score News Lexicon Trained Lexicon Linguistic Token N-grams Character N-grams Syntactic Word2vec Pretrained Comment2vec All Features / 37

32 Features F-Score Finance F-Score News Lexicon Trained Lexicon Linguistic Token N-grams Character N-grams Syntactic Word2vec Pretrained Comment2vec All Features / 37

33 Features F-Score Finance F-Score News Lexicon Trained Lexicon Linguistic Token N-grams Character N-grams Syntactic Word2vec Pretrained Comment2vec All Features / 37

34 Finance vs. News Trainingskorpus für News größer: Anzahl Kommentare Finance News Clean Abusive Total F-Score bei News allgemein höher Finance Daten sind etwas noisier : Unterschied bei komplexeren Features größer ( Syntactic, Distributional Semantics Features ) 34 / 37

35 Inhalt 1. Einführung / Motivation 2. Daten 3. Methoden Konklusion 35 / 37

36 Konklusion Menge an benutzergeneriertem Content steigt stetig Notwendigkeit von Abusive Language Detection (Character) n-grams am effektivsten Lohnen sich alle Methoden? Konklusion 36 / 37

37 Konklusion Bisher nur in englischer Sprache getestet Andere Sprachen? Kontext des Kommentars berücksichtigen? Nur auf Kommentarinhalt beschränken? Verfasser? Konklusion 37 / 37

Ähnliche Dokumente

Analyse von News-Artikeln

Projekt Big Data Abschlusspräsentation Analyse von News-Artikeln Sentimentanalyse mit Word2vec Raffael Diestel, Maike Schubert Inhalt Einleitung Ziele Realisierung Vorläufige Ergebnisse TODO Einleitung