Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.

Größe: px

Ab Seite anzeigen:

Download "Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr."

Kasimir Brinkerhoff
vor 7 Jahren
Abrufe

1 München, Arnold Schlegel Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr. Desislava Zhekova 1

2 Inhaltsüberblick Hintergrund zu dieser Arbeit Nachteile manueller Klassifikation Automatische Klassifikation Verwendete Hilfsmittel Vorverarbeitung der Daten Verwendete Methoden Optimierungen und Probleme 2

3 Hintergrund zu dieser Arbeit Doktorarbeit von Dr. Daphné Kerremans Untersuchung von Faktoren die das Leben von (englischen) Neologismen beeinflussen Neologismus: einfache Definition: neues Wort Gründe für Neologismen: Neu eingeführte Objekte und Konzepte in die Gesellschaft Autoren um damit Aufmerksamkeit des Lesers zu bekommen 3

4 Hintergrund zu dieser Arbeit Beispielfaktoren die das Leben von Neologismen beeinflussen: Neues Lexem sollte einheitlich mit dem Englischen Muster sein (phonologisch, morphologisch, semantisch, orthographisch) Einreihung der Neologismen in Dokumente (Zeitung, große Internet Portale) mit vielen Lesern fördern die Verbreitung Als Quelle für die Untersuchungen wird das Internet verwendet: NeoCrawler: entdeckt neue Formulierungen und lädt die Daten mit diesen Formulierungen runter 4

5 Hintergrund zu dieser Arbeit Riesiges Korpus, das manuell in verschiedenen Klassen klassifiziert wurde 5

6 Nachteile manueller Klassifikation Die Klassifikation dieses Korpus folgt strikten Vorgaben für jede Klasse Jedes Dokument wird einzeln betrachtet Sehr hoher Zeitaufwand bei großen Datenmengen Zeit ist Geld Arbeit wird auf Dauer einseitig Konzentration lässt nach Erhöhte Fehleranfälligkeit Nachbearbeiter wird benötigt Erhöhung des Zeitaufwands und der Kosten 6

7 Nachteile manueller Klassifikation Für bestimmte Themengebiete (z.b. Biologie, Chemie, Medizin) werden Spezialisten benötigt Wenn keine Vorgaben zur Klassifikation vorhanden sind, dann kann es Unstimmigkeiten bzgl. der Kategorisierung eines Dokuments geben Heute: Informationszeitalter Massen an neuen Information (z.b. im Web) zu organisieren Keine Chance für manuelle Klassifikation 7

8 Beispiel für Klassifikationsvorgabe PORTAL Große Sammlung und Informationen, oft via Links zu anderen Seiten Viele unterschiedliche Verfasser, meistens Semi-Profis und Profis/Experten Viele Themen gleichzeitig aber auch einem generellen Thema gewidmet, wie z.b. Gesundheit Kommerziell => viel Werbung, Betreiber oft Unternehmen Inhalt = Text, Foto, Video, Links, oft auch Chatrooms, Meist Formal geschrieben MICROBLOGGING (Beispiel Twitter) Netzwerk von Personen, die einander nicht unbedingt persönlich kennen Basis = Informationsaustausch Hauptsächlich Text, aber auch Links, Videos, Fotos möglich Posts begrenzt auf 140 Zeichen 8

9 Automatische Klassifikation Automatische Klassifikation löst die Probleme der Manuellen Klassifikation Systeme wie Suchmaschinen müssen schnell funktionieren, damit der Benutzer seine Informationen bequem, aktuell und ungehindert erhält Notwendigkeit der automatischen Klassifikation 9

10 Automatische Klassifikation Anwendungsbiete: Automatische Indexierung Dokumentklassifikation und organisation Textfilter Wortbedeutungsdesambiguierer Typische Methoden zur Dokumentklassifikation: Naive Bayes Klassifikator Decision Trees Maximum Entropy Klassifikator 10

11 Ziel dieser Arbeit Erstellung eines automatischen Dokumentklassifizierer Verwendung der bereits klassifizierten Daten aus Kerremans Arbeit zu Neologismen als Trainings und Testkorpus Soll sämtliche Webdokumente in die gegebenen Kategorien unterteilen Soll zukünftige Arbeit in diesem Bereich ersparen 11

12 Verwendete Hilfsmittel Programmiersprache Python Natural Language ToolKit (NLTK) Sammlung von Webdokumenten als Trainings und Testkorpus Mehr als HTML Dateien Besteht aus 10 verschiedenen Kategorien (Academic, Personal Blog, Professional Blog, Discussion Forum, News, Portal, Social Network, Microblogging, Filesharing, Self-Reference) 12

13 Vorverarbeitung der Daten Aufteilung des Korpus in Trainings- und Testkorpus (3:1) HTML Dokumente werden wie folgt verarbeitet: Entfernen der HTML Tags und des Javascript und CSS Codes Tokenisieren mit Hilfe des WordPunctTokenizer aus NLTK Entfernen von Punktuationszeichen Entfernen der Englischen Stoppwörter Alle Wörter kleingeschrieben Entfernen der Wörter die weniger als 2 Buchstaben enthalten 13

14 Verwendete Methoden Verschiedene Feature Modelle Naive Bayes Classifier und eventuell Maximum Entropie Classifier 14

15 Verwende Feature Modelle Bag of Words Model: Erstellung eines Wörterbuchs aus den Wörtern die in den Trainingsdatenvorkommen(ohne Duplikate) Vergleich jedes Wortes aus einzelnen Dokumenten mit jedem Eintrag aus dem Wörterbuch. Falls ein Wort aus Wörterbuch in diesem Dokument enthalten ist, erhält es den Wert True, falls nicht dann False. Auch numerisch möglich. Anstatt True und False wird die absolute Häufigkeit des Wortes, das in diesem Dokument vorkommt gespeichert 15

16 Beispiel für BoW Model 16

17 Verwendete Feature Modelle Weitere mögliche Features Anzahl an Sätze pro Dokument Durchschnittliche Wörter pro Satz Anzahl an Links pro Dokument Betrachtung des Titles jedes Dokuments Eventuell noch Bigramm Modell 17

18 Naive Bayes Classifier Ist einfach, optimal und prinzipiell einfach anzuwenden Einer der praktischten Methoden des Maschinellen Lernens d^ = arg max p d p(wi d) d i=1 n 18

19 Naive Bayes Classifier 19

20 Beispielanwendung NB Classifier Apriori Wahrscheinlichkeiten: P(Banana) = 0.5 (500/1000) P(Orange) = 0.3 P(Other Fruit) = 0.2 p(long) = 0.5 P(Sweet) = 0.65 P(Yellow) = 0.8 Likelihood Wahrscheinlichkeiten: P(Long/Banana) = 0.8 P(Long/Orange) = 0 P(Yellow/Other Fruit) = 50/200 = 0.25 P(Not Yellow/Other Fruit) =

21 Beispielanwendung NB Classifier 0,252 > 0,01875 Frucht die lang, süß und gelb ist, wird hier als Banane klassifiziert 21

22 Probleme und Optimierungen Probleme: NLTK nicht sonderlich schnell, Programm dauert sehr lange um trainiert zu werden. Besonders Feature Extraction dauert lange. Noch keine Evaulierung Optimierungen: Stemmen würde das Wörterbuch eventuell präzisieren Lange Wörter entfernen Kopf der HTML Dokumente als Features verwenden Häufigsten Wörter verwenden Neben Bigramme eventuell auch Trigramme 22

23 Das Wars!!!! Vielen Dank für die Aufmerksamkeit 23

Ähnliche Dokumente

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei