Computerlinguistische Textanalyse

Ähnliche Dokumente
der Eingabe! Haben Sie das Ergebnis? Auf diesen schwarzen Punkt kommen wir noch zu sprechen.

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Zeichen bei Zahlen entschlüsseln

Deutsches Rotes Kreuz. Kopfschmerztagebuch von:

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

1. Einführung. 2. Alternativen zu eigenen Auswertungen. 3. Erstellen eigener Tabellen-Auswertungen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Anwendungsbeispiele Buchhaltung

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

CAQ Software für Ihr Qualitätsmanagement. Ablauf für die Erfassung der Fehler in der Fertigung

Text-Zahlen-Formatieren

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

Menü auf zwei Module verteilt (Joomla 3.4.0)

6.2 Scan-Konvertierung (Scan Conversion)

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Was bedeutet Inklusion für Geschwisterkinder? Ein Meinungsbild. Irene von Drigalski Geschäftsführerin Novartis Stiftung FamilienBande.

Professionelle Seminare im Bereich MS-Office

Binärdarstellung von Fliesskommazahlen

Was meinen die Leute eigentlich mit: Grexit?

CSS-Grundlagen. Etwas über Browser. Kapitel. Die Vorbereitung

So richten Sie Outlook Express ein. Einrichten von Outlook Express (hier am Beispiel von Outlook Express 6) für den Empfang meiner s

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Wie halte ich Ordnung auf meiner Festplatte?

Was ist Sozial-Raum-Orientierung?

Erfahrungen mit Hartz IV- Empfängern

Kennwort eines anderen Benutzers zurücksetzen

So gehts Schritt-für-Schritt-Anleitung

Thema: Winkel in der Geometrie:

Der Jazz Veranstaltungskalender für Deutschland, Österreich und die Schweiz

Ein + vor dem Ordnernamen zeigt an, dass der Ordner weitere Unterordner enthält. Diese lassen sich mit einem Klick (linke Maustaste) anzeigen.

Bauteilattribute als Sachdaten anzeigen

Vibono Coaching Brief -No. 39

Kurzeinweisung. WinFoto Plus

BIA-Wissensreihe Teil 4. Mind Mapping Methode. Bildungsakademie Sigmaringen

Anleitung für CleverReach

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Informationsblatt Induktionsbeweis

MaklerManager Ergänzung zum Handbuch 2.0

ltlasten in der Registrierdatenbank löschen

MSXFORUM - Exchange Server 2003 > SMTP Konfiguration von Exchange 2003

VibonoCoaching Brief -No. 18

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

Dies fällt oft deshalb schwerer, da der Angehörige ja von früher gewohnt war, dass der Demenzkranke funktioniert. Was also kann oder soll man tun?

Online Schulung Anmerkungen zur Durchführung

1. Einführung. 2. Weitere Konten anlegen

Anleitung für den Euroweb-Newsletter

PowerPoint vertonen. by H.Schönbauer 1

Arbeitsschritte EAÜ Leistungserbringer Einnahmen erfassen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Studieren- Erklärungen und Tipps

Technical Note ewon über DSL & VPN mit einander verbinden

Anleitung zum erfassen von Last Minute Angeboten und Stellenangebote

Mehrere PDF-Dokumente zu einem zusammenfügen

Meine Lernplanung Wie lerne ich?

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Info zum Zusammenhang von Auflösung und Genauigkeit

Zeit- und Feriensaldoberechnung TimeSafe Leistungserfassung

50 Fragen, um Dir das Rauchen abzugewöhnen 1/6

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

Ausarbeitung des Seminarvortrags zum Thema

Adminer: Installationsanleitung

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Fülle das erste Bild "Erforderliche Information für das Google-Konto" vollständig aus und auch das nachfolgende Bild.

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

Funktionsbeschreibung. Lieferantenbewertung. von IT Consulting Kauka GmbH

Archivierung von Mails des Exchange-Systems

4. Das neue Recht der GmbH ein Überblick

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Digitaler*Ausstellungsbegleiter*für*Mobilgeräte ** * * * Alter: Studiengang: Geschlecht: $ $ $ $ Datum: Falls%Ja,%welches? Falls%ja, %welches?

Anleitung Redmine. Inhalt. Seite 1 von 11. Anleitung Redmine

SJ OFFICE - Update 3.0

Einpflegen von Bildern auf mein-jrk.de

Animationen erstellen

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

Kapitalerhöhung - Verbuchung

Nutzungsmöglichkeiten der interaktiven Westoverledingen Karte

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Zukunft der WfbM Positionspapier des Fachausschusses IV

Der Gabelstapler: Wie? Was? Wer? Wo?

Anspruchsvolle Dreierausdrücke zum selbstständigen Lernen

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

5.Unsicherheit. 5.1WahrscheinlichkeitundRisiko

Abwesenheitsnotiz im Exchange Server 2010

Fehlermeldung von itunes Windows 7

Kalenderfunktion in Open-Xchange richtig nutzen (PC-Support)

Electronic Systems GmbH & Co. KG

Computeria Solothurn

Kurzanleitung OOVS. Reseller Interface. Allgemein

Sich einen eigenen Blog anzulegen, ist gar nicht so schwer. Es gibt verschiedene Anbieter. ist einer davon.

ICS-Addin. Benutzerhandbuch. Version: 1.0

Transkript:

Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller Universität Jena www.julielab.de

Übersicht Klassifikation was ist das? Erster Klassifizierer (Personen Namen) Überwachtes vs. Unüberwachtes Lernen Übungsaufgaben Übersicht 2/12

Allgemein: Begriffliche Einordnung (Nicht )Zugehörigkeit von Objekten zu Kategorien Obst: Apfel, Birne, Mango Gemüse: Bohne, Gurke, Spinat???: Rhabarber, Melone, Erdbeere Ein Klassifizierer würde also diese Zuordnung treffen Dafür werden bestimmte Regeln benötigt Klassifikation was ist das? (1/2) 3/12

Spezieller: Textklassifikationen Spam oder kein Spam? Textgenre Urheberschaft Bewertungen: positiv oder negativ? Worum geht es in Forschungstexten? Klassifikation was ist das? (2/2) 4/12

Klassifikationsregeln die Klassifikationsregeln können von Hand erstellt oder (in den meisten Fällen sinnvoller) erlernt werden Erstellen von Trainings und Testmaterial: ng_list = [(name,gender[:-4]) for gender in names.fileids() for name in names.words(gender)] random.shuffle(ng_list) * ng_dev = ng_list[:500] ng_test = ng_list[500:1000] ng_train = ng_list[1000:] (* benötigt das modul random und names von nltk.corpus) Erster Klassifizierer (Personen Namen) (1/4) 5/12

Features Als nächstes brauchen wir Angaben darüber, was betrachtet werden soll ('features') Diese müssen sorgfältig gewählt werden ('overfitting' vs. 'underfitting'): def gender_features(word): features = {} word = word.lower() # features here... features['first_letter'] = word[0] return features Erster Klassifizierer (Personen Namen) (2/4) 6/12

Training und Test Sets Der 'feature extractor' wird nun angewendet um ein sogenanntes 'training set' und 'test set' zu erstellen: TEST = ng_dev train_set = [(gender_features(n), gender) for (n, gender) in ng_train] test_set = [(gender_features(n), gender) for (n, gender) in TEST] Noch besser ist mit apply_features zu arbeiten: train_set = nltk.classify.apply_features(gender_features, ng_train) test_set = nltk.classify.apply_features(gender_features, TEST) Erster Klassifizierer (Personen Namen) (3/4) 7/12

Naive Bayes in NLTK Anmerkung: bei einem Naive Bayes Klassifizierer von Klassifikationsregeln zu sprechen ist etwas irreführend, da hier keine absoluten Regeln sondern ein Wahrscheinlichkeitsmodel für Zuordnungen erlernt wird. (siehe z.b.: NLTK, Kapitel 6.5) Trainieren und Auswerten eines Naive Bayes Klassifizieres: nb_classifier = nltk.naivebayesclassifier.train(train_set) print(nltk.classify.accuracy(nb_classifier, test_set)) 0.616 Erster Klassifizierer (Personen Namen) (4/4) 8/12

Überwachtes Lernen Lernen anhand von Trainingsmaterial, dessen Zuordnungen bekannt sind Bias Varianz Dilemma: Bias kommt durch falsche Annahmen des Klassifizierers; Abhängigkeiten werden nicht erkannt ( underfitting) Varianz kommt durch zu hohe Sensibilität gegenüber Abweichungen in den Trainingsdaten ( overfitting) Überwachtes vs. Unüberwachtes Lernen (1/2) 9/12

Unüberwachtes Lernen Die zugrundeliegende Struktur von Daten soll allein durch deren Erscheinung abgeleitet werden 'Einfaches' Beispiel: Clustering (Bild: http://home.deib.polimi.it/matteucc/clustering/tutorial_html/) Überwachtes vs. Unüberwachtes Lernen (2/2) 10/12

Personen Namen Klassifizierer Schau dir das 'Notebook' name-gender-classifier an (insbesondere den Abschnitt 'Evaluation'). Erweitere dann den 'feature extractor' unter konstanter Beobachtung durch die Evaluationsmechanismen. Kannst du die Genauigkeit des Naive Bayes Klassifizierers durch geeignete Features erhöhen? Übungsaufgaben (1/2) 11/12

Hausaufgaben Les' das Kapitel 6.1.3: Document Classification des NLTK Buchs Vollziehe nach, was dort gezeigt wird und löse dann die Übung 4 des Kapitels * Versuche weitere Features hinzuzufügen und überlege warum es besser/schlechter wird. (Denke auch an vorherige Sitzungen!) Dokumentiere bitte was du versuchst. Übungsaufgaben (2/2) 12/12