Korpora in NLTK Vortrag im Seminar Computerlinguis6sche Textanalyse WS 2014/15 (B- GSW- 12, M- GSW- 09)



Ähnliche Dokumente
Beschreibung Regeln z.b. Abwesenheitsmeldung und Weiterleitung

GDPdU Export. Modulbeschreibung. GDPdU Export. Software-Lösungen. Stand: Seite 1

Bedienungsanleitung für den Online-Shop

Digitaler Semesterapparat

Adminer: Installationsanleitung

Gezielt über Folien hinweg springen

FTP Tutorial. Das File Transfer Protocol dient dem Webmaster dazu eigene Dateien wie z.b. die geschriebene Webseite auf den Webserver zu laden.

Wie halte ich Ordnung auf meiner Festplatte?

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Zusammenführen mehrerer Dokumente zu einem PDF In drei Abschnitten erstellen Sie ein Dokument aus mehreren Einzeldokumenten:

Erstellen einer digitalen Signatur für Adobe-Formulare

Was meinen die Leute eigentlich mit: Grexit?

Um über FTP Dateien auf Ihren Public Space Server - Zugang laden zu können benötigen Sie folgende Angaben:

.htaccess HOWTO. zum Schutz von Dateien und Verzeichnissen mittels Passwortabfrage

Der große VideoClip- Wettbewerb von Media Markt.

Anwendungsbeispiele Buchhaltung

Windows Explorer Das unbekannte Tool. Compi-Treff vom 19. September 2014 Thomas Sigg

Reservierungs-Assistent

Sicherung persönlicher Daten

Geschütztes FTP-Verzeichnis erstellen

BFV Widget Kurzdokumentation

ACDSee Pro 3-Tutorials: Hochladen von Bildern auf Ihren ACDSee Online-Account

Anleitung über den Umgang mit Schildern

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

Inhaltsverzeichnis. 1. Empfängerübersicht / Empfänger hinzufügen 2. Erstellen eines neuen Newsletters / Mailings 3. Versand eines Newsletters

ABACUS Software-Aktivierung

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Projekte Packen, Kopieren und Versenden

Handbuch Offline-Abgleich

Rillsoft Project - Installation der Software

Wie richten Sie Ihr Web Paket bei Netpage24 ein

Kampagnen. mit Scopevisio und CleverReach

Internet online Update (Internet Explorer)

Installationshinweise und Systemvoraussetzungen

FTP-Server einrichten mit automatischem Datenupload für

Symbole und Schnittvorlagen aus

E-TESTS IMPORTIEREN. von Harald Jakobs Stand:

Anwenderdokumentation PersoSim

Leitfaden und Informationen zum etresor

e-books aus der EBL-Datenbank

Installation Hardlockserver-Dongle

ELO Print&Archive so nutzen Sie es richtig

SPG Verein-Durchführung eines Beitragseinzuges

Über die Internetseite Hier werden unter Download/aktuelle Versionen die verschiedenen Module als zip-dateien bereitgestellt.

Kurzanweisung für Google Analytics

Outlook 2010 Daten importieren und exportieren

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Alice SmartDisk. Auf dem PC - Schritt für Schritt erklärt

3. Neuen Newsbeitrag erstellen Klicken Sie auf das Datensatzsymbol mit dem +, damit Sie einen neuen Newsbeitrag erstellen können.

Erste Schritte mit

Leitfaden: Versand für Lehrende im UNIVIS-Online

Eine Einführung in die Installation und Nutzung von cygwin

Arbeitsblätter. Sinnvolle Finanzberichte. Seite 19

Family Safety (Kinderschutz) einrichten unter Windows 7

Vorgefertigte Serienbriefdokumente incl. Barcodes verwenden

Die Rückgabe kann über folgende, von uns getestete Programme / Apps vorgenommen werden: Adobe Digital Editions Sony Reader for PC Bluefire Reader

ACHTUNG: Es können gpx-dateien und mit dem GP7 aufgezeichnete trc-dateien umgewandelt werden.

Modul 2.2: Zugang zu Ihren Teilnehmer-Ordnern via ftp (zum Dateientransfer):

Erstellen eines Formulars

Verwalten Sie Ihre Homepage von überall zu jeder Zeit! Angebote und Informationen auf

Installation von horizont 4 bei Verwendung mehrerer Datenbanken

1 Voraussetzungen für Einsatz des FRITZ! LAN Assistenten

KEIL software. Inhaltsverzeichnis UPDATE. 1. Wichtige Informationen 1.1. Welche Änderungen gibt es?

Wichtige Information zur Verwendung von CS-TING Version 9 für Microsoft Word 2000 (und höher)

NTT DATA Helpdesk Benutzerhandbuch

Möglichkeiten des Parallelbetriebs der VR-NetWorld Software Parallelbetrieb VR-NetWorld Software 4.4x und Version 5.0 ab der 2. Beta!

E-Finance Java de PF

Hilfe bei Adobe Reader. Internet Explorer 8 und 9

Internet online Update (Mozilla Firefox)

Novell Filr. Kurzanleitung. zur Verfügung gestellt durch: ZID Dezentrale Systeme. Februar ZID Dezentrale Systeme

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.

Materialupload. Verwalten von Unterrichtsmaterialien. über das STiNE-Webportal. Universität Hamburg Tor zur Welt der Wissenschaft

! " # $ " % & Nicki Wruck worldwidewruck

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Dokumentation Typo3. tt - news - Nachrichtenmodul

Leichte-Sprache-Bilder

ACDSee 2009 Tutorials: Importien von Fotos mit dem Fenster "Importieren von"

Gemeinsamer Bibliotheksverbund: Übertragung von Datenexporten für den Verbundkatalog Öffentlicher Bibliotheken

Tutorial -

Übung - Datenmigration in Windows 7

Fernzugang Uniklinikum über VMware View

Informationsblatt zu den Seminaren am Lehrstuhl. für Transportsysteme und -logistik

YouTube: Video-Untertitel übersetzen

Anleitung Typo3-Extension - Raumbuchungssystem

Daten Sichern mit dem QNAP NetBak Replicator 4.0

OLXTeamOutlook 1.5 für Outlook 2003, 2002/XP, 2000 und 97/98

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Leitfaden und Informationen zum etresor Ihrer Volksbank Gebhardshain eg

Benutzung der Avid Liquid Edition Schnittplätze an der Universität Innsbruck

Handbuch - Mail-Sheriff Verwaltung

Tutorials für ACDSee 12: Hochladen von Fotos auf Ihren Account bei ACDSeeOnline.com

Arbeiten mit dem Outlook Add-In

Befundempfang mit GPG4Win

Benutzerhandbuch. Leitfaden zur Benutzung der Anwendung für sicheren Dateitransfer.

Ticketing mit JIRA Kurzanleitung

OSx / MAC. MegaZine3 MZ3-Tool3. Server Upload. Video 2-4

Outlook-Daten komplett sichern

Loggen Sie sich in Ihrem teamspace Team ein, wechseln Sie bitte zur Verwaltung und klicken Sie dort auf den Punkt Synchronisation.

Transkript:

Korpora in NLTK Vortrag im Seminar Computerlinguis6sche Textanalyse WS 2014/15 (B- GSW- 12, M- GSW- 09) Johannes Hellrich Lehrstuhl für Computerlinguis6k Ins6tut für Germanis6sche SprachwissenschaQ Friedrich- Schiller- Universität Jena hwp://www.julielab.de

Was ist eigentlich Korpus Annota6on POS- Tag

Was ist eigentlich Korpus: Für Analyse gesammelte Sprachdaten Annota6on POS- Tag

Was ist eigentlich Korpus: Für Analyse gesammelte Sprachdaten Annota6on: Beschreibung/Analyseergebnis für (Teile von) Sprachdaten POS- Tag

Was ist eigentlich Korpus: Für Analyse gesammelte Sprachdaten Annota6on: Beschreibung/Analyseergebnis für (Teile von) Sprachdaten POS- Tag: POS = Part of speech - > Annota6on mit der Wortart, dabei werden typischerweise 30-50 Wortarten unterschieden

Korpustypen Annota6onen: Wortarten, Emo6onen, Medium: Geschrieben, gesprochen, Video, mul6medial, Domäne: Zeitungstexte, Telefongespräche, ParlamentsdebaWen, wissenschaqliche Ar6kel, Sprache: Monolingual, mul6lingual (parallel/ vergleichbar)

BeispielhaQes Annota6onstool: BRAT hwp://brat.nlplab.org Try brat online - > editable - > tutorial - > news - > 666 Login (rechts oben, username: "crunchy", password: "frog )

Korpora in NLTK laden NLTK ermöglicht das einfache Herunterladen diverser (anno6erter) Korpora Herunterladbar über nltk.download() Auswahl einzelner Korpora oder Collec6ons - > all

BeispielhaQe Korpora in NLTK Brown Corpus Amerikanisches Englisch (1960er) aus gemischten Domänen Erste Korpus mit 1 Millionen Wörtern Nachträglich mit POS anno6ert Projekt Gutenberg Von Freiwilligen digitalisierte gemeinfreie literarische Texte hwp://www.gutenberg.org Vorrangig Englisch Keine Annota6onen Movie Reviews Filmkri6ken, eingeteilt in posi6v und nega6v

API für Korpora in NLTK NLTK stellt Methoden zur Interak6on mit Korpora zur Verfügung: Genereller Aufruf: nltk.corpus.korpus. oder KORPUS. nach Import fileids() listet die Dateien auf, aus denen das Korpus besteht raw() bietet den blanken Text words(), sents(), paras() die Wörter, Sätze und Paragraphen als Listen ihrer jeweiligen Bestandteile Bei anno6erten Korpora können wir über tagged_words(), tagged_sents(), tagged_paras() die anno6erten Wörter, Sätze und Paragraphen abfragen, dabei erhalten wir Paare aus Wort und POS staw nur Wörter als Listenelemente Bei in Kategorien eingeteilten Korpora liefert categories() eine Liste der Kategorien Wir können die Ergebnisse dieser Aufrufe durch Keywordargumente wie fileids= foo oder categories= bar filtern, z.b. nltk.corpus.gutenberg.words(fileids='austen- emma.txt') liefert nur die Wörter aus der Datei austen- emma.txt Siehe hwp://www.nltk.org/howto/corpus.html#overview für mehr Beispiele, z.b. zu geparsten Korpora

Beispiel für die Nutzung der API for x in y führt alles darunter Eingerückte für jedes x aus, das sich in y befindet len(x) gibt die Länge von x zurück, z.b. eines Strings oder einer Liste round(y) rundet eine Zahl y

(Condi6onal) Frequency Distribu6on Zählt wie oq ein Wort vorgekommen ist, die Condi6onal Frequency Distribu6on unterscheidet dabei noch nach Gruppen (Condi6on) Erstellt über: nltk.probability.freqdist(liste), LISTE enthält einzelne Wörter nltk.condioonalfreqdist(liste), LISTE enthält Paare (Gruppe, Wort) Frequency Distribu6ons ermöglicht Abfrage von: Häufigkeit eines Worts distribuoon[wort] Häufigste Wörter distribuoon.items()[von:bis] Tabellenansicht distribuoon.tabulate() Plot distribuoon.plot ()? Condi6onal Frequency Distribu6ons ermöglicht Abfrage von: Enthaltene Frequency Distribu6on cfd[name] Tabellenansicht cfd.tabulate()

>>> wordswithgroup = [] Beispiel für Nutzung >>> for cat in nltk.corpus.movie_reviews.categories():... for word in nltk.corpus.movie_reviews.words(categories=cat): wordswithgroup.append((cat, word.lower())) >>> cfd = nltk.condioonalfreqdist(wordswithgroup) >>> cfd["pos"].items()[:10] [(',', 42448), ('the', 41471), ('.', 33714), ('a', 20196), ('and', 19896), ('of', 18636), ('to', 16517), ("'", 15268), ('is', 14059), ('in', 11725)] >>> cfd.tabulate(samples=["good","bad"]) good bad neg 1163 1034 pos 1248 361

Laden eigener Korpora Unanno6erte Texte werden mit dem PlaintextCorpusReader geladen Für anno6erte Texte gibt es spezielle Reader, z.b. den TaggedCorpusReader Details zu dessen Benutzung (und analog zur Benutzung anderer Python Klassen) bietet help(nltk.corpus.reader.tagged.taggedcorpusreader) Grundsätzlich erwarten alle Reader als Argumente: Das Verzeichnis in dem sich die Korpusdatei(en) befinden Entweder eine Liste an Dateinamen oder ein Muster (als regulärer Ausdruck) dem diese folgen (z.b..* für alle beliebigen Dateien in dem Verzeichnis) Beispiel: >>> from nltk.corpus import PlaintextCorpusReader >>> corpus_root = /home/nutzer/desktop/ordner >>> wordlists = PlaintextCorpusReader(corpus_root,.* ) >>> wordlists.fileids() [NAME1, NAME2,...] >>> wordlists.words(name1)

Übungsaufgaben Was ist das 1728te Wort im Brown Corpus? Benutzen Sie die POS Annota6onen im Brown Corpus und eine Frequency Distribu6on um die 20 häufigsten Adjek6ve zu ermiweln (Tags: JJ, JJR, JJS, JJT; Sie müssen if verwenden) Benutzen Sie diese Adjek6vliste gemeinsam mit einer Condi6onal Frequency Distribuion basierend auf den movie_reviews um eine Tabelle zu erstellen, die diese Wörter und ihre Häufigkeit zeigt. Erstellen Sie einen Ordner und eine darin befindliche Textdatei. Kopieren Sie den Inhalt der Wikipediaseite hwp://en.wikipedia.org/wiki/bee in diese Datei. Lesen Sie die Datei in NLTK ein und ermiweln Sie die Anzahl der Wörter pro Satz. (Vermutlich müssen Sie zuerst mit nltk.download() - > Models - > punkt herunterladen, damit NLTK die Sätze in ihrem Text erkennen kann)