Methodenkurs Text Mining 01: Know Your Data Eva Enderichs SoSe2015 Eva EnderichsSoSe2015 01: Know Your Data 1
Eva EnderichsSoSe2015 01: Know Your Data 2
Typen von Korpora annotiert VS naturbelassen wenige große VS viele kleine Samples Schriftsprache VS Umgangssprache einheitliche VS freie Formatierung Eva EnderichsSoSe2015 01: Know Your Data 3
Typen von Korpora Kunst/Belletristik Romane, Kurzgeschichten Theaterstücke, Skripte Wissenschaft Forschungsaufzeichnungen (Transskripte etc.) Paper/Artikel Kommunikation Tweets, Blogs Chat-logs, Emails Eva EnderichsSoSe2015 01: Know Your Data 4
Dateitypen unstrukturiert VS strukturiert VS tabellarisch TXT XML XLS DOC JSON CSV PDF HTML Eva EnderichsSoSe2015 01: Know Your Data 5
Unstrukturiert je plainer, desto besser TXT: gut! DOC, PDF... weniger gut alles was ein Dokument hübsch macht, ist generell Datenmüll (für unsere Zwecke) nicht verwendbar macht langsam Eva EnderichsSoSe2015 01: Know Your Data 6
Strukturiert / annotiert XML, HTML, JSON rekursive Ordnung Daten/Meta-Daten gerne verwendet im Softwarekontext Spezialfall Ontologien: OWL, RDF Eva EnderichsSoSe2015 01: Know Your Data 7
Exkurs: XML <TAG attribute="value"> This is the text body </TAG> Attributwerte in einzelnen oder doppelten Anführungszeichen Textkörper eines Elements kann auch leer sein: <TAG /> XML Schema: Definiert Wohlgeformtheit XSLT: Macht Darstellung erträglich Eva EnderichsSoSe2015 01: Know Your Data 8
Exkurs: XML Die Kinder essen einen Kuchen. Eva EnderichsSoSe2015 01: Know Your Data 9
Exkurs: XML S VP NP NP det N V det N Die Kinder essen einen Kuchen Eva EnderichsSoSe2015 01: Know Your Data 10
Exkurs: XML <S> <NP case="nom"> <det num="pl"> Die </det> <N num="pl"> Kinder </N> </NP> <VP> <V temp="pres",pers="3",num="pl"> essen </V> <NP case="akk"> <det num="sg"> einen </det> <N num="sg"> Kuchen </N> </NP> </VP> </S> Eva EnderichsSoSe2015 01: Know Your Data 11
Tabellarisch CSV, XLS Komplexere Datenbanken Einheitliche Struktur (ohne zusätzliche Definition) (Relativ) leicht zu lesen Leicht zu bearbeiten Eva EnderichsSoSe2015 01: Know Your Data 12
Exkurs: CSV Comma Separated Value Für Textspalten, die Kommata enthalten können: "This text, is column 1",column2,column3 Kann im einfachen Texteditor bearbeitet werden oder in Excel importiert werden...... bevorzugt aber mit CSVed oder anderer spezifischer Software Eva EnderichsSoSe2015 01: Know Your Data 13
Stolpersteine Wie wurden die Daten erhoben? Welche Art von Fehlern können dabei auftreten? Tabellen: Bleiben leere Felder wirklich leer, oder gibt es ein void Symbol? Welches? Ist die Notation und Formatierung einheitlich? Eva EnderichsSoSe2015 01: Know Your Data 14
Typen von Attributen Nominal ungeordnet Hauptfach, Geburtsort, Name Ordinal geordnet Chemische Elemente, > Intervall Ratio geordnet mit regelmäßigen Abständen geordnet mit regelmäßigen Abständen und inhärentem Nullpunkt Kalenderdatum, Temperatur in Celsius Alter in Jahren, Temperatur in Kelvin Eva EnderichsSoSe2015 01: Know Your Data 15
Eigenschaften von Attributen Intervall + ratio = kardinale, a.k.a. metrische Attribute eine sinnvolle Distanzmetrik ist hier möglich, siehe Clustering Metrische Attribute sind entweder diskret oder kontinuierlich in ihrer Verteilung (Anzahl Personen vs. Gewicht in kg) Binäre Attribute können symmetrisch oder asymmetrisch sein im Bezug auf ihre Wertverteilung Eva EnderichsSoSe2015 01: Know Your Data 16
AP Mündliche Prüfung (also normale Anmeldefrist) Thema: Ein Projekt eurer Wahl! Darf gerne in Zweiergruppen bearbeitet werden (aber getrennte Anmeldung und Benotung) Präsentationen am 6. und 13. Juli, ca. 15-20min (inkl. Q&A) Besprechung des Zwischenstandes (optional, aber empfohlen) am 1.Juni Ebenfalls empfohlen: Nächste Woche (27.) zum Kurs erscheinen und ideallerweise schon eine Projektidee mitbringen Merke: APler müssen nicht zum den Übungen erscheinen / bleiben, BNler schon. Eva EnderichsSoSe2015 01: Know Your Data 17