Methodenkurs Text Mining 01: Know Your Data



Ähnliche Dokumente
GRS SIGNUM Produkt-Optimierung

Informationsblatt zu den Seminaren am Lehrstuhl. für Transportsysteme und -logistik

ADFC-Jahresprogramm. automatisch erstellen

HTML5. Wie funktioniert HTML5? Tags: Attribute:

Diese Programm ist für Hausverwaltungen, Kleingärtner Vereine gedacht und besteht eigentlich aus drei Programmen:

Erstellen eines Formulars

Übung - Datensicherung und Wiederherstellung in Windows Vista

PRESman. Presentation Manager. Reduzieren Sie nachhaltig die Kosten für das. Erstellen, Verwalten und Verteilen Ihrer

Importdatei EGID/EDID mit Excel erstellen und bearbeiten

Typo3 - Inhalte. 1. Gestaltung des Inhaltsbereichs. 2. Seitenunterteilung einfügen

Datei Erweiterungen Anzeigen!

LEITFADEN -ZUSTELLUNG

Selbst ist die Frau / der Mann: eine eigene Homepage erstellen!

In diesem Bereich wird beschrieben, wie Sie eine Datensicherung der Software Jack Plus durchführen können.

Datenaustauschformate. Datenaustauschformate - FLV

Inhaltsverzeichnis. 1. Empfängerübersicht / Empfänger hinzufügen 2. Erstellen eines neuen Newsletters / Mailings 3. Versand eines Newsletters

Anleitung zum GEPA EXCEL Import Tool

Erstellung eines Seriendrucks MS WORD 2003 vs. MS WORD 2000

Grundlagen der Datenanalyse am Beispiel von SPSS

Aufgabe 6 Excel 2013 (Fortgeschrittene) Musterlösung

In diesem Bereich wird beschrieben, wie Sie eine Datensicherung der Software Jack Plus durchführen können.

2. Word-Dokumente verwalten

GSD-Radionik iradionics Android-App

BricsCAD System Variablen

Word 2010 Schnellbausteine

Vermeiden Sie es sich bei einer deutlich erfahreneren Person "dranzuhängen", Sie sind persönlich verantwortlich für Ihren Lernerfolg.

e LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen

Kurzbeschreibung S&S Arbeitszeiterfassung

Ökonomik der Agrar und Ernährungswirtschaft in ILIAS

Quick Guide Mitglieder

12. Dokumente Speichern und Drucken

Universalimport in luxdata

Kurzbeschreibung s&s Arbeitszeiterfassung

RDF und RDF Schema. Einführung in die Problematik Von HTML über XML zu RDF

Sobald Sie in Moodle einen Textbeitrag verfassen möchten, erhalten Sie Zugang zu folgendem HTML- Texteditor:

07. Kapitel: Abfragen erstellen Geschätzter Zeitaufwand: 45 Minuten

Lokale Installation von DotNetNuke 4 ohne IIS

Professionelle Seminare im Bereich MS-Office

FORUM HANDREICHUNG (STAND: AUGUST 2013)

Sich einen eigenen Blog anzulegen, ist gar nicht so schwer. Es gibt verschiedene Anbieter. ist einer davon.

Standard-Kontaktformular

Barrierefreie Webseiten erstellen mit TYPO3

Anleitung zum Anlegen und Bearbeiten einer News in TYPO3 für

Excel 2010 Kommentare einfügen

Monatstreff für Menschen ab 50 WORD 2007 / 2010

Family Safety (Kinderschutz) einrichten unter Windows 8

Online bewerben bei IKEA so geht s!

Benutzerhandbuch. DNS Server Administrationstool. Für den Server: dns.firestorm.ch V

Bauteilattribute als Sachdaten anzeigen

PC Software PPS-FM11 Windows Auswertung und Monitor BDE Betriebsdatenerfassung mit Terminals, RFID und SQL Client

Inhalt. Technische Beschreibung - MEDIA3000 NEWSLETTERMODUL-PRO

Modul 7: Übungen zu - Tabellen als Mail oder im Web veröffentlichen

schiller software PLUS vollkomm vdms Vollstreckungs-DokumentenManagement Effektives Vollstreckungsmanagement!

Artenkataster. Hinweise zur Datenbereitstellung. Freie und Hansestadt Hamburg. IT Solutions GmbH. V e r s i o n

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

tentoinfinity Apps 1.0 EINFÜHRUNG

Anleitung zur Bearbeitung von Prüferkommentaren in der Nachreichung

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Anwendungsbeispiele. Neuerungen in den s. Webling ist ein Produkt der Firma:

Personendaten für den Öffentlichen Webauftritt der Fachhochschule Köln

1. das es keiner Ausdrucke mehr für die Formwertrichter bedarf 2. das die Korrekturen vom Richter selbst an seinem PC durchgeführt werden können.

Testplattform des Bereichs Multimedia und Fernlehre. Benutzerhandbuch für Teilnehmer

HERZLICH WILLKOMMEN! VIVENDI PEP WORD-FORMULARDRUCK GEZEIGT ANHAND DES BEWERBERMANAGEMENTS. x-tention Informationstechnologie GmbH

PowerPoint Vorträge professionell umsetzen

Textanalyse-Software für Übersetzungen

Erstellen von x-y-diagrammen in OpenOffice.calc

Matrix42. Use Case - Bearbeiten einer Störung unter Verwendung von Inventardaten, Aktionen und Knowledge Base. Version

OP-LOG

Landes-Arbeits-Gemeinschaft Gemeinsam Leben Gemeinsam Lernen Rheinland-Pfalz e.v.

ERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Materialbuchungen erfassen und importieren.

Flyer, Sharepics usw. mit LibreOffice oder OpenOffice erstellen

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

GE Capital Equipment Financing. GE Capital Leasing-Tool Schulungsunterlagen

Es gibt situationsabhängig verschiedene Varianten zum Speichern der Dokumente. Word bietet im Menü DATEI unterschiedliche Optionen an.

So gehts Schritt-für-Schritt-Anleitung

Dokumentation. Warum Jimdo? Schrittweises Vorgehen beim Erstellen (einmalig) Erstellen und betreuen einer Jimdo Website. Schritt 1: Erstellen

Anleitung zum LPI ATP Portal

Datei für Übersetzung vorbereiten

Willkommen. Benutzerhandbuch für die OECD Online-Bibliothek

Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems

Zertifikat in dakota einlesen Wie lese ich mein Zertifikat in dakota.le ein?

Eigenwerte und Eigenvektoren von Matrizen

Für die Verwendung des Wikis wird dringend der Microsoft Internet Explorer Version 7.0 empfohlen!

Adventskalender Gewinnspiel

ANLEITUNG PREMIUM-PROFIL

Eigene Formatvorlagen

Erste Schritte. für Administratoren/innen (Schoolpark-Schulverantwortliche) - Erstellung von Teams in Schoolpark

Bearbeitung und Download von grossen Datenmengen in STAT-TAB

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

Grundlagen der Künstlichen Intelligenz

FIS: Projektdaten auf den Internetseiten ausgeben

Digitale Lastenhefte - Austausch von Dokumenten

Anleitung für das Erstellen und Übertragen von Berichten für die Gemeindezeitung der VG Marquartstein

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

- Google als Suchmaschine richtig nutzen -

Kurzanleitung Q-Word.5 mit Neuerungen

Anleitung. Steigen Sie auf ein und klicken Sie auf "Anmeldung zum Projekt".

Kurzanleitung für das IdeaClouds-Whiteboard. 1. Ablauf eines Workshops... S Auf Whiteboard arbeiten... S FAQ.. S. 14

Es gibt einige Kardinalstellen, an denen sich auf der Festplatte Müll ansammelt: Um einen Großteil davon zu bereinigen.

Transkript:

Methodenkurs Text Mining 01: Know Your Data Eva Enderichs SoSe2015 Eva EnderichsSoSe2015 01: Know Your Data 1

Eva EnderichsSoSe2015 01: Know Your Data 2

Typen von Korpora annotiert VS naturbelassen wenige große VS viele kleine Samples Schriftsprache VS Umgangssprache einheitliche VS freie Formatierung Eva EnderichsSoSe2015 01: Know Your Data 3

Typen von Korpora Kunst/Belletristik Romane, Kurzgeschichten Theaterstücke, Skripte Wissenschaft Forschungsaufzeichnungen (Transskripte etc.) Paper/Artikel Kommunikation Tweets, Blogs Chat-logs, Emails Eva EnderichsSoSe2015 01: Know Your Data 4

Dateitypen unstrukturiert VS strukturiert VS tabellarisch TXT XML XLS DOC JSON CSV PDF HTML Eva EnderichsSoSe2015 01: Know Your Data 5

Unstrukturiert je plainer, desto besser TXT: gut! DOC, PDF... weniger gut alles was ein Dokument hübsch macht, ist generell Datenmüll (für unsere Zwecke) nicht verwendbar macht langsam Eva EnderichsSoSe2015 01: Know Your Data 6

Strukturiert / annotiert XML, HTML, JSON rekursive Ordnung Daten/Meta-Daten gerne verwendet im Softwarekontext Spezialfall Ontologien: OWL, RDF Eva EnderichsSoSe2015 01: Know Your Data 7

Exkurs: XML <TAG attribute="value"> This is the text body </TAG> Attributwerte in einzelnen oder doppelten Anführungszeichen Textkörper eines Elements kann auch leer sein: <TAG /> XML Schema: Definiert Wohlgeformtheit XSLT: Macht Darstellung erträglich Eva EnderichsSoSe2015 01: Know Your Data 8

Exkurs: XML Die Kinder essen einen Kuchen. Eva EnderichsSoSe2015 01: Know Your Data 9

Exkurs: XML S VP NP NP det N V det N Die Kinder essen einen Kuchen Eva EnderichsSoSe2015 01: Know Your Data 10

Exkurs: XML <S> <NP case="nom"> <det num="pl"> Die </det> <N num="pl"> Kinder </N> </NP> <VP> <V temp="pres",pers="3",num="pl"> essen </V> <NP case="akk"> <det num="sg"> einen </det> <N num="sg"> Kuchen </N> </NP> </VP> </S> Eva EnderichsSoSe2015 01: Know Your Data 11

Tabellarisch CSV, XLS Komplexere Datenbanken Einheitliche Struktur (ohne zusätzliche Definition) (Relativ) leicht zu lesen Leicht zu bearbeiten Eva EnderichsSoSe2015 01: Know Your Data 12

Exkurs: CSV Comma Separated Value Für Textspalten, die Kommata enthalten können: "This text, is column 1",column2,column3 Kann im einfachen Texteditor bearbeitet werden oder in Excel importiert werden...... bevorzugt aber mit CSVed oder anderer spezifischer Software Eva EnderichsSoSe2015 01: Know Your Data 13

Stolpersteine Wie wurden die Daten erhoben? Welche Art von Fehlern können dabei auftreten? Tabellen: Bleiben leere Felder wirklich leer, oder gibt es ein void Symbol? Welches? Ist die Notation und Formatierung einheitlich? Eva EnderichsSoSe2015 01: Know Your Data 14

Typen von Attributen Nominal ungeordnet Hauptfach, Geburtsort, Name Ordinal geordnet Chemische Elemente, > Intervall Ratio geordnet mit regelmäßigen Abständen geordnet mit regelmäßigen Abständen und inhärentem Nullpunkt Kalenderdatum, Temperatur in Celsius Alter in Jahren, Temperatur in Kelvin Eva EnderichsSoSe2015 01: Know Your Data 15

Eigenschaften von Attributen Intervall + ratio = kardinale, a.k.a. metrische Attribute eine sinnvolle Distanzmetrik ist hier möglich, siehe Clustering Metrische Attribute sind entweder diskret oder kontinuierlich in ihrer Verteilung (Anzahl Personen vs. Gewicht in kg) Binäre Attribute können symmetrisch oder asymmetrisch sein im Bezug auf ihre Wertverteilung Eva EnderichsSoSe2015 01: Know Your Data 16

AP Mündliche Prüfung (also normale Anmeldefrist) Thema: Ein Projekt eurer Wahl! Darf gerne in Zweiergruppen bearbeitet werden (aber getrennte Anmeldung und Benotung) Präsentationen am 6. und 13. Juli, ca. 15-20min (inkl. Q&A) Besprechung des Zwischenstandes (optional, aber empfohlen) am 1.Juni Ebenfalls empfohlen: Nächste Woche (27.) zum Kurs erscheinen und ideallerweise schon eine Projektidee mitbringen Merke: APler müssen nicht zum den Übungen erscheinen / bleiben, BNler schon. Eva EnderichsSoSe2015 01: Know Your Data 17