cross-linguistic linked data

Ähnliche Dokumente
Praktikum Ingenieurinformatik (PI)

Versionsverwaltung mit SVN

Deployment Deployment Seite 1 / 25

Mercurial. or how I learned to stop worrying and love the merge. Ted Naleid IAIK

HSR git und subversion HowTo

AGILE APPLICATION LIFECYCLE MANAGEMENT IM ATLASSIAN ECOSYSTEM

Moodle aktuell halten mit Git

Die Projek*ools. Files, Git, Tickets & Time

Software Engineering in der Praxis

Git. Dezentrale Versionsverwaltung im Team Grundlagen und Workflows. Rene Preißel Björn Stachmann. 2., aktualisierte und erweiterte Auflage

Warum sich das Management nicht für agile Softwareentwicklung interessieren sollte - aber für Agilität

PROJEKTVERZEICHNIS EINRICHTEN

Facilitate Open Science Training for European Research. OpenAIRE und die Services des National Open Access Desks (NOAD)

- Entwurf - Datenpublikation Workflows für die Archivierung und Publikation wissenschaftlicher Forschungsdaten in RADAR

SALSAH eine virtuelle Forschungsumgebung für die Geisteswissenschaften

dpa-infocom - Datenlieferung

Acht Gute Gründe für Integration und einen Content Backbone

Sonnenfinsternis in der Technischen Redaktion

SharePoint Demonstration

MWSoko Erste Schritte

Kurzanweisung für Google Analytics

OpenMAP WEBDrive Konfiguration. Oxinia GmbH , Version 1

Einführung in Subversion

Die Bürgermeister App. Mein Bürgermeister hört mich per App.

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

Updatehinweise für die Version forma 5.5.5

Git in großen Projekten

Was meinen die Leute eigentlich mit: Grexit?

OBU 2.0. Wer zuerst kommt, fährt am besten. Jetzt kommt die Software-Version. Nutzerflyer_1606_RZ :10 Uhr Seite 1

git & git-flow Jens Sandmann Warpzone Münster e.v. Jens Sandmann (WZ) git & git-flow / 31

Oracle APEX Installer

Einreichung zum Call for Papers

Mediumwechsel - VR-NetWorld Software

Über dieses Buch. Nutzungsrichtlinien

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

WinCVS Version 1.3. Voraussetzung. Frank Grimm Mario Rasser

DiPP Golden Road zum Open Access

Über die Internetseite Hier werden unter Download/aktuelle Versionen die verschiedenen Module als zip-dateien bereitgestellt.

SMART Newsletter Education Solutions April 2015

SJ OFFICE - Update 3.0

Die Post hat eine Umfrage gemacht

Einführung Git Interna Workflows Referenzen. Git. Fast Version Control System. Michael Kuhn

Über dieses Buch. Nutzungsrichtlinien

Open Access als strategische Aufgabe für die Hochschulleitung. Prof. Dr. Gerhard Peter Rektor Hochschule Heilbronn

Torsten Flatter inovex GmbH. "Git.NET" gibt's nicht?

1. Bearbeite Host Netzgruppen

Auswertung des Fragebogens Rahmenbedingungen des Umgangs mit Forschungsdaten in der Region

6 Das Kopieren eines bereits bestehenden Inhaltselements

Professionelle Seminare im Bereich MS-Office

Getting Started Guide CRM Online, 2013 & 2015 xrm1 Verpflegungspauschalen

Konfigurationsdateien mit Git verwalten

Datenbank-Verschlüsselung mit DbDefence und Webanwendungen.

RIGGTEK. Dissolution Test Systems. DissoPrep Browser-Interface

Anmeldung, Registrierung und Elternkontrolle des MEEP!-Tablet-PC

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

HOWTO Update von MRG1 auf MRG2 bei gleichzeitigem Update auf Magento CE 1.4 / Magento EE 1.8

C++11 C++14 Kapitel Doppelseite Übungen Musterlösungen Anhang

meifi.net das Breitbandnetz für alle Das Wichtigste im Überblick

IT-Projekt-Management

e-books aus der EBL-Datenbank

FAMILIENSTAND ALLEINERZIEHENDE MÜTTER

Wir machen neue Politik für Baden-Württemberg

Versionskontrolle. Verteilte Versionskontrollsysteme. Richard Madsack. 25. November Versionskontrolle. Richard Madsack.

GSM: Airgap Update. Inhalt. Einleitung

Von SVN zu Git. Daniel Willmann cbna

Anleitung Redmine. Inhalt. Seite 1 von 11. Anleitung Redmine

SCHULUNG MIT SYSTEM: E-LEARNING VON RAUM21

Anleitung für Aussteller So funktioniert s!

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Erfolgreicher Ums9eg auf Git

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

OutLook 2003 Konfiguration

Reporting Services und SharePoint 2010 Teil 1

Neue Funktionen in Innovator 11 R5

Leitfaden zur Nutzung von binder CryptShare

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Überprüfung der digital signierten E-Rechnung

Egal, ob Sie neu bauen oder renovieren mit DATALIGHT bekommen Sie ein zukunftssicheres Strom- und Datennetz in einem. Und das bedeutet grenzenlose

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Handbuch erste Schritte zur Nutzung der neuen Open DC Instanz

Das Schulsystem in Deutschland (Band 2, Lektion 1)

Git II. Dezentrale Versionsverwaltung im Team

Prüfen Sie, ob Sie über Administratorrechte (Server und Client) verfügen.

DeltaVision Computer Software Programmierung Internet Beratung Schulung

Was ist Sozial-Raum-Orientierung?

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

Verteilte Versionskontrolle mit GIT Dortmund Ansgar Brauner - GreenPocket GmbH - Köln

:: Anleitung Hosting Server 1cloud.ch ::

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Guide DynDNS und Portforwarding

Qt-Projekte mit Visual Studio 2005

Landes-Arbeits-Gemeinschaft Gemeinsam Leben Gemeinsam Lernen Rheinland-Pfalz e.v.

Grundlagen von Python

Schnittstelle DIGI-Zeiterfassung

Atlassian Git Essentials Nahtlose Entwicklungsworkflows aus einer Hand

Inhaltsverzeichnis. 1 Einleitung. Literatur. 1.1 CVS (Concurrent Version System) [Pru03, Zee02, Ced05]

Zukunft der WfbM Positionspapier des Fachausschusses IV

BytStorMail SAAS als Relay

RT Request Tracker. Benutzerhandbuch V2.0. Inhalte

Ebenenmasken Grundlagen

Transkript:

cross-linguistic linked data Dateninfrastruktur für Diversity Linguistics Robert Forkel 18.9.2015 Max-Planck-Institut für Menschheitsgeschichte

Diversity Linguistics Umfasst Teile von Historischer Linguistik, Typologie und Sprachdokumentation beschäftigt sich mit vielen oder kleinen Sprachen typische Daten: Wortliste Grammatikskizze Phoneminventar meist graue Literatur traditionelle Publikationskanäle funktionieren kaum noch 1

Cross-Linguistische Daten - ein Beispiel Figure: Ein WALS datapoint illustriert typische cross-linguistische Datensammlungen. 2

Cross-Linguistische Daten Wir leben also fast im Naturwissenschaftlichen Shangri-La der Forschungsdaten simple Messreihen abgesehen von der Kalibration der Messgeräte :), die zwar hochsensibel sind, aber zu Inkonsistenz neigen und dem Umstand, dass Datengeber und Datennehmer sich kaum überschneiden 3

Das CLLD Projekt Von der MPG für 4 Jahre gefördert, anfangs am MPI EVA in Leipzig, jetzt am MPI SHH in Jena. Brücke zwischen Datengebern und Datennehmern Datenpublikationsplattform für Diversity Linguistics: Referenzdatenbanken: Sprachkatalog und Bibliographie Datenjournals: Dictionaria für Wörterbücher und JCLD für Datenbanken Typologische und lexikalische standalone Datenbanken Publikationsformen sind an traditionellen Vorbildern orientiert: Journal, Buchreihe Wir müssen also in vielen Fällen ein grundlegendes Problem wissenschaftlicher Datenbanken lösen, nämlich Zitierfähigkeit (also Zugang zu älteren Versionen) mit Aktualisierbarkeit in Einklang zu bringen. 4

research data management mit github

Data is code Linguistische Forschungsdaten haben genug mit code gemein, um tools, workflows und best practices aus der Open Source Software-Entwicklung zu borgen. Unsere Daten sind Text oft in zeilenbasierter Form (etwa CSV) kleine Datenmenge häufig offen zugänglich 6

git und GitHub git GitHub source code management tool Ähnlich wie CVS oder Subversion, aber distributed = jeder checkout ist voll funktionsfähiges repository Hosting Plattform für git repositories Ergänzt git mit zusätzlichen Kollaborations-tools, insbesondere pull requests webhooks erlauben Integration mit anderen Services, etwa Archivierung via ZENODO continuous integration via Travis-CI 7

kollaborative datenpflege mit github

Data is code - Übersetzungshilfe Best practices der open source Softwareentwicklung übertragen auf Datenpflege: commit history audit trail für alle Änderungen merge Prozedur zum Zusammenführen von Änderungen mehrerer Autoren pull request Prozedur für Einreichung und open peer review neuer Daten release Publikation continuous integration Validierung fork Transparenter Wechsel der Verantwortlichkeiten 9

Data is code - Beispiel Tsammalex Figure: Tsammalex Applikation 10

Data is code - Tsammalex data repository Figure: Tsammalex data repository 11

Data is code - Updates Figure: Pull request: Transparentes update mit review 12

datenbank on-demand

Data code Oft ist eine Datenbank mehr als nur ein dump der Daten: Die Applikation implementiert die Standardinterpretation der Daten und vermittelt Standardzugang zu den Daten (die API) Wie können wir Zugänglichkeit der API von früheren Bearbeitungsständen der Datenbank ermöglichen? 14

Data code Figure: Applikation stellt API für Daten zur Verfügung 15

Data code Daten müssen zusammen mit code publiziert und archiviert werden. Code muss bootstrapping unterstützen, d.h. die Initialisierung einer lokalen Datenbank und Applikationsinstanz. = Datenbank on-demand! 16

Datenbank on-demand Figure: DOI -> DB 17

Datenbank on-demand Der Teufel steckt im Detail (und externe Abhängigkeiten überall): Python-Pakete von PyPI Javascript vom CDN Base-layer für maps Dennoch moderne Container- oder Virtualisierungslösungen (docker, ec2)... mit standardisierten Applikationstemplates... angeboten von Rechenzentren könnte DOI -> DB als one-click Angebot für Wissenschaftler möglich machen. 18

zusammenfassung

Zusammenfassung Für Datenerzeuger Für code-ähnliche Daten lohnt ein Blick über den Zaun zur Software-Entwicklung entsprechend John Nerbonne s Digital Humanities Motto: Beg, buy, steal or borrow! https://twitter.com/tomknieper/status/448820937446932480 Für Humanities Data Center DOI->DB könnte eine Antwort auf die Mehr als wegspeichern? Frage sein. clld.org cb 20