Teamprojekt & Projekt

Ähnliche Dokumente

Teamprojekt & Projekt

Teamprojekt & Projekt

DSpace 5 und Linked (Open) Data. Pascal-Nicolas Becker Technische Universität Berlin German DSpace User Group Meeting 2014 Berlin, 28.

Semantic Web Technologies 1

Semantic Web Grundlagen

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

RDF RESOURCE DESCRIPTION FRAMEWORK. Referentin: Claudia Langer

Semantic Web Technologies 1

RDF und RDF Schema. Einführung in die Problematik Von HTML über XML zu RDF

TK-Schnittstelleneinrichtung. Redundante Softswitches

Einführung in Hadoop

Software Projekt 2 / Gruppe Knauth Lernziele:

Neue Ansätze der Softwarequalitätssicherung

Verknüpfte Daten abfragen mit SPARQL. Thomas Tikwinski, W3C.DE/AT

Softwareentwicklungsprozess im Praktikum. 23. April 2015

Apache HBase. A BigTable Column Store on top of Hadoop

Informationsblatt zu den Seminaren am Lehrstuhl. für Transportsysteme und -logistik

Linked Samian Ware: Potentiale von Linked Data in der Archäologie. Florian Thiery M.Sc.

Bericht BTI7311: Informatik Seminar Was sind Ontologien?

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH)

Systemisches Arbeiten

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

Agile Softwareentwicklung mit Scrum

Ökonomik der Agrar und Ernährungswirtschaft in ILIAS

Was sind Ontologie-Editoren?

Prof. Dr.-Ing. Rainer Schmidt 1

SPI-Seminar : Interview mit einem Softwaremanager

Projektgruppe. Knowledge Representation Persistence and Reasoning

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Entwicklung eines Electronic Resource Management Systems für Bibliotheken auf Basis von Linked Data Technologien

Web Mining Übung. Aufgaben. Umfang

6.2 Petri-Netze. kommunizierenden Prozessen in der Realität oder in Rechnern Verhalten von Hardware-Komponenten Geschäftsabläufe Spielpläne

Hochschule Karlsruhe Klausur EAI Prof. Dr. Christian Pape. Klausur EAI WS 05/06. Note: Bearbeitungszeit 90 Minuten Keine Hilfsmittel

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

Algorithmen & Datenstrukturen 1. Klausur

Java und Grid Computing

Vorstellung Studienprojekt. Policy4TOSCA. Umsetzung eines Policy-Frameworks für sicheres und energieeffizientes Cloud Computing

Betrieb komplexer IT-Systeme

sga Die selbstgestellte Aufgabe

Vermeiden Sie es sich bei einer deutlich erfahreneren Person "dranzuhängen", Sie sind persönlich verantwortlich für Ihren Lernerfolg.

Softwareentwicklungspraktikum Nebenfach

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: ADACOR Hosting GmbH

Freie und vernetzte Daten:

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

PSE: Analysesoftware für Logistiknetzwerke

RDF und SPARQL. Kursfolien. Karin Haenelt

SEP 114. Design by Contract

Step by Step Webserver unter Windows Server von Christian Bartl

Anforderungen an die HIS

Verteilte Systeme: Übung 4

Informationsmaterial zum Praxisprojekt Familienunternehmen und Entrepreneurship im Masterstudiengang Unternehmensführung

Einführung in Eclipse und Java

Big Data Mythen und Fakten

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Proseminar: Website-Managment-System. NetObjects Fusion. von Christoph Feller

Predictive Modeling Markup Language. Thomas Morandell

Software Engineering Projekt (SEP) mit ROBOCODE

MailUtilities: Remote Deployment - Einführung

Dateisysteme und Datenverwaltung in der Cloud

Softwareentwicklungspraktikum Sommersemester Grobentwurf

Praktikum Einführung

PostgreSQL in großen Installationen

Ressourcen-Beschreibung im Semantic Web

einrichtung in den kaufmännischen Programmen der WISO Reihe

Die virtuelle Forschungsumgebung WissKI

[Customer Service by KCS.net] KEEPING CUSTOMERS SUCCESSFUL

Prüfungshinweise für mündliche Prüfungen bei C. Schuchart bzw. die schri9liche Prüfung im Master 2011

Javadoc. Programmiermethodik. Eva Zangerle Universität Innsbruck

Social Media Monitoring Was wird über Sie und Ihre Wettbewerber gesagt?

Hochverfügbarkeit mit Windows Server vnext. Carsten Rachfahl Microsoft Hyper-V MVP

Wiederholung: Beginn

Organisatorisches. Ökonometrie I Michael Hauser WS15/16

EndTermTest PROGALGO WS1516 A

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Tutorial: Erstellen einer vollwertigen XP Home CD aus der EEE 901 Recover DVD

IBM Software Demos Tivoli Provisioning Manager for OS Deployment

XML-Technologien Tutorium 6

Businessplan-Seminar. in Kooperation mit HIGHEST, dem Gründungszentrum der TU Darmstadt. Seminar im Wintersemester

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)

Eclipse Plugins für die komfortablere Verwendung von ibatis SQLMaps

Mindestanforderungen an. Inland ECDIS Geräte im Informationsmodus und vergleichbare Kartenanzeigegeräte. zur Nutzung von Inland AIS Daten

Sybase Central Dokumentation Aktivierung der Monitoringfunktion

BMC Control M Tipps & Tricks 2. Martin Dienstl, BMC Software martin_dienstl@bmc.com

Big Data Informationen neu gelebt

Hadoop. Simon Prewo. Simon Prewo

Peer-to-Peer- Netzwerke

Empirisches Seminar Soziale Netzwerkanalyse

Transkript:

18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis

Studienordnung Master: 16 ECTS 480 Semesterstunden ~ 34h/Woche p.p. Bachelor: 6 ECTS 180 Semesterstunden ~ 13h/Woche p.p Teamgröße: 3-4 Studenten Projektbericht: ca. 15-25 Seiten p.p. Abschlusspräsentation: ca. 15min p.p. Arbeitsleistung einzelner Teilnehmer muss klar voneinander abzugrenzen sein 1. Projekt Organisation 2

Zeit und Ort: Montag 14-17 Uhr (c.t.) Raum: SR 00 007 (MMR), Geb. 106 Nächstes Treffen: Dienstag, 2. November 2010 14-17 Uhr (c.t.) Raum: 01-029, Geb. 51 Weiterer Ablauf: Treffen mit Kurzpräsentationen aller Teams Weitere individuelle Termine auf Anfrage 1. Projekt Organisation 3

Gemeinsame Arbeit an einem großen Projekt Eigenständiges Recherchieren und Arbeiten Verbesserung der individuellen Programmierfähigkeiten (hier: Java) Einarbeiten in neue Themen (hier: RDF und MapReduce) Probleme bei größeren Projekten Kennen und Lösen lernen Erfahrungen im Umgang mit MapReduce sammeln 1. Projekt Organisation 4

Gute Team-interne Organisation Aufteilung von Verantwortung Erfüllen von Verantwortung Einhalten von Fristen Gegenseitige Hilfe und Unterstützung Saubere Definition von Schnittstellen Nutzen entsprechender Software (z.b. SVN) Einbringen individueller Fähigkeiten Spezialisierung auf Teilgebiete, ohne den Blick für das Ganze zu verlieren 1. Projekt Organisation 5

Insbesondere (aber nicht ausschließlich) Umfang und Schwierigkeit der geleisteten Arbeit/Implementierung Teamleistung: ein gelungenes Projekt wirkt sich in der Regel positiv auf die Noten einzelner Teammitglieder aus Rolle und Mitarbeit im Team (Koordination etc.) Qualität des Codes (Formatierung, Dokumentation) Individuelle Ausarbeitung (Projektbericht) Mündlicher Vortrag (Abschlusspräsentation) 1. Projekt Organisation 6

Einarbeitungsphase Bis Dienstag, 2. November 2010 Endgültige Themenvergabe Kurzpräsentation 8. November 2010 Projektvorstellung Eigene Milestones Interne Arbeitsaufteilung Implementierungsphase Programmierung & Dokumentation 10. / 17. Januar 2011: Zwischenbericht zu den Milestones (Treffen oder Präsentation) Abschlusspräsentation 7. Februar 2011 Abgabe Projektbericht (14. Februar 2011) 1. Projekt Organisation 7

Teamprojekt (Master) Entwurf und Implementierung eines verteilten RDF- Stores auf Basis von Hadoop (MapReduce) Projekt (Bachelor) Implementierung eines Graphenproblems auf Basis von Hadoop (MapReduce) Beispiel: Die Suche nach kürzesten Pfaden innerhalb eines RDF-Graphen 1. Projekt Aufgabenstellung 8

Principles & Basic Concepts 2. MapReduce 9

Google s MapReduce Automatic parallelization of computations Fix and simple level of abstraction: Map & Reduce Distributed File System Clusters of commodity hardware Fault tolerance by replication Very large files / write-once, read-many-times Hadoop Open Source implementation (Apache project) Used by Yahoo, Facebook, Amazon, IBM, Last.fm, 2. MapReduce 10

Map map(in_key, in_value) -> (out_key, intermediate_value) list inputs: records from data source as (key, value) pairs, e.g. (filename, line) outputs: one or more intermediate values with an output key Reduce reduce(out_key, intermediate_value list) -> out_value list After map phase all intermediate values for one output key are combined together in a list reduce combines those intermediate values into one or more final values for the same output key 2. MapReduce 11

Map-Phase Shuffle-Phase Reduce-Phase Split 0 Split 1 Split 2 Split 3 Split 4 Split 5 Map Map Map Reduce Reduce Out 0 Out 1 Input (HDFS) Intermediate Results (Local) Output (HDFS) 2. MapReduce 12

Hadoop Training http://www.cloudera.com/hadoop/ Cloudera s Distribution For Hadoop Virtual Machine ( VMware Image) http://www.cloudera.com/downloads/ CDH 3 (beta) Buch: Hadoop: The Definitive Guide von Tom White 2. MapReduce 13

Principles & Basic Concepts 3. RDF 14

Datenformat Grundpfeiler des Semantic Web Sprache um Aussagen und Informationen über Ressourcen formal zu beschreiben Vom W3C standardisiert ausführliche Informationen unter http://www.w3.org/rdf Datenformat basiert auf Tripeln der Form (Subjekt, Prädikat, Objekt) 3. RDF 15

Jedes Tripel repräsentiert einen Wissensfakt, z.b. (Article1, dc:title, SPARQL ) Subjekt hat eine Eigenschaft Prädikat mit dem Wert Objekt Article1 hat den Titel SPARQL Darstellung eines Tripels als eine gerichtete Kante in einem Graphen möglich Subjekt, Objekt Knoten Prädikat Kanten Article1 dc:title SPARQL 3. RDF 16

Formale Definition: Gegeben drei Mengen: U Uniform Resource Identifiers (URIs) B Blank Nodes ( leere Knoten ) L Literale Ein RDF Tripel ist eine Element aus der Menge (B U) x U x (B L U) Beispiel: (Article1, dc:title, SPARQL ) URI URI Literal 3. RDF 17

Eine RDF Datenbank D (auch Graph genannt) ist eine Menge von RDF Tripeln, formal D (B U) x U x (B L U) Serialisierung von RDF Daten in verschiedenen Formaten möglich, z.b. NTriples, N3, RDF/XML, 3. RDF 18

@prefix ex: <http://example.com/>. @prefix foaf: <http://xmlns.com/foaf/>. ex:chris foaf:knows ex:simon. ex:chris foaf:knows ex:sarah. ex:sarah foaf:country ex:de.... knows country age RDF Dokument in N3 8 60 DE Frank Chris Peter Simon 25 42 CH Klaus RDF Graph 19

RDF Einführung siehe Homepage W3C RDF Primer http://www.w3.org/tr/rdf-primer/ Vorlesungsfolien FGIS http://dbis/index.php?file=fruehereveranstaltungen.html (SS 2009 / WS 2007) RDF Tutorial http://www.w3schools.com/rdf/default.asp 20

Einarbeitungsphase in MapReduce, RDF und Aufgabenstellung Cloudera s Distribution for Hadoop installieren Team Mitglieder kennenlernen Nächstes Treffen: Dienstag, 2. November 2010 14-17 Uhr (c.t.) Raum: 01-029, Geb. 51