Teil VIII. Datenbanken



Ähnliche Dokumente
Entwurf von Datenbanken

Teil VI. Datenbanken

DB-Anwendungsprogrammierung

Allgemeines zu Datenbanken

Andreas Heuer Gunter Saake Kai-Uwe Sattler. Datenbanken. kompakt

Informatik 12 Datenbanken SQL-Einführung

7. Übung - Datenbanken

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

SQL Tutorial. SQL - Tutorial SS 06. Hubert Baumgartner. INSO - Industrial Software

SQL structured query language

Aufgaben zur fachwissenschaftlichen Prüfung Modul 3 Daten erfassen, ordnen, verarbeiten und austauschen: Schwerpunkt Datenbanken

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

SQL für Trolle. mag.e. Dienstag, Qt-Seminar

SQL (Structured Query Language) Schemata Datentypen

9. Einführung in Datenbanken

Die Grundbegriffe Die Daten Die Informationen

ISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski.

Einteilung von Datenbanken

Datenbanken. Prof. Dr. Bernhard Schiefer.

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)

Übersicht über Datenbanken

Inhaltsverzeichnis. 1. Fragestellung

SQL. strukturierte Datenbankabfragesprache eine Datenbanksprache zur. Structured Query Language:

Datenmanagement in Android-Apps. 16. Mai 2013

Relationales Modell: SQL-DDL. SQL als Definitionssprache. 7. Datenbankdefinitionssprachen. Anforderungen an eine relationale DDL

Vielen Dank an Dennis Riehle für die Bereitstellung dieser Folien

Relationale Datenbanken Datenbankgrundlagen

XAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL

Datenbankentwurf. 4.2 Logischer Entwurf. Kapitel 4. ER-Modell. Umsetzung. Entwurfsdokumentation. relationales Modell. Verbesserung

Datenbankmodelle 1. Das Entity-Relationship-Modell

SQL SQL. SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R. Grundlagen der Datenbanksysteme I

Einführung in SQL. Sprachumfang: Indizes. Datensätzen. Zugriffsrechten

Übungsblatt 4. Aufgabe 7: Datensicht Fachkonzept (Klausur SS 2002, 1. Termin)

Objektrelationale Datenbanken

Datenbanken SQL Einführung Datenbank in MySQL einrichten mit PhpMyAdmin

3. Das Relationale Datenmodell

2.5.2 Primärschlüssel

Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum:

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Datenbanktechnologie mit praktischen Übungen in MySQL und PHP

Datenbanken (WS 2015/2016)

Carl-Christian Kanne. Einführung in Datenbanken p.1/513

ABTEILUNGS- ABTEILUNGS- LEITER NAME

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

mit Musterlösungen Prof. Dr. Gerd Stumme, Dipl.-Inform. Christoph Schmitz 11. Juni 2007

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Einführung in. Logische Schaltungen

SQL: statische Integrität

Datenbanken. Ein DBS besteht aus zwei Teilen:

Datenbanksysteme I. Klausur zum Praktikum. Mehrere Professoren prüfen mit genau einem Beisitzer genau einen Studenten.

4 Grundlagen der Datenbankentwicklung

Einführung in die Programmierung

Labor 3 - Datenbank mit MySQL

Einführung. Informationssystem als Abbild der realen Welt

4. BEZIEHUNGEN ZWISCHEN TABELLEN

SQL - Übungen Bearbeitung der Datenbank Personal (1)

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Abfragen: Grundbausteine

Universität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5

Wirtschaftsinformatik 2. Tutorium im WS 11/12

ACCESS das Datenbankprogramm. (Einführung) DI (FH) Levent Öztürk

Bibliografische Informationen digitalisiert durch

Arbeiten mit einem lokalen PostgreSQL-Server

Arbeiten mit ACCESS 2013

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken

Einleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join

Kapitel 10 Aktive DBMS

Informations- und Wissensmanagement

P.A. Bernstein, V. Hadzilacos, N. Goodman

Semantische Integrität (auch: Konsistenz) der in einer Datenbank gespeicherten Daten als wichtige Anforderung

Das SQL-Schlüsselwort ALL entspricht dem Allquantor der Prädikatenlogik

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023

Im Original veränderbare Word-Dateien

Java Kurs für Anfänger Einheit 4 Klassen und Objekte

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Datenbanken für Online Untersuchungen

Erstellen einer Datenbank. Datenbankabfragen

Vorlesung Informatik II

ER-Modell. Entity-Relationship-Model

Einführung. Kapitel 1 2 / 508

Windows Vista Security

Objektorientierte Programmierung

Tag 4 Inhaltsverzeichnis

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Probeklausur im Modul Informationstechnik 1, WS 2003/04. Studiengang IWD 1. Semester Seite 1 von 5

3. Stored Procedures und PL/SQL

Datenbanken Microsoft Access 2010

Vorlesung Datenbankmanagementsysteme

Tag 4 Inhaltsverzeichnis

6. Sichten, Integrität und Zugriffskontrolle. Vorlesung "Informa=onssysteme" Sommersemester 2015

Unterprogramme. Funktionen. Bedeutung von Funktionen in C++ Definition einer Funktion. Definition einer Prozedur

Views in SQL. 2 Anlegen und Verwenden von Views 2

Themen. M. Duffner: Datenbanksysteme

Pass by Value Pass by Reference Defaults, Overloading, variable Parameteranzahl

Grundlagen von Datenbanksystemen

Wiederholung VU Datenmodellierung

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Datenbanken Kapitel 2

Vorlesung Dokumentation und Datenbanken Klausur

Transkript:

Teil VIII Datenbanken

Überblick Datenbanken 1 Einführung Grundlegende Begriffe Motivation 2 Relationale Datenbanksysteme Das Relationale Datenmodell SQL 3 Entwurf von Datenbanken Der Datenbankentwurfsprozess Das Enity Relationship (ER) Modell Abbildung von ER-Diagrammen auf Relationenschemata Normalformen 4 DB-Anwendungsprogrammierung Programmierschnittstellen Transaktionen Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 1

Einführung Datenbanken Typische Aufgabe von Informationssystemen: Verwaltung von großen Datenbeständen = Datenbanken (DB) Zugriff auf Daten durch potentiell große Anzahl von Nutzern Hohe Anforderungen bezüglich Effizienz der Zugriffe (lesend und schreibend) Konsistenz (Widerspruchsfreiheit) der Daten Schnittstellen für einfache Nutzbarkeit Erfüllung dieser Anforderungen durch Programmieren eigener Lösungen für jede Anwendung extrem aufwändig Deshalb: spezielle Softwaresysteme zur Verwaltung von Datenbanken = Datenbankmanagementsysteme (DBMS) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 2

Datenbanken: Grundbegriffe Einführung DBMS DB DBS = DB + DBMS Ein Datenbankmanagementsystem (DBMS) ist ein Sammlung von ausführbaren Programmen, welche zur Umsetzung aller Zugriffe auf eine Datenbank verwendet werden. Eine Datenbank (DB) ist ein Sammlung strukturiert und dauerhaft gespeicherter Fakten für ein konkretes Anwendungsszenario Ein Datenbanksystem (DBS) ist eine durch ein DBMS zugreifbare Datenbank für ein konkretes Anwendungsszenario. Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 3

Einführung Datenbanksysteme: Anwendungsarchitektur Anwendung 1 Anwendung 2...... Datenbanksystem Administrator Ein Datenbanksystem (DBS) kann Daten für viele (oder eine) Anwendungen bereitstellen Nutzer können über die Anwendungen (oder direkt) auf im DBS verwaltete Daten zugreifen Administratoren als spezielle Nutzer zur Steuerung und Kontrolle des DBS Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 4

Einführung Datenbanksysteme: Kommunikationsarchitektur Anw1 Anw2 Anw1 Anw2 DBS Heute meist Client Server-Architektur: Anwendungen können von zahlreichen Installationen (Clients) auf verschiedenen Rechner über ein Netzwerk auf das DBS zugreifen Das DBS läuft auf einem (oder mehreren = verteilt) Rechnern (Server) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 5

Einführung Datenbankschema Struktur der Daten für eine konkrete Datenbank/Anwendung = Datenbankschema, z.b. Schema für eine DB mit Studentendaten Schema für eine DB mit Produktdaten Schema für eine DB mit Kundendaten Schema ist formale Festlegung und verwendet ein Daten(bank)modell als Sprache zur Datendarstellung Datenmodell umfaßt alle möglichen Mittel zur Beschreibung der Struktur der Daten, ist anwendungsunabhängig und durch das verwendete DBMS festgelegt Beispiel: das soziale Netzwerk StudiVZ (= DBS) speichert Daten über Studenten, Freunde, etc. (= Datenbankschema) in verschiedenen Tabellen mit Spalten etc. (= Datenmodell) in einer MySQL (= DBMS) Datenbank Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 6

Einführung Datenbanksysteme: Beispiele /1 ebay Online Auktionshaus: WWW-basierte Plattform zum Kauf oder Verkauf beliebiger Waren auf Auktionsbasis 212 Millionen Nutzer 26 Millionen Zugriffe pro Tag 2 Petabyte Datenvolumen 400.000 DVDs voll Daten DBSMS: Oracle Database, Analysen über Teradata UnivIS der OvGU: WWW-basiertes Informationssystem zu Lehrangeboten an der Otto-von-Guericke-Universität Daten zu über 5000 Lehrveranstaltungen, über 5000 Personen, über 400 Räume, etc. Über 300 schreibberechtigte Nutzer Ca 1.5 Millionen Anfragen pro Monat DBMS: eigene Lösung des Anbieters Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 7

Einführung Datenbanksysteme: Beispiele /1 Wal-Mart Data Warehouse: System zur Warenkorbanalyse von Daten der Registrierkassen bei der amerikanischen Handelskette 500 Terabyte Daten 100.000 Daten-DVDs DBMS: Teradata StudiVZ.net: SAP ERP : WWW-basiertes soziales Netzwerk Persönliche Daten von über 6 Millionen Nutzern DBMS: MySQL DB-basiertes Anwendungssystem Unternehmensweites Informationssystem zur Unterstützung zahlreicher geschäftsrelevanter Bereiche Datenvolumen und Nutzerzahl abhängig vom konkreten Unternehmen DBMS: zahlreiche verschiedene DBMS können verwendet werden Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 8

DBS Motivation Datenbanken Einführung Wozu benötigen wir DBMS? Warum speichern wir die Daten nicht einfach in Dateien, die wir aus unseren Anwendungen auslesen? Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 9

Einführung DBS Motivation: Große Datenmengen Große Datenmengen vor allem problematisch bzgl. Effizienz Wie können für einen Nutzer relevante Daten in riesigen Datenmengen schnell gefunden werden? Zum Beispiel Eine konkrete Auktion bei ebay aus vielen Terabyte Auktionsdaten? Eine bestimmte Person bei StudiVZ aus vielen Millionen? Wie können große Datenmenge effizient ausgewertet und analysiert werden? Zum Beispiel Welche Produkte in Wal-Mart-Filialen wurden im Vergleich zu den Vorjahren weniger oft verkauft? Und: warum? DBMS bieten für Festplatten optimierte Datenstrukturen und hoch-effiziente Operationen an Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 10

DBS Motivation: Viele Nutzer Einführung Eine große Nutzeranzahl impliziert zwei Anforderungen Effizienz, zum Beispiel Wie werden die zahlreichen parallelen Zugriff auf Web-Datenbanken wie StudiVZ oder ebay umgesetzt? Wie können diese so ausgeführt werden, dass sie sich möglichst wenig gegenseitig beeinflussen? Konsistenz, zum Beispiel Wie kann sichergestellt werden, dass zwei geleichzeitige Nutzer von UnivIS ihre Eingaben zu einer Vorlesung nicht gegenseitig überschreiben? Wie kann die korrekte Reihenfolgen von Geboten bei ebay sichergestellt werden? DBMS bieten effiziente Lösungen zur Synchronisation paralleler Zugriffe Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 11

DBS Motivation: Konsistenz Einführung Ablaufkonsistenz bei parallelen Zugriffen: s.o. Widerspruchsfreiheit durch Vermeidung von Redundanzen (Problem: mehrfache Abspeicherung), zum Beispiel Wie kann vermieden werden, dass zwei Mitarbeiter eines Unternehmens zwei unterschiedliche Kostenkalkulationen für ein Produkt erstellen? Erzwingung konsistenter Datenbankzustände, zum Beispiel Wie kann in UnivIS vermieden werden, dass zwei Vorlesungen zur selben Zeit im selben Hörsaal stattfinden? Wie kann vermieden werden, dass das Alter einer Person einen negativen Wert annimmt? Wie kann vermieden werden, dass zwei Studenten dieselbe Matrikelnummer haben? DBS zur integrierten (zentralen) Speicherung mit umfangreichen Mittel zur Sicherstellung der Korrektheit der Daten Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 12

Einführung DBS Motivation: Datenschutz und -sicherheit Datenschutz, zum Beispiel Wie kann sichergestellt werden, dass nur meine Freunde bei StudiVZ bestimmte persönliche Daten sehen? Wie kann eine Firma bestimmte Daten aus SAP ERP ihren Kunden zur Verfügung stellen, interne Daten aber vor unberechtigten Einblicken verstecken? Datensicherheit, zum Beispiel Was passiert mit meinen Daten, wenn mein Rechner abstürzt? Was passiert mit Daten, wenn die Festplatte, auf der diese gespeichert sind, einen irreparablen Schaden hat? DBMS bieten umfangreiche Mechanismen zum Schutz vor Datenverlust und unberechtigten Zugriffen Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 13

Einführung DBS Motivation: Einfache Nutzung Der Nutzer sollte für den Zugriff sein Informationsbedürfnis beschreiben, nicht aber den Weg, wie dieses erfüllt wird (deklarative Sprache) Zugriff auf die Daten sollten möglichst auch ohne Programmierung (Ad Hoc) möglich sein Es sollte egal sein, mit welcher Hardware-Plattform der Nutzer arbeitet Bei der Nutzung von Daten aus einer Anwendung sollte die verwendete Programmiersprache beliebig gewählt werden können Die Entwicklung von Anwendungsprogrammen sollte möglichst unabhängig von der Entwicklung der Datenbank erfolgen können DBMS setzen Zugriff über standardisierte Anfragesprachen und Programmierschnittstellen um Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 14

Warum... Datenbanken für Ingenieure? Die Anforderungen von zahlreichen Ingenieuranwendungen sind typisch für datenbankbasierte Systeme: Große Datenmengen für Produktmodelle Zahlreiche Mitarbeiter (Teams von Ingenieuren u.a.) die gemeinsam diese Daten bearbeiten Hohe Anforderungen an Konsistenz, Sicherheit und Schutz der Produktmodelldaten Deshalb sind zahlreiche Ingenieuranwendungen wie zum Beispiel EDM- oder CAD-Systeme oft unter Nutzung von DBMS umgesetzt. Auch im Arbeitsumfeld finden sich zahlreiche DB-basierte System wie SAP ERM oder Workflow Management-Systeme.

Relationale Datenbanksysteme Relationale Datenbanksysteme Einfache Grundidee: speichere alle Daten in Tabellen Relational, weil... abgeleitet vom mathematischen Konzept der Relationen als Menge von Tupeln (etwa: Tabellenzeilen) mit Werten für Attribute mit unterschiedlichen Wertebereichen (Tabellenspalten) Überwiegende Mehrheit aktueller DBMS sind relationale DBMS RDBMS Die standardisierte Datenbanksprache SQL implementiert relationales Datenmodell (mit kleinen Abweichungen von der Theorie und von verwendeten Begriffen) Hinweis: im folgenden gehen wir von in SQL verwendeten Begriffen aus Gegenwärtiger Stand: objekt-relationale DBMS (ORDBMS) (SQL:2008) mit objektorientierten Erweiterungen (in dieser Vorlesung nicht behandelt) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 16

Aktuell verbreitete DBMS Relationale Datenbanksysteme Kommerzielle relationale DBMS, z.b. Oracle Database IBM DB2 Microsoft SQL Server Freie (Open Source) RDBMS, z.b. MySQL PostgreSQL Speziallösungen: Für Analyse großer Datenmengen in Data Warehouse Systemen, z.b. Teradata Andere Datenmodelle, wie z.b. objektrorientierte DBMS (Objectivity, Versant) oder XML DBMS (Xindice, exist) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 17

Relationale Datenbanksysteme RDBMS Grundkonzepte: Tabellen Tabellen haben Namen und bestehen aus Spalten und Zeilen Schema der Tabelle besteht aus fester Anzahl von Spalten Spalten repräsentieren Eigenschaften haben Namen und festgelegten Datentyp Zeilen repräsentieren eigentliche Daten haben für jede Spalte einen Spaltenwert Tabelle hat beliebiebige Anzahl von Zeilen (inklusive leerer Tabelle) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 18

Relationale Datenbanksysteme RDBMS Grundkonzepte: Schlüssel Schlüssel (auch Primärschlüssel) erlauben eindeutige Identifizierung von Datensätzen (Zeilen) innerhalb einer Tabelle Einzelne Spalte oder Kombination mehrerer Spalten, deren Wert(ekombination) innerhalb der Tabelle einmalig ist Existieren solche Spalten nicht, kann eine Spalte mit künstlich erzeugten eindeutigen Werten (Surrogatschlüssel) eingeführt werden Dient vor allem der Referenzierung der Daten aus anderen Tabellen Fremdschlüssel Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 19

Relationale Datenbanksysteme RDBMS Grundkonzepte: Fremdschlüssel Tabellen beinhalten bloß Zeilen mit fester Anzahl von atomaren Werten Komplexere Beziehungen zwischen Daten werden über Fremdschlüsselbeziehungen zwischen Zeilen dargestellt: Verwendung des Schlüssels einer Zeile als spezieller Spaltenwert in einer anderen Zeile(meist aus einer anderen Tabelle) N:1-Beziehung: eine beliebige Anzahl (N) Datensätze in einer Tabelle beziehen sich auf einen anderen Datensatz Beispiel: Studenten wird genau ein Studiengang zugeordnet, ein Studiengang umfaßt viele Studenten N:M-Beziehung: beliebig viele (N) Datensätze einer Tabelle können sich auf beliebig viele (M) andere Datensätze beziehen Beispiel: ein Student kann viele Vorlesungen besuchen, eine Vorlesung wird von vielen Studenten besucht Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 20

Relationale Datenbanksysteme RDBMS Grundkonzepte: Fremdschlüssel N:1 Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 21

Relationale Datenbanksysteme RDBMS Grundkonzepte: Fremdschlüssel N:M Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 22

Relationale Datenbanksysteme Weitere RDBMS Konzepte NULL-Werte: kann ein Spaltenwert nicht angegeben werden (weil z.b. nicht bekannt oder nicht existent), kann der vordefinierte und typunabhängige WertNULL verwendet werden Für Spalten und Tabellen können Integritätsbedingungen (Integrity Constraints) angegeben werden, die konsistenten Zustand beschreiben Eindeutigkeit von Spaltenwerten (UNIQUE) Spaltenwert muss angegeben werden (NOT NULL) Spaltenwert ist Schlüssel (PRIMARY KEY = UNIQUE + NOT NULL) Wertebereichseinschränkungen Referentielle Integrität: Fremschlüsselwert muss als Primärschlüssel in korrespondierender Tabelle existieren... Zahlreiche weitere Konzepte hier nicht diskutiert Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 23

Operationen auf Tabellen Relationale Datenbanksysteme Anfrageoperationen basieren auf Relationaler Algebra Eingabe: Relation(en) Ausgabe: Relation(en) Grundlegende Operationen Selektion: Auswahl von Tupeln (Zeilen) durch Angabe einer Auswahlbedingung Projektion: Auswahl von Attributen (Spalten) durch Angabe von deren Namen Verbundoperationen: (engl. Joins) Zusammenführen von Tupeln verschiedener Relationen (Tabellen) über Verfolgung von Fremdschlüsselbeziehungen oder durch die Angabe von Verbundbedingungen Mengenoperationen: zum Beispiel Vereinigung oder Schnittmenge von Relationen umgesetzt durch Anfragesprache SQL Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 24

Relationale Datenbanksysteme SQL Die Structured Query Language Deklarative Anfragesprache SQL Anfrage beschreibt lediglich zu liefernde Daten RDBMS entscheidet selbständig, wie Ergebnis effizient berechnet werden kann Im Gegensatz zu imperativen Programmiersprachen, die genauen Ablauf der Berechnung festlegen Geschichte Entwickelt in den 1970ern bei IBM Erfolgreiche Standardisierung seit 1986 SQL-92 umfaßt relationalen Sprachkern und wird von vielen RDBMS vollständig unterstützt Aktuelle Version SQL:2008 umfaßt zahlreiche Erweiterungen (Objektorientierung, XML, Multimedia, etc.) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 25

Relationale Datenbanksysteme Teile von SQL Anfragesprache (SQL-Kern): lesende Zugriffe durch Umsetzung der relationalen Operationen zum Auswahl von Zeilen, Spalten sowie Verbund und Mengenoperationen auf Tabellen + SQL-spezifische Erweiterungen (z.b. Sortierung, Gruppierung, etc.) Data Manipulation Language (DML): Erzeugen, Ändern und Löschen von Datensätzen in Tabellen Data Definition Language (DDL): Erzeugen, Ändern und Löschen von Tabellen sowie Indexen (Baum- oder Hash-Datenstrukturen für Zugriffsbeschleunigung) und Sichten (aus Anfragen definierte virtuelle Tabellen) Weitere Teile: Zugriffsrechte (Data Control Language) Transaktionen zur Steuerung der Ablaufkonsistenz Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 26

Relationale Datenbanksysteme Überblick SQL Im folgenden Teile von SQL erklärt entsprechend Reihenfolge der Nutzung entspricht nicht unbedingt Bedeutung 1 Erzeugung von Tabellen DDL Einmalig genutzt beim Erstellen der Datenbank 2 Einfügen von Daten DML Erzeugung und Modifikation in meisten Anwendungen seltener als... 3 Lesen der Daten Anfragesprache meist sehr oft angewandt Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 27

Relationale Datenbanksysteme SQL DDL: Operationen für Tabellen Erzeugen einer Tabelle CREATE TABLE student ( matrnr CHAR(6) PRIMARY KEY, name VARCHAR(50) NOT NULL, vorname VARCHAR(50)NOT NULL, geburt DATE, sgid CHAR(5) ); Ändern einer Tabelle: Hinzufügen/Löschen/Ändern von Spalten, Constraints, etc. ALTER TABLE student (ADD DROP MODIFY CHANGE)...; Löschen einer Tabelle DROP TABLE student; Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 28

Relationale Datenbanksysteme SQL DDL: Basisdatentypen laut SQL Standard Ganzzahlige Datentypen:smallint,int bzw.integer, bigint Festkommazahlen (garantierte Genauigkeit der Nachkommastellen):numeric (n, m) bzw.decimal (n, m) Gleitkommazahlen:float (m),real,double Zeichenkettencharacter (n) bzw.char (n),varchar (n) bzw.character varying (n) Zeiten und Datumsangaben:date,time,timestamp Logische Werte:boolean Große Binär- oder Textdatenblob (n) bzw.binary large object (n),clob Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 29

SQL DDL: Indexe und Sichten Relationale Datenbanksysteme Erzeugen einer logischen Sicht (virtuelle Tabelle) durch Anfrage ( ) CREATE VIEW alte_studenten AS SELECT * FROM student WHERE geburt < 1980-01-01 ; Sicht kann (mit Einschränkungen bzgl. Änderungen) wie eine normale Tabelle genutzt werden Daten werden aber nicht erneut (redundant) abgespeichert Erzeugen eines Index CREATE INDEX studenten_name ON student (name); Erzeugt eine Indexdatenstruktur in den meisten DBMS einen B-Baum welche eine schnelle Suche nach Datensätzen mit der angegebenen Spalte als Suchkriterium, z.b. bei SELECT * FROM student WHERE name = Müller ; System erkennt automatisch, dass hier der Index verwendet werden kann Ändern und Löschen von Indexen überalter unddrop Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 30

Relationale Datenbanksysteme SQL DML: Daten Einfügen, Ändern, Löschen Gebräuchlichste Form desinsert-statements zum Einfügen von Zeilen INSERT INTO student VALUES ( 174551, Müller, Eva, 1982-09-05, MB ); Ändern und Löschen von Zeilen basiert auf Angabe einer Bedingung inwhere-klausel (siehe Anfragesprache ), welche Zeilen davon betroffen sein sollen UPDATE student SET name = Meier WHERE matrnr = 174551 ; DELETE FROM student WHERE matrnr = 173212 ; Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 31

Relationale Datenbanksysteme SQL Anfragesprache Grundaufbau durch SFW-Block SELECT <Projektion auf Ausgabespalten> FROM <Eingabetabellen ggf. mit Verbund> WHERE <Selektionsbedingungen>; SELECT undfrom müssen angegeben werden WHERE ist optional aber meist verwendet Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 32

SQL Anfragesprache: Projektion Relationale Datenbanksysteme Projektion ist die Auswahl von in der Ergebnisrelation enthaltenen Spalten (Auswahl aus Eingaberelation) In SQL umgesetzt in derselect Klausel: Erfordert Angabe der Spaltennamen Erlaubt auch Umbenennung durchas, z.b. SELECT name AS nachname...; Erlaubt im Zusammenhang mit Gruppierung ( ) auch Aufruf von Aggregatfunktionen zur Berechnung von einem einzelnen Spaltenwert aus ggf. vielen Gruppenwerten (z.b. Mittelwert, Anzahl, Summe, Minimum, Maximum,...) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 33

Relationale Datenbanksysteme SQL Anfragesprache: Projektion Beispiel SELECT name, vorname FROM student; Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 34

Relationale Datenbanksysteme SQL Anfragesprache: Projektion mit Duplikateliminierung SELECT DISTINCT name, vorname FROM student; Eliminierung von Duplikaten passiert (im Gegensatz zur Theorie der relationalen Algebra) in SQL nicht automatisch Erfordert Angabe des SchlüsselwortsDISTINCT Vorsicht: Duplikateliminierung ggf. sehr aufwändige Operation, da u.u. Sortierung oder Erstellung einer Hash-Tabelle notwendig ist Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 35

Relationale Datenbanksysteme SQL Anfragesprache: Selektion Selektion ist die Auswahl von Zeilen der Eingabetabelle für die Ergebnistabelle In SQL durch die WHERE-Klausel umgesetzt Selektion hat als Parameter eine Bedingung, welche das Auswahlkriterium umfaßt Prädikate sind einfache (atomare) Bedingungen, zum Beispiel name = Müller kontostand > 0 student.sgid = studiengang.sgid immadatum < exmadatum Komplexe Bedingungen können durch logische OperatorenAND, OR,NOT (Negation) etc. sowie Klammerung gebildet werden Auch existenz- und allquantifizierte geschachtelte Anfragen als Prädikate möglich (hier nicht behandelt) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 36

Relationale Datenbanksysteme SQL Anfragesprache: Selektion Beispiel SELECT * FROM student WHERE name = Müller OR name = Schulze Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 37

Relationale Datenbanksysteme SQL Anfragesprache: Selektionsprädikate SELECT * FROM student WHERE name LIKE S% ; SQL beinhaltet zahlreiche spezielle Prädikate, als Operatoren oder Funktionen Hier: häufig verwendete Textähnlichkeit durch Wildcard-Muster mitlike (% als Auslassung einer Zeichenfolge beliebiger Länge, _ als Auslassung eines einzelnen Zeichens) Im Beispiel: alle Studenten, deren Nachname mit S beginnt Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 38

Relationale Datenbanksysteme SQL Anfragesprache: Verbund Verbund (engl. Join) macht aus Zeilen zweier (oder mehrerer) Eingabetabellen eine Zeile der Ergebnistabelle Sehr wichtige Operation, da wegen einfacher Struktur des relationalen Datemodells zusammengehörige Daten meist über mehrere Tabellen verteilt abgespeichert werden müssen (z.b. durch Normalisierung, s.u.) Zahlreiche spezielle Verbundoperationen in SQL durch verschiedenen Syntax unterstützt Einfachste und gebräuchlichste Form des Verbundes in SQL: Angabe der zu verbindenden Tabellen in derfrom-klausel (kommasepariert) Angabe einer Verbundbedingung (z.b. Primärschlüssel = Fremdschlüssel) in derwhere-klausel Wichtige Alternativen: Natural Join und Kartesisches Produkt (s.u.) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 39

Relationale Datenbanksysteme SQL Anfragesprache: Verbund Eingabe Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 40

Relationale Datenbanksysteme SQL Anfragesprache: Verbund Ausgabe SELECT s.name, s.vorname, sg.bezeichnung AS studiengang FROM student s, studiengang sg WHERE s.sgid = sg.sgid; Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 41

Relationale Datenbanksysteme SQL Anfragesprache: Weitere Verbundoperationen Gleiches Ergebnis alternativ übernatural JOIN möglich SELECT name, vorname, bezeichnung AS studiengang FROM student NATURAL JOIN studiengang; Kann direkt in derfrom-klausel angegeben werden Funktioniert nur, wenn namensgleiche Spalten in beiden Tabellen existieren Für diese Spalten werden Zeilen mit gleichen Spaltenwerten verbunden Was passiert, wenn keine Verbundbedingung angegeben wird? Berechnung des kartesischen Produkts (Kreuzprodukt) Jede Zeile der einen Eingabetabelle wird mit jeder Zeile der anderen Eingabetabelle verbunden (alle möglichen Kombinationen) Vorsicht: Ergebnis kann u.u. sehr groß sein Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 42

Relationale Datenbanksysteme SQL Anfragesprache: Kartesisches Produkt T1 T2 SELECT * FROM t1,t2; Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 43

Relationale Datenbanksysteme SQL Anfragesprache: Gruppierung SELECT sgid, COUNT(*) AS anzahl FROM student GROUP BY sgid; Gruppierung fasst Zeilen mit gleichen Werten für Gruppierungsspalten zu einer Zeile zusammen Spalten, die nicht Gruppierungsspalten sind, und somit keine gleichen Werte haben, können mit Aggregatfunktionen zusammengefaßt werden, z.b COUNT() - Anzahl von Werten SUM() - Summe der Werte AVG() - Mittelwert MIN() - Minimum MAX() - Maximum Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 44

Relationale Datenbanksysteme SQL Anfragesprache: Sortierung SELECT * FROM student ORDER BY matrnr ASC; Angabe eines Sortierkriteriums für die Ergebnistabelle bestehend aus Spalte(n) und ReihenfolgeASC (ascending = aufsteigend, default) oder DESC (descending = absteigend) Reihenfolge der Zeilen in der Ergebnistabelle erhält damit konkrete Bedeutung Tabelle entspricht dann Datentyp Liste, ohne Sortierung Multimenge Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 45

Relationale Datenbanksysteme SQL Anfragesprache: Mengenoperationen SELECT * FROM t1 UNION SELECT * FROM t2; MengenoperationenUNION (Vereinigung),INTERSECT (Schnittmenge) undexcept (Mengendifferenz) Erwartet für Eingabetabellen kompatible Schemata (gleiche Spaltenanzahl mit kompatiblen Datentypen) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 46

Zusammenfassung: RDBMS Relationale Datenbanksysteme Relationales Datenmodell heute Standard im Bereich Datenbanken Darstellung von Daten in Form von Tabellen mit festgelegter Struktur Zeilen repräsentieren Datenobjekte Spalten legen Wertebereiche für einzelne Eigenschaften fest Komplexere Beziehungen durch Schlüsselbeziehungen über verschiedene Tabellen hinweg dargestellt SQL als deklarative Anfragesprache für RDBMS SELECT... FROM... WHERE-Block für lesende Zugriffe INSERT,UPDATE unddelete zur Modifikation von Daten (DML) CREATE,ALTER unddrop zur Veränderung der Schemata (Tabellendefinitionen) (DDL) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 47

Entwurf von Datenbanken Entwurf von Datenbanken Bisher: was sind Datenbanken? Wie funktionieren sie? Im Folgenden: wie entwickle ich eine Datenbank? Was ist eine gute Datenbank? Der Datenbankentwurfsprozess Das Entity Relationship (ER) Modell Abbildung von ER-Diagrammen auf Relationenschemata Normalformen als Qualitätskriterien Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 48

Entwurf von Datenbanken Der Datenbankentwurfsprozess Datenbankentwurfsprozess beschreibt systematische Vorgehensweise zur Entwicklung einer Datenbanklösung: Ausgehend von Anforderungen an zu entwickelnde Lösung über eine schrittweise Verfeinerung des Entwurfs bis hin zur Implementierung und zum Einsatz der Lösung Angelehnt an Software-Entwicklungsprozess ( ) zur Entwicklung allgemeiner Software-Lösungen Unabhängig von konkretem Anwendungsszenario Im folgenden: Entwurf relationaler Datenbanken Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 49

Entwurf von Datenbanken Phasen des Datenbankentwurfsprozesses Anforderungsanalyse Dokumentatation Konzeptueller Entwurf Konzeptuelles Schema z.b. Entity Relationship Diagramm Logischer Entwurf Logisches Schema = Tabellen- und Spaltendefinition Datendefintion und Implementierung Datenbank Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 50

Entwurf von Datenbanken Phasen des Datenbankentwurfs /1 Anforderungsanalyse: Sammlung von Anforderungen, die zu entwickelndes Datenbanksystem beschreiben Z.B. Informationsbedarf zukünftiger Anwender, zu unterstützende Abläufe, etc. Ergebnis: informell festgehaltene Dokumentation der Anforderungen Konzeptueller Entwurf: Entwicklung eines implementierungsunabhängigen (abstrakt, high-level) Datenbankschemas Erste Strukturierung für Anwendungsdaten Dient der schrittweisen Verfeinerung des Entwurfs sowie der Diskussion verschiedener Entwickler untereinander und mit Anwendern Ergebnis: konzeptuelles Schema, z.b. als Entity Relationship Diagramm Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 51

Entwurf von Datenbanken Phasen des Datenbankentwurfs /2 Verteilungsentwurf (optional): nur für verteilte Systeme Festlegung des Speicherorts der Daten im Netz Prinzipiell unabhängig vom Implementierungsmodell (nächster Schritt) Erfolgt meist aber als Teil des physischen Entwurfs Ergebnis: Verteilungsschema Logischer Entwurf: Überführung in relationales Datenmodell für Implementierung sowie Erfüllung von Qualitätskriterien (Normalformen) durch Normalisierung Entwurf geeigneter Tabellenstrukturen zur Darstellung der Anwendungsdaten Qualitätskriterium: Strukturen vermeiden Abspeicherung widersprüchlicher Daten Ergebnis: logisches Schema Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 52

Entwurf von Datenbanken Phasen des Datenbankentwurfs /3 Physischer Entwurf: ermöglicht Beeinflussung interner Speicherstrukturen zu Zwecken der Performance Optimierung Festlegen von Indextsrukturen (Hash-Tabellen, B-Bäume) für Zugriffspfade Weitere Mittel: materialisierte Sichten (Vorberechnung) sowie Partitionierung (Teile und Herrsche) Datendefinition und Implementierung: Erstellen enstprechender DDL-Statements und deren Ausführung Erzeugung von Tabellen, Sichten und Indexstrukturen Ergebnis: (leere) Datenbank Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 53

Entwurf von Datenbanken Das Enity Relationship (ER) Modell Standard für die konzeptuelle Modellierung von Datenbankschemata Ziel: Darstellung der Inhalte und Bedeutung (auch semantische Modellierung) Was wird durch das Schema dargestellt (welche Daten)? Nicht: wie werden die Daten dargestellt (Implementierung)? Dient der Diskussion (Entwickler und Anwender) und Verfeinerung der Schemata Deshalb möglichst einfache Modellierungskonstrukte: Gegenstände (Entities), deren Beziehungen untereinander (Relationships) und Eigenschaften (Attributes) Eigentliche Modellierung auf Typebene: Gegenstände mit gleichen Eigenschaften und Beziehungen werden zu einem Entity Type zusammgefaßt (analog Relationship Types) Begriffe Entity und Relationship werden meist verkürzend für Entity Types bzw. Relationship Types verwendet Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 54

ER Modell: Einführendes Beispiel Entwurf von Datenbanken Student besucht Vorlesung MatrNr Name Vorname Semester ID Bezeichnung Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 55

Entwurf von Datenbanken ER Modell: Grundlegende Grafische Notation Entity (Type): Rechteck mit Typbezeichner Relationship (Type): Raute mit Typbezeichner Attribut: abgerundete Box oder Ellipse mit Attributbezeichner, Schlüssel mit Unterstreichung Zahlreiche abweichende grafische Darstellungen in verwandten Ansätzen und Entwicklungs-Tools mit gleicher oder ähnlicher Beduetung sowie ggf. Erweiterungen Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 56

Entwurf von Datenbanken ER Modell: Kardinalitäten Kardinalitäten geben numerische Grenzen an, wie Objekte verschiedener Typen miteinander in Beziehung stehen können Beispiele: Ein Student kann beliebig viele Vorlesungen besuchen Eine Vorlesung kann (je nach Kapazität des Hörsaals) von vielen Studenten besucht werden Eine Vorlesung wird von genau einem Dozenten angeboten Eine Person kann mit maximal einer anderen Person verheiratet sein (optional) Jede Person hat genau eine Mutter und genau einen Vater Von entscheidender Bedeutung bei Überführung in das Relationenmodell Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 57

Entwurf von Datenbanken ER Modell: Kardinalitäten 1:N [1,1] [1,*] Dozent hält Vorlesung ist äquivalent zu: 1 * Dozent hält Vorlesung 1:N-Beziehung: ein Objekt darf mit beliebig vielen eines anderen Typs in Beziehung stehen, aber eindeutige Zuordnung in die andere Richtung Min/Max-Notation: Angabe der minimimalen und maximalen Anzahl, in der das Objekt in Beziehung stehen kann Abkürzende Schreibweise verwendet nur Obergrenze (Optionalität mit Untergrenze 0 so aber schlecht abbildbar) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 58

Entwurf von Datenbanken ER Modell: Kardinalitäten N:M Student besucht Vorlesung ist äquivalent zu: * * Student besucht Vorlesung N:M-Beziehungen (Objekte beider beteiligter Typen können beliebig oft in Beziehung stehen) sind bei keiner Angabe von Kardinalität der angenommene Standardfall Oft auch auch N und M als Notation für Kardinalitäten verwendet Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 59

Entwurf von Datenbanken ER Modell: Optionale Beziehungen [0,1] verheiratet Person [0,1] Beispiel für eine optionale Beziehung Außerdem selbst-bezüglich auf Typ-Ebene: auch Objekte des selben Typs können in Beziehungen zueinander stehen Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 60

ER Modell: Weitere Konstrukte Entwurf von Datenbanken Dozent Vorlesung Gebäude hält hat Raum Raum Mehrstellige Beziehungstypen Schwache (existentiell abhängige) Entitätstypen Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 61

Entwurf von Datenbanken Abbildung von ER-Diagrammen auf Relationenschemata ER Modell ist prinzipiell unabhängig vom Implementierungsmodell In der Praxis meist eingesetzt als Entwurfsmittel für relationale Datenbanken Überführung von ER Diagrammen auf Relationenschemata geschieht nach einfachen Regeln Im folgenden illustriert an folgendem einfachen Beispiel: Artikel * * * 1 in Bestellung von Kunde ArtikelNr BestellNr KundenNr Bezeichnung Anzahl Rabat Name Preis Datum Anschrift Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 62

Entwurf von Datenbanken Abbildung von ER-Diagrammen: Entities Artikel ArtikelNr Bezeichnung Preis Artikel Alle Entities werden auf separate Tabellen abgebildet Attribute werden Spalten, konkrete Datentypen müssen festgelegt werden Schlüsselattribute werden Schlüssel der Tabelle Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 63

Entwurf von Datenbanken Abbildung von ER-Diagrammen: N:M-Beziehungen Artikel * * in Bestellung ArtikelNr Bezeichnung Preis Anzahl BestellNr Rabat Datum Artikel Bestellung ArtikelBestellung Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 64

Entwurf von Datenbanken Abbildung von ER-Diagrammen: N:M-Beziehungen /2 N:M-Beziehungen müssen generell auf separate Tabellen abgebildet werden Schlüssel der Beziehungstabelle bildet sich aus zusammengesetzten Schlüsseln der in Beziehung stehen Entity-Tabellen Teilschlüssel dienen als Fremdschlüssel auf Entity-Tabellen Attribute der Beziehung werden Spalten der Beziehungstabelle Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 65

Entwurf von Datenbanken Abbildung von ER-Diagrammen: 1:N-Beziehungen Bestellung * 1 von Kunde BestellNr Rabat Datum Bestellung Kunde KundenNr Name Anschrift Bei 1:N-Beziehungen Verschmelzung der Beziehungstabelle mit der Entity-Tabelle der N-Kardinalität möglich Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 66

Entwurf von Datenbanken Abbildung von ER-Diagrammen: Optionale Beziehungen Optionale Beziehungen, egal ob N:M, 1:N oder 1:1, sollten als separate Tabelle umgesetzt werden Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 67

Entwurf von Datenbanken Schemakonsistenz Ergebnis der Überführung ist relationales Datenbankschema Zweiter Teilschritt des logischen Entwurfs umfaßt Sicherstellung der Schemakonsistenz Allgemein drei wichtige Kriterien der Konsistenz (Widerspruchsfreiheit) für Schemata und Daten Modellkonsistenz: reale Informationen können im Schema korrekt dargestellt werden muss durch konzeptuellen Entwurf und korrekte Überführung in Relationenmodell sichergestellt werden Semantische Konsistenz: die gespeicherten Daten sind korrekt (stehen nicht im Widerspruch zur Wirklichkeit) kann durch Integritätsbedingungen und Anwendungslogik unterstützt werden, letzten Endes aber Verantwortlichkeit der Anwender Schemakonsistenz: Daten müssen untereinander widerspruchsfrei sein Sicherstellung durch Vermeidung mehrfacher Abspeicherung von Informationen (Redundanz) Normalformen als Qualitätskriterium Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 68

Entwurf von Datenbanken Redundanz und Inkonsistenzen Mehrfache Speicherung der selben Realweltfakten (Redundanz) ermöglicht Dateninkonsistenzen Erkennbar an Abhängigkeiten zwischen Attributwerten Sollen durch Normalisierung vermieden werden Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 69

Entwurf von Datenbanken Funktionale Abhängikeiten Funktionale Abhängikeiten in einer Tabelle liegen vor, wenn Werte einer Spalte (oder einer Gruppe von Spalten) einen eindeutigen Schluss auf die Werte einer anderen (Gruppe von) Spalte(n) zulassen Funktional, weil... eindeutige Werteabbildung entspricht mathematischem Konzept der Funktion: für einen Eingabewert ist nur ein Ergebniswert möglich (Eindeutigkeit) Beispiele: Die Postleitzahl bestimmt eindeutig den Ort Die Matrikelnummer (Schlüssel) bestimmt alle weiteren Eigenschaften eines Studenten Vorwahl und Telefonnummer bestimmen eindeutig alle Eigenschaften des Anschlusses Semester, Termin und Raum bestimmen eindeutig Vorlesungstitel und Dozenten Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 70

Entwurf von Datenbanken Normalformen Ziel der Normalisierung: alle Spalten einer Tabelle sollen nur vom vollständigen Schlüssel abhängen, d.h. dadurch bestimmt sein (3. Normalform) Erreichen von Normalformen z.b. durch schrittweises Zerlegen Wichtigste Normalformen: 1. Normalform: nur atomare Werte in jeder Spalte 2. Normalform: keine funktionalen Abhängigkeiten von einem Teil des Schlüssels 3. Normalform: keine funktionalen Abhängigkeiten zwischen Nicht-Schlüsselattributen Zahlreiche weitere Normalformen existieren Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 71

Entwurf von Datenbanken 1. Normalform: Problem 1. Normalform: nur atomare Werte in jeder Spalte (grundlegende Anforderung im Relationenmodell) Problem: mengen- oder listenwertige Spalten Eigentlich kein Problem bzgl. Redundanz, aber Voraussetzung für weitere Normalformen Erleichtert Lesen und Modifikation von Daten Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 72

Entwurf von Datenbanken 1. Normalform: Lösung Abspalten einer separaten Tabelle mit folgenden Spalten: Schlüssel der Ursprungstabelle Spalte für einzelne Einträge der Menge Schlüssel der neuen Tabelle sind beide Spalten gemeinsam Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 73

Entwurf von Datenbanken 2. Normalform: Problem 2. Normalform: 1. Normalform + keine funktionalen Abhängigkeiten von nur einem Teil des Schlüssels Problem: mögliche Redundanzen durch sich oft wiederholende Wertepaare Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 74

Entwurf von Datenbanken 2. Normalform: Lösung Abspalten einer separaten Tabelle mit folgenden Spalten: Teilschlüssel der Ursprungstabelle, von welchem andere Spalte(n) abhängig Alle vom Teilschlüssel abhängig Spalten Abhängige Spalten werden aus der Originaltabelle entfernt Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 75

Entwurf von Datenbanken 3. Normalform: Problem 3. Normalform: 2. Normalform + keine funktionalen Abhängigkeiten zwischen Nicht-Schlüsselattributen Problem: mögliche Redundanzen durch sich oft wiederholende Wertepaare Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 76

3. Normalform: Lösung Datenbanken Entwurf von Datenbanken Abspalten einer separaten Tabelle mit folgenden Spalten: Bestimmende Spalte(n) als Schlüssel Alle davon abhängigen Spalten Abhängige Spalten werden aus der Originaltabelle entfernt Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 77

Entwurf von Datenbanken Normalformen in der Praxis Praktisch relevant zur Vermeidung von Inkonsistenzen Aber: Zerlegung von Tabellen führt zu höherem Aufwand bei der Anfragebearbeitung durch mehr Verbundoperationen Deshalb oft Abstriche von Normalformen kontrollierte Redundanz Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 78

Entwurf von Datenbanken Zusammenfassung: DB-Entwurf Entwurfsprozess für Datenbanken angelehnt an allgemeine Entwurfsprozesse: Analyse des Problems, schrittweise Verfeinerung der Lösung bis hin zur Implementierung ER-Modell als implementierungsunabhängige Modellierungsmethode für Datenbankschemata Überführung in das Relationenmodell entsprechend festen Regeln Normalformen als Qualitätskriterien für Tabellen Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 79

DB-Anwendungsprogrammierung DB-Anwendungsprogrammierung Hauptaufgabe: Abbildung der unterschiedlichen Datenmodelle und Zugriffsparadigmen zwischen Programmiersprache und dem DBMS, z.b. C++ Basisdatentypen und flexible Typkonstruktoren wie Strukturen und Klassen Basisdatentypen entsprechend C++ Standard Imperative Programmiersprache (wie wird das Ergebnis berechnet) SQL Tabellen (Multimengen/Listen) von Zeilen mit Attributwerten von Basisdatentypen Plattform- und Programmiersprachen unabhängige Basisdatentypen Deklarative Anfragesprache (was soll das Ergebnis sein) Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 80

DB-Anwendungsprogrammierung Aufgaben von Programmierschnittstellen Kapselung der Datenbankfunktionalität durch geeignete Funktionen/Strukturen/Klassen für Verbindung zum DBMS Zugriff auf konkrete Datenbank Absetzen von Anfragen... Zugriff auf Ergebnisse Geeignete Datenstrukturen für mengenwertige Anfrageergebnisse Zugriff über imperative Programmiersprache Cursor- oder Iterator-Konzept zum zeilenweisen Auslesen der Ergebnisse Zugriff auf Metadaten (Beschreibung von Tabellen und Anfrageergebnissen, z.b. welche Spalten hat das gerade übertragene Ergebnis) Umgesetzt als Bibliotheken, die auf Treiber (optional) und Protokoll zur Kommunikation mit DBMS Server abbilden Anwendung Schnittstelle Treiber DBMS DB Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 81 Client Server

Programmierschnittstellen DB-Anwendungsprogrammierung engl. Application Programming Interface (API) Zahlreiche verschiedene Schnittstellen existieren Unterscheidung nach verschiedenen Kriterien möglich Abstraktionsstufe: Low-level (Absetzen von Anfragen, generische Ergebnistypen) bis High-level (z.b. definierte/definierbare Abbildung auf Anwendungsobjekte) Abhängigkeit oder Unabhängigkeit von Programmiersprache Hardware-/Betriebssystemplattform konkretem DBMS Im folgenden 2 Beispiele: ODBC und proprietäre MySQL Anbindung Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 82

ODBC Datenbanken DB-Anwendungsprogrammierung Open Database Connectivity Low-level: Aufbau von Verbindungen, Absetzen von Anfragen, Lesen generischer Ergebnisse) Unabhängig von Programmiersprache: Schnittstelle bestehend aus Funktionen mit Handles (Strukturen) zur Verwaltung der Zustandsinformationen Unabhängig von Hardware und Betriebssystem: ursprünglich Umsetzung des CLI-Standards (Call Level Interface) für Microsoft Windows, mittlerweile aber auf vielen Plattformen Unabhängig vom verwendeten DBMS: Treiber für fast alle kommerziellen DBMS verfügbar Extrem flexibel, dafür aber nicht sehr einfach in der Handhabung siehe folgendes Beispielprogramm zum Auslesen der Tabelle Studenten Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 83

DB-Anwendungsprogrammierung ODBC Beispiel Aufbau einer Datenbankverbindung und komplettes Lesen der Student-Tabelle Code auf der Web-Seite zur Vorlesung Übersetzung und Ausführung des Beispiels erfordern Installiertes MySQL DBMS Beispieldatenbank entsprechend Script auf Web-Seite zur Vorlesung Installierten MySQL ODBC Treiber Konfiguration der MySQL Datenbank als ODBC-Quelle Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 84

ODBC Beispiel /1 Datenbanken DB-Anwendungsprogrammierung #include <windows.h> #include <sql.h> #include <sqlext.h> #include <sqltypes.h> #include <iostream> using namespace std; int main() { SQLHENV sql_henv = 0; SQLHDBC sql_hdbc = 0; SQLHSTMT sql_hstmt = 0; SQLSMALLINT nsize = 0; SQLRETURN sqlret;... Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 85

ODBC Beispiel /2 Datenbanken DB-Anwendungsprogrammierung... SQLAllocHandle( SQL_HANDLE_ENV, SQL_NULL_HANDLE, &sql_henv ); SQLSetEnvAttr( sql_henv, SQL_ATTR_ODBC_VERSION, (void*) SQL_OV_ODBC3, 0 ); SQLAllocHandle(SQL_HANDLE_DBC, sql_henv, &sql_hdbc ); sqlret = SQLConnect( sql_hdbc, (SQLCHAR*) gif, SQL_NTS, (SQLCHAR*), SQL_NTS, (SQLCHAR*), SQL_NTS );... Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 86

ODBC Beispiel /3 Datenbanken DB-Anwendungsprogrammierung... if (SQL_SUCCEEDED(sqlRet)) { sqlret = SQLAllocHandle( SQL_HANDLE_STMT, sql_hdbc, &sql_hstmt ); sqlret = SQLExecDirect( sql_hstmt, (SQLCHAR*) SELECT * FROM gif.student;, SQL_NTS ); SQLSMALLINT ncols = 0; SQLINTEGER nrows = 0; SQLINTEGER nidicator = 0; SQLCHAR buf[1024] = {0}; SQLNumResultCols( sql_hstmt, &ncols ); SQLRowCount( sql_hstmt, &nrows );... Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 87

ODBC Beispiel /4 Datenbanken DB-Anwendungsprogrammierung... while(sql_succeeded(sqlret = SQLFetch(sql_hStmt))) { cout << Student: ; for (int i=1; i <= ncols; ++i ) { sqlret = SQLGetData( sql_hstmt, i, SQL_C_CHAR, buf, 1024, &nidicator ); if (SQL_SUCCEEDED( sqlret )) { cout << buf; } if (i==ncols) cout << endl; else cout <<, ; } }... Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 88

ODBC Beispiel /5 Datenbanken DB-Anwendungsprogrammierung }... SQLFreeHandle( SQL_HANDLE_STMT, sql_hstmt ); SQLDisconnect( sql_hdbc ); } else { cout << Fehler bei der Verbindung zur Datenbank! << endl; } SQLFreeHandle( SQL_HANDLE_DBC, sql_hdbc ); SQLFreeHandle( SQL_HANDLE_ENV, sql_henv ); return 0; Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 89

DB-Anwendungsprogrammierung MySQL Connector/C++ Proprietäre Schnittstelle für MySQL DBMS Low-level Nur für C++: objektorientierte Schnittstelle mit Klassen und Methoden, aber angelehnt an JDBC (Industriestandard für Datenbankzugriffe in Programmiersprache Java) und ähnliche zu MySQL Connector-Implementierungen für andere Programmiersprachen Unabhängig von Hardware und Betriebssystem: Bibliothek für zahlreiche Plattformen verfügbar Abhängig vom verwendeten DBMS: funktioniert nur mit MySQL Vergleichsweise einfache und intuitive Nutzung Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 90

DB-Anwendungsprogrammierung MySQL Beispiel Aufbau einer Datenbankverbindung und Lesen von 2 Spalten der Student-Tabelle Code auf der Web-Seite zur Vorlesung Übersetzung und Ausführung des Beispiels erfordern Installiertes MySQL DBMS Beispieldatenbank entsprechend Script auf Web-Seite zur Vorlesung Installierten MySQL Connector/C++ Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 91

MySQL Beispiel /1 Datenbanken DB-Anwendungsprogrammierung #include <stdlib.h> #include <iostream> #include mysql_connection.h #include <cppconn/driver.h> #include <cppconn/exception.h> #include <cppconn/resultset.h> #include <cppconn/statement.h> using namespace std; int main() { try { sql::driver *driver; sql::connection *con; sql::statement *stmt; sql::resultset *res;... Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 92

MySQL Beispiel /2 Datenbanken DB-Anwendungsprogrammierung... driver = get_driver_instance(); con = driver->connect(,, ); con->setschema( gif ); stmt = con->createstatement(); res = stmt->executequery( SELECT * FROM student ); while (res->next()) { cout << res->getstring( name ) <<, ; cout << res->getstring( vorname ) << endl; }... Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 93

MySQL Beispiel /3 Datenbanken DB-Anwendungsprogrammierung... delete res; delete stmt; delete con; } catch (sql::sqlexception &e) { cout << ERROR: << e.what(); cout << MySQL error code: << e.geterrorcode() << endl; } } cout << endl; return 0; Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 94

Transaktionen Datenbanken DB-Anwendungsprogrammierung Transaktion: Folgen von Datenbankoperationen, die für die Ausführung als logische Einheit betrachtet werden Transaktion: Überweisung(X, Y, Betrag) Checke Konto X: SELECT... X = X - Betrag: UPDATE... Checke Konto Y: SELECT... Y = Y + Betrag: UPDATE... Erfolgreich beendet: Commit Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 95

ACID-Eigenschaften Datenbanken DB-Anwendungsprogrammierung Transaktion müssen dem ACID-Prinzip entsprechend vom DBMS ausgegeführt werden: Atomicity (Atomarität): eine Transaktion muss als Einheit ausgeführt werden, d.h. entweder ganz oder gar nicht Consistency (Konsistenz): eine Transaktion muss die Datenbank immer von einem konsistenten Zustand in einen konsistenten Zustand überführen (auch wenn Zwischenzustände ggf. inkonsistent sein können) Isolation (Schutz bei Nebenläufigkeit): bei der zeitgleichen Ausführung von Transaktionen (z.b. durch mehrere Nutzer) dürfen in einer Transaktion keine Effekte paralleler, noch nicht abgeschlossener Transaktionen sichtbar sein Durability (Dauerhaftigkeit): wird eine Transaktion erfolgreich beendet, so kann der von ihr erzielte Effekt nicht nachträglich rückgängig gemacht werden Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 96

Beispiel: Problem Atomarität DB-Anwendungsprogrammierung TXN: Überweisung Checke Konto X X = X - Betrag Checke Konto Y: Fehler: Konto gesperrt ABBRUCH Beenden der Transaktion Zurücksetzen aller zuvor gemachten Änderungen Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 97

Beispiel: Problem Isolation DB-Anwendungsprogrammierung Parallele Ausführung zweier Transaktionen: TXN: Überweisung Checke Konto X X = X - Betrag TXN: Zinsen Lies Konto X Zinsen = X * Zinssatz X = X + Zinsen Inkonsistenter Zustand, der die Überweisung des Betrages überschreibt, muss durch DBMS vermieden werden Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 98

DB-Anwendungsprogrammierung Umsetzung in SQL oder Programmiersprachen Möglichkeiten zum Start einer Transaktion SQL:START TRANSACTION Impliziter Transaktionsbeginn: spezieller Modus in vielen DBMS, der bei erstem Datenzugriff eine Transaktion beginnt, wleche bis zu explizitem Beenden (s.u.) läuft Transaktion pro Statement: spezieller Modus in vielen DBMS, der für jedes Statement (Anfrage, Update, etc.) eine einzelne Transaktion startet Erfolgreiches Beenden einer Transaktion SQL:COMMIT Abbruch einer Transaktion (mit Rücksetzen aller bisherigen Ergebnisse: SQL:ROLLBACK Programmierschnittstellen bieten oft eigene Schnittstellen (Funktionen, Transaktionsklassen) zur Steuerung von Transaktionen Eike Schallehn Grundlagen der Informatik für Ingenieure 2009/2010 8 99