Erhalt der Privatsphäre beim Data Mining

Größe: px
Ab Seite anzeigen:

Download "Erhalt der Privatsphäre beim Data Mining"

Transkript

1 Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit in modernen Informationssystemen Erhalt der beim Ulrich Graf Betreuer: Frank Eichinger Institut für Programmstrukturen und Datenorganisation (IPD) Universität Karlsruhe (TH)

2 gewinnt immer mehr an Bedeutung: Analysen auf Kundendaten (z.b. Payback), Datensammlung im Internet, Sorge um Gefährdung der beim Mining naturgemäß besonders hoch Gründe auch für Entwicklerinteresse: Kundenbindung durch Vertrauen Schlechte Miningergebnisse durch falsche Kundenangaben 2

3 Agenda Übersicht Gefährdungsszenarien Klassifizierung von anhand verschiedener Beispielalgorithmen Ausblick und Zusammenfassung 3

4 We re drowning in information and starving for knowledge. = Knowledge Mining: Finden von interessanten Mustern in großen Datenbeständen 4

5 Techniken Clusteranalyse: gruppiere ähnliche Datensätze, z.b. Kunden mit ähnlichem Musikgeschmack Assoziationsregeln, z.b. Warenkorbanalyse: Wenn Kunde Käse und Wurst kauft, kauft er mit hoher Wahrscheinlichkeit auch Brot. 5

6 Techniken Klassifikation: benutze Merkmale, um Datentupel in Klasse einzuteilen, z.b. Risikoanalyse Entscheidungsbaum, Neuronale Netze hoch A < 0.5 niedrig A >= 0.5 niedrig hoch 6

7 - Entscheidungsbaum 7 Aufbau des Baums mit Trainingsdaten Binärbaum wird von der Wurzel ausgehend rekursiv aufgebaut: Falls Split notwendig: Ermittle Attribut A, das die Daten optimal nach Klassen trennt Bilde Partitionen P, P, wiederhole Algorithmus für beide Partitionen Vermeidung von Überanpassung des Modells an Trainingsdaten: Pruning A < 0.5 Zusammenfassen von Blättern mit wenigen Datensätzen A >= 0.5 P P

8 Was ist? 8 Unterschiedliche Definitionen: Individual's right to be let alone (1890) Das aktive Recht, darüber zu bestimmen, welche Daten über sich [...] von anderen gebraucht werden und welche Daten auf einen selbst einwirken dürfen." (Kuhlen) Personal data []: any information relating to an identified or identifiable natural person [] (EG 1995) Schutz vor Missbrauch und Identifizierbarkeit muss angestrebt werden

9 Szenario Zentralisiertes Mining Schutz individueller Daten Missbrauch Data Mining Identifizierbarkeit A < 0.5 A >= 0.5 Modifikation hoch niedrig niedrig hoch Mining-Ergebnis 9

10 Szenario Verteiltes Mining Secure Multiparty Computation (SMC): mehrere Parteien möchten Mining gemeinsam durchführen, aber jede Partei will ihre Daten geheim halten A B A+B+C Mining A < 0.5 A >= C nicht sicher hoch niedrig niedrig hoch

11 Szenario Verteiltes Mining Vertrauenswürdiger Server nicht realistisch sicheres Protokoll für direkte Kommunikation unter den Parteien notwendig A Sicheres Protokoll B 11 C

12 für Vielzahl von verfügbar : Verteilung der Daten: zentralisiert, horizontal, vertikal zentralisiert horizontal verteilt vertikal verteilt DM DM DM 12 Datentupel Attribute

13 für 13 : Data-Mining-Ziel: Clusteranalyse, Klassifikation, Modifikation der Eingangsdaten: Rauschfunktionen Blockieren von Werten Vertauschen von 0- und 1-Werten Swapping Sampling Aggregation Grad verbleibender Funktionalität bzw.

14 für SMC 14 Jede polynomiell berechenbare Funktion kann sicher berechnet werden (Goldreich et al.) Beweis läuft über logische Gatter: Jede Partei besitzt eine Inputvariable Inputvariablen durch Zufallszahlen modifiziert Jede Partei berechnet ihre Outputvariable Zusammensetzen der Outputvariablen eliminiert die Zufallszahlen

15 SMC Beispiel Sichere Summe 15 Summation wichtig für Voraussetzung: Intervall [0,n) für die Summe bekannt (Addition in F n ). Jede der m Parteien besitzt Summand s i, i = 1,, m. Algorithmus: 1. Partei generiert Zufallszahl R aus [0,n) und leitet V = (R+s 1 ) mod n weiter an Partei 2. Partei i = 2,, n-1 berechnet V = (s i +V) mod n und leitet V weiter an Partei i+1. Partei n berechnet den gleichen Schritt und leitet das Ergebnis an Partei 1 weiter. Subtrahieren von R ergibt das Ergebnis.

16 SMC Sichere Summe n = 20 Im F 20: = 19 V = 12 s 1 = 5, R = 13 1 V = 18 s 4 = s 2 = 4 V = 10 V = s 3 = 8

17 SMC 17 Ähnliche für: Durchschnitt Vereinigung Skalarprodukt Berechnung der Inversen Matrix Annahme: alle Parteien stellen korrekte Inputdaten bereit Bei falschen Inputdaten wird gesamtes Ergebnis verfälscht, kein Vorteil für Datensaboteur Problem: für viele Attribute sehr aufwändig

18 Auf Datenmodifikation beruhende Data A < 0.5 A >= 0.5 Mining 18 Modifikation Herausforderungen: Mining-Ergebnis Modifikation muss sicherstellen Mining nicht möglich, ohne dass Information zu großem Teil in den Daten erhalten bleibt => Gegensätzliche Ziele, Kompromisse erforderlich hoch niedrig niedrig hoch

19 Datenmodifikation 19 Beobachtung: einzelne Werte oftmals nicht entscheidend für das Mining, sondern Verteilung der Werte Addition von Rauschfunktion zufällige Werte aus Gleichverteilung bzw. Gauß scher Verteilung Originaldaten geschützt, wenn Rauschfunktion und Originaldaten nicht unkorreliert Verteilung der Originaldaten iterativ annäherbar

20 Mining mit modifizierten Daten 20 Klassifikation mit Entscheidungsbaum Verschiedene Rekonstruktionsansätze: Global: Einmalige Rekonstruktion für jedes Attribut Nach Klassen: Trenne Daten für jedes Attribut nach den Klassen Rekonstruiere Verteilung Baue Entscheidungsbaum auf Lokal: Vorgehen wie nach Klassen getrennt Zusätzlich Rekonstruktion bei jedem Baumknoten Sehr akkurate Ergebnisse möglich: Abweichung normalerweise < 10% vom Mining-Ergebnis mit nicht modifizierten Daten Global zu ungenau, Lokal sehr aufwändig, Nach Klassen liefert fast so gute Ergebnisse wie Lokal => Nach Klassen guter Kompromiss

21 Bewertung von 21 Generelle Maßstäbe: Performanz Nutzbarkeit der Daten Grad der Robustheit von Modifikationen gegenüber anderen SMC: Sicher, aber sehr hoher Aufwand Ansätze weg von der beweisbaren Sicherheit zu mehr Performanz Datenmodifikation: Wenn Originaldaten und Rauschfunktion unkorreliert sind, kann Sicherheitslücke entstehen Bei erhältlichen guter Erhalt von und Performanz

22 Zusammenfassung / Ausblick nicht mehr wegzudenken Ruf nach Mining, das die respektiert, wird lauter Forschungsgebiet noch sehr jung, aber bereits mit guten Ergebnissen: viele verfügbar, die und Funktionalität sichern Größte Herausforderungen in Zukunft: weg von vielen Speziallösungen hin zu performanten, generalisierbaren Lösungen Integration in Mining-Tools und DBMS Standardisierung steht noch ganz am Anfang 22

23 Vielen Dank für die Aufmerksamkeit! 23

Erhalt der Privatsphäre beim Data Mining

Erhalt der Privatsphäre beim Data Mining Universität Karlsruhe (TH) Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl Prof. Böhm Erhalt der Privatsphäre beim Data Mining Seminar: Aktuelle Herausforderungen an Datenschutz und

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,

Mehr

Datenschutzgerechtes Data Mining

Datenschutzgerechtes Data Mining Datenschutzgerechtes Data Mining Seminarvortrag von Simon Boese Student der Wirtschaftsinformatik Wissensgewinnung Rohdaten aus DataWarehouse / OLAP Klassifikation / Assoziation Neue Infos: allgemeine

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Inhaltsübersicht. Geschichte von Elektronischen Wahlen Erwartete Eigenschaften von Protokollen. Merritt Election Protokoll

Inhaltsübersicht. Geschichte von Elektronischen Wahlen Erwartete Eigenschaften von Protokollen. Merritt Election Protokoll Inhaltsübersicht Geschichte von Elektronischen Wahlen Erwartete Eigenschaften von Protokollen Merritt Election Protokoll Ein fehlertolerantes Protokoll Für ein Wahlzentrum Für mehrere Wahlzentren von Wählern

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen

Mehr

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array Das Suchproblem Gegeben. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.-3,2.2-3,2.3-] Menge von Datensätzen. Beispiele

Mehr

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle 122 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 123 Das Suchproblem Gegeben Menge von Datensätzen.

Mehr

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle 119 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 120 Das Suchproblem Gegeben

Mehr

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array Das Suchproblem Gegeben. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.-3,2.2-3,2.3-] Menge

Mehr

Praktikum Data Warehousing und Data Mining

Praktikum Data Warehousing und Data Mining Klassifikation I Praktikum Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung) Unter Benutzung beliebiger

Mehr

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger

Mehr

Anpassung von Data-Warehouse-Techniken für den Einsatz unsicherer Verkehrsdaten

Anpassung von Data-Warehouse-Techniken für den Einsatz unsicherer Verkehrsdaten Diplomvortrag Anpassung von Data-Warehouse-Techniken für den entstanden im Rahmen des OVID-Projektes Institut für Programmstrukturen und Datenorganisation Verantwortlicher Betreuer: Prof. Dr.-Ing. Klemens

Mehr

Algorithmen und Datenstrukturen 1

Algorithmen und Datenstrukturen 1 Algorithmen und Datenstrukturen 1 8. Vorlesung Martin Middendorf und Peter F. Stadler Universität Leipzig Institut für Informatik middendorf@informatik.uni-leipzig.de studla@bioinf.uni-leipzig.de Gefädelte

Mehr

Projekt-INF Folie 1

Projekt-INF Folie 1 Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein

Mehr

Untere Schranke für allgemeine Sortierverfahren

Untere Schranke für allgemeine Sortierverfahren Untere Schranke für allgemeine Sortierverfahren Prinzipielle Frage: wie schnell kann ein Algorithmus (im worst case) überhaupt sein? Satz: Zum einer Folge von n Keys mit einem allgemeinen Sortierverfahren

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Methoden, Chancen und Risiken beim Auswerten großer Datenmengen

Methoden, Chancen und Risiken beim Auswerten großer Datenmengen Methoden, Chancen und Risiken beim Auswerten großer Datenmengen Peter Dauscher Gymnasium am Kaiserdom, Speyer peter dauscher gak speyer de Data-Mining in der Schule - Eine Annäherung

Mehr

fuzzy-entscheidungsbäume

fuzzy-entscheidungsbäume fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Lerneinheit 3: Greedy Algorithmen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2016 10.5.2016 Einleitung Einleitung Diese Lerneinheit

Mehr

3.3 Nächste-Nachbarn-Klassifikatoren

3.3 Nächste-Nachbarn-Klassifikatoren 3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten

Mehr

11. Übung Knowledge Discovery

11. Übung Knowledge Discovery Prof. Dr. Gerd Stumme, Robert Jäsche Fachgebiet Wissensverarbeitung. Übung Knowledge Discovery.7.7 Sommersemester 7 Informationsgewinn Im folgenden betrachten wir die Menge von n rainingsobjeten, mit den

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Universität Trier. Fachbereich IV. Wintersemester 2004/2005. Wavelets made easy. Kapitel 2 Mehrdimensionale Wavelets und Anwendungen

Universität Trier. Fachbereich IV. Wintersemester 2004/2005. Wavelets made easy. Kapitel 2 Mehrdimensionale Wavelets und Anwendungen Universität Trier Fachbereich IV Wintersemester 2004/2005 Wavelets made easy Kapitel 2 Mehrdimensionale Wavelets und Anwendungen Thomas Queckbörner 16.11.2004 Übersicht des Kapitels: 1. Einführung 2. Zweidimensionale

Mehr

Simulation von Zufallszahlen. Grundlage: zufällige Quelle von Zufallszahlen, durch einfachen rekursiven Algorithmus am Computer erzeugt

Simulation von Zufallszahlen. Grundlage: zufällige Quelle von Zufallszahlen, durch einfachen rekursiven Algorithmus am Computer erzeugt Simulation von Zufallszahlen Grundlage: zufällige Quelle von Zufallszahlen, durch einfachen rekursiven Algorithmus am Computer erzeugt Definition: Eine Folge von Pseudo-Zufallszahlen U i ist eine deterministische

Mehr

7. Dynamische Datenstrukturen Bäume. Informatik II für Verkehrsingenieure

7. Dynamische Datenstrukturen Bäume. Informatik II für Verkehrsingenieure 7. Dynamische Datenstrukturen Bäume Informatik II für Verkehrsingenieure Übersicht dynamische Datenstrukturen Wozu? Oft weiß man nicht von Beginn an, wieviele Elemente in einer Datenstruktur untergebracht

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Compressed Sensing für Signale aus Vereinigungen von Unterräumen

Compressed Sensing für Signale aus Vereinigungen von Unterräumen Compressed Sensing für Signale aus Vereinigungen von Unterräumen Nadine Pawlitta 21. Januar 2011 Nadine Pawlitta () CS auf Vereinigungen von Unterräumen 21. Januar 2011 1 / 28 Übersicht 1 Grundprinzip

Mehr

13 Berechenbarkeit und Aufwandsabschätzung

13 Berechenbarkeit und Aufwandsabschätzung 13 Berechenbarkeit und Aufwandsabschätzung 13.1 Berechenbarkeit Frage: Gibt es für jede Funktion, die mathematisch spezifiziert werden kann, ein Programm, das diese Funktion berechnet? Antwort: Nein! [Turing

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten

Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten M. Siebers 1 U. Schmid 2 1 Otto-Friedrich-Universität Bamberg 2 Fakultät für Wirtschaftsinformatik und Angewandte Informatik

Mehr

Anwendungen des Data Mining in der Praxis. Seminarvortrag von Holger Dürr

Anwendungen des Data Mining in der Praxis. Seminarvortrag von Holger Dürr Anwendungen des Data Mining in der Praxis Seminarvortrag von Holger Dürr Seminar Data Mining Wintersemester 2003/20042004 Professor Dr. Schweigert - Universität Ulm Themenübersicht Data Mining - Kleine

Mehr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien

Mehr

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11.

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen 11. Juni 2009 Gliederung 1 Problemstellung 2 Vektorprodukt Approximationen Samplesammlung 3 Schritte Lokalität und Nachrichtenkomplexität

Mehr

Extension, Compression, and Beyond

Extension, Compression, and Beyond Extension, Compression, and Beyond Ein Verfahren zur eindeutigen Klassifizierung von Sterblichkeitsentwicklungen 1. Juli 215 Martin Genz In Zusammenarbeit mit Matthias Börger und Jochen Ruß Institut für

Mehr

5 Lineare Gleichungssysteme und Determinanten

5 Lineare Gleichungssysteme und Determinanten 5 Lineare Gleichungssysteme und Determinanten 51 Lineare Gleichungssysteme Definition 51 Bei einem linearen Gleichungssystem (LGS) sind n Unbekannte x 1, x 2,, x n so zu bestimmen, dass ein System von

Mehr

OPT Optimierende Clusteranalyse

OPT Optimierende Clusteranalyse Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:

Mehr

Heapsort, Quicksort, Mergesort. 8. Sortieren II

Heapsort, Quicksort, Mergesort. 8. Sortieren II 209 Heapsort, Quicksort, Mergesort 8. Sortieren II 210 8.1 Heapsort [Ottman/Widmayer, Kap. 2.3, Cormen et al, Kap. 6] Heapsort 211 Inspiration von Selectsort: Schnelles Einfügen Inspiration von Insertionsort:

Mehr

Seminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener

Seminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener Seminar: Randomisierte Algorithmen Auswerten von Sielbäumen Nele Küsener In diesem Vortrag wird die Laufzeit von Las-Vegas-Algorithmen analysiert. Das Ergebnis ist eine obere und eine untere Schranke für

Mehr

Jens Schmidt Senior Member Technical Staff

Jens Schmidt Senior Member Technical Staff Jens Schmidt Senior Member Technical Staff Oracle 9i Data Mining Connector 1.1 für mysap BW Agenda Data Mining Grundlagen Der Data Mining Prozess Oracle Data Mining Integration mit mysap BW Agenda Data

Mehr

6. Texterkennung in Videos Videoanalyse

6. Texterkennung in Videos Videoanalyse 6. Texterkennung in Videos Videoanalyse Dr. Stephan Kopf 1 Übersicht Motivation Texterkennung in Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben 3. Auswahl der Buchstabenpixel

Mehr

Pseudo-Zufallsgeneratoren basierend auf dem DLP

Pseudo-Zufallsgeneratoren basierend auf dem DLP Seminar Codes und Kryptografie SS 2004 Struktur des Vortrags Struktur des Vortrags Ziel Motivation 1 Einleitung Ziel Motivation 2 Grundlegende Definitionen Zufallsgeneratoren 3 Generator Sicherheit 4 Generator

Mehr

Kapitel 9: Lineare Gleichungssysteme

Kapitel 9: Lineare Gleichungssysteme Kapitel 9: Lineare Gleichungssysteme Stefan Ruzika Mathematisches Institut Universität Koblenz-Landau Campus Koblenz Stefan Ruzika (KO) Kapitel 9: Lineare Gleichungssysteme 1 / 15 Gliederung 1 Grundbegriffe

Mehr

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung Teil VIII Weiterführende Veranstaltungen im FG Wissensverarbeitung Überblick 1 Zusammenfassung AlgoDS 2 Datenbanken 3 Internet-Suchmaschinen 4 Knowledge Discovery 5 Künstliche Intelligenz 6 Seminare &

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Naive Bayes für Regressionsprobleme

Naive Bayes für Regressionsprobleme Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

14. Sortieren II Heapsort. Heapsort. [Max-]Heap 7. Heapsort, Quicksort, Mergesort. Binärer Baum mit folgenden Eigenschaften

14. Sortieren II Heapsort. Heapsort. [Max-]Heap 7. Heapsort, Quicksort, Mergesort. Binärer Baum mit folgenden Eigenschaften Heapsort, Quicksort, Mergesort 14. Sortieren II 14.1 Heapsort [Ottman/Widmayer, Kap. 2.3, Cormen et al, Kap. 6] 397 398 Heapsort [Max-]Heap 7 Inspiration von Selectsort: Schnelles Einfügen Binärer Baum

Mehr

Distributed Algorithms. Image and Video Processing

Distributed Algorithms. Image and Video Processing Chapter 6 Optical Character Recognition Distributed Algorithms for Übersicht Motivation Texterkennung in Bildern und Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler 1 Messfehler Jede Messung ist ungenau, hat einen Fehler. Wenn Sie zum Beispiel die Schwingungsdauer eines Pendels messen, werden Sie - trotz gleicher experimenteller Anordnungen - unterschiedliche Messwerte

Mehr

Multiparty Interactions: Tracking personenbezogener Daten in B2B Transaktionen

Multiparty Interactions: Tracking personenbezogener Daten in B2B Transaktionen Multiparty Interactions: Tracking personenbezogener Daten in B2B Transaktionen Seminarvortrag Aktuelle Herausforderungen von Datenschutz und Datensicherheit in modernen Informationssystemen 28.06.2007

Mehr

Klausur,,Algorithmische Mathematik II

Klausur,,Algorithmische Mathematik II Institut für angewandte Mathematik Sommersemester 017 Andreas Eberle, Matthias Erbar / Behrend Heeren Klausur,,Algorithmische Mathematik II Musterlösung 1 (Unabhängige Zufallsvariablen) a) Wir bezeichnen

Mehr

Von schwachen zu starken Lernern

Von schwachen zu starken Lernern Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von

Mehr

Einsatz von Varianzreduktionstechniken II

Einsatz von Varianzreduktionstechniken II Einsatz von Varianzreduktionstechniken II Stratified Sampling und Common Random Numbers Bastian Bluhm Betreuer: Christiane Barz Ausgewählte technische, rechtliche und ökonomische Aspekte des Entwurfs von

Mehr

1. Die rekursive Datenstruktur Liste

1. Die rekursive Datenstruktur Liste 1. Die rekursive Datenstruktur Liste 1.3 Rekursive Funktionen Ideen zur Bestimmung der Länge einer Liste: 1. Verwalte ein globales Attribut int laenge. Fügt man ein Element zur Liste oder löscht es, wird

Mehr

a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein:

a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: 1 Aufgabe 8.1 (P) (2, 3)-Baum a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: Zeichnen Sie, was in jedem Schritt passiert. b) Löschen Sie die Zahlen 65, 70 und 100 aus folgendem

Mehr

Geometrie 2. Julian Fischer Julian Fischer Geometrie / 30

Geometrie 2. Julian Fischer Julian Fischer Geometrie / 30 Geometrie 2 Julian Fischer 6.7.2009 Julian Fischer Geometrie 2 6.7.2009 1 / 30 Themen 1 Bereichssuche und kd-bäume 1 Bereichssuche 2 kd-bäume 2 Divide and Conquer 1 Closest pair 2 Beispiel: Points (IOI

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

Informatik II, SS 2018

Informatik II, SS 2018 Informatik II - SS 28 (Algorithmen & Datenstrukturen) Vorlesung 22 (6.7.28) Greedy Algorithmen II (Datenkompression) Algorithmen und Komplexität Datenkompression Reduziert Größen von Files Viele Verfahren

Mehr

Algorithmische Geometrie: Delaunay Triangulierung (Teil 2)

Algorithmische Geometrie: Delaunay Triangulierung (Teil 2) Algorithmische Geometrie: Delaunay Triangulierung (Teil 2) Nico Düvelmeyer WS 2009/2010, 2.2.2010 Überblick 1 Delaunay Triangulierungen 2 Berechnung der Delaunay Triangulierung Randomisiert inkrementeller

Mehr

Industrie Chance oder Risiko? Martin Botteck Prof. Dr.-Ing. Kommunikationsdienste und -anwendungen

Industrie Chance oder Risiko? Martin Botteck Prof. Dr.-Ing. Kommunikationsdienste und -anwendungen Industrie 4.0 - Chance oder Risiko? Martin Botteck Prof. Dr.-Ing. Kommunikationsdienste und -anwendungen Industrielle Revolution, Version 4.0 Der Kongress im Jahr 2015: Worum geht es überhaupt? Kongress

Mehr

ID3 und Apriori im Vergleich

ID3 und Apriori im Vergleich ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument

Mehr

Layout-Synthese - Globale Verdrahtung Peter Marwedel

Layout-Synthese - Globale Verdrahtung Peter Marwedel 12 Layout-Synthese - Globale Verdrahtung Peter Marwedel Universität Dortmund, Informatik 12 2008/07/05 Globale Verdrahtung, Allgemeines zur Verdrahtung 12, 2008-2- Bäume 12, 2008-3- Steiner-Bäume Def.:

Mehr

Graphen. Definitionen

Graphen. Definitionen Graphen Graphen werden häufig als Modell für das Lösen eines Problems aus der Praxis verwendet, wie wir im Kapitel 1 gesehen haben. Der Schweizer Mathematiker Euler hat als erster Graphen verwendet, um

Mehr

Gewinnt die Eins immer den Wettbewerb der führenden Ziffern?

Gewinnt die Eins immer den Wettbewerb der führenden Ziffern? Gewinnt die Eins immer den Wettbewerb der führenden Ziffern? Elke Warmuth Humboldt-Universität Berlin Tag der Mathematik an der FU Berlin, 05.05.2012 1 / 1 2 / 1 x 1, x 2,..., x n nichtnegative Zahlen,

Mehr

Algorithmentheorie Randomisierung

Algorithmentheorie Randomisierung Algorithmentheorie 03 - Randomisierung Prof. Dr. S. Albers Randomisierung Klassen von randomisierten Algorithmen Randomisierter Quicksort Randomisierter Primzahltest Kryptographie 2 1. Klassen von randomisierten

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Analytics Entscheidungsbäume

Analytics Entscheidungsbäume Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering

Mehr

) (1 BE) 1 2 ln 2. und somit

) (1 BE) 1 2 ln 2. und somit 1 Aufgaben aus dem Aufgabenpool 1 1.1 Analysis A1_1 Eine Funktion f ist durch 1 x f(x) e 1, x IR, gegeben. Ermitteln Sie die Nullstelle der Funktion f. ( ) b) Die Tangente an den Graphen von f im Punkt

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Ferien-Übungsblatt 8 Lösungsvorschläge

Ferien-Übungsblatt 8 Lösungsvorschläge Institut für Theoretische Informatik Lehrstuhl Prof. Dr. D. Wagner Ferien-Übungsblatt 8 Lösungsvorschläge Vorlesung Algorithmentechnik im WS 09/10 Problem 1: Probabilistische Komplexitätsklassen [vgl.

Mehr

Prädiktion und Klassifikation mit

Prädiktion und Klassifikation mit Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Nouri@acm.org Technical University NW-Switzerland /35 Übersicht a. Probleme mit Decision Tree b. Der Random Forests RF c. Implementation

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.

Mehr

Informatik II, SS 2016

Informatik II, SS 2016 Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 22 (20.7.2016) Greedy Algorithmen - Datenkompression Algorithmen und Komplexität Greedy Algorithmen Greedy Algorithmen sind eine Algorithmenmethode,

Mehr

Kryptographische Protokolle

Kryptographische Protokolle Kryptographische Protokolle Lerneinheit 2: Generierung von Primzahlen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Wintersemester 2018/2019 15.11.2018 Einleitung Einleitung Diese Lerneinheit

Mehr

Algorithmen und Datenstrukturen Heapsort

Algorithmen und Datenstrukturen Heapsort Algorithmen und Datenstrukturen 2 5 Heapsort In diesem Kapitel wird Heapsort, ein weiterer Sortieralgorithmus, vorgestellt. Dieser besitzt wie MERGE-SORT eine Laufzeit von O(n log n), sortiert jedoch das

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische

Mehr

Endliche Körper. Seminar Graphentheorie und Diskrete Mathematik Referent: Steffen Lohrke ii5105 SS 2005

Endliche Körper. Seminar Graphentheorie und Diskrete Mathematik Referent: Steffen Lohrke ii5105 SS 2005 Endliche Körper Seminar Graphentheorie und Diskrete Mathematik Referent: Steffen Lohrke ii5105 SS 2005 Abelsche Gruppe Eine Abelsche Gruppe ist eine algebraische Struktur, die aus einer Menge K und einem

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Jürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr.

Jürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr. Jürgen Lesti Analyse des Anbieterwechsels mit Hidden-Markov-Modellen Empirische Untersuchung im Retail Banking Verlag Dr. Kovac Hamburg 2015 XIII Inhaltsverzeichnis Geleitwort Vorwort Danksagung Abbildungsverzeichnis

Mehr

Wiederholung. Divide & Conquer Strategie

Wiederholung. Divide & Conquer Strategie Wiederholung Divide & Conquer Strategie Binäre Suche O(log n) Rekursives Suchen im linken oder rechten Teilintervall Insertion-Sort O(n 2 ) Rekursives Sortieren von a[1..n-1], a[n] Einfügen von a[n] in

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

Proseminar/Seminar Kryptographie und Datensicherheit SoSe 2009 Universität Potsdam Jan Jantzen

Proseminar/Seminar Kryptographie und Datensicherheit SoSe 2009 Universität Potsdam Jan Jantzen Authentifizierung Proseminar/Seminar Kryptographie und Datensicherheit SoSe 2009 Universität Potsdam Jan Jantzen Seminar Kyptographie und Datensicherheit SoSe 09 1 Gliederung Authentifizierung (Einleitung)

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

CAKE: Hybrides Gruppen- Schlüssel-Management. Peter Hillmann

CAKE: Hybrides Gruppen- Schlüssel-Management. Peter Hillmann CAKE: Hybrides Gruppen- Schlüssel-Management Peter Hillmann Agenda 1. Motivation und Anforderungen 2. Stand der Technik 3. Neues Verfahren: CAKE 4. Vergleich und Zusammenfassung Peter Hillmann 2 1. Motivation

Mehr