Erhalt der Privatsphäre beim Data Mining
|
|
- Nele Beyer
- vor 5 Jahren
- Abrufe
Transkript
1 Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit in modernen Informationssystemen Erhalt der beim Ulrich Graf Betreuer: Frank Eichinger Institut für Programmstrukturen und Datenorganisation (IPD) Universität Karlsruhe (TH)
2 gewinnt immer mehr an Bedeutung: Analysen auf Kundendaten (z.b. Payback), Datensammlung im Internet, Sorge um Gefährdung der beim Mining naturgemäß besonders hoch Gründe auch für Entwicklerinteresse: Kundenbindung durch Vertrauen Schlechte Miningergebnisse durch falsche Kundenangaben 2
3 Agenda Übersicht Gefährdungsszenarien Klassifizierung von anhand verschiedener Beispielalgorithmen Ausblick und Zusammenfassung 3
4 We re drowning in information and starving for knowledge. = Knowledge Mining: Finden von interessanten Mustern in großen Datenbeständen 4
5 Techniken Clusteranalyse: gruppiere ähnliche Datensätze, z.b. Kunden mit ähnlichem Musikgeschmack Assoziationsregeln, z.b. Warenkorbanalyse: Wenn Kunde Käse und Wurst kauft, kauft er mit hoher Wahrscheinlichkeit auch Brot. 5
6 Techniken Klassifikation: benutze Merkmale, um Datentupel in Klasse einzuteilen, z.b. Risikoanalyse Entscheidungsbaum, Neuronale Netze hoch A < 0.5 niedrig A >= 0.5 niedrig hoch 6
7 - Entscheidungsbaum 7 Aufbau des Baums mit Trainingsdaten Binärbaum wird von der Wurzel ausgehend rekursiv aufgebaut: Falls Split notwendig: Ermittle Attribut A, das die Daten optimal nach Klassen trennt Bilde Partitionen P, P, wiederhole Algorithmus für beide Partitionen Vermeidung von Überanpassung des Modells an Trainingsdaten: Pruning A < 0.5 Zusammenfassen von Blättern mit wenigen Datensätzen A >= 0.5 P P
8 Was ist? 8 Unterschiedliche Definitionen: Individual's right to be let alone (1890) Das aktive Recht, darüber zu bestimmen, welche Daten über sich [...] von anderen gebraucht werden und welche Daten auf einen selbst einwirken dürfen." (Kuhlen) Personal data []: any information relating to an identified or identifiable natural person [] (EG 1995) Schutz vor Missbrauch und Identifizierbarkeit muss angestrebt werden
9 Szenario Zentralisiertes Mining Schutz individueller Daten Missbrauch Data Mining Identifizierbarkeit A < 0.5 A >= 0.5 Modifikation hoch niedrig niedrig hoch Mining-Ergebnis 9
10 Szenario Verteiltes Mining Secure Multiparty Computation (SMC): mehrere Parteien möchten Mining gemeinsam durchführen, aber jede Partei will ihre Daten geheim halten A B A+B+C Mining A < 0.5 A >= C nicht sicher hoch niedrig niedrig hoch
11 Szenario Verteiltes Mining Vertrauenswürdiger Server nicht realistisch sicheres Protokoll für direkte Kommunikation unter den Parteien notwendig A Sicheres Protokoll B 11 C
12 für Vielzahl von verfügbar : Verteilung der Daten: zentralisiert, horizontal, vertikal zentralisiert horizontal verteilt vertikal verteilt DM DM DM 12 Datentupel Attribute
13 für 13 : Data-Mining-Ziel: Clusteranalyse, Klassifikation, Modifikation der Eingangsdaten: Rauschfunktionen Blockieren von Werten Vertauschen von 0- und 1-Werten Swapping Sampling Aggregation Grad verbleibender Funktionalität bzw.
14 für SMC 14 Jede polynomiell berechenbare Funktion kann sicher berechnet werden (Goldreich et al.) Beweis läuft über logische Gatter: Jede Partei besitzt eine Inputvariable Inputvariablen durch Zufallszahlen modifiziert Jede Partei berechnet ihre Outputvariable Zusammensetzen der Outputvariablen eliminiert die Zufallszahlen
15 SMC Beispiel Sichere Summe 15 Summation wichtig für Voraussetzung: Intervall [0,n) für die Summe bekannt (Addition in F n ). Jede der m Parteien besitzt Summand s i, i = 1,, m. Algorithmus: 1. Partei generiert Zufallszahl R aus [0,n) und leitet V = (R+s 1 ) mod n weiter an Partei 2. Partei i = 2,, n-1 berechnet V = (s i +V) mod n und leitet V weiter an Partei i+1. Partei n berechnet den gleichen Schritt und leitet das Ergebnis an Partei 1 weiter. Subtrahieren von R ergibt das Ergebnis.
16 SMC Sichere Summe n = 20 Im F 20: = 19 V = 12 s 1 = 5, R = 13 1 V = 18 s 4 = s 2 = 4 V = 10 V = s 3 = 8
17 SMC 17 Ähnliche für: Durchschnitt Vereinigung Skalarprodukt Berechnung der Inversen Matrix Annahme: alle Parteien stellen korrekte Inputdaten bereit Bei falschen Inputdaten wird gesamtes Ergebnis verfälscht, kein Vorteil für Datensaboteur Problem: für viele Attribute sehr aufwändig
18 Auf Datenmodifikation beruhende Data A < 0.5 A >= 0.5 Mining 18 Modifikation Herausforderungen: Mining-Ergebnis Modifikation muss sicherstellen Mining nicht möglich, ohne dass Information zu großem Teil in den Daten erhalten bleibt => Gegensätzliche Ziele, Kompromisse erforderlich hoch niedrig niedrig hoch
19 Datenmodifikation 19 Beobachtung: einzelne Werte oftmals nicht entscheidend für das Mining, sondern Verteilung der Werte Addition von Rauschfunktion zufällige Werte aus Gleichverteilung bzw. Gauß scher Verteilung Originaldaten geschützt, wenn Rauschfunktion und Originaldaten nicht unkorreliert Verteilung der Originaldaten iterativ annäherbar
20 Mining mit modifizierten Daten 20 Klassifikation mit Entscheidungsbaum Verschiedene Rekonstruktionsansätze: Global: Einmalige Rekonstruktion für jedes Attribut Nach Klassen: Trenne Daten für jedes Attribut nach den Klassen Rekonstruiere Verteilung Baue Entscheidungsbaum auf Lokal: Vorgehen wie nach Klassen getrennt Zusätzlich Rekonstruktion bei jedem Baumknoten Sehr akkurate Ergebnisse möglich: Abweichung normalerweise < 10% vom Mining-Ergebnis mit nicht modifizierten Daten Global zu ungenau, Lokal sehr aufwändig, Nach Klassen liefert fast so gute Ergebnisse wie Lokal => Nach Klassen guter Kompromiss
21 Bewertung von 21 Generelle Maßstäbe: Performanz Nutzbarkeit der Daten Grad der Robustheit von Modifikationen gegenüber anderen SMC: Sicher, aber sehr hoher Aufwand Ansätze weg von der beweisbaren Sicherheit zu mehr Performanz Datenmodifikation: Wenn Originaldaten und Rauschfunktion unkorreliert sind, kann Sicherheitslücke entstehen Bei erhältlichen guter Erhalt von und Performanz
22 Zusammenfassung / Ausblick nicht mehr wegzudenken Ruf nach Mining, das die respektiert, wird lauter Forschungsgebiet noch sehr jung, aber bereits mit guten Ergebnissen: viele verfügbar, die und Funktionalität sichern Größte Herausforderungen in Zukunft: weg von vielen Speziallösungen hin zu performanten, generalisierbaren Lösungen Integration in Mining-Tools und DBMS Standardisierung steht noch ganz am Anfang 22
23 Vielen Dank für die Aufmerksamkeit! 23
Erhalt der Privatsphäre beim Data Mining
Universität Karlsruhe (TH) Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl Prof. Böhm Erhalt der Privatsphäre beim Data Mining Seminar: Aktuelle Herausforderungen an Datenschutz und
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrVorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen
Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,
MehrDatenschutzgerechtes Data Mining
Datenschutzgerechtes Data Mining Seminarvortrag von Simon Boese Student der Wirtschaftsinformatik Wissensgewinnung Rohdaten aus DataWarehouse / OLAP Klassifikation / Assoziation Neue Infos: allgemeine
MehrEntscheidungsbäume. Minh-Khanh Do Erlangen,
Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume
MehrVergleich von SVM und Regel- und Entscheidungsbaum-Lernern
Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge
MehrEntscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
MehrInhaltsübersicht. Geschichte von Elektronischen Wahlen Erwartete Eigenschaften von Protokollen. Merritt Election Protokoll
Inhaltsübersicht Geschichte von Elektronischen Wahlen Erwartete Eigenschaften von Protokollen Merritt Election Protokoll Ein fehlertolerantes Protokoll Für ein Wahlzentrum Für mehrere Wahlzentren von Wählern
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen
MehrDas Suchproblem 4. Suchen Das Auswahlproblem Suche in Array
Das Suchproblem Gegeben. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.-3,2.2-3,2.3-] Menge von Datensätzen. Beispiele
MehrDas Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle
122 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 123 Das Suchproblem Gegeben Menge von Datensätzen.
MehrDas Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle
119 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 120 Das Suchproblem Gegeben
MehrDas Suchproblem 4. Suchen Das Auswahlproblem Suche in Array
Das Suchproblem Gegeben. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.-3,2.2-3,2.3-] Menge
MehrPraktikum Data Warehousing und Data Mining
Klassifikation I Praktikum Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung) Unter Benutzung beliebiger
MehrProjektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar
Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger
MehrAnpassung von Data-Warehouse-Techniken für den Einsatz unsicherer Verkehrsdaten
Diplomvortrag Anpassung von Data-Warehouse-Techniken für den entstanden im Rahmen des OVID-Projektes Institut für Programmstrukturen und Datenorganisation Verantwortlicher Betreuer: Prof. Dr.-Ing. Klemens
MehrAlgorithmen und Datenstrukturen 1
Algorithmen und Datenstrukturen 1 8. Vorlesung Martin Middendorf und Peter F. Stadler Universität Leipzig Institut für Informatik middendorf@informatik.uni-leipzig.de studla@bioinf.uni-leipzig.de Gefädelte
MehrProjekt-INF Folie 1
Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein
MehrUntere Schranke für allgemeine Sortierverfahren
Untere Schranke für allgemeine Sortierverfahren Prinzipielle Frage: wie schnell kann ein Algorithmus (im worst case) überhaupt sein? Satz: Zum einer Folge von n Keys mit einem allgemeinen Sortierverfahren
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrMethoden, Chancen und Risiken beim Auswerten großer Datenmengen
Methoden, Chancen und Risiken beim Auswerten großer Datenmengen Peter Dauscher Gymnasium am Kaiserdom, Speyer peter dauscher gak speyer de Data-Mining in der Schule - Eine Annäherung
Mehrfuzzy-entscheidungsbäume
fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Lerneinheit 3: Greedy Algorithmen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2016 10.5.2016 Einleitung Einleitung Diese Lerneinheit
Mehr3.3 Nächste-Nachbarn-Klassifikatoren
3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten
Mehr11. Übung Knowledge Discovery
Prof. Dr. Gerd Stumme, Robert Jäsche Fachgebiet Wissensverarbeitung. Übung Knowledge Discovery.7.7 Sommersemester 7 Informationsgewinn Im folgenden betrachten wir die Menge von n rainingsobjeten, mit den
Mehr4. Lernen von Entscheidungsbäumen
4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrUniversität Trier. Fachbereich IV. Wintersemester 2004/2005. Wavelets made easy. Kapitel 2 Mehrdimensionale Wavelets und Anwendungen
Universität Trier Fachbereich IV Wintersemester 2004/2005 Wavelets made easy Kapitel 2 Mehrdimensionale Wavelets und Anwendungen Thomas Queckbörner 16.11.2004 Übersicht des Kapitels: 1. Einführung 2. Zweidimensionale
MehrSimulation von Zufallszahlen. Grundlage: zufällige Quelle von Zufallszahlen, durch einfachen rekursiven Algorithmus am Computer erzeugt
Simulation von Zufallszahlen Grundlage: zufällige Quelle von Zufallszahlen, durch einfachen rekursiven Algorithmus am Computer erzeugt Definition: Eine Folge von Pseudo-Zufallszahlen U i ist eine deterministische
Mehr7. Dynamische Datenstrukturen Bäume. Informatik II für Verkehrsingenieure
7. Dynamische Datenstrukturen Bäume Informatik II für Verkehrsingenieure Übersicht dynamische Datenstrukturen Wozu? Oft weiß man nicht von Beginn an, wieviele Elemente in einer Datenstruktur untergebracht
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrCompressed Sensing für Signale aus Vereinigungen von Unterräumen
Compressed Sensing für Signale aus Vereinigungen von Unterräumen Nadine Pawlitta 21. Januar 2011 Nadine Pawlitta () CS auf Vereinigungen von Unterräumen 21. Januar 2011 1 / 28 Übersicht 1 Grundprinzip
Mehr13 Berechenbarkeit und Aufwandsabschätzung
13 Berechenbarkeit und Aufwandsabschätzung 13.1 Berechenbarkeit Frage: Gibt es für jede Funktion, die mathematisch spezifiziert werden kann, ein Programm, das diese Funktion berechnet? Antwort: Nein! [Turing
MehrKapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation
Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c
MehrGlobale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten
Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten M. Siebers 1 U. Schmid 2 1 Otto-Friedrich-Universität Bamberg 2 Fakultät für Wirtschaftsinformatik und Angewandte Informatik
MehrAnwendungen des Data Mining in der Praxis. Seminarvortrag von Holger Dürr
Anwendungen des Data Mining in der Praxis Seminarvortrag von Holger Dürr Seminar Data Mining Wintersemester 2003/20042004 Professor Dr. Schweigert - Universität Ulm Themenübersicht Data Mining - Kleine
MehrTheoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme
Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien
MehrSeminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11.
Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen 11. Juni 2009 Gliederung 1 Problemstellung 2 Vektorprodukt Approximationen Samplesammlung 3 Schritte Lokalität und Nachrichtenkomplexität
MehrExtension, Compression, and Beyond
Extension, Compression, and Beyond Ein Verfahren zur eindeutigen Klassifizierung von Sterblichkeitsentwicklungen 1. Juli 215 Martin Genz In Zusammenarbeit mit Matthias Börger und Jochen Ruß Institut für
Mehr5 Lineare Gleichungssysteme und Determinanten
5 Lineare Gleichungssysteme und Determinanten 51 Lineare Gleichungssysteme Definition 51 Bei einem linearen Gleichungssystem (LGS) sind n Unbekannte x 1, x 2,, x n so zu bestimmen, dass ein System von
MehrOPT Optimierende Clusteranalyse
Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:
MehrHeapsort, Quicksort, Mergesort. 8. Sortieren II
209 Heapsort, Quicksort, Mergesort 8. Sortieren II 210 8.1 Heapsort [Ottman/Widmayer, Kap. 2.3, Cormen et al, Kap. 6] Heapsort 211 Inspiration von Selectsort: Schnelles Einfügen Inspiration von Insertionsort:
MehrSeminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener
Seminar: Randomisierte Algorithmen Auswerten von Sielbäumen Nele Küsener In diesem Vortrag wird die Laufzeit von Las-Vegas-Algorithmen analysiert. Das Ergebnis ist eine obere und eine untere Schranke für
MehrJens Schmidt Senior Member Technical Staff
Jens Schmidt Senior Member Technical Staff Oracle 9i Data Mining Connector 1.1 für mysap BW Agenda Data Mining Grundlagen Der Data Mining Prozess Oracle Data Mining Integration mit mysap BW Agenda Data
Mehr6. Texterkennung in Videos Videoanalyse
6. Texterkennung in Videos Videoanalyse Dr. Stephan Kopf 1 Übersicht Motivation Texterkennung in Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben 3. Auswahl der Buchstabenpixel
MehrPseudo-Zufallsgeneratoren basierend auf dem DLP
Seminar Codes und Kryptografie SS 2004 Struktur des Vortrags Struktur des Vortrags Ziel Motivation 1 Einleitung Ziel Motivation 2 Grundlegende Definitionen Zufallsgeneratoren 3 Generator Sicherheit 4 Generator
MehrKapitel 9: Lineare Gleichungssysteme
Kapitel 9: Lineare Gleichungssysteme Stefan Ruzika Mathematisches Institut Universität Koblenz-Landau Campus Koblenz Stefan Ruzika (KO) Kapitel 9: Lineare Gleichungssysteme 1 / 15 Gliederung 1 Grundbegriffe
MehrTeil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung
Teil VIII Weiterführende Veranstaltungen im FG Wissensverarbeitung Überblick 1 Zusammenfassung AlgoDS 2 Datenbanken 3 Internet-Suchmaschinen 4 Knowledge Discovery 5 Künstliche Intelligenz 6 Seminare &
MehrFolien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr
Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der
MehrNaive Bayes für Regressionsprobleme
Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrData Mining und maschinelles Lernen
Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:
Mehr14. Sortieren II Heapsort. Heapsort. [Max-]Heap 7. Heapsort, Quicksort, Mergesort. Binärer Baum mit folgenden Eigenschaften
Heapsort, Quicksort, Mergesort 14. Sortieren II 14.1 Heapsort [Ottman/Widmayer, Kap. 2.3, Cormen et al, Kap. 6] 397 398 Heapsort [Max-]Heap 7 Inspiration von Selectsort: Schnelles Einfügen Binärer Baum
MehrDistributed Algorithms. Image and Video Processing
Chapter 6 Optical Character Recognition Distributed Algorithms for Übersicht Motivation Texterkennung in Bildern und Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick
Mehr1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler
1 Messfehler Jede Messung ist ungenau, hat einen Fehler. Wenn Sie zum Beispiel die Schwingungsdauer eines Pendels messen, werden Sie - trotz gleicher experimenteller Anordnungen - unterschiedliche Messwerte
MehrMultiparty Interactions: Tracking personenbezogener Daten in B2B Transaktionen
Multiparty Interactions: Tracking personenbezogener Daten in B2B Transaktionen Seminarvortrag Aktuelle Herausforderungen von Datenschutz und Datensicherheit in modernen Informationssystemen 28.06.2007
MehrKlausur,,Algorithmische Mathematik II
Institut für angewandte Mathematik Sommersemester 017 Andreas Eberle, Matthias Erbar / Behrend Heeren Klausur,,Algorithmische Mathematik II Musterlösung 1 (Unabhängige Zufallsvariablen) a) Wir bezeichnen
MehrVon schwachen zu starken Lernern
Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von
MehrEinsatz von Varianzreduktionstechniken II
Einsatz von Varianzreduktionstechniken II Stratified Sampling und Common Random Numbers Bastian Bluhm Betreuer: Christiane Barz Ausgewählte technische, rechtliche und ökonomische Aspekte des Entwurfs von
Mehr1. Die rekursive Datenstruktur Liste
1. Die rekursive Datenstruktur Liste 1.3 Rekursive Funktionen Ideen zur Bestimmung der Länge einer Liste: 1. Verwalte ein globales Attribut int laenge. Fügt man ein Element zur Liste oder löscht es, wird
Mehra) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein:
1 Aufgabe 8.1 (P) (2, 3)-Baum a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: Zeichnen Sie, was in jedem Schritt passiert. b) Löschen Sie die Zahlen 65, 70 und 100 aus folgendem
MehrGeometrie 2. Julian Fischer Julian Fischer Geometrie / 30
Geometrie 2 Julian Fischer 6.7.2009 Julian Fischer Geometrie 2 6.7.2009 1 / 30 Themen 1 Bereichssuche und kd-bäume 1 Bereichssuche 2 kd-bäume 2 Divide and Conquer 1 Closest pair 2 Beispiel: Points (IOI
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?
MehrInformatik II, SS 2018
Informatik II - SS 28 (Algorithmen & Datenstrukturen) Vorlesung 22 (6.7.28) Greedy Algorithmen II (Datenkompression) Algorithmen und Komplexität Datenkompression Reduziert Größen von Files Viele Verfahren
MehrAlgorithmische Geometrie: Delaunay Triangulierung (Teil 2)
Algorithmische Geometrie: Delaunay Triangulierung (Teil 2) Nico Düvelmeyer WS 2009/2010, 2.2.2010 Überblick 1 Delaunay Triangulierungen 2 Berechnung der Delaunay Triangulierung Randomisiert inkrementeller
MehrIndustrie Chance oder Risiko? Martin Botteck Prof. Dr.-Ing. Kommunikationsdienste und -anwendungen
Industrie 4.0 - Chance oder Risiko? Martin Botteck Prof. Dr.-Ing. Kommunikationsdienste und -anwendungen Industrielle Revolution, Version 4.0 Der Kongress im Jahr 2015: Worum geht es überhaupt? Kongress
MehrID3 und Apriori im Vergleich
ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument
MehrLayout-Synthese - Globale Verdrahtung Peter Marwedel
12 Layout-Synthese - Globale Verdrahtung Peter Marwedel Universität Dortmund, Informatik 12 2008/07/05 Globale Verdrahtung, Allgemeines zur Verdrahtung 12, 2008-2- Bäume 12, 2008-3- Steiner-Bäume Def.:
MehrGraphen. Definitionen
Graphen Graphen werden häufig als Modell für das Lösen eines Problems aus der Praxis verwendet, wie wir im Kapitel 1 gesehen haben. Der Schweizer Mathematiker Euler hat als erster Graphen verwendet, um
MehrGewinnt die Eins immer den Wettbewerb der führenden Ziffern?
Gewinnt die Eins immer den Wettbewerb der führenden Ziffern? Elke Warmuth Humboldt-Universität Berlin Tag der Mathematik an der FU Berlin, 05.05.2012 1 / 1 2 / 1 x 1, x 2,..., x n nichtnegative Zahlen,
MehrAlgorithmentheorie Randomisierung
Algorithmentheorie 03 - Randomisierung Prof. Dr. S. Albers Randomisierung Klassen von randomisierten Algorithmen Randomisierter Quicksort Randomisierter Primzahltest Kryptographie 2 1. Klassen von randomisierten
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrAnalytics Entscheidungsbäume
Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering
Mehr) (1 BE) 1 2 ln 2. und somit
1 Aufgaben aus dem Aufgabenpool 1 1.1 Analysis A1_1 Eine Funktion f ist durch 1 x f(x) e 1, x IR, gegeben. Ermitteln Sie die Nullstelle der Funktion f. ( ) b) Die Tangente an den Graphen von f im Punkt
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny
MehrData Mining im Einzelhandel Methoden und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.
MehrFerien-Übungsblatt 8 Lösungsvorschläge
Institut für Theoretische Informatik Lehrstuhl Prof. Dr. D. Wagner Ferien-Übungsblatt 8 Lösungsvorschläge Vorlesung Algorithmentechnik im WS 09/10 Problem 1: Probabilistische Komplexitätsklassen [vgl.
MehrPrädiktion und Klassifikation mit
Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Nouri@acm.org Technical University NW-Switzerland /35 Übersicht a. Probleme mit Decision Tree b. Der Random Forests RF c. Implementation
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.
MehrInformatik II, SS 2016
Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 22 (20.7.2016) Greedy Algorithmen - Datenkompression Algorithmen und Komplexität Greedy Algorithmen Greedy Algorithmen sind eine Algorithmenmethode,
MehrKryptographische Protokolle
Kryptographische Protokolle Lerneinheit 2: Generierung von Primzahlen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Wintersemester 2018/2019 15.11.2018 Einleitung Einleitung Diese Lerneinheit
MehrAlgorithmen und Datenstrukturen Heapsort
Algorithmen und Datenstrukturen 2 5 Heapsort In diesem Kapitel wird Heapsort, ein weiterer Sortieralgorithmus, vorgestellt. Dieser besitzt wie MERGE-SORT eine Laufzeit von O(n log n), sortiert jedoch das
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrBegriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische
MehrEndliche Körper. Seminar Graphentheorie und Diskrete Mathematik Referent: Steffen Lohrke ii5105 SS 2005
Endliche Körper Seminar Graphentheorie und Diskrete Mathematik Referent: Steffen Lohrke ii5105 SS 2005 Abelsche Gruppe Eine Abelsche Gruppe ist eine algebraische Struktur, die aus einer Menge K und einem
MehrDecision Tree Learning
Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?
MehrJürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr.
Jürgen Lesti Analyse des Anbieterwechsels mit Hidden-Markov-Modellen Empirische Untersuchung im Retail Banking Verlag Dr. Kovac Hamburg 2015 XIII Inhaltsverzeichnis Geleitwort Vorwort Danksagung Abbildungsverzeichnis
MehrWiederholung. Divide & Conquer Strategie
Wiederholung Divide & Conquer Strategie Binäre Suche O(log n) Rekursives Suchen im linken oder rechten Teilintervall Insertion-Sort O(n 2 ) Rekursives Sortieren von a[1..n-1], a[n] Einfügen von a[n] in
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
MehrProseminar/Seminar Kryptographie und Datensicherheit SoSe 2009 Universität Potsdam Jan Jantzen
Authentifizierung Proseminar/Seminar Kryptographie und Datensicherheit SoSe 2009 Universität Potsdam Jan Jantzen Seminar Kyptographie und Datensicherheit SoSe 09 1 Gliederung Authentifizierung (Einleitung)
MehrEntwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
MehrCAKE: Hybrides Gruppen- Schlüssel-Management. Peter Hillmann
CAKE: Hybrides Gruppen- Schlüssel-Management Peter Hillmann Agenda 1. Motivation und Anforderungen 2. Stand der Technik 3. Neues Verfahren: CAKE 4. Vergleich und Zusammenfassung Peter Hillmann 2 1. Motivation
Mehr