Next. DM und KDD, Phasen Aufgabenstellungen des DM Wissensrepräsentation Entscheidungsbäume I Repräsentation Entscheidungsbäume II Lernen

Größe: px
Ab Seite anzeigen:

Download "Next. DM und KDD, Phasen Aufgabenstellungen des DM Wissensrepräsentation Entscheidungsbäume I Repräsentation Entscheidungsbäume II Lernen"

Transkript

1 Next DM und KDD, Phasen Aufgabenstellungen des DM Wissensrepräsentation Entscheidungsbäume I Repräsentation Entscheidungsbäume II Lernen Entscheidungsbäume III Praktisch Ausblick ID3 zu C4.5 Ein Problem Tools RapidMiner Performance von Klassifikatoren Ethik KI -DM 121

2 Exkurs ID3-Algorithmus Wie beschrieben mit Gain als Auswahlkriterium des Attributes Entwickler Ross Quinlan (Sydney) Kein Backtracking => nicht optimal, lokale Minima mgl. ID3 sehr erfolgreich, Zerlegung anhand des Informationsgewinns einleuchtend Kleine Probleme in der Praxis, deshalb von Quinlan weiterentwickelt zu C4.5 (J48 in Weka, DecisionTree in RapidMiner) [Quinlan1993] C5.0 (kommerziell, unveröff. Verfahren, ähnlich C4.5 aber schneller) KI -DM 122

3 Exkurs Probleme des ID3 Ein Beispiel Hinter einem Vorhang verbirgt sich ein Mitarbeiter oder Professor des Fachbereiches. Sie sollen herausbekommen, wer es ist. Welches Attribut fragen Sie als erstes ab? Problem des Information Gain(möglichst reine Knoten) Attribute mit vielen Attributwerten werden stark bevorzugt, denn sie enthalten sehr viel Information bis zur Identifikation Andere Maße um das beste Attribut zu bestimmen Gain ratio(möglichst reine Knoten, aber nicht zu viele) Gini Index KI -DM 123

4 Exkurs Probleme des ID3 Attribute mit vielen Werten (Primärschlüssel, ID) Numerische Werte Fehlende Werte Bei der Baumkonstruktion Beim Klassifizieren Overfitting: 100% Beherrschung der Testdaten ist nicht notwendig, Prepruning vermeidet overfitting Diese Probleme sind gelöst im C4.5 Operator Decisiontree im RapidMiner (Details in Kap. 6.1 in [WF01]) KI -DM 125

5 Exkurs Tools Kostenfreie Nutzung: oft Duale Lizenz: GPL + kommerzielle mit Service und Erweiterungen RapidMiner Open + Closed Source, Uni. Dortmund + Rapid-I GmbH (Dortmund) WEKA GPL, Universität von Waikato (Neuseeland) KNIME GPL + dual, Uni. Konstanz + KNIME.com GmbH (Zürich) Orange GPL + Qt, University of Ljubljana (Slowenien) Rattle in R, Open Source, Fa. Togaware (Australien) R GPL, Programmiersprache Kommerziell: bspw. SPSS Modeller KI -DM 126

6 Exkurs Umfrage in Kdnuggets, 2010 Which data mining/analytic tools you used in the past 12 months for a real project (not just evaluation) [912 Teilnehmer] Vielfalt kostenloser Werkzeuge KI -DM 127

7 Werden die kostenlosen Werkzeuge tatsächlich verwendet? Exkurs Ja. In Europa. KD nuggets, May 2011, > 1100 Teilnehmer KI -DM 128

8 Exkurs Seminare-Angebote von rapid-i (Stand April 09) 2012 KI -DM 129

9 RapidMiner Data Mining Tool ehemals YALE (Yet Another Learning Environment) open source(community Edition), JAVA GUI oder offline DM-Prozess als Operatorgraph, XML-File Operator: erwartet Input und Parameter, liefert Output Parameter: criterion, minimal_size_for_split,... Input: ExampleSet DecisionTree Output: Modell KI -DM 130

10 Exkurs Open Source KI -DM 131

11 Exkurs RapidMiner Operatoren * Data preprocessing operators Feature operators Machine learning algorithms für numerische Prognose und Klassifikation: SVM, Decisiontrees, Lazy, Bayes, KNN, KNN,..., Metalernen Meta operators Performance evaluation Visualization In- and output * * * * * * Operatorauswahl in RapidMiner 5.0 mit allen Plugins KI -DM 132

12 RapidMiner TDIDT ID3 oder DecisionTree (C4.5) Tree outlook = overcast: yes outlook = rainy windy = FALSE: yes windy = TRUE: no outlook = sunny humidity = high: no humidity = normal: yes KI -DM 133

13 Next DM und KDD, Phasen Aufgabenstellungen des DM Wissensrepräsentation Entscheidungsbäume I Repräsentation Entscheidungsbäume II Lernen Entscheidungsbäume III Praktisch Erinnerung an die Übung: Rapidminer, Scatterplot, ID3, Decisiontree Performance von Klassifikatoren Ethik KI -DM 135

14 In der Übung: Protokoll Datenmenge öffnen, visualisieren, Streudiagramm Baum mit ID3 aus Datenmenge erzeugen Modell anwenden auf unbekannten Datensatz Entscheidungsbaum der Tiere Tiefe 20, Tiefe 4 KI -DM 136

15 Streudiagramm (Scatterplot) 2 Variablen als Achsen, ein Punkt pro Datensatz Überdeckung von Punkten durch Jitter vermeidbar Explorative Analyse: bivariate Korrelationen, Cluster, Kompaktheit, Streuung Beispiel: Wovon hängt der Nachtstrom-Verbrauch ab? Ursache oder nur Korrelation? Nachtstromverbrauch Maximal-Temperatur der letzten 24 Stunden KI -DM 137

16 KI -DM 144

17 KI -DM 145

18 Matrix aller Streudiagramme Auch Scatterplotmatrix (SPLOM) k Variablen -> k x k -Matrix Matrixelemente: Streudiagramme Einfärbung (blau, rot) durch Zielklasse KI -DM 146

19 Exkurs Reale SPLOM für Hypothesenbildung Welche Merkmale sind abhängig? Welche Merkmale eignen sich für die Klassifizierung? Cluster Visual Analytics (Sonderheft Informatikspektrum, Dezember 2010) KI - DM 147

20 Exkurs Reale SPLOM für Hypothesenbildung Welche Merkmale sind abhängig? Welche Merkmale eignen sich für die Klassifizierung? Cluster Visual Analytics (Sonderheft Informatikspektrum, Dezember 2010) KI - DM 148

21 Exkurs Reale SPLOM für Hypothesenbildung Welche Merkmale sind abhängig? Welche Merkmale eignen sich für die Klassifizierung? Cluster Visual Analytics (Sonderheft Informatikspektrum, Dezember 2010) KI - DM 149

22 Exkurs Reale SPLOM für Hypothesenbildung Welche Merkmale sind abhängig? Welche Merkmale eignen sich für die Klassifizierung? Cluster Visual Analytics (Sonderheft Informatikspektrum, Dezember 2010) KI - DM 150

23 Exkurs Spongebob und Crabs Lernen von Objektbeschreibungen durch Zeigen von Beispielen Diplomarbeit Benjamin Kieper: Entwurf und Implementierung einer Anwendung zum dialogbasierten, überwachten Lernen von Objektmodellen aus Bildern KI -DM 151

24 Einschätzung des Gelernten Fragen in der Praxis: 1. Welche Lernmethoden sollen auf welches Problem angewendet werden? 2. Welcher trainierte Klassifizierer(Modell) soll letztendlich verwendet werden? => Lernmethoden und Modelle müssen verglichen werden. KI -DM 152

25 Next Performance von Klassifikatoren, Einschätzung des Gelernten, Konfusionsmatrix Fehlermaße: Fehlerrate, Erfolgsrate Resubstitutions-Fehler Bsp knearest Neighbor-> Der Resubstitutionsfehler hat ein Problem Fehlerschätzung Wie sieht die Praxis aus: Holdout-Methode + Stratifikation + Wiederholung -> Kreuzvalidierung leave-one-out, bootstrap Ethik und Data Mining KI -DM 153

26 Güte eines Modells Wie kann die Prognosegüte eines Modells beurteilt werden: Wir schätzendie Performance (bspw. Fehlerrate, Erfolgsrate), die das Modell bei seiner Anwendung in der Praxis erreichen wird. Wie? Zwei Wege Einfacher Weg Besserer Weg KI -DM 154

27 Modell auf bekannte Daten anwenden 1. Modell erstellen 2. Modell auf die Daten anwenden und Prognose der Klasse ermitteln (prediction) 3. Performance berechnen aus Vergleich der ermittelten mit der tatsächlichen Klasse Vielzahl von Performancemaßen KI -DM 155

28 Konfusionsmatrix Gegenüberstellung der Häufigkeiten der ermitteltenklassen (predicted) und der tatsächlichen Klassen (real) eines Testfalles. Hauptdiagonale = richtig Vorhergesagte KI -DM 156

29 Aus der Konfusionsmatrix: Erfolgsrate, Fehlerrate Erfolgsrate = #richtig Vorhergesagte / #Alle Fehlerrate = #falsch Vorhergesagte / #Alle Engl. accuracy, classification error Beispiel: Erfolgsrate= ( ) / 192 = 18.2% Fehlerrate= ( )/ 192 = 81.8% = 100 KI -DM 157

30 Spezialfall: Konfusionsmatrix bei binärer Klassifikation Exkurs Genau 2 Klassen: {ja, nein}, {positiv, negativ}, {0,1},{wahr, falsch}, {krank, gesund} Konfusionsmatrix 2 x 2: Tatsächliche Klasse positiv negativ Ermittelte Klasse positiv TP = True positive FP = False positiv negativ FN = False negative TN = True negative Erfolgsrate = Fehlerrate = (TP+TN) / (TP + FP + FN +TN ) (FP+FN) / (TP + FP + FN +TN ) x y KI -DM 158

31 Diagnose mit 95% <Gütemaß> krank (+), gesund (-), Ein positiver Befund ist oft nicht positiv grüne Performancewerte möglichst hoch, rote niedrig 95% Erfolgsrate: Die Diagnose stimmt in 95% der Fälle. accuracy classification error 95% Fehlerrate: 95% der Diagnosen sind falsch. 95%: Sensitivität: 95% der Kranken werden als krank erkannt sensitivity, recall, true positive rate (TPR) = TP / (TP + FN) specificity, true negative rate (TNR) = TN / (TN + FP) 95% Spezifität: 95% der Gesunden werden als gesund erkannt Beispiel vom Anfang: Herzinfarkt: Sensitivity = 81.4% Specificity = 92.1% PPV = 72.9% Accuracy = 89.9% KI -DM 159

32 Exkurs Weitere Maße 95% Positiver Vorhersagewert: Von Krankgeschriebenen sind 5% gesund (und 95% krank) precision, positiv predictive value (PPV) = TP / (TP + FP) negative predictive value (NPV) = TN / (FN + TN) 95% Negativer Vorhersagewert: 95% der als gesund Erklärten sind gesund. 95% Ausfallrate: 95% der Gesunden werden als krank erklärt false positive rate (FPR) = FP / (FP + TN) false discovery rate (FDR) = FP / (TP + FP) 95% false discovery rate: 95% der krank Erklärten sind gesund KI -DM 160

33 So nicht! Wo ist das Problem? Die Performance eines Klassifizierers auf den Trainingsdaten ist kein guter Leistungsindikator für eine unabhängige Testmenge. Die Evaluierung ist viel zu optimistisch! KI -DM 162

34 Resubstitutionsfehler Resubstitution = nochmal verwenden Fehlerrate eines Klassifizierers auf seinen Trainingsdaten wird als Resubstitutions- Fehler bezeichnet Die Trainingsdaten werden also nochmalverwendet Entsprechend Resubstitutions-Erfolgsrate etc. Warum ist der Resubstitutionsfehlerkeine gute Schätzung für die spätere Leistung des Modells? Beispiel: k-nearest Neighbor(k-NN) - ein sog. Lazy learner Lernen hier: einfaches Speichern aller Beispiele das Modell ist damit diese gespeicherte Beispielmenge Anwenden auf unbekanntes x: Finden der k ähnlichsten Beispiele in der Beispielmenge -> deren häufigste Klasse ausgeben Quiz: Wie groß ist der Resubstitutionsfehler eines k-nn mit k = 1? KI -DM 163

35 Resubstitutionsfehlereines k-nearest Neighbormit k = 1 Datenmenge == Modell a1 a2 Klasse = Ein Datensatz X sei (6,6) Wie wird X durch den k-nearest Neighbor mit k=1 klassifiziert? Exkurs Die Resubstitutions-Erfolgsrate eines k-nn mit k = 1 ist stets 100%. Das ist eine sehr optimistische Schätzung für den zukünftigen Fehler, oder? KI -DM 164

36 Wie können wir den zukünftigen Fehler besser schätzen? Die Resubstitutions-Erfolgsrate eine k-nn mit k = 1 ist stets 100%. Ein hochangepasster Klassifikator. Der Resubstitutionsfehlerist nicht geeignet, den Fehler während der späteren Anwendung des Klassifikators zu schätzen. Trotzdem wird diese Methode oft verwendet. Als Heuristik: ein großer Resubstitutionsfehler zeigt, dass die Modellierung mit diesem Lernverfahren nicht gelingt. Einfacher Weg - Resubstitutionsfehler Besserer Weg - kommt jetzt KI -DM 165

37 Holdout-Methode Holdout-Methode reserviert Daten für das Testenund verwendet nur den Rest fürs Training 2 disjunkte Mengen Trainingsdaten: Erstellung des Klassifikators, Lernen Testdaten: Schätzung der Fehlerrate des Klassifikators Üblich: 1/3 Testen, 2/3 Training Performance der Lernmethode Konfusionsmatrix Test anwenden auf Training Modell lernen KI -DM 166

38 Stratifikation Problem: Möglicherweise sind die für die Testmenge gewählten Daten nicht repräsentativ Stratifikation: Datenmenge so teilen, dass die relativen Klassenhäufigkeitenin Test-und Trainingsdaten übereinstimmen -> Stratifizierte Holdout Methode KI -DM 168

39 Wiederholtes Holdout Idee: Holdout-Methode mehrmals mit unterschiedlichen Datenteilungen wiederholen und den Mittelwert alle Fehlerraten bilden damit erfolgt eine Kompensierung der Fehler, die durch Auswahl der Stichprobe entstanden sind Das wichtigste Verfahren des wiederholten Holdout: Kreuzvalidierung (engl. cross validation, CV) KI -DM 169

40 n-fache Kreuzvalidierung (CV) Beispiele zufällig in n Mengen (Partitionen) aufteilen, z.b. n=3 oder n=10. Für i=1 bis n: -i-te Menge ist Testmenge - restliche n-1 Mengen sind Trainingsmenge -> Lerner erzeugt Modell i -bestimme die Leistung des Modells auf der Testmenge -> Fehler i -> n Fehlerwerte Bestimme Mittelwert und ggf. Streuung des Fehlers -> Ergebnis der CV Das Ergebnis der CV ist eine Schätzung des zu erwartenden Generalisierungsfehlers auf unbekannten Daten. Das Modell für den späteren Einsatz wird mit allenverfügbaren Daten erstellt. Ergebnis das Data-Mining-Prozesses = Modell + Fehlerschätzung des Modells KI -DM 170

41 Stratifizierte Kreuzvalidierung Besser: Stratifikation Relative Klassenhäufigkeiten in allen Partitionen annähernd gleich zur Verteilung in der Gesamtmenge -> stratifizierte Kreuzvalidierung Noch besser: wiederholte Kreuzvalidierung Bsp: 10mal wiederholte 10fache Kreuzvalidierung -> 100 Modelle zu lernen und zu testen in RapidMiner: X-Validation Beispiel: Erfolgsrate eines ID3 und NN auf der Datenmenge weather vergleichen KI -DM 171

42 Exkurs Beispiel: Erfolgsrate schätzen (1) weather.nominal.arff, n=5 KI -DM 172

43 Exkurs Erfolgsrate schätzen (2) Erfolgsrate (ID3) = 63.33% KI -DM 173

44 Exkurs Erfolgsrate schätzen (3) real 5 Konfusions- matrizen: predicted Mittelwert Classification_error 3/3 1/3 1/2 0/3 0/ % (FP+FN)/All Accuracy (TP+TN)/All 0/3 2/3 1/2 3/3 3/ % 1 1 Standardabweichung der Erfolgsraten e i : s= ( e e) = 0, n i 2 Kumulierte Konfusionsmatrix: Erfolgsrate der kumulierten Konfusionsmatrix: 9/14 = 0, KI -DM 174

45 Exkurs Erfolgsrate schätzen (4) Neuronales Netz Erfolgsrate (KNN) = % KI -DM 175

46 Exkurs Andere Schätzverfahren Leaveoneout Leave one out n-fache Kreuzvalidierung mit n=instanzenanzahl Testmenge = eine Instanz, Rest ist Trainingsmenge Keine zufällige Stichprobenwahl -> deterministisch Hoher Rechenaufwand: n-mal lernen Realistische Schätzung KI -DM 176

47 Exkurs Andere Schätzverfahren -Bootstrap Bootstrap aus einer Datenmenge mit n Instanzen wird n-mal zufällig eine Instanz gewählt und in die Trainingsdaten kopiert Nicht gewählte Instanzen -> Testdaten p=1/n für jede Instanz, dass sie ausgewählt wird p=1-1/n, dass sie nicht ausgewählt wird Potenzierung über n Auswahlvorgänge führt zur Wahrscheinlichkeit, dass eine bestimmte Instanz in der Trainingsmenge vorkommt von: 1 n n 1 ( 1 1/ n) 1 e Pessimistische Schätzung, weil Trainingsmenge nur 63% der ursprünglichen Instanzen enthält geeignet für kleine Datenmengen KI -DM 177

48 Was war Wie würde es weiter gehen (geht es aber nicht) Exkurs Rückblick Konfusionsmatrix Fehlermaße Resubstitutionsfehler nicht als Schätzung geeignet Bsp. k-nearest Neighbor Fehlerschätzung: Kreuzvalidierung Wie würde es weiter gehen (geht es aber nicht) Explorative Analyse: Boxplots, QQ-Plots, ROC,... Merkmalsselektion (Unabhängigkeit, Kontingenztabelle, Chi2-Test,...) Merkmalsdiskretisierung(Diskretisieren, Normieren, ) Datensäuberung (Data cleansing), Ausreißer? Modellauswahl KI -DM 178

49 Auswirkungen erfolgreichen Data Minings Exkurs, nicht in der Prüfung KI -DM 179

50 Exkurs CRM mit SocialMedia Mining Unternehmen XY betreibt eine gut gepflegte Kundendatenbank. Das Unternehmen ist ein Wellnesshotelin einer Ferienregion Bayerns. Ein Kunde, der in der Datenbank registriert ist, kündigt seine Anreise an und bucht einen Aufenthalt. Die Software zieht alle aktuellen SocialMedia Inhalte von diesem Kunden und alle Inhalte in denen er erwähnt wird, im Backend der CRM Software zusammen. Der Hotelier loggt sich ein im CRM bevor er die Auftragsbestätigung verschickt und liest dort, dass sein bald anreisender Gast gerade extremen Stress im Job hat und letztes Wochenende dennoch eine Wanderung mit seiner Partnerin in seinem straffen Zeitplan untergebracht hat. Jetzt aber hat er ja eine Woche Urlaub. Zudem hat er auch Kommentare in diversen Langlauf-Foren geschrieben, welche die Kombination aus CRM und Social Media Monitoring Tool aufbereitet und zuordnen kann. Der Hotelier schreibt ausgestattet mit diesem Basiswissen eine sehr personalisierte Buchungsbestätigung: Lieber Herr B, es freut uns, dass Sie trotz des vielen Stress den Ihnen gerade Ihr Projekt C bereitet, Zeit für einen Urlaub finden konnten. Wir freuen uns sehr darauf, Sie und Ihre Partnerin bei uns Willkommen zu heißen. Bei uns können Sie übrigens jetzt im März immer noch wunderbar Langlaufen, vergessen Sie also Ihre Skier nicht! [...] Der Gast wird sehr direkt angesprochen, wird abgeholt wo er sich befindet etc. Service pur oder unheimliche Vorstellung der nahen Zukunft? Daniel Juist, KI -DM 180

51 Letzte Aufgabe Exkurs informativ Die FH Brandenburg hat u.a. folgende Ziele hoher Anteil Studierender in der Regelstudienzeit hohe Absolventenquote Ziel: Studienverzögerungen frühzeitig erkennen, reagieren Aufgabe:Bestimmen Sie nach dem zweiten Semester die Studierenden, die aufgrund der Notenprofile einen Studienabschluss außerhalb der Regelstudienzeit erwarten lassen. Und helfen Sie ihnen. Diskussion Wo sehen Sie Probleme? KI -DM 181

52 Exkurs Data Mining und Ethik Die Nutzung von Data Mining-Techniken bedeutet, dass die Nutzung der Daten weitüber das hinausgehen kann, was bei der Aufnahme der Daten ursprünglich bekannt war d. h. für personenbezogene Daten: [WF01 S.36], was dem Erfassten bei der Aufnahme der Daten bewusst und von ihm geduldet war. Bei personenbezogenen Daten befinden sich Data Mining und Datenschutz im ständigen Konflikt. KI -DM 182

53 Bundesdatenschutzgesetz (BDSG) Umgang mit pb Daten Exkurs Personenbezogene Daten:Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmtenoder bestimmbarennatürlichen Person (Betroffener). Grundsätze bei Erhebung, Verarbeitung, Nutzung Zulässigkeit (Gesetz erlaubt, Vertrag, Einwilligung) Zweckbindung (Festlegung, Änderung) Erforderlichkeit (Datensparsamkeit, Anonymisierung, Pseudonymisierung, zeitliche Dauer, Löschung) Transparenz (Erhebung beim Betroffenen, Unterrichtung, Auskunft) Data Mining -> die automatisierte Einzelentscheidung KI -DM 183

54 Beispiel Kundendaten im Online-Shop Exkurs informativ zur Abwicklung des Kaufes, oder wegen steuerrechtlicher Aufbewahrungspflichten Keine andere Verwendung ohne die Einwilligung des Betroffenen erlaubt. (Gebot der Zweckbindung) Datenarten Stammdaten (Name, Anschrift, Geburtsjahr) erfragte Konsumvorlieben, demographische Angaben (Familienstand, Haushaltsgröße, Einkommen, Beruf, Hobbies) Nutzung des Dienstes (gekaufte Artikel, angesehene Artikel, Clickstream) Profilerstellung (=Veränderung) Analyse des Profils: Data Mining Und jetzt: Der Verkäufer will anhand der Daten werben KI -DM 184

55 Exkurs Beispiel Kundendaten im Online-Shop informativ Rechtsgrundlagen für Erhebung, Nutzung zu Werbezwecken Stammdaten: 28 II Nr. 1 mit I Nr. 2 BDSG (eigener Geschäftszweck) Erfragte Daten: Einwilligung Nutzungsdaten: Einwilligung Profilerstellung (Verändern): Einwilligung Verarbeitung, Durchführung Data Mining: Einwilligung? Informierte Einwilligung 4a BDSG In der Regel schriftlich, besondere Hervorhebung Freiwillige Entscheidung als Grundlage Hinweis auf Zweck, Hinweis auf Folgen der Verweigerung Beispiel: abgewählte Checkbox Mit der Erhebung und Verwendung meiner Daten zu Werbezwecken bin ich einverstanden. Ich weiß, dass ich mein Einverständnis jederzeit widerrufen kann. Problem: wirksame Einwilligung zum Data Mining schwierig Zweck der Verarbeitung ergibt sich oft erst beim Data Mining Freiwilligkeit Einsichtsfähigkeit(Datenarten, Methoden, Leistungsfähigkeit, Folgen sind dem Betroffenen nicht klar) KI -DM 185

56 Daten erheben, speichern, übermitteln und nutzen BDSG: Datensparsamkeit, Datenvermeidung Verwendung personenbezogener Daten in D. restriktiv geregelt Schutz der Daten, Recht auf Auskunft, Berichtigung, Löschung, Verwendungsbeschränkung Exkurs Kontroll-Problem: Datenerheberhat ein massives (existentielles?) Interesse an abgeleitetem (personenbezogenem) Wissen. Wer kontrolliert ihn? Starke Triebkräfte: Data Mining als Geschäftsvorteil, Sicherheitsbedürfnis, aus Neugier, Kostenersparnis, Globalisierung.. KI -DM 186

57 Data Dealer nur ein Spiel Exkurs informativ Bei welchen Personen führen folgende Motive zur Datenweitergabe? Schulden und Geldprobleme: Sieglinde Bayer-Wurz, Manny Maier Unzufriedenheit mit der Arbeitstätigkeit: Franz Sauerzapf, MannyMaier, Schwester Elfriede Unzufriedenheit mit Lohn/Gehalt: MannyMaier, Stephan Petzold, Schwester Elfriede Erpressung: Dr. Ernst Krasser Hacker: Mara Loft, Onkel Enzo Rache: Manny Maier Sie erkennen die soziale Dimension des Datenverlustes, keine der Datenquellen ist grundsätzlich habgierig, bösartig oder primär auf das Schaden anderer Personen ausgerichtet. Die Fälle resultieren aus persönlichen Zwangslagen, aus denen man sich auf Kosten anderer (mit denen man sich nicht direkt auseinandersetzen muss) befreien kann. Eine direkte Schadenswirkung auf die von der Datenweitergabe betroffene Person kann nur äußerst selten wahrgenommen werden, das Entdeckungsrisiko und gesellschaftliche Ächtung ist noch? relativ gering. KI -DM 187

58 Data Dealer Exkurs informativ Welche beiden Datenquellen verkaufen die Daten, die für die Krankenversicherung am wertvollsten sind? Schwester Elfriede, Vorteilsclub Reales Beispiel: Rapleaf Identity Check API als Webservice (passt der Name zur ) Personalization API: Daten zur oder Postadresse: Demographie, Haushalt, Interessen, Einkaufsverhalten Match-Raten und Preise online KI -DM 188

59 informativ 2012, Beispiel Rapleaf Exkurs KI - DM 189

60 Mikrogeografische Daten Exkurs informativ Foto: GfK GeoMarketing KI -DM 190

61 User Tracking beim Browsen, Tool LightBeam Kreise = Besuchte Seiten eines Tages Exkurs KI -DM 192

62 Exkurs LightBeam: User Tracking: Die besuchten Seiten informieren andere Server (Dreiecke) über eingeblendete <IRGENDWAS>, dass Sie da sind. KI -DM 193

63 Exkurs Datensammler, die von vielen Webservern über Ihren Besuch informiert werden -> Profil -> Wiedererkennen KI -DM 194

64 Exkurs informativ Liebe xxxx, Du würdest dein Facebook-Login+Passwort bei einem Vorstellungsgepräch nicht preisgeben, oder? Oder Dich beim Gespräch wenigstens einloggen? Aha, auch nicht. Aber einen Firmenmitarbeiter zum 'Freund' erklären? Nicht mal das? Dann aber wenigstens einer Third-Party App Zugriff aufs Profil erlauben? Auch nicht - dann willst Du den Job (im öffentlichen Dienst) wohl gar nicht? Ungeprüfte Zeitungsmeldung, M. Valdes, S. McFarland, Associated Press, , online unter KI -DM 196

65 Speichern und Übermitteln von Daten Sexuelle Vorlieben im BDSG Exkurs informativ Anonyme Daten dürfen immer gespeichert werden Allgemein zugängliche personenbezogene Daten im Prinzip auch Weitergabe von Listen erlaubt demnächst nicht mehr? Besondere Arten personenbezogener Daten: rassische und ethnische Herkunft, politische Meinungen, religiöse oder philosophische Überzeugungen, Gewerkschaftszugehörigkeit, Gesundheit oder Sexualleben: Erheben, Verarbeiten und Nutzen zulässig, wenn: es sich um Daten handelt, die der Betroffene offenkundig öffentlich gemacht hat Forschung, Medizin (inkl. Beauftragte) Abwehr von erheblichen Gefahren, Verfolgung von Straftaten von erheblicher Bedeutung Organisationen ohne Erwerbszweck: Mitglieder oder Personen, die im Zusammenhang mit deren Tätigkeitszweck regelmäßig Kontakte mit ihr unterhalten 28 KI -DM 197

66 Exkurs Anonym noch Datenbank 1: A ist depressiv, er sitzt in der zweiten Reihe. Datenbank 2: A ist depressiv, er sitzt rechts. Verknüpfen von Datenbank 1 und 2 hebt die Anonymität auf: KI - DM 198

67 Data Mining Die Automatisierte Einzelentscheidung ( 6a BDSG, A15 Europäische Datenschutzrichtlinie) Exkurs informativ (1) Entscheidungen, die für den Betroffenen eine rechtliche Folgenach sich ziehen oder ihn erheblich beeinträchtigen, dürfen nicht ausschließlich auf eine automatisierte Verarbeitungpersonenbezogener Daten gestützt werden, die der Bewertung einzelner Persönlichkeitsmerkmale dienen. (2) Dies gilt nicht, wenn 1. die Entscheidung im Rahmen des Abschlusses oder der Erfüllung eines Vertragsverhältnissesoder eines sonstigen Rechtsverhältnisses ergeht und dem Begehren des Betroffenen stattgegeben wurde oder 2. die Wahrung der berechtigten Interessendes Betroffenen durch geeignete Maßnahmen gewährleistet und dem Betroffenen von der verantwortlichen Stelle die Tatsache des Vorliegens einer Entscheidung im Sinne des Absatzes 1 mitgeteilt wird. Als geeignete Maßnahme gilt insbesondere die Möglichkeit des Betroffenen, seinen Standpunkt geltend zu machen. Die verantwortliche Stelle ist verpflichtet, ihre Entscheidung erneut zu prüfen. KI -DM 199

68 Automatisierte Einzelentscheidung (ausschließliche) 6a BDSG Exkurs informativ Rechtliche Folge? Standard Nicht erlaubt nein ja Erhebliche Beeinträchtigung? ja Im Rahmen Rechts- Verhältnis? nein Maßnahmen Interessen- Wahrung? ja Mitteilung? nein ja Begehren stattgegeben? ja erlaubt ja Kfz erlaubt KI -DM 200

69 Exkurs Konsequenzen des Data Mining Mögliche persönliche Nebenwirkungen Wann wird Diskrimination zu Diskriminierung? Dem Ausgewählten entsteht ein Vorteil: Kündigerprävention, Jobangebote für beste Studenten, Ehepartner, personalisierte Angebote, günstige Krankenversicherung Nachteil: Zahlungsart, Kredit abgelehnt, Bewerbung, Terrorist, Mietvertrag, nicht bester Student, Kosten für Kündigerprävention, teure Krankenversicherung Kann ein Profil Ihre Handlungen besser vorhersagen, als Sie selbst? KI -DM 201

70 Exkurs Konsequenzen des Data Mining Mögliche gesellschaftliche Nebenwirkungen (negative) Ständige Profilbildung, Belanglose Daten Verhaltensänderung durch gefühlte Beobachtung, Selbstzensur Identifikation, Profilabruf, Prognose im täglichen Leben Einschränkung der Handlungsfreiheit Manipulation freier Entscheidungen PersonalisierteFilterblase: Google Suchergebnisse, Facebook-Timeline, News: Ausblenden uninteressanter Inhalte Potential sozialer Diskreditierung Einzelner(Politiker, Kritiker..) Exponentielle Fehlentwicklungen durch automatische Entscheidungen (Börsencrashs) Verlust menschlicher Expertise ( Siri sagt ) Intransparenz von Entscheidungen KI -DM 202

71 Exkurs 3 Tendenzen 1. Maschinelle Wahrnehmung wächst 2. Vernetzung der Wissensbasen wächst 3. Semantische Modellierung wächst KI -DM 203

72 These 1 These 1: Wachsende maschinelle Wahrnehmung Beispiel Gesichtserkennung das Netz öffnet die Augen Gesicht: frei verfügbares Merkmal, Erfassung aus Distanz Exkurs informativ Google-Bildersuche Einstein $imgtype=face, Kamera Casio Exilim(Lächeln, Schärfe auf Bekannte), Picasaonline, PhotoshopelementsV6, iphoto(mac), Face.com PhotoFinder: Suche in Facebook-Alben von Freunden (Upload 700 Mill. Fotos/Monat) Foto-Fahndung (BKA 01/07), Elektronischer Personalausweis 11/2010, Flughafen (Smart Gate), Sportstadien, Einkaufszentren, Bahnhöfe, FIND: Facial Images National Database, Projekt in UK, Ende 2008 Erkennbarkeit... von Stimmung, Alter, Geschlecht, Raucher, Programmierer,...,... von Blickrichtung,... aus Videos, wachsende Kameradichte KI -DM 204

73 These 1: Wachsende maschinelle Wahrnehmung Exkurs informativ Audio Mining, bspw. Google Audio Indexing (Texte aus Youtube-Videos) Reality-Mining: Handy an Funkzelle, WLAN-& Bluetooth-Broadcasts, GPS aus Taxis, Routenplanung in GPS-Geräten mit aktuellen Verkehrsdaten -> (Zeit+Ort+ID)*-> Firma Sense Networks (USA, Lateinamerika, Europa) -> Bewegungsprofile RFIDs in Waren, Tieren Social Networks: Facebook, MySpace, StudiVZ, Xing,... Quantified Self KI -DM 205

74 Exkurs informativ These 2 und 3 Vernetzung und semantische Modellierung Zunehmende Integration von Datenbeständen Bei Firmenübernahmen, Insolvenzen In Werbenetzwerken Bei Kriminellen (Data Dealer) Bei Behörden Semantische Modellierung Von Bildern, Videos: Ort, Zeit, andere Personen, Ereignis,... Von Webseiten: Semantic Web Durch Text-Mining, Modellierung aus natürlicher Sprache KI -DM 206

75 Exkurs ul.net/visualizations/worldsbiggest-data-breacheshacks/ design & concept: David McCandless KI -DM 207

76 Informatikeram Hebel?! Data Mining-Resultate (bspw. Modelle) kritisch betrachten Schätzung des Generalisierungsfehlers schwierig! Prozesse ändern sich! Daten nicht repräsentativ, fehlerhaft, zufällige Zusammenhänge Man findet, was man sucht Datenschutz als Chance (Akzeptanz, Rechtssicherheit von Geschäftsmodellen) Transparente Modelle als Chance Datensparsamkeit, Zweckbindung Respekt: Recht des Einzelnen auf informationelle Selbstbestimmung, Perspektivwechsel, Konsequenzen Transparenz: Informieren über Potentiale, Grenzen und Einsatz des Data Mining Louis Brandeis: Sunlight is said to be the best of disinfectants KI -DM 208

77 Poll at KDD-2010 conference Exkurs informativ Wissen über Data Mining führt zur verantwortlicherem Umgang mit den eigenen Daten: This poll result seems to confirm that many data miners are more interested in analysis of social networks than in participating in them. KI -DM 209

78 Exkurs informativ Prediction is very difficult, especially about the future. Niels Bohr KI -DM 210

79 Exkurs Ausgangsfrage Ist es möglich, die angefallenen und weiter anfallenden riesigen Datenbestände in nützliche Informationen oder sogar Wissen umzuwandeln? Ja. Mehr, als Sie sich vorstellen können. KI -DM 211

80 Literatur Literaturempfehlung [WF01] Witten, Ian H. ; Frank, Eibe: Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen. Hanser Fachbuch,2001 (12 Exemplare in der Bibliothek) [HK01] Han, Jiawei ; Kamber, Micheline: Data Mining. Concepts and Techniques. Morgan Kaufmann Publishers, 2001 (1 Exemplar in der Bibliothek) und ips-kriterien, Teil Rechtliche Grundlagen unter Algorithmen von Quinlan [Qui86] Quinlan, J.R.: Induction of decision trees. In Machine Learning 1986 Volume 1 Number 1. Springer Netherlands. Seiten : online unter [Qui93] J. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, Quellennachweis [Ult04] Ultsch, Alfred: Anwendungen Emergenter SOM Stand [FPSS96] Fayyad, Usama ; Piatetsky-Shapiro, Gregory ; Smyth, Padhraic: From Data Mining to Knowledge Discovery in Databases. In: AI Magazine 17(3) (1996), S Stand [AG05] prudsys AG: Data Mining Cup. Webseite Stand [TFLK98] Tsien, C., Fraser, H., Long, W. and Kennedy, R.: Using classification tree and logistic regression methods to diagnose myocardial infarction. Medinfo. v , 1998 online unter: KI -DM 212

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

BIG DATA Herausforderungen für den Handel

BIG DATA Herausforderungen für den Handel BIG DATA Herausforderungen für den Handel RA Adrian Süess, LL.M., Zürich Bühlmann Rechtsanwälte AG www.br-legal.ch 1 2 1 Überblick Worum geht s. Big Data. Was ist Big Data. Beschaffung und Bearbeitung

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

BIG DATA. Herausforderungen für den Handel. RA Adrian Süess, LL.M., Zürich Bühlmann Rechtsanwälte AG www.br-legal.ch

BIG DATA. Herausforderungen für den Handel. RA Adrian Süess, LL.M., Zürich Bühlmann Rechtsanwälte AG www.br-legal.ch BIG DATA Herausforderungen für den Handel RA Adrian Süess, LL.M., Zürich Bühlmann Rechtsanwälte AG www.br-legal.ch 1 2 Überblick Worum geht s. Was ist Big Data. Beschaffung und Bearbeitung von Datensätzen.

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick

Data-Mining und Knowledge Discovery in Databases (KDD) Ein Überblick Institut für Angewandte Informatik Professur für Technische Informationssysteme Fakultätsname XYZ Fachrichtung XYZ Institutsname XYZ, Professur XYZ Data-Mining und Knowledge Discovery in Databases (KDD)

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes

Mehr

Data Mining mit RapidMiner

Data Mining mit RapidMiner Motivation Data Mining mit RapidMiner CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen erfordern flexible

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011 Evaluation Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 26.05.2011 Caroline Sporleder Evaluation (1) Datensets Caroline Sporleder Evaluation (2) Warum evaluieren?

Mehr

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011

MythMiner. Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner. Balázs Bárány. Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ Ein Empfehlungssystem für Fernsehprogramme auf Basis von RapidMiner Linuxwochen Wien, 7. 5. 2011 Voraussetzungen für Data Mining und Text Mining Schluÿ

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Big Data Small Privacy?

Big Data Small Privacy? Big Data Small Privacy? Herausforderungen für den Datenschutz Future Internet Kongress Palmengarten, Frankfurt 4. Dezember 2013 Übersicht 1. Schutzgut des Datenschutzrechts Informationelle Selbstbestimmung

Mehr

Big Data in der Medizin

Big Data in der Medizin Big Data in der Medizin Gesundheitsdaten und Datenschutz Dr. Carola Drechsler Sommerakademie 2013 Inhalt Was bedeutet Big Data? Welche datenschutzrechtlichen Fragestellungen sind zu berücksichtigen? Welche

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Datenschutzerklärung der Vinosent GbR

Datenschutzerklärung der Vinosent GbR Erklärung zum Datenschutz Wir, die Vinosent GbR, freuen uns über Ihren Besuch auf unserer Internetseite und Ihrem Interesse an unserem Unternehmen. Der Schutz Ihrer personenbezogenen Daten ist uns ein

Mehr

Datenschutz. Herzlich willkommen!

Datenschutz. Herzlich willkommen! Datenschutz Herzlich willkommen! Wir freuen uns, dass Sie unseren Shop besuchen und bedanken uns für Ihr Interesse an unserem Unternehmen, unseren Produkten und unserer Webseite. Der Schutz Ihrer Privatsphäre

Mehr

Datenbanken-Themen im OS "Data Mining" SS 2010

Datenbanken-Themen im OS Data Mining SS 2010 Prof. Dr.-Ing. Thomas Kudraß HTWK Leipzig, FIMN Datenbanken-Themen im OS "Data Mining" SS 2010 Die Vorträge sollten eine Dauer von 60 Minuten (Einzelvortrag) bzw. 45 Minuten (Doppelvortrag) haben. Nachfolgend

Mehr

ON! Reihe Medien und Gesellschaft Arbeitsmaterialien Seite 1 DVD Datenschutz

ON! Reihe Medien und Gesellschaft Arbeitsmaterialien Seite 1 DVD Datenschutz ON! Reihe Medien und Gesellschaft Arbeitsmaterialien Seite 1 Daten im Alltag Einstieg Als Einstieg in die Einheit dient die Übung Was gibst du preis?. Hierbei sollen die Schüler herausfinden, wie sie mit

Mehr

Gesetzliche Grundlagen des Datenschutzes

Gesetzliche Grundlagen des Datenschutzes Gesetzliche Grundlagen des Datenschutzes Informationelle Selbstbestimmung Bundesdatenschutzgesetz Grundgesetz Gesetzliche Grundlagen des Datenschutzes allg. Persönlichkeitsrecht (Art. 1, 2 GG) Grundrecht

Mehr

Akzeptanz von Portallösungen durch Datenschutz Compliance Meike Kamp Unabhängiges Landeszentrum für Datenschutz Schleswig-Holstein

Akzeptanz von Portallösungen durch Datenschutz Compliance Meike Kamp Unabhängiges Landeszentrum für Datenschutz Schleswig-Holstein Akzeptanz von Portallösungen durch Datenschutz Compliance Meike Kamp Datenschutz Schleswig-Holstein Übersicht Wer oder Was ist das Unabhängige Landeszentrum für? Was bedeutet Datenschutz Compliance grundsätzlich?

Mehr

Einführung in die Datenerfassung und in den Datenschutz

Einführung in die Datenerfassung und in den Datenschutz Dr. Thomas Petri Einführung in die Datenerfassung und in den Datenschutz Hochschule für Politik, Sommersemester 2011, Foliensatz 2-2 bis 2-4 (1.6.2011) 1 Grobübersicht 1. Einführung, europa- und verfassungsrechtliche

Mehr

Freiheit, Selbstbestimmung, Selbstkonstruktion zur Ethik von Big Data

Freiheit, Selbstbestimmung, Selbstkonstruktion zur Ethik von Big Data Jahrestagung des Deutschen Ethikrates Die Vermessung des Menschen Big Data und Gesundheit Berlin, 21. Mai 2015 Freiheit, Selbstbestimmung, Selbstkonstruktion zur Ethik von Big Data Peter Dabrock Friedrich-Alexander-Universität

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Datenschutzrechtliche Anforderungen an Big- Data Konzepte

Datenschutzrechtliche Anforderungen an Big- Data Konzepte Datenschutzrechtliche Anforderungen an Big- Data Konzepte Datenschutztag 2015, Köln 23 September 2015 Kathrin Schürmann, Rechtsanwältin 1 2015 ISiCO Datenschutz GmbH All rights reserved Big Data Ein Definitionsversuch:

Mehr

nugg.ad Datenschutzerklärung für mobiles Targeting

nugg.ad Datenschutzerklärung für mobiles Targeting nugg.ad Datenschutzerklärung für mobiles Targeting Version 1.01 Juni 2012 Datenschutzerklärung für mobiles Targeting Seite 2 Mit dieser Datenschutzerklärung möchten wir Ihnen über unsere gesetzliche Verpflichtung

Mehr

Automatisierte Dossier- Erstellung mittels Text-Mining

Automatisierte Dossier- Erstellung mittels Text-Mining Automatisierte Dossier- Erstellung mittels Text-Mining Paul Assendorp Grundseminar 11.12.2014 Paul Assendorp Automatisierte Dossier-Erstellung 1 Gliederung Motivation Textmining Tools Aktueller Stand Ausblick

Mehr

Winfried Rau Tankstellen Consulting

Winfried Rau Tankstellen Consulting Winfried Rau Tankstellen Consulting Teil 1 Wer muss einen Datenschutzbeauftragten bestellen?... 4f BDSG, nicht öffentliche Stellen die personenbezogene Daten automatisiert verarbeiten innerhalb eines Monats

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

Überwachtes Lernen: Klassifikation und Regression

Überwachtes Lernen: Klassifikation und Regression Überwachtes Lernen: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung)

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Data Mining Approaches for Instrusion Detection Espen Jervidalo WS05/06 KI - WS05/06 - Espen Jervidalo 1 Overview Motivation Ziel IDS (Intrusion Detection System) HIDS NIDS Data

Mehr

Auch in kleineren Unternehmen ist der Datenschutzbeauftragte Pflicht

Auch in kleineren Unternehmen ist der Datenschutzbeauftragte Pflicht . Auch in kleineren Unternehmen ist der Datenschutzbeauftragte Pflicht Themenschwerpunkt 1. Wer braucht einen Datenschutzbeauftragter? Unternehmen, die personenbezogene Daten automatisiert erheben, verarbeiten

Mehr

Datenschutzbestimmungen der MUH GmbH

Datenschutzbestimmungen der MUH GmbH Datenschutzerklärung MUH Seite 1 Datenschutzbestimmungen der MUH GmbH Stand: 20.06.2012 1. Unsere Privatsphäre Grundsätze 1.1 Bei der MUH nehmen wir den Schutz Ihrer persönlichen Daten sehr ernst und halten

Mehr

Big Data Wer gewinnt, wer verliert? Köln Revolvermänner AG

Big Data Wer gewinnt, wer verliert? Köln Revolvermänner AG Big Data Wer gewinnt, wer verliert? Düsseldorf 16.06.2015 Köln 10.09.2015 Bernd Fuhlert - Vorstand Revolvermänner AG Fast 10 Jahre Expertise in den Bereichen Online- Krisenkommunikation, IT-Sicherheit,

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr 5 Zuverlässigkeit: Evaluierung des Gelernten Aspekte: Training, Testen, Tuning Vorhersage der Qualität: Vertrauensintervalle Holdout,

Mehr

Datenschutz-Unterweisung

Datenschutz-Unterweisung Datenschutz-Unterweisung Prof. Dr. Rolf Lauser Datenschutzbeauftragter (GDDcert) öbuv Sachverständiger für Systeme und Anwendungen der Informationsverarbeitung im kaufmännisch-administrativen Bereich sowie

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

nugg.ad Datenschutzerklärung

nugg.ad Datenschutzerklärung nugg.ad Datenschutzerklärung Version 2.3 Februar 2012 Datenschutzerklärung Seite 2 Mit dieser Datenschutzerklärung möchten wir Ihnen über unsere gesetzliche Verpflichtung hinaus Informationen zum Thema

Mehr

Abrechnungsrelevante Informationen werden entsprechend der gesetzlichen Aufbewahrungsfristen aufgehoben.

Abrechnungsrelevante Informationen werden entsprechend der gesetzlichen Aufbewahrungsfristen aufgehoben. Ihr Datenschutz ist unser Anliegen Wir freuen uns über Ihr Interesse an unserem Unternehmen und unseren Produkten bzw. Dienstleistungen und möchten, dass Sie sich beim Besuch unserer Internetseiten auch

Mehr

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Datenschutzerklärung von SL-Software

Datenschutzerklärung von SL-Software Datenschutzerklärung von SL-Software Software und Büroservice Christine Schremmer, Inhaberin Christine Schremmer, Odenwaldring 13, 63500 Seligenstadt (nachfolgend SL-Software bzw. Wir genannt) ist als

Mehr

Social Media Marketing und Datenschutz

Social Media Marketing und Datenschutz 1 2 Social Media Marketing und Datenschutz Anwendbarkeit des deutschen Datenschutzrechts - einschlägige Normen Datenschutzrechtliche Probleme beim Social Media Marketing 4 Anwendungsfälle Rechtsfolgen

Mehr

Datenschutz. Kontakt. Der Fachbereich Datenschutz ist unter den folgenden Kontaktdaten zu erreichen:

Datenschutz. Kontakt. Der Fachbereich Datenschutz ist unter den folgenden Kontaktdaten zu erreichen: Datenschutz Wir nehmen den Schutz und die Sicherheit von persönlichen Daten sehr ernst. Daher informieren wir unsere Kunden an dieser Stelle über das Thema Datenerfassung und -schutz sowie über unseren

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

Datenschutz und Datensicherheit

Datenschutz und Datensicherheit Datenschutz und Datensicherheit Gliederung 1. Datenschutz 2. Datensicherheit 3. Datenschutz und sicherheit in der Verbandsarbeit 12.01.14 Raphael Boezio 2 Datenschutz Was ist Datenschutz? Datenschutz ist

Mehr

Grundlagen des Datenschutzes und der IT-Sicherheit

Grundlagen des Datenschutzes und der IT-Sicherheit und der IT-Sicherheit Musterlösung zur 1. Übung im SoSe 2007: BDSG (1) 1.1 Voraussetzungen zur automatisierten DV (1) Anmerkung: Automatisierte Datenverarbeitung = Erhebung, Verarbeitung oder Nutzung unter

Mehr

Social Monitoring. HAW Hamburg Hochschule für Angewandte Wissenschaften University of Applied Sciences Master Informatik - Anwendungen 1 WS 2013/2014

Social Monitoring. HAW Hamburg Hochschule für Angewandte Wissenschaften University of Applied Sciences Master Informatik - Anwendungen 1 WS 2013/2014 HAW Hamburg Hochschule für Angewandte Wissenschaften University of Applied Sciences Master Informatik - Anwendungen 1 WS 2013/2014 Abdul-Wahed Haiderzadah abdul-wahed.haiderzadah@haw-hamburg.de Betreuer:

Mehr

Hilft die Technik? Schützt uns das Gesetz? Vorschläge aus Schleswig-Holstein am Beispiel facebook

Hilft die Technik? Schützt uns das Gesetz? Vorschläge aus Schleswig-Holstein am Beispiel facebook Hilft die Technik? Schützt uns das Gesetz? Vorschläge aus Schleswig-Holstein am Beispiel facebook Henry Krasemann Unabhängiges Landeszentrum für Datenschutz Schleswig-Holstein Die 7 Säulen des ULD Prüfung

Mehr

Arnd Böken, Rechtsanwalt und Notar 24. Juni 2013

Arnd Böken, Rechtsanwalt und Notar 24. Juni 2013 Arnd Böken, Rechtsanwalt und Notar 24. Juni 2013 Datenschutz und Big Data: Konflikte Datensparsamkeit Möglichst wenig personenbezogene Daten erheben oder verarbeiten - Speicherung und Analyse großer Datenmengen

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Oberseminar Data Mining. Systeme und Tools zum Data Mining: RapidMiner

Oberseminar Data Mining. Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Folie 3 von 56 Inhalt 1 Das Projekt RapidMiner 2 Funktionen 3 KDD-Prozess 4 Weitere Werkzeuge von Rapid-I 5 Zusammenfassung Folie 4 von 56 Das Projekt RapidMiner Entwicklung Entwicklung

Mehr

Datenschutzerklärung

Datenschutzerklärung Konstanz, 28.04.2015 Datenschutzerklärung Ihr Datenschutz ist unser Anliegen. Wir freuen uns über Ihr Interesse an unserem Unternehmen und unseren Produkten bzw. Dienstleistungen und möchten, dass Sie

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Big Data - Herausforderung Datenschutz meistern. Philip Liegmann Frankfurt am Main, 19. Mai 2015

Big Data - Herausforderung Datenschutz meistern. Philip Liegmann Frankfurt am Main, 19. Mai 2015 Big Data - Herausforderung Datenschutz meistern Philip Liegmann Frankfurt am Main, 19. Mai 2015 Inhalt/Agenda 01 Warum Datenschutz? 02 Überblick über das Bundesdatenschutzgesetz (BDSG) 03 Begriffe und

Mehr

Datenschutzerklärung der ZWILLING J.A. Henckels AG

Datenschutzerklärung der ZWILLING J.A. Henckels AG Datenschutzerklärung der ZWILLING J.A. Henckels AG Stand: 01. September 2015 Einleitung Verantwortliche Stelle im Sinne des Datenschutzgesetzes ist die ZWILLING J.A. Henckels AG, Solingen (nachfolgend

Mehr

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess?

Der CRISP-DM Prozess für Data Mining. CRISP-DM Standard CRISP-DM. Wozu einen standardisierten Prozess? Wozu einen standardisierten Prozess? Der Prozess der Wissensentdeckung muss verlässlich und reproduzierbar sein auch für Menschen mit geringem Data Mining Hintergrundwissen. Der CRISP-DM Prozess für Data

Mehr

Bibliotheken im Spannungsfeld zwischen Nutzungsmessung und Datenschutz

Bibliotheken im Spannungsfeld zwischen Nutzungsmessung und Datenschutz Bibliotheken im Spannungsfeld zwischen Nutzungsmessung und Datenschutz Jan Lüth, Dr. Timo Borst IT-Entwicklung ZBW - Deutsche Zentralbibliothek für Wirtschaftswissenschaften Leibniz-Informationszentrum

Mehr

Datenschutzerklärung. Datum: 16.12.2014. Version: 1.1. Datum: 16.12.2014. Version: 1.1

Datenschutzerklärung. Datum: 16.12.2014. Version: 1.1. Datum: 16.12.2014. Version: 1.1 Datenschutzerklärung Datum: 16.12.2014 Version: 1.1 Datum: 16.12.2014 Version: 1.1 Verantwortliche Stelle im Sinne des Bundesdatenschutzgesetzes ist: Deutsch-Iranische Krebshilfe e. V. Frankfurter Ring

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

DATENSCHUTZRECHTLICHE ANFORDERUNGEN

DATENSCHUTZRECHTLICHE ANFORDERUNGEN DATENSCHUTZRECHTLICHE ANFORDERUNGEN AN BIG DATA KONZEPTE KATHRIN SCHÜRMANN, RECHTSANWÄLTIN Big Data Ein Definitionsversuch: Big Data bezeichnet die wirtschaftliche sinnvolle Gewinnung und Nutzung entscheidungsrelevanter

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Vorbesprechung Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2015 Vorbesprechung, SS 2015 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source:

Mehr

Soziale Netzwerke Vielschichtige Gefahren eines neuen Zeitalters

Soziale Netzwerke Vielschichtige Gefahren eines neuen Zeitalters Soziale Netzwerke Vielschichtige Gefahren eines neuen Zeitalters Marc Ruef www.scip.ch ISSS 08. Juni 2011 Zürich, Schweiz Agenda Soziale Netze Vielschichte Gefahren 1. Einführung 2 min Was sind Soziale

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Health Insurance Days Künstliche Intelligenz Relevanz für die Krankenversicherung? Otto Bitterli, CEO Sanitas Interlaken, 23.

Health Insurance Days Künstliche Intelligenz Relevanz für die Krankenversicherung? Otto Bitterli, CEO Sanitas Interlaken, 23. Health Insurance Days Künstliche Intelligenz Relevanz für die Krankenversicherung? Otto Bitterli, CEO Sanitas Interlaken, 23. April 2015 Agenda Was wir unter künstlicher Intelligenz 1 verstehen - Breites

Mehr

Berliner Beauftragter für Januar 2002 Datenschutz und Informationsfreiheit (BlnBDI)

Berliner Beauftragter für Januar 2002 Datenschutz und Informationsfreiheit (BlnBDI) Berliner Beauftragter für Januar 2002 Datenschutz und Informationsfreiheit (BlnBDI) Hinweise zur Vorabkontrolle nach dem Berliner Datenschutzgesetz (BlnDSG) Das am 30.7.2001 novellierte Berliner Datenschutzgesetz

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Behavioral Targeting und selbstlernende Kampagnen. Aktuelle Herausforderungen für Data Mining. Dr. Alexander K. Seewald

Behavioral Targeting und selbstlernende Kampagnen. Aktuelle Herausforderungen für Data Mining. Dr. Alexander K. Seewald Behavioral Targeting und selbstlernende Kampagnen Aktuelle Herausforderungen für Data Mining Dr. Alexander K. Seewald Behavioral Targeting Kognitive Neurowissenschaften Verhalten aussagekräftiger als Erklärung

Mehr

Datenschutz und Privacy in der Cloud

Datenschutz und Privacy in der Cloud Datenschutz und Privacy in der Cloud Seminar: Datenbankanwendungen im Cloud Computing Michael Markus 29. Juni 2010 LEHRSTUHL FÜR SYSTEME DER INFORMATIONSVERWALTUNG KIT Universität des Landes Baden-Württemberg

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Das Internet ist für uns alle Neuland. Angela Merkel

Das Internet ist für uns alle Neuland. Angela Merkel Das Internet ist für uns alle Neuland Angela Merkel Internetnutzung 52% der Beschäftigen in Deutschland nutzen das Internet für die tägliche Arbeit IT-Branche & Finanzwirtschaft: 91 % Medienbranche:

Mehr

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose.

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose. Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose.com 13.06.20 15 SQLSaturday Rheinland 2015 1. Zu komplex: Man kann

Mehr

1 Predictive Analytics mit Random Forest

1 Predictive Analytics mit Random Forest Predictive Analytics Demokratie im Wald 1 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4.

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Big & Smart Data. bernard.bekavac@htwchur.ch

Big & Smart Data. bernard.bekavac@htwchur.ch Big & Smart Data Prof. Dr. Bernard Bekavac Schweizerisches Institut für Informationswissenschaft SII Studienleiter Bachelor of Science in Information Science bernard.bekavac@htwchur.ch Quiz An welchem

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Vorhersage mit CA CleverPath Predictive Analysis Server. Laszlo Mihalka Senior Consultant Laszlo.Mihalka@ca.com

Vorhersage mit CA CleverPath Predictive Analysis Server. Laszlo Mihalka Senior Consultant Laszlo.Mihalka@ca.com Vorhersage mit CA CleverPath Predictive Analysis Server Laszlo Mihalka Senior Consultant Laszlo.Mihalka@ca.com Agenda Herausforderung CP PAS Neugents Modelle Mustererkennung Tools CA World 1 Herausforderung

Mehr

Nutzungsbedingungen. Urheberschutz

Nutzungsbedingungen. Urheberschutz Nutzungsbedingungen Urheberschutz Die in der genutzten Event-App veröffentlichten Inhalte und Werke sind urheberrechtlich geschützt. Jede vom deutschen Urheberrecht nicht zugelassene Verwertung bedarf

Mehr

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation)

Mehr

FAQ zur Lehrveranstaltungsevaluation

FAQ zur Lehrveranstaltungsevaluation FAQ zur Lehrveranstaltungsevaluation 1. Online Befragung 1.1 Zugangsmöglichkeiten zu Online-Befragungen: Es gibt im Grunde 4 Möglichkeiten bzgl. der Online-LV-Evaluation, alle mit Vor- und Nachteilen:

Mehr

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science

TNS EX A MINE BehaviourForecast Predictive Analytics for CRM. TNS Infratest Applied Marketing Science TNS EX A MINE BehaviourForecast Predictive Analytics for CRM 1 TNS BehaviourForecast Warum BehaviourForecast für Sie interessant ist Das Konzept des Analytischen Customer Relationship Managements (acrm)

Mehr

Kundenwissen für den Energieversorger der Zukunft

Kundenwissen für den Energieversorger der Zukunft Kundenwissen für den Energieversorger der Zukunft Dr. Leading Tobias customer Graml insights CTO company tobias.graml@ben-energy.com for utilities in Europe Sechs Jahre Expertise in Datenanalyse und Kundenverhalten

Mehr

Diese Website und das Leistungsangebot von www.pflegemit-herz.de werden von der. Anke Reincke - Häusliche Krankenpflege und Seniorenbetreuung

Diese Website und das Leistungsangebot von www.pflegemit-herz.de werden von der. Anke Reincke - Häusliche Krankenpflege und Seniorenbetreuung Datenschutzbestimmung 1. Verantwortliche Stelle Diese Website und das Leistungsangebot von www.pflegemit-herz.de werden von der Anke Reincke - Häusliche Krankenpflege und Seniorenbetreuung Pieskower Straße

Mehr

Anwendungsbereiche und rechtliche Aspekte von Big Data

Anwendungsbereiche und rechtliche Aspekte von Big Data Anwendungsbereiche und rechtliche Aspekte von Big Data Dr. Carolin Schug, Rechtsanwältin, Siemens AG Answers for life. 2014-05-04 Seite1 Dr. Carolin Schug Was ist Big Data? Definition: wirtschaftlich sinnvolle

Mehr