Relevante Fachgebiete für Data Mining
|
|
- Mathilde Steinmann
- vor 8 Jahren
- Abrufe
Transkript
1 Relevante Fachgebiete für Data Mining 1
2 Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection: Auswahl der zur Analyse relevanten Daten 4. Data transformation: Umwandlung in geeignetes Format 5. Data Mining: Kernprozess 6. Pattern evaluation: Identifikation wirklich interessanter Muster 7. Knowledge presentation: Visualisierung der Ergebnisse 2
3 Architektur eines Data Mining Systems Komponenten: Datenquelle (Datenbank, Data warehouse oder andere Quelle) Datenserver (Datenbank oder Data warehouse) Wissensbasis (knowledge base) Data Mining Maschine (data mining engine) Musterauswertungsmodul (pattern evaluation module) GUI 3
4 Beispiel: Datenquelle (relationale DB) 4
5 Beispiel Datenintegration in Data Warehouse 5
6 Aufbau eines Data Warehouse Beschreibt aggregierte Daten (auf der Basis von Einzeltransaktionen mit Datum, Artikel, Filiale, Anbieter usw.) in mehreren Dimensionen (hier 3: Zeitraum, Artikelgruppe, Ort) zu bestimmten Themen (hier: Verkaufszahlen in $). Typische Repräsentation ist ein n-dimensionaler Datenwürfel (Data cube). zugrundeliegende Daten: 6
7 Varianten Jeder Kuboid repräsentiert eine andere Datenzusammenfassung 7
8 2 Beispiele für 2-D und 4-D Kuboide 2-D Kuboid-Beispiel (Type+Time), textuell: 2-D Kuboid-Beispiel (Type+Time+Location+Supplier), grafisch: 8
9 Definitionsschemata für Data Warehouses Star-Schema, bestehend aus: (1) einer große zentrale Tabelle (Fakttabelle) mit Kerndaten (2) einer Menge von kleineren Begleittabellen für jede Dimension (Dimensionstabellen) Definition in DQML (Data Mining Query language): define cube sales_star [time, item, branch, location]: dollars_sold = sum (sales_in_dollars), units_sold = count(*) define dimension time as (time-key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier-type) define dimension branch as (branch_key, branch_name, branch-type) define dimension location as (location_key, street, city, province_or_state, country) 9
10 Alternative Definitionsschemata (a) Snowflake Schema (Normalisierung der Dimensionstabellen) b) Fact Constellation Schema (mehrere Fakt-Tabellen) 10
11 Konzepthierarchien Konzepthierarchien sind wichtig für die Navigation in Data Warehouses (Verfeinerung und Generalisierung von Sichten für alle Dimensionen). Häufig sind sie bereits implizit im Datenbank-Schema, z.b. bei location: city, province_or_state, country. Konzepthierarchien repräsentieren Hintergrundwissen und werden explizit als Schema-Hierarchie im Datenbankschema definiert, wobei auch Heterarchien (partielle Ordnung; s. (b)) sinnvoll sind. Typische Konzepthierarchien (z.b. für Zeit) sind meist vordefiniert. 11
12 OLAP-Operationen (OnLine Analytical Processing) OLAP-Operationen benutzen Konzepthierarchien und ermöglichen dem Benutzer die interaktive Analyse der Daten, indem Sichten auf die Daten verändert werden. Typische Operatoren sind: Roll-up (Drill-up): Datenaggregation durch Aufsteigen in Konzepthierarchie oder Reduktion einer Dimension Drill-down: Datenverfeinerung (invers zu Roll-up) durch Absteigen in Konzepthierarchie oder Hinzufügen einer Dimension Slice bzw. Dice: Selektion einer bzw. mehrerer Dimensionen eines Datenwürfel. Ergebnis ist ein Teilwürfel. Pivot (rotate): Rotation der Axen 12
13 Beispiel für OLAP-Operationen 13
14 Hervorheben von Ausnahmen Pro Zelle können Indikatoren für überraschende Werte (d.h. starke Abweichungen zu vergleichbaren Zellen) auf allen Aggregationsebenen berechnet werden: SelfExp: Indikator für Abweichung ( Überraschungsgrad ) zu anderen Zellen auf derselben Aggregationsebene InExp: Indikator für Abweichung auf niederen (d.h. bei aktueller Sicht unsichtbaren) Aggregationsebenen PathExp: Indikator für Abweichungen auf dem Pfad zu niederen Abstraktionenebenen 14
15 Beispiel für Abweichungs-Entdeckung SelfExp wird als Hintergrundfarbe kodiert, InExp als Kasten, Stärke der Abweichung als Intensität. Starke InExp-Abweichungen finden sich in Jul, Aug, Sep. Eine Path-Exp. die für eine der Zellen aktiviert wird, zeigt mehr Auffälligkeiten in der Dimension Item (im Vergleich zu Region) (Sony b/w printer in Dec = -11%, Toshiba desktop computer in Aug = 5%) Sony b/w printer im Nov (-15%) ist im Vergleich zu Nov-Gesamtzahlen (-4%) weniger überraschend als im Dec (-11% zu +3%). Die Kästchen (InExp) bei IBM-desktop computer im Jul und Sep triggeren eine weitere Verfeinerung (nach Regionen): (South in Sep = -34% 15
16 Formen der Datenvorverarbeitung 16
17 Datensäuberung (Data cleaning) Umgangsmöglichkeiten mit fehlenden Werten: Ignorieren des Tupel Manuelles Auffüllen Einsetzen einer globalen Konstante (z.b. unbekannt) Mittelwert aller Attribut-Tupel einsetzen Mittelwert aller Attribut-Tupel der gleichen Klasse einsetzen Den wahrscheinlichsten Wert einsetzen (z.b. mit Entscheidungsbäumen, Bayes schen Inferenzen oder Regression ermittelt) Umgangsmöglichkeiten mit verrauschten Daten: Binning: Glätten der Werte durch Berücksichtung von Nachbarwerten. Bsp.: Originalfolge sei 4, 8, 15, 21, 21, 24, 25, 28, 34 Aufteilung in bins : (4, 8, 15) (21, 21, 24) (25, 28, 34) Glätten durch Mittelwerte: (9, 9, 9) (22, 22, 22) (29, 29, 29) Glätten durch Bin-Grenzen: (4, 4, 15) (21, 21, 24) (25, 25, 34) Clustering: Ausreißer können durch Clustering entdeckt und dann ggf. entfernt werden Manuelle Überprüfung von Ausreißer-Kandidaten Regression: (Mulitple) lineare Regression ermittelt lineare Zusammenhänge zwischen zwischen zweien bzw. mehreren Variablen. Falls solche Zusammenhänge existieren, können Ausreißer leicht festgestellt werden. Erkennen von inkonsistenten Daten: Vergleich der Daten mit externen Referenzen (z.b. Papierbelege) Berücksichtigung von Constraints Inkonsistenzen durch fehlerhafte Datenintegration 17
18 Datenintegration Typische Integrationsprobleme: Schema Integration (z.b. Identifikation unterschiedlicher Attributnamen im Datenbankschema wie cust_number versus customer_id ). Erkennen von Redundanz (z.b. wenn ein Attributwert aus einem anderen hergeleitet werden kann; kann z.b. mit Korrelationsanalyse festgestellt werden) Erkennung von Duplikaten (z.b. identische Tupel) Erkennen von Datenwertkonflikten (können z.b. durch unterschiedliche Maßeinheiten verursacht werden, z.b. Entfernung in km oder Meilen, oder durch verschiedene Kontexte, z.b. Preise mit/ohne Mwst). 18
19 Datentransformation Typische Transformationsoperationen für Data Mining: Glättung verrauschter Daten (s.o.) Aggregation bzw. Verallgemeinerung (Zusammenfassung von Daten ähnlich wie bei Konstruktion der Data Cubes und Konzepthierarchien) Normalisierung (Skalierung der Attributdaten, so dass sie in ein bestimmtes Intervall passen, z.b. zwischen 0 und 1) Attributkonstruktion (Konstruktion neuer Attribute aus alten, z.b. um Redundanzen zu verringern oder aussagekräftigere Attribute zu erzeugen). Transformationen mit dem Ziel der Datenreduktion (z.b. Entfernen irrelevanter oder redundanter Dimensionen, Datenkompression, Wechsel der Repräsentation). 19
20 Data Mining Funktionen (1) Konzeptbeschreibung: Datencharakterisierung: Beschreibung einer Zielklasse, z.b. Eigenschaften aller Kunden, die mehr als 1000 pro Jahr ausgeben. Ergebnis in verschiedenen grafischen Formaten (Kuchen-, Balkendiagramme, Kurven, Tabellen), als Data Cube oder als Regeln Datendifferenzierung: Vergleich einer Zielklasse mit allgemeinen Merkmalen einer Vergleichklasse, z.b. Vergleich der Produkte, die im letzten Jahr um mindestens 10% besser verkauft wurden, mit denen, die sich um mindestens 10% verschlechtert haben. Assoziationsregel-Analyse: Entdecken von Merkmalswerten, die häufig in einer Datenmenge (z.b. in Warenkörben oder bei Transaktionsdaten) zusammen auftreten, z.b. wenn Alter (X, 20-29) und Einkommen (X, K ) kauft (X, CD-Player) mit Support = 2% und Konfidenz = 60% Klassifikation und Vorhersage Herausfinden von Modellen (Funktionen), die ein Konzept so beschreiben und differenzieren, dass eine Vorhersage des Konzeptnamens aufgrund von Eigenschaften möglich ist, z.b. mit Regeln, Entscheidungsbäumen, mathematischen Formeln oder Neuronalen Netzen. Relevanzanalyse: Herausfinden, welche Eigenschaften für die Klassifikation und Vorhersage überhaupt relevant sind. 20
21 Cluster-Analyse Data Mining Funktionen (2) Im Gegensatz zur Klassifikation, bei der klassifizierte Datenobjekte (Fälle mit Lösung) analysiert werden, werden bei der Cluster-Analyse nichtklassifizierte Datenobjekte (Fälle ohne Lösung) in ähnliche Gruppen eingeteilt. Bsp.: Herausfinden homogener Subgruppen der Kunden. Ausreißer-Analyse: Ausreißer werden häufig als Rauschen oder Ausnahmen ignoriert, aber in manchen Anwendungen ist ihre Analyse zentral, z.b. bei der Betrugsanalyse. Zeitliche Entwicklungs-Analyse Entdeckung von Trends in zeitorientierten Daten 21
22 Interessantheit von Mustern Problem: Data Mining Systeme produzieren oft Tausende oder Millionen von Mustern bzw. Regeln. Davon ist nur ein Bruchteil wenn überhaupt für Menschen interessant (Problem ähnlich wie bei Information Retrieval bzw. Suchmaschinen): Lösungsaspekte: 1. Was macht Muster interessant? 2. Kann ein Data Mining System alle interessanten Muster generieren (Recall)? 3. Kann ein Data Mining System nur interessante Muster generieren (Precision)? Kennzeichen interessanter Muster: a) für Menschen einfach verständlich b) auf neue Daten mit gewisser Wahrscheinlichkeit übertragbar c) potentiell nützlich d) neu Objektive Interessantheitskriterien: z.b. Support und Confidence bei Assoziationsregeln Subjektive Interessantheitskriterien: relevant für Zielfunktion, kein Allgemeinwissen, unerwartet im Vergleich zu bisherigem Wissensstand, hilfreich bei Hypothesenbestätigung 22
23 Präsentations- & Visualisierungsformen 23
24 Beschreibungsaspekte des Data Mining 24
25 Beschreibungssprache (DMQL): Toplevel 25
26 Aktuelle Themengebiete beim Data Mining Methoden: Mining verschiedener Arten von Wissen (s. Funktionen) Interaktives Mining auf verschiedenen Abstraktionsebenen Einbezug von Hintergrundwissen Data Mining Anfragesprachen (analog zu SQL, z.b. DMQL) Präsentation und Visualisierung von Data Mining Ergebnissen Umgang mit Rauschen und unvollständigen Daten Formalisierung der Interessantheit Performanz: Effizienz und Skalierbarkeit der Data Mining Algorithmen Parallele, verteilte und inkrementelle Algorithmen Vielfalt von Datentypen: Relationale und komplexe Datentypen Heterogene Datenbanken Web Mining 26
Prozesse beim Data Mining. Relevante Fachgebiete für Data Mining. Beispiel: Datenquelle (relationale DB) Architektur eines Data Mining Systems
Relevante Fachgebiete für Data Mining Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection:
MehrRelevante Fachgebiete für Data Mining Prozesse beim Data Mining
Relevante Fachgebiete für Data Mining Prozesse beim Data Mining 1. Data cleaning: Datensäuberung von Rauschen & Inkonsistenz 2. Data integration: Datenintegration aus multiplen Quellen 3. Data selection:
MehrSeminar Business Intelligence Teil II. Data Mining & Knowledge Discovery
Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?
MehrAufgabe 1: [Logische Modellierung]
Aufgabe 1: [Logische Modellierung] a) Entwerfen Sie für das von Ihnen entworfene Modell aus Aufgabe 2 des 1. Übungsblattes ein Star-Schema. b) Entwerfen Sie für das vorangegangene Modell einen Teil eines
MehrData Mining-Modelle und -Algorithmen
Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,
Mehr2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
MehrData Mining und maschinelles Lernen
Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:
MehrBegriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
MehrData Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY
Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung
MehrLogische Modelle für OLAP. Burkhard Schäfer
Logische Modelle für OLAP Burkhard Schäfer Übersicht Einführung in OLAP Multidimensionale Daten: Hypercubes Operationen Formale Grundlagen Zusammenfassung Einführung in OLAP Verfahren zur Analyse großer
MehrDIFFERENTIALGLEICHUNGEN
DIFFERENTIALGLEICHUNGEN GRUNDBEGRIFFE Differentialgleichung Eine Gleichung, in der Ableitungen einer unbekannten Funktion y = y(x) bis zur n-ten Ordnung auftreten, heisst gewöhnliche Differentialgleichung
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrSuche schlecht beschriftete Bilder mit Eigenen Abfragen
Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere
MehrWie optimiert man die Werbungserkennung von Ad- Detective?
Wie optimiert man die Werbungserkennung von Ad- Detective? Die Ad-Detective-Werbe-Erkennung von VideiReDo basiert auf der Erkennung von Schwarzwerten / scharzen Bildern, die die Werbeblöcke abgrenzen.
MehrEinführung in die Fuzzy Logic
Einführung in die Fuzzy Logic Entwickelt von L. Zadeh in den 60er Jahren Benutzt unscharfe (fuzzy) Begriffe und linguistische Variablen Im Gegensatz zur Booleschen Logik {0,} wird das ganze Intervall [0,]
MehrEin subjektiver Vergleich zwischen SSIS und Kettle mit Ausblick auf die Generierung von BI-Lösungen
Ein subjektiver Vergleich zwischen SSIS und Kettle mit Ausblick auf die Generierung von BI-Lösungen vorgestellt am 29.09.2008 in der PASS Regionalgruppe Karlsruhe Michael Riedmüller inovex GmbH Project
MehrBrowsereinstellungen für moneycheck24 in Explorer unter Windows
Browsereinstellungen für moneycheck24 in Explorer unter Windows Wichtige Einstellungen im + Um zu prüfen, welche Version Sie nutzen Einstellungen: Klicken Sie im Menü INTERNETOPTIONEN Extras [oder Tastenkürzel
MehrGrundbegriffe der Informatik
Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen
MehrOECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland
OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben
MehrVerwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein
1 Definitionen 1.1 Datenbank Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert Integriert, selbstbeschreibend, verwandt 1.2 Intension/Extension Intension: Menge der Attribute Extension:
MehrProfessionelle Seminare im Bereich MS-Office
Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion
MehrAbamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER
Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos in Verbindung mit der Webshopanbindung wurde speziell auf die Shop-Software shop to date von DATA BECKER abgestimmt. Mit
MehrUse Cases. Use Cases
Use Cases Eigenschaften: Ein Use Case beschreibt einen Teil des Verhaltens eines Systems aus externer Sicht (Formuliert in der der Fachsprache der Anwendung) Dies geschieht, indem ein Systemdialog beschrieben
MehrData Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse
Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher
MehrBarrierefreie Webseiten erstellen mit TYPO3
Barrierefreie Webseiten erstellen mit TYPO3 Alternativtexte Für jedes Nicht-Text-Element ist ein äquivalenter Text bereitzustellen. Dies gilt insbesondere für Bilder. In der Liste der HTML 4-Attribute
Mehr1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:
Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:
MehrApache HBase. A BigTable Column Store on top of Hadoop
Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,
MehrLineare Gleichungssysteme
Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen
MehrData Mining-Projekte
Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein
MehrBerechnungen in Access Teil I
in Access Teil I Viele Daten müssen in eine Datenbank nicht eingetragen werden, weil sie sich aus anderen Daten berechnen lassen. Zum Beispiel lässt sich die Mehrwertsteuer oder der Bruttopreis in einer
MehrDer monatliche Tarif für ein Handy wurde als lineare Funktion der Form f(x) = k x + d modelliert (siehe Grafik).
1) Handytarif Der monatliche Tarif für ein Handy wurde als lineare Funktion der Form f(x) = k x + d modelliert (siehe Grafik). Euro Gesprächsminuten Tragen Sie in der folgenden Tabelle ein, welche Bedeutung
MehrEinfÅhrung in die objektorientiere Programmierung (OOP) unter Delphi 6.0. EDV Kurs 13/2
EinfÅhrung in die objektorientiere Programmierung (OOP) unter Delphi 6.0 EDV Kurs 13/2 Inhaltsverzeichnis 1 Objekte... 1 2 Klassen... 3 2.1 Beziehungen zwischen Klassen... 4 2.1.1 Vererbung... 4 2.1.2
Mehr7. Übung - Datenbanken
7. Übung - Datenbanken Informatik I für Verkehrsingenieure Aufgaben inkl. Beispiellösungen 1. Aufgabe: DBS a Was ist die Kernaufgabe von Datenbanksystemen? b Beschreiben Sie kurz die Abstraktionsebenen
MehrSo importieren Sie einen KPI mithilfe des Assistenten zum Erstellen einer Scorecard
1 von 6 102013 18:09 SharePoint 2013 Veröffentlicht: 16.07.2012 Zusammenfassung: Hier erfahren Sie, wie Sie einen KPI (Key Performance Indicator) mithilfe des PerformancePoint Dashboard Designer in SharePoint
MehrV 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,
Aufgabenpool für angewandte Mathematik / 1. Jahrgang V B, C, D Drinks Ein gastronomischer Betrieb kauft 300 Dosen Energydrinks (0,3 l) und 400 Liter Flaschen Mineralwasser und zahlt dafür 50, Euro. Einen
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrData Mining: Einige Grundlagen aus der Stochastik
Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener
MehrLösungsmethoden gewöhnlicher Differentialgleichungen (Dgl.)
Lösungsmethoden gewöhnlicher Dierentialgleichungen Dgl) Allgemeine und partikuläre Lösung einer gewöhnlichen Dierentialgleichung Eine Dierentialgleichung ist eine Gleichung! Zum Unterschied von den gewöhnlichen
MehrEinrichten eines HBCI- Zugangs mit Bank X 5.1
Einrichten eines HBCI- Zugangs mit Bank X 5.1 am Beispiel der Comdirect-Bank Rufen Sie in Bank X als erstes den Menüpunkt Ablage/Neue Kontenmappe auf. Sollten Sie bereits eine Kontenmappe in Bank X verwenden
MehrWEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
Mehrpro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9
Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9 1 Allgemeine Beschreibung "Was war geplant, wo stehen Sie jetzt und wie könnte es noch werden?" Das sind die typischen Fragen, mit denen viele Unternehmer
MehrDatenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware
Datenübernahme von HKO 5.9 zur Advolux Kanzleisoftware Die Datenübernahme (DÜ) von HKO 5.9 zu Advolux Kanzleisoftware ist aufgrund der von Update zu Update veränderten Datenbank (DB)-Strukturen in HKO
MehrVerborgene Schätze heben
Verborgene Schätze heben Data Mining mit dem Microsoft SQL Server Martin Oesterer Leiter Vertrieb HMS Analytical Software GmbH Data Mining. Was ist eigentlich wichtig? Data Mining ist: die Extraktion von
MehrHandbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken
Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen
MehrModul Datenbanksysteme 2 Prüfung skizzenhaft SS Aug. 2007. Name: Note:
1 Modul Datenbanksysteme 2 Prüfung skizzenhaft SS Aug. 2007 Name: Note: Nr. Aufgaben Max. Punkte Erreichte Punkte 1 Grundlagen ~ 10% Vgl. Hinweis unten 2 Integrität, Procedures, Triggers, Sichten ~ 20%
MehrSchlüssel bei temporalen Daten im relationalen Modell
Schlüssel bei temporalen Daten im relationalen Modell Gesine Mühle > Präsentation > Bilder zum Inhalt zurück weiter 322 Schlüssel im relationalen Modell Schlüssel bei temporalen Daten im relationalen Modell
MehrFIS: Projektdaten auf den Internetseiten ausgeben
Rechenzentrum FIS: Projektdaten auf den Internetseiten ausgeben Ist ein Forschungsprojekt im Forschungsinformationssystem (FIS) erfasst und für die Veröffentlichung freigegeben, können Sie einige Daten
MehrLernmaterial für die Fernuni Hagen effizient und prüfungsnah
Lernmaterial für die Fernuni Hagen effizient und prüfungsnah www.schema-f-hagen.de Sie erhalten hier einen Einblick in die Dokumente Aufgaben und Lösungen sowie Erläuterungen Beim Kauf erhalten Sie zudem
MehrNachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)
Nachtrag: Farben Farbblindheit (Light und Bartlein 2004) 1 Vorgeschlagene Farbskalen (Light and Bartlein 2004) Farbkodierung metrisch skalierter Daten Unterscheide: 1. Sequential Data (ohne Betonung der
MehrAGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom 21.10.2013b
AGROPLUS Buchhaltung Daten-Server und Sicherheitskopie Version vom 21.10.2013b 3a) Der Daten-Server Modus und der Tresor Der Daten-Server ist eine Betriebsart welche dem Nutzer eine grosse Flexibilität
MehrDatenbanksysteme 2 Frühjahr-/Sommersemester 2014 28. Mai 2014
Lehrstuhl für Praktische Informatik III Prof. Dr. Guido Moerkotte Email: moer@db.informatik.uni-mannheim.de Marius Eich Email: marius.eich@uni-mannheim.de Datenbanksysteme 2 8. Übungsblatt Frühjahr-/Sommersemester
MehrOP-LOG www.op-log.de
Verwendung von Microsoft SQL Server, Seite 1/18 OP-LOG www.op-log.de Anleitung: Verwendung von Microsoft SQL Server 2005 Stand Mai 2010 1 Ich-lese-keine-Anleitungen 'Verwendung von Microsoft SQL Server
MehrWie erreiche ich was?
Wie erreiche ich was? Projekt: Bezeichnung: CRM Customer Relationship Management Auswertungen Umsatzstatistik Version: 4.11. Datum: 22. Juli 2014 Kurzbeschreibung: Die Umsatzstatistik ermöglicht eine Übersicht
Mehroffene Netzwerke. In diesem Sinn wird auch interkulturelle Kompetenz eher als Prozess denn als Lernziel verstanden.
correct zu verstehen. Ohne Definitionen von interkultureller Kompetenz vorwegnehmen zu wollen: Vor allem gehört dazu, einen selbstbewussten Standpunkt in Bezug auf kulturelle Vielfalt und interkulturelles
Mehr10.3.1.4 Übung - Datensicherung und Wiederherstellung in Windows 7
5.0 10.3.1.4 Übung - Datensicherung und Wiederherstellung in Windows 7 Einführung Drucken Sie diese Übung aus und führen Sie sie durch. In dieser Übung werden Sie die Daten sichern. Sie werden auch eine
Mehr5.2 Neue Projekte erstellen
5.2 Neue Projekte erstellen Das Bearbeiten von bestehenden Projekten und Objekten ist ja nicht schlecht wie aber können Sie neue Objekte hinzufügen oder gar völlig neue Projekte erstellen? Die Antwort
MehrQuartalsabrechnung! " " " " " " " Stufe 1! Beheben von Abrechnungsfehlern" Stufe 2! Neue Abrechnung erstellen"
tomedo Quartalsabrechnung Seite 1 von 10 Wie erstelle ich die Quartalsabrechnung! Stufe 1! Beheben von Abrechnungsfehlern Stufe 2! Neue Abrechnung erstellen in tomedo? Unser Video-Tutorial finden sie unter
MehrDie Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.
Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,
MehrDatenidentifikation und -synchronisation: Grundlage zur Erfüllung der Qualitätsanforderungen beim Datenaustausch zwischen Systemen
Datenidentifikation und -synchronisation: Grundlage zur Erfüllung der Qualitätsanforderungen beim Datenaustausch zwischen Systemen Jürg Simonett Luzern, 26. März 2015 Datenaustausch zwischen Systemen Synchronisation
Mehr3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)
3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume
MehrSo gehts Schritt-für-Schritt-Anleitung
So gehts Schritt-für-Schritt-Anleitung Software WISO Mein Büro Thema Eigene Auswertungen, Tabellenauswertungen Version/Datum V 13.00.05.101 Über die Tabellen-Auswertungen ist es möglich eigene Auswertungen
MehrData Mining Anwendungen und Techniken
Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses
MehrFachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer
Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer Klassendiagramme Ein Klassendiagramm dient in der objektorientierten Softwareentwicklung zur Darstellung von Klassen und den Beziehungen,
MehrSo erstellen Sie nützliche Beschreibungen zu Ihren Tradingdaten
So erstellen Sie nützliche Beschreibungen zu Ihren Tradingdaten http://tradingtutorialautomation.de/wp-content/uploads/2015/04/so-erstellen-sienuetzliche-beschreibungen-zu-ihren-tradingdaten_20150406.mp3
MehrÜbungskomplex Felder (1) Eindimensionale Felder Mehrdimensionale Felder
Übungskomplex Felder (1) Eindimensionale Felder Mehrdimensionale Felder Hinweise zur Übung Benötigter Vorlesungsstoff Ab diesem Übungskomplex wird die Kenntnis und praktische Beherrschung der Konzepte
Mehr«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen
18 «Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen teilnimmt und teilhat.» 3Das Konzept der Funktionalen
Mehr25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz
1 2 Dies ist ein Vortrag über Zeit in verteilten Anwendungen Wir betrachten die diskrete "Anwendungszeit" in der nebenläufige Aktivitäten auftreten Aktivitäten in einer hochgradig skalierbaren (verteilten)
MehrSeminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006
Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet
MehrBusiness Analytics im E-Commerce
Business Analytics im E-Commerce Kunde, Kontext und sein Verhalten verstehen für personalisierte Kundenansprache Janusz Michalewicz CEO Über die Firma Crehler Erstellung von Onlineshops Analyse von Transaktionsdaten
MehrWürfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.
040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl
MehrInhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER
AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER Inhalt 1 Einleitung... 1 2 Einrichtung der Aufgabe für die automatische Sicherung... 2 2.1 Die Aufgabenplanung... 2 2.2 Der erste Testlauf... 9 3 Problembehebung...
MehrKapitel 10 Aktive DBMS
Kapitel 10 Aktive DBMS 10 Aktive DBMS 10 Aktive DBMS...1 10.1 Einführung und Definition...2 10.2 Funktionsprinzip: ADBMS und ECA-Modell...4 10.3 Potentiale und Vorteile ADBMS...5 10.4 Aktive Elemente einer
MehrGrundlagen der Theoretischen Informatik, SoSe 2008
1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)
MehrSEPA Lastschriften. Ergänzung zur Dokumentation vom 27.01.2014. Workshop Software GmbH Siemensstr. 21 47533 Kleve 02821 / 731 20 02821 / 731 299
SEPA Lastschriften Ergänzung zur Dokumentation vom 27.01.2014 Workshop Software GmbH Siemensstr. 21 47533 Kleve 02821 / 731 20 02821 / 731 299 www.workshop-software.de Verfasser: SK info@workshop-software.de
MehrEin Ausflug zu ACCESS
Ein Ausflug zu ACCESS Die folgenden Folien zeigen beispielhaft, wie man sein DB- Wissen auf ACCESS übertragen kann betrachtet wird ACCESS 2002, da gerade im Bereich der Nutzung von SQL hier einiges nachgearbeitet
MehrMarkovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse 07.01.2015
Markovketten Markovketten sind ein häufig verwendetes Modell zur Beschreibung von Systemen, deren Verhalten durch einen zufälligen Übergang von einem Systemzustand zu einem anderen Systemzustand gekennzeichnet
MehrSQL SQL. SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R. Grundlagen der Datenbanksysteme I
SQL SQL = Structured Query Language (SEQUEL) IBM San Jose Research Laboratory SYSTEM R VII-1 Beispielrelationen Filiale ( Name Leiter Stadt Einlagen ) Konto ( KontoNr KundenNr FilialName Saldo ) Kredit
MehrKapitalerhöhung - Verbuchung
Kapitalerhöhung - Verbuchung Beschreibung Eine Kapitalerhöhung ist eine Erhöhung des Aktienkapitals einer Aktiengesellschaft durch Emission von en Aktien. Es gibt unterschiedliche Formen von Kapitalerhöhung.
MehrArtikel Schnittstelle über CSV
Artikel Schnittstelle über CSV Sie können Artikeldaten aus Ihrem EDV System in das NCFOX importieren, dies geschieht durch eine CSV Schnittstelle. Dies hat mehrere Vorteile: Zeitersparnis, die Karteikarte
MehrAnleitung E-Mail - Archivierung
Anleitung E-Mail - Archivierung Aufgrund unserer langjährigen Erfahrung, wissen wir um viele Kundenprobleme in der Bedienung von IKT-Produkten. Um solche Probleme bei der Nutzung der Net4You Produkte zu
MehrRelationale Kalküle. Grundlagen der Datenbanken. Dr. Jérôme Kunegis Wintersemester 2013/14
Web Science & Technologies University of Koblenz Landau, Germany Grundlagen der Datenbanken Dr. Jérôme Kunegis Wintersemester 2013/14 Lernziele Grundideen des Domänen-Relationenkalküls (DRK) und des Tupel-Relationenkalküls
MehrUpgrade-Leitfaden. Apparo Fast Edit 1 / 7
Upgrade-Leitfaden Apparo Fast Edit 1 / 7 Inhaltsverzeichnis 1 Download der neuen Version... 4 2 Sicherung des Apparo Datenbank-Repository... 4 3 De-Installation der installierten Apparo Fast Edit Version...
MehrERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Materialbuchungen erfassen und importieren. www.comarch-cloud.de
ERP Cloud SFA ECM Backup E-Commerce ERP EDI Materialbuchungen erfassen und importieren www.comarch-cloud.de Inhaltsverzeichnis 1 Ziel des s 3 2 Materialbuchungen erfassen 3 3 Materialbuchungen importieren
MehrAbituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)
Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Eine Firma stellt USB-Sticks her. Sie werden in der Fabrik ungeprüft in Packungen zu je 20 Stück verpackt und an Händler ausgeliefert. 1 Ein Händler
MehrFolgende Einstellungen sind notwendig, damit die Kommunikation zwischen Server und Client funktioniert:
Firewall für Lexware professional konfigurieren Inhaltsverzeichnis: 1. Allgemein... 1 2. Einstellungen... 1 3. Windows XP SP2 und Windows 2003 Server SP1 Firewall...1 4. Bitdefender 9... 5 5. Norton Personal
MehrDiana Lange. GENERATIVE GESTALTUNG Arten des Zufalls
Diana Lange GENERATIVE GESTALTUNG Arten des Zufalls RANDOM int index = 0; while (index < 200) { float x = random(0, width); float y = random(0, height); float d = random(40, 100); ellipse(x, y, d, d);
MehrEva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit
Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit Frau Dr. Eva Douma ist Organisations-Beraterin in Frankfurt am Main Das ist eine Zusammen-Fassung des Vortrages: Busines
MehrPVS Grobkonzept: Strukturelle und funktionale Erweiterungen bei der Verwaltung der Arbeitszeit und der organisatorischen Zuordnung
PVS Grobkonzept: Strukturelle und funktionale Erweiterungen bei der Verwaltung der Arbeitszeit und der organisatorischen Zuordnung Bearbeiter: Klopfer, Klopfer Software GmbH Version: 31.10.2010 Abkürzungen
MehrNach dem Einstecken des mdentity wird die Anwendung nicht gestartet
Nach dem Einstecken des mdentity wird die Anwendung nicht gestartet Zum Start der Anwendung, nach dem Einstecken des midentity Geräts, gibt es mehrere Möglichkeiten. Sofern Sie das midentity Gerät unter
MehrSQL - Übungen Bearbeitung der Datenbank Personal (1)
Bearbeitung der Datenbank Personal (1) 1. Abfragen einer einzigen Tabelle 1.1. Zeigen Sie alle Informationen an, die über die Kinder der Mitarbeiter gespeichert sind. 1.2. Zeigen Sie aus der Tabelle stelle
MehrQualifikationsbereich: Application Engineering Zeit:
Höhere Fachprüfung ICT-Manager Musterprüfung 2015 Höhere Fachprüfung ICT-Manager Muster KAF Zeit: Die Lösungen sind auf diese Arbeitsblätter zu schreiben. Es werden nur die Lösungen auf den Arbeitsblättern
MehrKonfiguration der Yeastar MyPBX IP-Telefonanlagen mit iway Business SIP Trunk
Konfiguration der Yeastar MyPBX IP-Telefonanlagen mit iway Business SIP Trunk Stand 29.07.2015 Allgemeines Diese Anleitung beschreibt die Einrichtung der MyPBX IP-Telefonanlagen des Herstellers Yeastar
MehrIhr Weg in die Suchmaschinen
Ihr Weg in die Suchmaschinen Suchmaschinenoptimierung Durch Suchmaschinenoptimierung kann man eine höhere Platzierung von Homepages in den Ergebnislisten von Suchmaschinen erreichen und somit mehr Besucher
MehrUmgekehrte Kurvendiskussion
Umgekehrte Kurvendiskussion Bei einer Kurvendiskussion haben wir eine Funktionsgleichung vorgegeben und versuchen ihre 'Besonderheiten' herauszufinden: Nullstellen, Extremwerte, Wendepunkte, Polstellen
MehrKapitel 4 Die Datenbank Kuchenbestellung Seite 1
Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 4 Die Datenbank Kuchenbestellung In diesem Kapitel werde ich die Theorie aus Kapitel 2 Die Datenbank Buchausleihe an Hand einer weiteren Datenbank Kuchenbestellung
MehrPivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt.
Zeit Pivotieren Themenblock: Anfragen auf dem Cube Praktikum: Data Warehousing und Data Mining Zeit Zeit 2 Roll-up und Drill-down Slicing und Dicing Drill-down Januar 2 3 33 1. Quartal 11 36 107 Februar
MehrHilfe zur Urlaubsplanung und Zeiterfassung
Hilfe zur Urlaubsplanung und Zeiterfassung Urlaubs- und Arbeitsplanung: Mit der Urlaubs- und Arbeitsplanung kann jeder Mitarbeiter in Coffee seine Zeiten eintragen. Die Eintragung kann mit dem Status anfragen,
MehrPredictive Modeling Markup Language. Thomas Morandell
Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML
MehrAuswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2
Cubix O.L.A.P... 2 Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2 Datenverbindung über ODBC... 4 Datenbereitstellung über SQL... 5 Festlegung der Dimensionen... 6 Festlegung der Summen...
Mehr