Knowledge Discovery in Databases
|
|
- Kai Simen
- vor 5 Jahren
- Abrufe
Transkript
1 Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 009/00 Kapitel : Merkmalsräume Skript 003 Johannes Aßfalg, Christian Böhm, Karsten Borgwardt, Martin Ester, Eshref Januzaj, Karin Kailing, Peer Kröger, Jörg Sander und Matthias Schubert 3 Merkmalsräume Motivation: Zentrales Konzept beim Data Mining: i Ähnlichkeit hk it von Datenbankobjekten bj kt Clustering: Zusammenfassen ähnlicher Objekte in Gruppen Klassifikation: Zuordnung von Objekten zu einer Klasse ähnlicher Objekte Definition einer geeigneten Distanzfunktion auf Datenbankobjekten nicht immer einfach (besonders in Nicht-Standard-Datenbanken) Bilder CAD-Objekte Proteine Textdokumente Polygonzüge (GIS) etc. 4
2 Merkmale Merkmale ( Features von Objekten) Oft sind die betrachteten Objekte komplex Eine Aufgabe des KDD-Experten ist dann, geeignete Merkmale (Features) zu definieren bzw. auszuwählen, die für die Unterscheidung (Klassifikation, Ähnlichkeit) der Objekte relevant sind. Beispiel: CAD-Zeichnungen: ax +bx+c Mögliche Merkmale: Höhe h Breite w Kurvatur-Parameter (a,b,c),,) 5 Merkmale Beispiel: CAD-Zeichnungen (cont.) Objekt-Raum Merkmals-Raum w h ax +bx+c (h, w, a, b, c) h c b w a Im Kontext von statistischen Betrachtungen werden die Merkmale häufig auch als Variablen bezeichnet Die ausgewählten Merkmale werden zu Merkmals-Vektoren (Feature Vector) zusammengefasst Der Merkmalsraum ist häufig hochdimensional (im Beispiel 5-dim.) 6
3 Merkmale Bilddatenbanken: Farbhistogramme Gen-Datenbanken: Expressionslevel Häuf figk Farbe Text-Datenbanken: Begriffs-Häufigkeiten Data 5 Mining 5 Feature Object 7... Der Feature-Ansatz ermöglicht einheitliche Behandlung von Objekten verschiedenster Anwendungsklassen 7 Merkmale Skalen-Niveaus von Merkmalen Nominal (kategorisch) Charakteristik: tik Nur feststellbar, ob der Wert gleich oder verschieden ist. Keine Richtung (besser, schlechter) und kein Abstand. Merkmale mit nur zwei Werten nennt man dichotom Ordinal Charakteristik: tik Es existiert eine Ordnungsrelation (besser/schlechter) zwischen den Kategorien, aber kein einheitlicher Abstand Metrisch Charakteristik: tik Sowohl Differenzen als auch Verhältnisse zwischen den Werten sind aussagekräftig. Die Werte können diskret oder stetig sein. Beispiele: Beispiele: Beispiele: Geschlecht (dichotom) Schulnote (metrisch?) Gewicht (stetig) Augenfarbe Güteklasse Verkaufszahl (diskret) Gesund/krank (dichotom) Altersklasse Alter (stetig oder diskret) 8
4 Univariate Deskription von Merkmalen Histogramm: Sei x,,x n eine Stichprobe eines Merkmals X. Absolute Häufigkeit: i Für jeden Wert a ist h(a) die Anzahl des Auftretens in der Stichprobe Relative Häufigkeit: f(a) = h(a) / n Attributwert Die folgenden Maße sind nur für metrische Merkmale sinnvoll: Arithmetisches Mittel: μ = Median: Das mittlere Element bei aufst. Sortierung n x i n i= n Varianz: VAR( X ) = ( x i x) n i= n Standardabweichung: σ = ( x i x) n i= it Häufigke 9 Multivariate Deskription von Merkmalen Kontingenztabelle - für kategorische Merkmale X und Y - repräsentiert für zwei Merkmale X und Y die absolute Häufigkeit h ik jeder Kombination (x i, y k ) und alle Randhäufigkeiten h.k und h i. von X und Y MittelfristigeArbeitslosigkeit Langfristige Arbeitslosigkeit Keine Ausbildung Lehre Wie sollten die relativen Häufigkeiten verteilt sein, wenn die beiden Merkmale keinerlei Abhängigkeit besitzen? hik hi. h. k = n n n - χ -Koeffizient Differenz zwischen dem bei Unabhängigkeit erwarteten und dem tatsächlich beobachteten Wert von h ij (Maß für die Stärke der Abhängigkeit) 30
5 Multivariate Deskription von Merkmalen Korrelationskoeffizient für numerische Merkmale X und Y wie stark sind die Abweichungen vom jeweiligen Mittelwert korreliert? n ( xi x ) ( yi y ) r = XY i= n n ( xi x) i= i= ( y y) i r XY > Beispiele r XY 0. r XY < r XY Merkmalsraum (Featureraum) Intuitiv: ein Wertebereich/Domain mit Distanzfunktion Formal: Featureraum F = (Dom, dist) Dom ist eine (geordnete) Menge von Merkmalen (Features) dist : Dom Dom IR ist eine totale (Distanz)-Funktion mit den folgenden Eigenschaften p,q Dom, p q : dist(p,q) > 0 o Dom : dist(o,o) = 0 Reflexivität p,q Dom : dist(p,q) = dist(q,p) Symmetrie 3
6 Metrischer Raum Formal: Metrischer Raum M = (Dom, dist) mit den folgenden Eigenschaften M ist ein Featureraum o,p,q Dom : dist(o,p) dist(o,q) +dist(q,p) Dreiecksungleichung Wichtigstes Beispiel: Euklidischer Vektorraum Formal: Euklidischer Vektorraum E = (Dom, dist) mit (Dom, dist) ist ein metrischer Raum Dom = IR d R d Sprechweise: Euklidischer Vektorraum = Featureraum Vektoren (Objekte im Eulidischen Featureraum) = Featurevektoren Die d Dimensionen des Vektorraums = Features 33 Ähnlichkeit von Feature Vektoren (Euklidische Vektoren) Euklidische Norm (L ): dist = ((p -q ) +(p -q ) +...) / Manhattan-Norm (L ): dist = p -q + p -q +... Maximums-Norm (L ): dist = max{ p -q, p -q,...} p q p q p q Natürlichstes Distanzmaß Die Unähnlichkeiten der einzelnen Merkmale werden direkt addiert Die Unähnlichkeit des am wenigsten ähnlichen Merkmals zählt Verallgemeinerung L p -Abstandsmaß: dist p = ( p -q p + p -q p +...) /p 34
7 Gewichtete Euklidische Norm: dist = (w (p -q ) + w (p -q ) +...) / Quadratische Form: dist = ((p - q) M (p-q) T ) / p q p q Häufig sind die Wertebereiche der Merkmale deutlich unterschiedlich. Beispiel: Merkmal M [ ] 05] Merkmal M [3....] Damit M überhaupt berücksichtigt wird, muss es höher gewichtet werden Bei den bisherigen Ähnlichkeitsmaßen werden die Merkmale nur getrennt gewichtet. Besonders bei Farbhistogrammen müssen auch verschiedene Merkmale gemeinsam gewichtet werden. Statt mit Distanzmaßen, die die Unähnlichkeit zweier Objekte messen, arbeitet man manchmal auch mit positiven Ähnlichkeitsmaßen 35 Spezifiziere Anfrage-Objekt q DB und suche ähnliche Objekte Range-Query (Radius e) RQ(q,e) = {o DB dist(q,o) ε } suche die k ähnlichsten Objekte Nearest Neighbor NN(q,k) DB mit mind. k Objekten, so dass o NN(q,k), p DB -NN(q,k) : dist(q,o) < dist(q,p) 36
8 Deskription von Featurevektoren Gegeben: Menge DB von Featurevektoren Zentroid (Centroid, vgl. Arithmetisches Mittel): μdb = o DB o DB Achtung: bei allgem. Metrischen Räumen muss Centroid nicht notwendigerweise existieren!!! Medoid m DB : Der Featurevektor, der am nächsten zum Centroiden gelegen ist (die kleinste Distanz zum Zentroiden hat) Bei allgem. Metrischen Räumen: Objekt mit dem kleinsten durschnittlichen Abstand zu allen anderen Objekten aus DB Varianz (der Distanzen): Var DB = dist( o, μdb ) DB Standardabweichung analog o DB 37 Hauptachsenanalyse eine Menge DB von Euklidischen Vektoren Kovarianz-Matrix: i T ΣDB = ( o μ DB)( o μdb ) DB o D Die Matrix wird zerlegt in eine Orthonormalmatrix V = [e,...,e d ] (Eigenvektoren) und eine Diagonalmatrix Λ = diag (λ,... d ) (Eigenwerte) so dass gilt: Σ DB = V Λ V T Interpretation: Eigenvektoren: Hauptausrichtung der Datenpunkte in DB e Eigenwerte: Varianz der Datenpunkte in DB entlang der entspr. Eigenvektoren λ e λ 38
9 Objekt-Raum Merkmals-Raum Feature Transformation h w (h, w, a, b, c) (CAD-Daten, Proteine, ) h c b w ax + a Invarianzen +bx+c Gleichheit (oder Ähnlichkeit) von Formen unabhängig von Lage und Orientierung im Raum Beispiele gleicher Formen im D und im 3D: Erwünscht: Kanonische Darstellung, d.h. ohne Lage- und Orientierungsinformation Verallgemeinerung auf andere Objekteigenschaften 39 Die wichtigsten Invarianzen Translation Skalierung Rotation Spiegelung 40
10 Volume Model [Ankerst, Kastenmüller, Kriegel, Seidl 99] Applikationen: CAD, Protein 3D-Strukturen Idee: Formhistogramme für 3D Objekte Partitioniere den 3D-Raum in Zellen (Histogramm-Bins). Bestimme den Anteil an Punkten des Objektes pro Zelle (normiertes Histogramm). Durch die Normierung werden die Histogramme unabhängig von der Punktedichte. Partitionierungen x x d Beispiel Seryl-tRNA Synthetase Schalenmodell Sektorenmodell kombiniertes Modell Schalenmodell Sektorenmodell kombiniertes Modell (0 Schalen) ( Sektoren) (0 Schalen, 6 Sektoren) 4 Formale Definition der Histogramme Schalenmodell: Definiere die Bins über den Abstand zum Mittelpunkt, d.h. Anzahl der Punkte auf der jeweiligen Schale. Sektorenmodell: Anzahl der Punkte im jeweiligen Sektor. Kombiniertes Modell: Synthese aus Schalen- und Sektorenmodell. Invarianzen Translationsinvarianz durch Lagenormierung: Verschiebung des Schwerpunkts eines Objektes in den Ursprung. Rotationsinvarianz durch Hauptachsentransformation: Drehung der Objekte, so dass die Hauptachsen auf den Koordinatenachsen liegen. unnötig beim Schalenmodell, dieses ist inhärent rotationsinvariant. 4
11 Verbesserung der Formhistogramme [Aßfalg, Kriegel, Kröger, Pötke 05] Proportionale Aufteilung Redundante Zuordnung zu den Bins Objekt Bisheriger Ansatz Redundante Zuordnung 43 Eigenvalue Model [Kriegel, Kröger, Mashael, Pfeifle, Pötke, Seidl 03 ] Volumen-Diskretisierung durch Voxel (3dimensionale Pixel) Würfelförmige Partitionierung i der Bounding Box Bestimmung der Eigenwerte des Voxelinhaltes jeder Zelle λ λ λ 3 λ
12 Invarianzen Translationsinvarianz arian durch Lagenormierung: ng Verschiebung des Schwerpunkts eines Objektes in den Ursprung. Skalierungsinvarianz durch Voxelisierung der Bounding Box/Bounding Cube des Objekts mit immer gleicher Voxelauflösung Rotationsinvarianz Hauptachsentransformation (völlig rotationsinvariant, aber bei manchen Objekten sensitiv gegenüber kleinen Änderungen) CAD Objekte oft in vernünftiger Lage durch Konstrukteur abgespeichert, dann besser 90-Grad-Rotationsinvarianz: Zur Laufzeit werden die 4 Würfelpositionen durch Permutation der Merkmalsvektor-Elemente simuliert, die Distanz zweier Objekte ist das Minimum über 4 Distanzen Reflektionsinvarianz λ 3 λ 3 λ 3 Betrachte 48 statt 4 Permutationen zur Laufzeit (incl. Spiegelung des Würfels) 45 Protein Datenbanken [Borgwardt, Ong, Schönauer, Vishwanathan, Smola, Kriegel 05] Idee: Graphmodel für Protein 3D-Strukturen Knoten: Untereinheiten von Proteinen (secondary structure elements) Kanten: Nachbarschaft von Untereinheiten innerhalb der 3D- Struktur und entlang der Aminosäure Sequenz. protein data secondary structure elements sequence structure 46
Kapitel 4: Data Mining
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:
MehrKapitel 2: Preprocessing, Merkmalsräume
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 2: Preprocessing,
MehrKapitel 2: Preprocessing, Merkmalsräume
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2013 Kapitel 2: Preprocessing,
MehrKapitel 1: Einleitung
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2003/2004 Kapitel
Mehr6 Distanzfunktionen. Quadratische Pseudo. 1. Eigenschaften und Klassifikation
6 Distanzfunktionen 1. Eigenschaften und Klassifikation 2. Distanzfunktionen auf Punkten Minkowski Distanzfunktion L m Gewichtete Minkowski Distanzfunktion L m w Quadratische Distanzfunktion d q Quadratische
Mehr3.2 Ähnlichkeitsmodelle für räumliche Objekte
3.2 Ähnlichkeitsmodelle für räumliche Objekte 3.2 Ähnlichkeitsmodelle für räumliche Objekte Feature Transformation für räumliche Objekte Ziel: gute Beschreibung der realen Objekte als Featurevektoren (metrisch
Mehr6 Distanzfunktionen (2) 6 Distanzfunktionen. 6.1 Eigenschaften und Klassifikationen. Einführung
6 en 6 en (2) 1. Eigenschaften und Klassifikation 2. en auf Punkten Minkowski L m Gewichtete Minkowski L m w Quadratische d q Quadratische Pseudo Dynamical Partial Semi Pseudo Chi Quadrat Semi Pseudo Kullback
Mehrachsenparallele Stauchung und Streckung durch Gewichte :
Gewichtete Minkowski-Distanzfunktion achsenparallele Stauchung und Streckung durch Gewichte : Forderung: staab@uni-koblenz.de 1 Einheitskreis Translationsinvarianz keine Skalierungsinvarianz keine Rotationsinvarianz
MehrKapitel 13: Multimediadatenbanken
Skript zur Vorlesung Wintersemester 4/5 4 Christian Böhm Kapitel 13: Multimediadatenbanken Vorlesung: Christian Böhm Übungen: Elke Achtert, Karin Kailing Skript 5 Christian Böhm http://www.dbs.informatik.uni-muenchen.de/lehre/dbs
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
MehrUsing Sets of Feature Vectors for Similarity Search on Voxelized CAD Data
Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias
Mehr1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n
3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:
MehrKapitel 4: Data Mining
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2013 Kapitel 4: Data Mining i Vorlesung:
MehrÄhnlichkeits- und Distanzmaße
Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die
Mehr1. Referenzpunkt Transformation
2.3 Featurereduktion Idee: Anstatt Features einfach wegzulassen, generiere einen neuen niedrigdimensionalen Featureraum aus allen Features: Redundante Features können zusammengefasst werden Irrelevantere
MehrÜbungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen
Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übung: Dipl.-Inf. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 31.0.2010
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 3. Vorlesung Dr. Jochen Köhler 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten
Mehr2.4 Geometrische Ähnlichkeitsmodelle
.4 Geometrische Ähnlichkeitsmodelle 9 Geometrische Ähnlichkeitsmodelle Einführung und Übersicht Formen können in Pixelbildern vorliegen, aber auch durch Vektorgraphiken beschrieben werden (z.b. Polygone
MehrUnüberwachtes Lernen
Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht
MehrSkalenniveaus =,!=, >, <, +, -
ZUSAMMENHANGSMAßE Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala =,!= =,!=, >, < =,!=, >, ,
MehrDas arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8
.2 Einige statistische Maßzahlen.2. Die Schusser in zwei Familien Die vier Kinder der Familie Huber haben x = 5, x 2 = 7, x 3 = 9, x 4 = Schusser. Die vier Kinder der Familie Maier haben y = 7, y 2 = 7,
MehrEntscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
MehrMultivariate Verteilungen. Gerhard Tutz LMU München
Multivariate Verteilungen Gerhard Tutz LMU München INHALTSVERZEICHNIS 1 Inhaltsverzeichnis 1 Multivariate Normalverteilung 3 Wishart Verteilung 7 3 Hotellings T Verteilung 11 4 Wilks Λ 14 INHALTSVERZEICHNIS
MehrWas bisher geschah. Definition digitaler Bilder B : pos col Bildanalyse, statistische Merkmale Signale im Orts- und Frequenzraum Bildbearbeitung durch
Was bisher geschah Definition digitaler Bilder B : pos col Bildanalyse, statistische Merkmale Signale im Orts- und Frequenzraum Bildbearbeitung durch Punktoperationen (Farbtransformation) f : col1 col
MehrStatistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen
Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Oktober 2018 Prof. Dr. Hans-Jörg
MehrKapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42
Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich
MehrStatistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg
Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Prof. Markus Schumacher, Dr. Stan Lai Physikalisches Institut Westbau 2 OG Markus.Schumacher@physik.uni-freiburg.de
MehrVerfahren für metrische Variable
Verfahren für metrische Variable Grafische Methoden Histogramm Mittelwertsplot Boxplot Lagemaße Mittelwert, Median, Quantile Streuungsmaße Standardabweichung, Interquartilsabstand Lagemaße und Streumaße
MehrKapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn.
Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2016/17 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich
MehrStatistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau
MehrStatistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.
Zusammenfassung und wichtiges zur Prüfungsvorbereitung 9. Dezember 2008 Begriffe Kenntnis der wichtigen Begriffe und Unterscheidung dieser. Beispiele: Merkmal, Merkmalsraum, etc. Skalierung: Nominal etc
MehrCharakterisierung von 1D Daten
Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert
MehrSeite 1. sin 2 x dx. b) Berechnen Sie das Integral. e (t s)2 ds. (Nur Leibniz-Formel) c) Differenzieren Sie die Funktion f(t) = t. d dx ln(x + x3 ) dx
Seite Aufgabe : a Berechnen Sie das Integral b Berechnen Sie das Integral +x x+x dx. π sin x dx. c Differenzieren Sie die Funktion ft = t e t s ds. Nur Leibniz-Formel a + x x + x dx = d dx lnx + x dx =
Mehr7. Wie lautet die Inverse der Verkettung zweier linearer Abbildungen? 9. Wie kann die Matrixdarstellung einer linearen Abbildung aufgestellt werden?
Kapitel Lineare Abbildungen Verständnisfragen Sachfragen Was ist eine lineare Abbildung? Erläutern Sie den Zusammenhang zwischen Unterräumen, linearer Unabhängigkeit und linearen Abbildungen! 3 Was ist
MehrInhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4
Inhaltsverzeichnis Vorwort Abbildungsverzeichnis Tabellenverzeichnis v xv xvii 1 Einleitung 1 1.1 Gegenstand 1 1.2 Aufbau 4 2 Datenerhebung - ganz praktisch 7 2.1 Einleitung 7 2.2 Erhebungsplan 7 2.2.1
MehrInhaltsverzeichnis (Ausschnitt)
4 Zweidimensionale Daten Inhaltsverzeichnis (Ausschnitt) 4 Zweidimensionale Daten Häufigkeitsverteilungen unklassierter Daten Häufigkeitsverteilungen klassierter Daten Bedingte Häufigkeitsverteilungen
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
Mehr6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale
6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 397 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig
MehrInhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015
Inhalt Mathematik für Chemiker II Lineare Algebra Vorlesung im Sommersemester 5 Rostock, April Juli 5 Vektoren und Matrizen Abbildungen 3 Gleichungssysteme 4 Eigenwerte 5 Funktionen mehrerer Variabler
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrStatistik I für Betriebswirte Vorlesung 4
Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
MehrLineare Algebra. Mathematik II für Chemiker. Daniel Gerth
Lineare Algebra Mathematik II für Chemiker Daniel Gerth Überblick Lineare Algebra Dieses Kapitel erklärt: Was man unter Vektoren versteht Wie man einfache geometrische Sachverhalte beschreibt Was man unter
MehrZusammenhänge zwischen metrischen Merkmalen
Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl
MehrPCA based feature fusion
PCA based feature fusion Seminar Inhaltsbasierte Bildsuche WS 04/05 Übersicht Motivation: PCA an einem Beispiel PCA in der Bildsuche Tests Zusammenfassung / Ausblick Diskussion / Demo 2 Motivation: PCA
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Übung 3 1 Inhalt der heutigen Übung Vorrechnen der Hausübung B.7 Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben C.1: Häufigkeitsverteilung C.2: Tukey
MehrKlassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
MehrMustererkennung. Merkmalsreduktion. R. Neubecker, WS 2016 / Übersicht
Mustererkennung Merkmalsreduktion R. Neubecker, WS 2016 / 2017 Übersicht 2 Merkmale Principal Component Analysis: Konzept Mathematische Formulierung Anwendung Eigengesichter 1 Merkmale 3 (Zu) Viele Merkmale
MehrÄhnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
MehrProseminar "Aufgabenstellungen der Bildanalyse und Mustererkennung"
Fakultät Informatik, Institut für künstliche Intelligenz, Intelligent Systems Proseminar "Aufgabenstellungen der Bildanalyse und Mustererkennung" Lokale Merkmalsdeskriptoren Jens Stormberg - Dresden, 19.06.2009
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrKapitel 2: Ein abstraktes Geo-Datenmodell
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Kapitel 2: Ein abstraktes Geo-Datenmodell Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2013/14 Ludwig-Maximilians-Universität
MehrSBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1
SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf SBP Mathe Aufbaukurs 1 # 0 Antwort Diese Lernkarten sind sorgfältig erstellt worden, erheben aber weder Anspruch auf Richtigkeit noch auf Vollständigkeit. Das
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 26.02.2008 1 Warum Statistik und Wahrscheinlichkeits rechnung im Ingenieurwesen? Zusammenfassung der letzten Vorlesung Statistik und Wahrscheinlichkeitsrechnung
MehrErich Schubert, Arthur Zimek KDD Übung
Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:
MehrStatistik, Datenanalyse und Simulation
Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 5. Juli 2011 Zunächst: PCA (Hauptkomponentenanalyse) ist eine mathematische Prozedur, die eine Anzahl von (möglicherweise korrelierten) Variablen
Mehrhtw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK
htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein
MehrAngewandte Statistik mit R
Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis
MehrAngewandte Statistik mit R. Eine Einführung für Ökonomen und
Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 3. Auflage Springer Gabler Inhaltsverzeichnis Vorwort zur dritten Auflage Vorwort zur ersten Auflage Vorwort
MehrNeuronale Netze. Christian Böhm.
Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch
MehrGrundlagen der empirischen Sozialforschung
Grundlagen der empirischen Sozialforschung Sitzung 11 - Datenanalyseverfahren Jan Finsel Lehrstuhl für empirische Sozialforschung Prof. Dr. Petra Stein 5. Januar 2009 1 / 22 Online-Materialien Die Materialien
MehrPolynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit
MehrKapitel 2: Ein abstraktes Geo-Datenmodell
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Kapitel 2: Ein abstraktes Geo-Datenmodell Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2011/12 Ludwig-Maximilians-Universität
MehrAssoziation & Korrelation
Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den
Mehr1 Multivariate Zufallsvariablen
1 Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Definition 1.1. Zufallsvariable, Zufallsvektor (ZV) Sei Ω die Ergebnismenge eines Zufallsexperiments. Eine (univariate oder eindimensionale)
Mehr2. Dezember Lineare Algebra II. Christian Ebert & Fritz Hamm. Skalarprodukt, Norm, Metrik. Matrizen. Lineare Abbildungen
Algebra und Algebra 2. Dezember 2011 Übersicht Algebra und Algebra I Gruppen & Körper Vektorräume, Basis & Dimension Algebra Norm & Metrik Abbildung & Algebra I Eigenwerte, Eigenwertzerlegung Singulärwertzerlegung
MehrMathematische Werkzeuge R. Neubecker, WS 2016 / 2017
Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrDeskriptive Statistik
Deskriptive Statistik Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst aufräumen 1 Modell vs. Daten Bis jetzt
MehrMathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen
Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 018 / 019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen 1 Optimierung Optimierungsprobleme Suche nach dem Maximum oder Minimum
MehrAngewandte Multivariate Statistik Prof. Dr. Ostap Okhrin
Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen
MehrSkript zur Vorlesung. im Sommersemester Vorlesung+Übungen: PD Dr. Matthias Schubert, Dr. Arthur Zimek
Ludwig-Maximilias-Uiversität Müche Istitut für Iformatik Lehr- ud Forschugseiheit für Datebaksysteme Skript zur Vorlesug Kowledge Discovery i Databases im Sommersemester 0 Kapitel : Merkmalsräume Vorlesug+Übuge:
MehrV. Metriken. Gliederung. I. Motivation. Lesen mathematischer Symbole. Wissenschaftliche Argumentation. Matrizenrechnung. Seite 67
Gliederung I. Motivation II. III. Lesen mathematischer Symbole Wissenschaftliche Argumentation IV. Matrizenrechnung V. Metriken Seite 67 Problemstellung: Gegeben seien 2 Punkte im Raum. Wie groß ist die
MehrGrundlagen von Rasterdaten
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Kapitel 7: Grundlagen von Rasterdaten Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2014/15 Ludwig-Maximilians-Universität
Mehr6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale
6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig und mindestens ordinalskaliert, typischerweise
MehrP (X = 2) = 1/36, P (X = 3) = 2/36,...
2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel
MehrStatistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II
Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen
MehrMusterlösungen für die Nachklausur in LinAlg vom
Musterlösungen für die Nachklausur in LinAlg vom 10.10.16 1. Finden Sie mindestens ) zwei Dreh )Matrizen ) M R 2 2 mit der Eigenschaft 1 0 M = : M = ± 1 1 2 ±1 1 k k 1 k 2. Sei A R 3 3 die Matrix A = 0
MehrBachelorverteidigung Marco Franke
Bachelorverteidigung Java EE Webservice basiert auf RESTlet, JaxB und JPA/Hibernate zur Bilderkennung mit Hilfe der SURF-Merkmalsextraktion Verantwortlicher Professor: Prof. Dr. rer. nat. Klaus Hering
MehrKapitel 7: Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel
MehrKarl Entacher. FH-Salzburg
Ahorn Versteinert Bernhard.Zimmer@fh-salzburg.ac.at Statistik @ HTK Karl Entacher FH-Salzburg karl.entacher@fh-salzburg.ac.at Beispiel 3 Gegeben sind 241 NIR Spektren (Vektoren der Länge 223) zu Holzproben
MehrLösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für Informatiker II
Universität des Saarlandes Fakultät für Mathematik und Informatik Sommersemester 2004 Prof. Dr. Joachim Weickert Dr. Bernhard Burgeth Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für
Mehr4. Verteilungen von Funktionen von Zufallsvariablen
4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten
Mehr3. Deskriptive Statistik
3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht
MehrZusammenhangsanalyse in Kontingenztabellen
Zusammenhangsanalyse in Kontingenztabellen Bisher: Tabellarische / graphische Präsentation Jetzt: Maßzahlen für Stärke des Zusammenhangs zwischen X und Y. Chancen und relative Chancen Zunächst 2 2 - Kontingenztafel
Mehr10.5 Maximum-Likelihood Klassifikation (I)
Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem
Mehr1 Beispiele multivariater Datensätze... 3
Inhaltsverzeichnis Teil I Grundlagen 1 Beispiele multivariater Datensätze... 3 2 Elementare Behandlung der Daten... 15 2.1 Beschreibung und Darstellung univariater Datensätze... 15 2.1.1 Beschreibung und
MehrProbeklausur zur Linearen Algebra II
Probeklausur zur Linearen Algebra II Prof. Dr. C. Löh/D. Fauser/J. Witzig 24. Juli 207 Name: Matrikelnummer: Vorname: Übungsleiter: Diese Klausur besteht aus 8 Seiten. Bitte überprüfen Sie, ob Sie alle
MehrFarbmomente. Christoph Sommer Seminar Inhaltsbasierte Bildsuche
Farbmomente Seminar Inhaltsbasierte Bildsuche Farbmomente Einleitung und Motivation Statistische Momente Geometrische Momente Macht der Momente Hu-Momente Orthogonale Basen für Momente Generalisierte Farbmomente
MehrKapitel 2: Merkmalsräume
Ludwig-Maximilias-Uiversität Müche Istitut für Iformatik Lehr- ud Forschugseiheit für Datebaksysteme Skript zur Vorlesug Kowledge Discovery i Databases im Witersemester 00/0 Kapitel : Merkmalsräume Vorlesug+Übuge:
Mehr6 Symmetrische Matrizen und quadratische Formen
Mathematik für Ingenieure II, SS 9 Freitag 9.6 $Id: quadrat.tex,v. 9/6/9 4:6:48 hk Exp $ 6 Symmetrische Matrizen und quadratische Formen 6. Symmetrische Matrizen Eine n n Matrix heißt symmetrisch wenn
MehrKlassifikation durch direkten Vergleich (Matching)
Klassifikation durch direkten Vergleich (Matching) Eine triviale Lösung für die Klassifikation ergibt sich durch direkten Vergleich des unbekannten Musters in allen Erscheinungsformen der Äquivalenzklasse
Mehr3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit
3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate
Mehr2. Deskriptive Statistik
Philipps-Universitat Marburg 2.1 Stichproben und Datentypen Untersuchungseinheiten: mogliche, statistisch zu erfassende Einheiten je Untersuchungseinheit: ein oder mehrere Merkmale oder Variablen beobachten
MehrDie n-dimensionale Normalverteilung
U. Mortensen Die n-dimensionale Normalverteilung Es wird zunächst die -dimensionale Normalverteilung betrachtet. Die zufälligen Veränderlichen X und Y seien normalverteilt. Gesucht ist die gemeinsame Verteilung
Mehroder A = (a ij ), A =
Matrizen 1 Worum geht es in diesem Modul? Definition und Typ einer Matrix Spezielle Matrizen Rechenoperationen mit Matrizen Rang einer Matrix Rechengesetze Erwartungswert, Varianz und Kovarianz bei mehrdimensionalen
MehrMerkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum
1 Merkmalstypen Quantitativ: Geordnete Werte, Vielfache einer Einheit Stetig: Prinzipiell sind alle Zwischenwerte beobachtbar Beispiele: Gewicht, Größe, Blutdruck Diskret: Nicht alle Zwischenwerte sind
Mehr