Kapitel 3: Klassifikation

Größe: px
Ab Seite anzeigen:

Download "Kapitel 3: Klassifikation"

Transkript

1 Ludwg Mamlans Unverstät München Insttut für Informatk Lehr- und Forschungsenhet für Datenbanksysteme Skrpt zur Vorlesung Knowledge Dscovery n Databases m Wntersemester 2007/2008 Kaptel 3: Klassfkaton Skrpt 2003 Johannes Aßfalg, hrstan Böhm, Karsten Borgwardt, Martn Ester, Eshref Januzaj, Karn Kalng, Peer Kröger, Jörg Sander und Matthas Schubert Klassfkaton Inhalt deses Kaptels 3. Grundbegrffe der Klassfkaton 3.2 Bayes-Klassfkatoren 3.3 Nächste-Nachbarn-Klassfkatoren 3.4 Entschedungsbaum-Klassfkatoren 3.5 Neuronale Netze 3.5 Support Vector Machnes and Kernel Learnng 3.6 Herarchsche Klassfkaton 49

2 3. Grundbegrffe der Klassfkaton Das Klassfkatonsproblem Gegeben: ene Menge O von Objekten des Formats (o,..., o d ) mt Attrbuten A, d, und Klassenzugehörgket c, c = {c,..., c k } Gesucht: de Klassenzugehörgket für Objekte aus DB \ O en Klassfkator K : DB Abgrenzung zum lusterng Klassfkaton: Klassen apror bekannt lusterng: Klassen werden erst gesucht Verwandtes Problem: Vorhersage (Predcton) gesucht st der Wert für en numersches Attrbut Methode z.b. Regresson. 50 Enletung Enfacher Klassfkator Bespel ID Alter Autotyp Rsko 23 Famle hoch 2 7 Sport hoch 3 43 Sport hoch 4 68 Famle nedrg 5 32 LKW nedrg f Alter > 50 then Rskoklasse = Nedrg; f Alter 50 and Autotyp=LKW then Rskoklasse=Nedrg; f Alter 50 and Autotyp LKW then Rskoklasse = Hoch. 5

3 Der Prozess der Klassfkaton Konstrukton des Modells Tranngsdaten Klassfkatons- Algorthmus NAME RANK YEARS TENURED Mke Assstant Prof 3 no Mary Assstant Prof 7 yes Bll Professor 2 yes Jm Assocate Prof 7 yes Dave Assstant Prof 6 no Anne Assocate Prof 3 no Klassfkator f rank = professor or years > 6 then tenured = yes 52 Der Prozess der Klassfkaton Anwendung des Modells Unbekannte Daten (Jeff, Professor, 4) Tenured? Klassfkator yes manchmal: kene Klassfkaton unbekannter Daten sondern nur besseres Verständns der Daten 53

4 Bewertung von Klassfkatoren Grundbegrffe Se K en Klassfkator und se TR O de Tranngsmenge. O DB st de Menge der Objekte, be denen de Klassenzugehörgket berets bekannt st. Problem der Bewertung: gewünscht st gute Performanz auf ganz DB. Klassfkator st für TR optmert. Test auf TR erzeugt n der Regel vel bessere Ergebnsse, als auf DB\TR. Daher ken realstsches Bld der Performanz auf DB. Overfttng 54 Bewertung von Klassfkatoren Tran-and-Test Bewertung ohne Overfttng durch Auftelen von O n : Tranngsmenge TR zum Lernen des Klassfkators (Konstrukton des Modells) Testmenge TE zum Bewerten des Klassfkators 55

5 Bewertung von Klassfkatoren Grundbegrffe Tran-and-Test ncht anwendbar, wenn nur wenge Objekte mt bekannter Klassenzugehörgket Stattdessen: m-fache Überkreuz-Valderung (m-fold ross-valdaton) m-fache Überkreuz-Valderung tele de Menge O n m glech große Telmengen verwende jewels m Telmengen zum Tranng und de verblebende Telmenge zur Bewertung kombnere de erhaltenen m Klassfkatonsfehler (und de m gefundenen Modelle!) 56 Bewertung von Klassfkatoren Ablauf 3-fache Überkreuzvalderung (3-fold ross Valdaton) Se n = 3 : Menge aller Daten mt Klassenformaton de zur Verfügung stehen 2 3 a b c fold: Testmenge 2 fold: Testmenge 3 fold: Testmenge 3 c 2 b Tranngsmenge 2 a b Klassfkator Tranngsmenge Klassfkatons -ergebnse 3 a c Klassfkator Tranngsmenge Klassfkatons -ergebnse 2 3 b c a Klassfkator Klassfkatons -ergebnse gesamtes Klassfkatonsergebns 57

6 Bewertung von Klassfkatoren Ergebns des Tests : Konfusonsmatr (confuson matr) Klasse klassfzert als... Klasse Klasse 2 Klasse 3 Klasse 4 other 35 4 tatsächlche Klasse... Klasse 2 Klasse 3 Klasse 4 other korrekt klassfzerte Objekte Aus der Konfusonsmatr lassen sch folgende Kennzahlen berechnen : Accuracy, lassfcaton Error, Precson und Recall. 58 Bewertung von Klassfkatoren Gütemaße für Klassfkatoren Se K en Klassfkator, TR O de Tranngsmenge, TE O de Testmenge. Bezechne (o) de tatsächlche Klasse enes Objekts o. Klassfkatonsgenaugket (classfcaton accuracy) von K auf TE: { o TE K( o) = ( o)} GTE ( K) = TE Tatsächlcher Klassfkatonsfehler (true classfcaton error) { o TE K( o) ( o)} FTE ( K) = TE Beobachteter Klassfkatonsfehler (apparent classfcaton error) { o TR K( o) ( o)} FTR ( K) = TR 59

7 Bewertung von Klassfkatoren Recall: Antel der Testobjekte ener Klasse, de rchtg erkannt wurden. Se = {o TE (o) = }, dann st Recall TE { o K( o) = ( o)} ( K, ) = Tatsächl. Klasse (o) Zugeordnete Klasse K(o) 2 2 K Precson: Antel der zu ener Klasse zugeordneten Testobjekte, de rchtg erkannt wurden. Se K = {o TE K(o) = }, dann st Precson TE ( K, ) = { o K K( o) = ( o)} K 60 Bewertung von Klassfkatoren wetere Gütemaße für Klassfkatoren Kompakthet des Modells z.b. Größe enes Entschedungsbaums Interpreterbarket des Modells wevel Enschten vermttelt das Modell dem Benutzer? Effzenz der Konstrukton des Modells der Anwendung des Modells Skalerbarket für große Datenmengen für sekundärspecherresdente Daten Robusthet gegenüber Rauschen und fehlenden Werten 6

8 Überblck über Klassfkatonsmethoden Tranngsmenge mt 3 Klassen 3 Klassenbereche (weß, grau, schwarz) Alle Klassfkatoren legen bem Tranng Klassengrenzen fest. Aber: Es gbt vele Methoden Klassengrenzen aus Tranngsdaten abzuleten. => Unterschedlche Klassfkatoren (statsche Kl., Entschedungsbäume, Support Vektor Maschnen, knn Klassfkatoren, neuronale Netze, ) 62 Motvaton der Klassfkatonsmethoden() -dmensonale Projekton Klassengrenzen Bayes Klassfkatoren Unterschedung durch Dchtefunktonen. Unterschedung durch Vorono-Zellen ( nächster Nachbar Klassfkator) NN-Klassfkator 63

9 Motvaton der Klassfkatonsmethoden(2) Entschedungsbäume 3 Festlegen der Grenzen durch rekursve Untertelung n Enzeldmenson. 4 Grenzen über lneare Separaton Support Vektor Maschnen 64 Anwendungen Klassfkaton Klassfkaton von Rskoklassen be Verscherungen und Kredtvergabe Funktonsvorhersage von Protenen Geschtserkennung Erkennen von relevanten Webnhalten Erkennen von Spam- Emals 65

10 3.2 Bayes-Klassfkatoren Statstsche Klassfkatoren Was snd Bayes-Klassfkatoren? Klassen werden durch statstsche Prozesse beschreben Beruht auf dem Satz von Bayes Bestmme Wahrschenlchketen mt denen jeder Prozess das Objekt erklärt (lass-membershp-probablty) Vorhersage der wahrschenlchsten Klasse (Mamum Lkelhood lassfcaton) -dmensonale Projekton Klassengrenzen 66 Überblck Bayes Klassfkatoren. Grundlagen statstscher Klassfkatoren. A-pror und A-posteror Wahrschenlchketen 2. Regel von Bayes 3. Mamum Lkelhood Klassfkaton Klassfkatoren und Statstsche Prozeße Nave Bayes Bayes Netzwerke LDA multvarate Gauss-Prozesse 67

11 Bayes-Klassfkatoren Grundlagen Regeln und Fakten zur Klassfkaton werden mt Hlfe des Satzes von Bayes als bedngte Wahrschenlchketen formulert A-Pror-Wahrschenlchketen modelleren Faktenwssen über de Häufgket ener Klasse und das Auftreten von Merkmalen, z.b. 20% der Objekte snd Äpfel 30% snd Orangen 50% der Objekte snd rund 40% haben Farbe orange A-Pror Wahrsch. f. Klassenzugehörgk. A-Pror Merkmalshäufgket Bedngte Wahrschenlchketen ( A-Posteror ) modelleren Zusammenhänge zwschen Klassen und Merkmalen: 00% der Orangen snd rund: P (rund Orange) = 00% 00% der Äpfel snd rund: P (rund Apfel) = 00% 90% der Orangen snd orange: P (orange Orange) = 90% 68 Bayes-Klassfkatoren Be enem gegebenen Merkmals-Vektor M lässt sch de Wahrschenlchket der Klassenzugehörgket zu Klasse mt dem Satz von Bayes ermtteln: P( M ) = P( M ) P( ) P( M ) = Im Bespel: Wahrschenlchket, dass en oranges Objekt ene Orange st: De entsprechenden Wahrschenlchketen werden aus den Tranngsdaten geschätzt P( M ) P( ) P( ) P( M c j P(orange Orange) P(Orange) P( Orange orange) = = = P(orange) 0.4 j j ) 69

12 Bayes-Klassfkaton Der Bayes-Klassfkator schätzt de Wahrschenlchket der Klassenzugehörgket enes Merkmalsvektors Zur endeutgen Zuordnung enes Klassen-Labels geht man mest nach dem Prnzp Mamum Lkelhood vor: = argma P( P( M M ) = argma ) P( ) P( M ) = argma P( M ) P( ) Da P(M) be allen glech st, st nur das Produkt zu optmeren Bespel: P(Apfel M) = 32% P(Orange M) = 32% = Kw P(Kw M) = 36% 70 Schätzung der Wahrschenlchketen A-pror Wahrschenlchketen Mestens: relatve häufgket n den Tranngsdaten. Bsp: 7 Orangen, 2 Äpfel, Sten => A-Posteror Wahrschenlchketen 7 P( Orange) = = 70% Statstscher Prozess modellert Zusammenhänge zwschen Merkmalen und ener Klasse Unterschede verwendeter Prozesse: Abhänggket der Merkmale ( Korrelaton oder Unabhänggket) Verwendete Vertelungsfunktonen der Merkmalswerte (dskret, Normalvertelung, Multnomal ) Beschaffenhet der Objekte (Vektor, Sequenz ) 7

13 -dmensonale Vertelungen Dskrete Merkmale Auszählen relatver Häufgketen Bsp: 3 P( Form = rund A) = = 75% 4 2 P( Farbe = grün A) = = = 50% P( Form = oval A) = = 0% 4 ID Form Farbe Klasse rund orange A 2 rund grün A 3 rund gelb A 4 eckg grün A 5 oval weß B Problem: (Form = oval) => Klasse A Man verwendet häufg Smoothng, d.h. P( Klasse) > ε. mt 0 < ε <<. D.h. 0 P( Form = oval A) = ma, ε = ε dmensonale Vertelungen Kontnuerlche metrsche Attrbutte dskrete Appromaton P ( 9.0 < Durchmesser 9.5 Orange) = 0% P ( 9.5 < Durchmesser 0.0 Orange) = 30% P (0.0 < Durchmesser 0.5 Orange) = 30% P (0.5 < Durchmesser.0 Orange) = 0% P (.0 < Durchmesser.5 Orange) = 5% R Wahrschenlchkets-Dchtefunktonen z.b. Orangen haben enen Durchmesser von 0± cm: p(durchmesser Orange) = N (0, ) mest Berechnung nach Normalvertelung: P( ) = e 2πσ ( μ ) 2σ 2 2 wobe μ = TR TR und σ = TR ( μ) TR 2 73

14 Motvaton Be hochdmensonalen Merkmalsvektoren schwerge Schätzung der bedngten Wahrschenlchketen P(M ) und damt P( M): M besteht aus velen enzelnen Komponenten, de UND-verknüpft snd: P( M M 2...) = P( M M 2... ) P( ) P( M M...) 2 Be d verschedenen Merkmalen und jewels r verschedenen Werten ergeben sch r d verschedene Merkmalskombnatonen Probleme: De Wahrschenlchketen lassen sch ncht mehr abspechern Man bräuchte >> r d Tranngsdatensätze, um de Wahrschenlchket der enzelnen Merkmalskombnatonen überhaupt ermtteln zu können 74 Nave Bayes-Klassfkaton Lösung deses Problems bem naven Bayes-Klassfkator: Annahme der Bedngten Unabhänggket d.h. be jeder enzelnen Klasse werden de Merkmale so behandelt als wären se vonenander statstsch unabhängg: P (M M 2 ) = P (M ) P (M 2 ) Was bedeutet des? M 2 = Gewcht Klasse=Orange: M = Durchmesser Annahme kann falsch sen Des führt ncht unbedngt dazu, dass de Klassfkaton versagt Aber schlechte Lestung, wenn alle Merkmale be mehreren Klassen etwa glech vertelt snd Unterschede nur n Relatonen der Merkmale zuenander 75

15 Nave Bayes-Klassfkaton Damt st de Wahrschenlchket der Zugehörgket zu Klasse : P( M M 2...) = = P( ) P( M M 2... ) P( M M...) P( ) k Auch her st der Nenner für alle Klassen glech, so dass nur der Zähler zu mameren st: P( ) k j j P( M j 2 P( M ) j ) k = argma{ P( ) j P( M j )} 76 Bayes-Netzwerke Grundbegrffe Graph mt Knoten = Zufallsvarable und Kante = bedngte Abhänggket Jede Zufallsvarable st be gegebenen Werten für de Vorgänger-Varablen bedngt unabhängg von allen Zufallsvarablen, de kene Nachfolger snd. Für jeden Knoten (Zufallsvarable): Tabelle der bedngten Wahrschenlchketen Traneren enes Bayes-Netzwerkes be gegebener Netzwerk-Struktur und allen bekannten Zufallsvarablen be gegebener Netzwerk-Struktur und telwese unbekannten Zufallsvarablen be apror unbekannter Netzwerk-Struktur 77

16 Bayes-Netzwerke Bespel Famly Hstory Smoker FH,S FH, S FH,S FH, S L Lungancer Emphysema ~L PostveXRay Dyspnea bedngte Wahrschenlchketen für Lungancer be gegebenen Werten für FamlyHstory und Smoker lefert der Wert für Emhysema kene zusätzlche Informaton über Lungancer 78 Lneare Dskrmnanz Analyse Modellere alle Klassen als multvarate Normalvertelungen Berückschtgt Korrelatonen der Attrbute Varanzen und Korrelatonen für alle Klassen glech Bass multvarate Normalvertelung (Gauss-Vertelung) P( ) = Σ(, j) = TR (2π ) Erwartungsvektor: Kovaranzmatr : ( d e T ( μ) 2 TR μ = TR μ ) ( TR j μ ) j ( ) ( μ) Egenschaften: Korrelaton zwschen und j Varanz n der Dagonalen 79

17 80 Lneare Dskrmnanz Analyse Tranng:. Bestmme μ und Σ für alle Klassen. 2. Mttle globale Kovaranzmatr Σ. (Gewchteter Durchschntt der Kovaranzmatrtzen aller Klassen) Klassfkaton: Σ Σ = ( ) ( ) ( ) ( ) ) ( )) ( log( 2 arg ma )) ( log( ) ( ) ( 2 arg ma ) ( ) (2 arg ma ) ( arg ma ) ( ) ( 2 P P P e P T T T T d σ μ μ μ μ μ π μ μ = + = + = = Lneare Dskrmnanzfunkton 8 Lneare Dskrmnanz Analyse 2 3 Beobachtung: Da nur Erwartungswerte unterschedlch Lneare Separaton Man muss ncht de Wahrschenlchket berechnen. Es recht de Auswertung der folgenden Dskrmnanzfunkton: Klasse mt mamalem σ () wrd vorhergesagt. ) ( log 2 ) ( T T P + Σ Σ = μ μ μ σ

18 Multvarate Gauss-Prozesse Modellere jede Klasse als multvarate Normalvertelung (Vektoren m R d ) Berückschtgt Korrelatonen der Attrbute Her: Varanzen und Korrelatonen für alle Klassen ndvduell!!!!! Berechnung der Wahrschenlchketen zur Klassfkaton (Mamum Lkelhood) Probleme: Braucht sehr vel Tranngsobjekte für jede Klasse, um sgnfkante Korrelatonswerte zu bestmmen. 82 Interpretaton von Rasterbldern Motvaton automatsche Interpretaton von d Rasterbldern enes bestmmten Gebets für jedes Pel en d-dmensonaler Grauwertvektor (o,..., o d ) verschedene Oberflächenbeschaffenheten der Erde bestzen jewels en charakterstsches Refleons- und Emssonsverhalten (2),(7.5) (8.5),(8.7) Erdoberfläche Band luster luster 2 Ackerland Stadt luster Band 2 Feature-Raum Wasser 83

19 Interpretaton von Rasterbldern Grundlagen Anwendung des Bayes-Klassfkators mt Gauss Prozess Schätzung der P(o c) ohne Annahme der bedngten Unabhänggket Annahme ener d-dmensonalen Normalvertelung für de Grauwertvektoren ener Klasse Wahrschenlchket der Klassenzugehörgket Wasser Stadt Entschedungsflächen Ackerland 84 Interpretaton von Rasterbldern Zu schätzen aus den Tranngsdaten Methode μ : d-dmensonaler Mttelwertvektor aller Feature-Vektoren der Klasse c Σ : Kovaranzmatr der Klasse c d d Probleme der Entschedungsregel - Lkelhood für de gewählte Klasse sehr klen - Lkelhood für mehrere Klassen ähnlch unklassfzerte Regonen Grenzwert 85

20 Bayes-Klassfkatoren Dskusson + hohe Klassfkatonsgenaugket n velen Anwendungen + Inkrementaltät Klassfkator kann enfach an neue Tranngsobjekte adaptert werden + Enbezug von Anwendungswssen - Anwendbarket de erforderlchen bedngten Wahrschenlchketen snd oft unbekannt - Ineffzenz be sehr velen Attrbuten nsbesondere Bayes-Netzwerke Nächste-Nachbarn-Klassfkatoren Schrauben Nägel Klammern Neues Objekt Instanzbasertes Lernen (nstance based learnng) Enfachster Nächste-Nachbar-Klassfkator: Zuordnung zu der Klasse des nächsten Nachbarpunkts Im Bespel: Nächster Nachbar st ene Schraube Regonen der Klassenzuordnung können als Vorono-Dagramme dargestellt werden: Tranngsdaten Mttelsenkrechte 87

21 Nächste-Nachbarn-Klassfkatoren Problem: Punkt rechts oben wahrschenlch nur Ausreßer Besser: Betrachte mehr als nur enen Nachbarn k-nächste-nachbarn-klassfkator Entschedungsmenge de Menge der zur Klassfkaton betrachteten k-nächsten Nachbarn Entschedungsregel we bestmmt man aus den Klassen der Entschedungsmenge de Klasse des zu klassfzerenden Objekts? Interpretere Häufgket ener Klasse n der Entschedungsmenge als Wahrschenlchket der Klassenzugehörgket Mamum-Lkelhood-Prnzp: Mehrhetsentschedung Ggf. Gewchtung 88 Wahl des Parameters k zu klenes k: hohe Senstvtät gegenüber Ausreßern zu großes k: vele Objekte aus anderen lustern (Klassen) n der Entschedungsmenge. mttleres k: höchste Klassfkatonsgüte, oft << k < 0 Entschedungsmenge für k = Entschedungsmenge für k = 7 Entschedungsmenge für k = 7 : zu klassfzeren 89

22 Entschedungsregel Standardregel wähle de Mehrhetsklasse der Entschedungsmenge Gewchtete Entschedungsregel gewchte de Klassen der Entschedungsmenge nach Dstanz, mest nvers quadrert: weght (dst) = /dst 2 nach Vertelung der Klassen (oft sehr unglech!) Problem: Klasse mt zu weng Instanzen (< k/2) n der Tranngsmenge bekommt kene hance, ausgewählt zu werden, selbst be optmaler Dstanzfunkton Klasse A: 95 %, Klasse B 5 % Entschedungsmenge = {A, A, A, A, B, B, B} Standardregel A, gewchtete Regel B 90 Klassfkaton von Sternen Analyse astronomscher Daten Entfernen von Rauschen Manuelle Analyse der nteressanten Sterntypen Automatsche Klassfkaton des Sterntyps Bldsegmenterung Feature-Etrakton Klassfkaton des Sterntyps mt Nächste-Nachbarn-Klassfkator baserend auf dem Hpparcos-Katalog 9

23 Klassfkaton von Sternen Hpparcos-Katalog [ESA 998] enthält ca Sterne mt 78 Attrbuten (Hellgket, Entfernung, Farbe,...) Klassenattrbut: Spektraltyp (Attrbut H76) z.b. ANY H76: G0 G K... H76: G7.2 H76: KIII/IV G0 G G2... Werte des Spektraltyps snd vage Herarche von Klassen benutze de erste Ebene der Klassenherarche 92 Klassfkaton von Sternen Klasse #Instanzen Antel Instanzen Vertelung der Klassen K F G A B M O R W N S D häufge Klassen seltene Klassen 93

24 Klassfkaton von Sternen Epermentelle Untersuchung [Poschenreder 998] Dstanzfunkton mt 6 Attrbuten (Farbe, Hellgket und Entfernung) mt 5 Attrbuten (ohne Entfernung) beste Klassfkatonsgenaugket mt 6 Attrbuten Anzahl k der Nachbarn beste Klassfkatonsgenaugket für k = 5 Entschedungsregel Gewchtung nach Dstanz Gewchtung nach Klassenvertelung beste Klassfkatonsgenaugket be Gewchtung nach Dstanz aber ncht nach Klassenvertelung 94 Klassfkaton von Sternen Klasse Falsch Korrekt Klassfkatonsklassfzert klassfzert genaugket K % F % G % A % B % M % % R 5 0 0% W 4 0 0% O 9 0 0% N 4 20% D 3 0 0% S 0 0% Total % hohe Klassfkatonsgenaugket für de häufgen Klassen, schlechte Genaugket für de seltenen Klassen de mesten seltenen Klassen bestzen wenger als k / 2 = 8 Instanzen! 95

25 Nächste-Nachbarn-Klassfkatoren Dskusson + Anwendbarket erfordert als Engabe nur de Tranngsdaten + hohe Klassfkatonsgenaugket n velen Anwendungen + nkrementell Klassfkator kann sehr enfach an neue Tranngsobjekte adaptert werden + auch zur Vorhersage ensetzbar - Ineffzenz be der Auswertung des Modells erfordert k-nächste-nachbarn Anfrage an de Datenbank - lefert ken eplztes Wssen über de Klassen Entschedungsbaum-Klassfkatoren Motvaton ID Alter Autotyp Rsko 23 Famle hoch 2 7 Sport hoch 3 43 Sport hoch 4 68 Famle nedrg 5 32 LKW nedrg Autotyp = LKW LKW Rskoklasse = nedrg Alter > Rskoklasse = nedrg Rskoklasse = hoch fnden eplztes Wssen Entschedungsbäume snd für de mesten Benutzer verständlch 97

26 Grundbegrffe En Entschedungsbaum st en Baum mt folgenden Egenschaften: en nnerer Knoten repräsentert en Attrbut, ene Kante repräsentert enen Test auf dem Attrbut des Vaterknotens, en Blatt repräsentert ene der Klassen. Konstrukton enes Entschedungsbaums anhand der Tranngsmenge Top-Down Anwendung enes Entschedungsbaums Durchlauf des Entschedungsbaum von der Wurzel zu enem der Blätter endeutger Pfad Zuordnung des Objekts zur Klasse des errechten Blatts 98 Konstrukton enes Entschedungsbaums Bass-Algorthmus Anfangs gehören alle Tranngsdatensätze zur Wurzel. Das nächste Attrbut wrd ausgewählt (Spltstratege). De Tranngsdatensätze werden unter Nutzung des Spltattrbuts parttonert. Das Verfahren wrd rekursv für de Parttonen fortgesetzt. lokal optmerender Algorthmus Abbruchbedngungen kene weteren Spltattrbute alle Tranngsdatensätze enes Knotens gehören zur selben Klasse 99

27 Entschedungsbaum-Klassfkatoren Bespel Tag Ausscht Temperatur Feuchtgket Wnd Tennspelen sonng heß hoch schwach nen 2 sonng heß hoch stark nen 3 bedeckt heß hoch schwach ja 4 regnersch mld hoch schwach ja 5 regnersch kühl normal schwach ja 6 regnersch kühl normal stark nen Ist heute en Tag zum Tennsspelen? 00 Entschedungsbaum-Klassfkatoren Bespel Ausscht sonng bedeckt regnersch Feuchtgket ja Wnd hoch normal stark schwach nen ja nen ja 0

28 Spltstrategen Kategorsche Attrbute Typen von Splts Spltbedngungen der Form attrbut = a or attrbut set vele möglche Telmengen attrbut attrbut = a = a 2 = a 3 Numersche Attrbute Spltbedngungen der Form attrbut < a vele möglche Spltpunkte s s 2 attrbut < a a 02 Spltstrategen Qualtätsmaße für Splts Gegeben ene Menge T von Tranngsobjekten ene dsjunkte, vollständge Parttonerung T, T 2,..., T m von T p de relatve Häufgket der Klasse c n T Gesucht en Maß der Unrenhet ener Menge S von Trannsgobjekten n Bezug auf de Klassenzugehörgket en Splt von T n T, T 2,..., T m, der deses Maß der Unrenhet mnmert Informatonsgewnn, Gn-Inde 03

29 Spltstrategen Informatonsgewnn Entrope: mnmale Anzahl von Bts zum oderen der Nachrcht, mt der man de Klasse enes zufällgen Tranngsobjekts mttelen möchte De Entrope für ene Menge T von Tranngsobjekten st defnert als entrope( T) = p logp k = entrope(t) = 0, falls p = für en entrope(t) = für k = 2 Klassen mt p = /2 Das Attrbut A habe de Parttonerung T, T 2,..., T m erzeugt. Der Informatonsgewnn des Attrbuts A n Bezug auf T st defnert als m T nformatonsgewnn( T, A) = entrope( T) T entrope ( T ) = 04 Spltstrategen Gn-Inde Gn-Inde für ene Menge T von Tranngsobjekten gn( T)= k j= 2 pj klener Gn-Inde gernge Unrenhet, großer Gn-Inde hohe Unrenhet Das Attrbut A habe de Parttonerung T, T 2,..., T m erzeugt. Gn-Inde des Attrbuts A n Bezug auf T st defnert als gn A m T ( T) = T gn ( T ) = 05

30 Spltstrategen Bespel 9 ja 5 nen Entrope = 0,940 Feuchtgket hoch normal 3 ja 4 nen 6 ja nen Entrope = 0,985 Entrope = 0,592 9 ja 5 nen Entrope = 0,940 Wnd schwach stark 6 ja 2 nen 3 ja 3 nen Entrope = 0,8 Entrope =,0 7 nformatonsgewnn( T, Feuchtgket) = 094,,, =, nformatonsgewnn( T, Wnd) = 0,94 0,8,0 = 0, Feuchtgket lefert den höheren Informatonsgewnn 06 Overfttng Enführung Overfttng be der Konstrukton enes Entschedungsbaums, wenn es zwe Entschedungsbäume E und E gbt mt E hat auf der Tranngsmenge ene klenere Fehlerrate als E, E hat auf der Grundgesamthet der Daten ene klenere Fehlerrate als E. Klassfkatonsgenaugket auf Tranngsdaten auf Testdaten Baumgröße 07

31 Overfttng Ansätze zum Vermeden von Overfttng Entfernen von fehlerhaften Tranngsdaten nsbesondere wdersprüchlche Tranngsdaten Wahl ener geegneten Größe der Tranngsmenge ncht zu klen, ncht zu groß Wahl ener geegneten Größe des mnmum support mnmum support: Anzahl der Datensätze, de mndestens zu enem Blattknoten des Baums gehören müssen mnmum support >> 08 Overfttng Ansätze zum Vermeden von Overfttng Wahl ener geegneten Größe der mnmum confdence mnmum confdence: Antel, den de Mehrhetsklasse enes Blattknotens mndestens bestzen muß mnmum confdence << 00% Blätter können auch fehlerhafte Datensätze oder Rauschen absorberen nachträglches Prunng des Entschedungsbaums Abschneden der überspezalserten Äste 09

32 Prunng von Entschedungsbäumen Fehlerreduktons-Prunng [Mtchell 997] Auftelung der klassfzerten Daten n Tranngsmenge und Testmenge Konstrukton enes Entschedungsbaums E für de Tranngsmenge Prunng von E mt Hlfe der Testmenge T bestmme denjengen Telbaum von E, dessen Abschneden den Klassfkatonsfehler auf T am stärksten reduzert entferne desen Telbaum fertg, falls ken solcher Telbaum mehr estert nur anwendbar, wenn genügend vele klassfzerte Daten 0 Numersche Spltgrenzen Wo sollen dskrete Attrbute gesplttet werden? => An den Stellen, de den Informaton Gan mameren. Idee: Ordnen der numerschen Attrbutwerte Wert Klasse A A B B B A A A Potentelle Spltkanddaten Teste de Kombnaton, de den höchsten Informaton Gan erzelen. Schnellere Methode: Blde Gauß-Kurve über alle Klassen Wähle Schnttpunkte der Gauß-Kurven als Kanddaten. Potentelle Spltkanddaten

33 Entschedungsbaum-Klassfkatoren Dskusson + Interpretaton des gefundenen Baumes relatv enfach + Implzte Gewchtung der Attrbute + Lestungsfähger Klassfkator, häufg n der Pras verwendet + Effzente Auswertung des gefundenen Modells - Fnden enes optmalen Entschedungsbaums st eponentell - Heurstsche Methoden können nur lokales Optmum fnden - Anfällg für Overfttng Neuronale Netze Grundlagen [Bgus 996], [Bshop 995] Paradgma für en Maschnen- und Berechnungsmodell Funktonswese ähnlch der von bologschen Gehrnen Neuronales Netz: Menge von Neuronen, über Kanten mtenander verbunden Neuron: entsprcht bologschem Neuron Aktverung durch Input-Sgnale an den Synapsen Erzeugung enes Output-Sgnals, das zu anderen Neuronen wetergeletet wrd Organsaton enes neuronalen Netzes Input-Schcht, verborgene Schchten, Output-Schcht Knoten ener Schcht mt allen Knoten der vorhergehenden Schcht verbunden 3

34 Grundlagen Kanten bestzen Gewchte Funkton enes neuronalen Netzes Output-Vektor y Output-Schcht verborgene Schcht Vorhergesagte Klasse w j Input-Schcht w j Input-Vektor 4 Neuronen allgemenes Neuron a: Aktverungswert n a = w = 2 n... w w 2 w n Σ a y = + e a Threshold Logc Unt (TLU) 2 n w... w 2 w n Σ a y θ a, wenn a θ y = 0, sonst 5

35 Neuronen Klassfkaton mt Hlfe ener TLU repräsentert ene (Hyper-)Ebene lnks von der Ebene: Klasse 0 rechts von der Ebene: Klasse n = w = θ Traneren ener TLU Lernen der rchtgen Gewchte zur Unterschedung der zwe Klassen Iteratve Anpassung der Gewchte w j Rotaton der durch w und θ gegebene Hyperebene um enen klenen Betrag n Rchtung v, wenn v noch ncht auf der rchtgen Sete der Ebene legt 6 Kombnaton mehrerer Neuronen zwe Klassen, de ncht lnear separerbar snd: zwe nnere Knoten und en Output-Knoten Bespel y 0 A A A A A A A A A A A B B B B B B B B A A A A A 0 h h 2 h = 0 h = 0: y = 0 ( Klasse B) 2 andernfalls: y = ( Klasse A) 7

36 Lernalgorthmus für komplee Neuronale Netze be Abwechung von vorhergesagter und tatsächlcher Klasse: Anpassung der Gewchte mehrerer Knoten Frage n welchem Maße snd de verschedenen Knoten an dem Fehler betelgt? Anpassung der Gewchte durch Gradentenverfahren, das den Gesamtfehler mnmert Gesamtfehler: Summe der (quadratschen) Abwechungen des tatsächlchen Outputs y vom gewünschten Output t für de Menge der Inputvektoren Voraussetzung: Output y stetge Funkton der Aktverung a 8 Algorthmus Backpropagaton für jedes Paar(v,t) // v = Input,t = gewünschter Output forward pass : Bestmme den tatsächlchen Output y für Engabe v; backpropagaton : Bestmme den Fehler (t y) der Output-Enheten und passe de Gewchte der Output-Enheten n de Rchtung an, de den Fehler mnmert; Solange der Input-Layer ncht errecht st: Propagere den Fehler auf de nächste Schcht und passe auch dort de Gewchte der Enheten n fehlermnmerender Wese an; 9

37 Desgn der Netztopologe Bestmmung von Anzahl der Input-Knoten Anzahl der nneren Schchten und jewelge Anzahl der Knoten Anzahl der Output-Knoten starker Enfluß auf de Klassfkatonsgüte zu wenge Knoten nedrge Klassfkatonsgüte zu vele Knoten Overfttng 20 Bestmmung der Netztopologe nach [SPSS lementne 2000] Statsche Topologe Topologe wrd apror festgelegt ene verborgene Schcht recht n velen Anwendungen aus Dynamsche Topologe dynamsches Hnzufügen von Neuronen (und verborgenen Schchten) solange Klassfkatonsgüte sgnfkant verbessert wrd Multple Topologen Traneren mehrerer dynamscher Netze parallel z.b. je en Netz mt, 2 und 3 verborgenen Schchten 2

38 Bestmmung der Netztopologe Prunng Traneren enes Netzes mt statscher Topologe nachträglches Entfernen der unwchtgsten Neuronen solange Klassfkatonsgüte verbessert wrd Schlußfolgerung statsche Topologe: nedrge Klassfkatonsgüte, aber relatv schnell. Prunng: beste Klassfkatonsgüte, aber sehr hoher Laufzetaufwand zum Tranng. 22 Dskusson + m Allgemenen sehr hohe Klassfkatonsgüte belebg komplee Entschedungsflächen + robust gegen Rauschen n den Tranngsdaten + Effzenz der Anwendung - schlechte Verständlchket (lernt nur Gewchte, aber kene Klassenbeschrebung) - Ineffzenz des Lernens (sehr lange Tranngszeten) - kene Integraton von Hntergrundwssen 23

39 3.5. Support Vector Machnes Motvaton: Lneare Separaton Vektoren n R d repräsenteren Objekte. Objekte gehören zu genau ener von je 2 Klassen Klassfkaton durch lneare Separaton: Suche Hyperebene, de bede Klassen mamal stabl vonenander trennt. trennende Hyperebene ordne unbekannte Elemente der Sete der Ebene zu, auf der se sch befnden. 24 Support Vector Machnes Probleme be lnearer Separaton: Was st de mamal stable Hyperebene und we berechnet man Se effzent? Klassen ncht mmer lnear trennbar. Berechnung von Hyperebenen nach Auswahl sehr aufwendg. Enschränkung auf 2 Klassen.... Lösungen deser Probleme mt Support Vector Machnes(SVMs ) [Vapnk 979 u. 995]. 25

40 Mamum Margn Hyperplane Problem: Hyperebene de P und P 2 trennt st ncht endeutg. Welche Hyperebene st für de Separaton de Beste? P 2 P 2 P P Krteren: Stabltät bem Enfügen Abstand zu den Objekten beder Klassen 26 Mamum Margn Hyperplane Lneare Separaton mt der Mamum Margn Hyperplane Mamum Margn Hyperplane P 2 ξ ξ P Abstand zu Punkten aus beden Mengen st mamal, d.h. mnd. ξ. Wahrschenlchket, dass bem Enfügen de trennende Hyperebene verschoben werden muss, st mnmal. generalsert am besten. Mamum Margn Hyperplane (MMH) st mamal stabl Rand (margn) MMH st nur von Punkten P abhängg, de Abstand ξ zur Ebene aufwesen. P heßt Support Vector 27

41 Mamum Margn Hyperplane Zusammenfassung der Schrebwesen der benötgten algebraschen Konstrukte für Featurespace FS: Skalarprodukt zweer Vektoren: z.b., y = ( y ) = Beschrebung ener Hyperebene: d, y,, y FS kanonsches Skalarprodukt ( w, b) H = FS 0 = w, + b ( ) b Abstand enes Vectors zur Ebene: dst, H ( w, b) = w, + w, w 28 Mamum Margn Hyperplane Berechnung der Mamum Margn Hyperplane. Bedngung: ken Klassfkatonsfehler (Klasse: y =,Klasse 2:y =-) ( y ) [, ] 0 = w + b < y w, ( y = ) [ w, + b] > 0 2. Bedngung: Mamaler Rand (Margn) ( ) [ + b] > 0 mamere: ξ = mn TR w, w w, + b (Abstand von zur Ebene H( w, b) ) oder mamere: ξ, so dass y [ w, + b] ξ w, w für [..n] 29

42 Mamum Margn Hyperplane mamere ξ n y [ w, + b] ξ, für [..n] w, w Setze = ξ : ma., mt y ξ w + b ξ [..n] w, w w, w ( ( ) ) ma., mt y w, + b [..n] w, w ( ( (, ) ) Statt w, w nvertere, quadrere und mnmere das Ergebns: Prmäres OP: mnmere J ( w, b) = w, w unter Nebenbedngung für [..n] se ( y ( w, +b) ) 30 Mamum Margn Hyperplane Zur Berechnung wrd das prmäre Optmerungsproblem n en duales OP überführt (Umformulerung n Form mt Langrange Multplkatoren). Duales OP: mamere n n n L ( α) = α α α j y y j, = 2 = j= j unter Bedngung n = α y = 0, 0 α und n α R Lösung des Problems mt Algorthmen aus der Optmerungstheore bs jetzt nur lnear separerbarer Fall: Soft Margn Optmerung Enführung von Kernelfunktonen zur Stegerung der Kapaztät 3

43 Soft Margn Behandlung ncht lnear trennbarer Daten: Soft Margn Optmerung Daten ncht separerbar vollständge Separaton st ncht optmal Trade-Off zwschen Tranngsfehler und Brete des Randes 32 Soft Margn Betrachte bem Optmeren zusätzlch noch de Anzahl der Tranngsfehler. P ξ 2 ξ P 2 ξ st der Abstand von P zum Rand (wrd auch Slack-Varable genannt) regulert den Enfluss enes enzelnen Tranngsvektors Prmäres OP : mnmere unter Nebenbedngung für [..n] se n J ( w, b, ξ ) = w, w + ξ 2 y = ( w, + b) ξ und ξ 0 Prmäres Optmerungsproblem unter wechen Grenzen (Soft Margn) 33

44 Soft Margn Das duale OP mt Langrange Multplkatoren verändert sch we folgt: Duales OP: mamere mt Bedngung n = α n n n L ( α) = α α α j y y j, = 2 = j= y = 0 und 0 α j 0 < α < Support Vektor mt ξ = 0 α = Support Vektor mt ξ >0 α = 0 sonst ξ 2 P 2 P Entschedungsregel: () h = sgn α y, + b SV ξ 34 Kernel Machnes Lernen be ncht lnear trennbaren Datenmengen Problem: Be realen Problemen st häufg kene lneare Separaton mt hoher Klassfkatonsgenaugket mehr möglch. Idee: Transformere Daten n enen ncht lnearen Feature-Raum und versuche se m neuen Raum lnear zu separeren. (Erweterung des Hypothesenraumes) Bespel: quadratsche Transformaton 35

45 Kernel Machnes Erweterung der Hypothesenraumes Engaberaum φ erweterter Feature Raum Versuche jetzt n erwetertem Feature Raum lnear zu separeren Bespel: φ a b c a b c a a a b a c b b b c c c her: Ene Hyperebene m erweterten Feature Raum st en Polynom 2. Grades m Engaberaum. 36 Kernel Machnes Engaberaum: = m erweterten Raum: (6 Attrbute) ( ), 2 φ (2 Attrbute) 2 2 ( ) = (, 2, 2, 2,),

46 Kernel Machnes Enführung enes Kernels (Implzte) Featuretransformaton mttels φ ( ) : FS alt FSneu Duales OP: mamere mt Bedngung L( α) n α = α 2 = 0 n = y = n n = j= und 0 α α α j y y j φ( ), φ( j ) Zusätzlche Featuretransformaton wrkt sch nur auf das Skalarprodukt der Tranngsvektoren aus. Kernel K st ene Funkton mt: K (, j ) φ( ), φ( j ) φ = 38 Kernel Machnes Notwendge Bedngungen: K y = φ ( ), φ( y) = φ( y), φ( ) = K y, (Symmetre) φ (, ) φ ( ) 2 ( ) ( ) ( ) K, y K, K y, y (auchy-schwarz) φ Wann st ene Funkton K(,y) en Kernel? Wenn de Kernel-Matr (Gram Matr) KM K(, ).. K(, n) KM ( K) = K( n, ).. K( n, n) postv (sem)defnt st, also kene negatven Egenwerte bestzt, dann st K(,y) en Kernel (sehe Mercer s Theorem) φ φ Symmetre und auchy-schwarz snd kene hnrechenden Bedngungen! 39

47 Kernel Machnes enge Regeln zur Kombnaton vom Kerneln: (, y) = K(, y) K2( y) (, y) = K (, y) + K2( y) (, y) = a K( y) T (, y) = B y K, K, K, K für K, K 2 Kernelfunktonen, a ene postve Konstante und B ene symmetrsche postv sem-defnte Matr. 40 Kernel Machnes Bespele für verwendete Kernel-Funktonen: lnear: K (, y) =, y polynomell: ( y c) d K (, y) =, + Radale Bassfunktonen: K(, y) = ep γ y 2 y GaussKernel: K(, y) = ep 2 2σ Sgmod: ( ( y) c) K (, y) = tanh γ + 2 4

48 42 Kernel Machnes Radal Bass Kernel Polynomeller Kernel (Grad 2) 43 Tranng ener SVM zu lösen st folgendes Problem: ( ) j j n n j j n K y y L, 2 ) ( = = = = α α α α Duales OP: mamere mt Bedngung und 0 α = = n y 0 α n n n n n n n n n T n n T K y y K y y K y y K y y α α α α α α.. ), (.. ), ( ), (.. ), ( ma oder mt Bedngung und 0 α = = n y 0 α

49 Tranng ener SVM zur Lösung: Standardalgorthmen aus der Optmerungstheore für konvee quadratsche Programme für große Tranngsmengen numersche Algorthmen notwendg es esteren enge Spezalalgorthmen für SVM-Tranng: hunkng / Decomposton Sequental Mnmal Optmsaton (SMO) 44 Mult-lass SVMs Bsher SVMs nur anwendbar auf 2 Klassen Probleme!! Idee: Kombnaton mehrere 2-Klassen SVMs zu Klassfkatoren, de belebg vele Klassen unterscheden können. Mult-lass SVMs 2 klasssche Ansätze:. Unterschede jede Klasse von allen anderen (-versus-rest) 2. Unterschede je 2 Klassen (-versus-) 45

50 -versus-rest Ansatz y B A SVMs: A B R E S T Klassfkaton y A B ξ ξ A O ξ B A B - - Klasse von O R E S T -versus-rest Ansatz : SVM für jede Klasse. SVM trennt jedes Klasse von Verengung aller anderen Klassen ab Klassfzere O mt allen Bass-SVMs. Multple Klassenzugehörgket möglch (Mult-lassfcaton) oder Entschedung für de Klasse, be der Abstand ξ am größten st. 46 -versus- Ansatz y B A SVMs: A B A-B A- B- A B Klassfkaton y A B o SVMs: A B A A B 0 2 Votng-Vektor A B -versus- Ansatz : SVM für jedes Paar von Klassen. Klassfkaton von Objekt O:. Klassfzere O mt allen Bass-SVMs. 2. Zähle Stmmen (Votes) für jede Klasse. Mamale Anzahl an Votes => Ergebns. 47

51 Verglech -versus-rest und -versus- Krterum Aufwand Tranng Aufwand Klassfkaton Genaugket -versus-rest lnear zur Anzahl der Klassen ( O( K ) ) lnear zur Anzahl der Klassen ( O( K ) ) tendenzell schlechter -versus- Quadratsch zur Anzahl der Klassen ( O( K 2 ) ) Quadratsch zur Anzahl der Klassen ( O( K 2 ) ) Verbesserung: Decson Drected Acyclc Graphs Klassfkaton n O( K ) [Platt,hrstann 999] tendenzell höher, (nutzt wssen über unterschedlche Klassen besser aus) 48 Anwendungen von SVM SVM zur Tetklassfkaton [Joachms98] 2 Datensätze Reutersdatensatz: Nachrchtenagenturtete 9603 Tranngsdokumente, 3299 Testdokumente, 90 Kategoren Ohsumed corpus: Medznsche Tete jewels Test- und Tranngsdokumente, 23 Kategoren (unterschedlche Krankheten) Epermente durch Verglech zwschen: Nave Bayes 4.5(Entschedungsbaum) Roccho (Relevance Feedback) k-nn Klassfkator SVM (polynomeller und radal bass functon -Kernel ) 49

52 Anwendungen von SVM Ergebnsse: Nave Bayes Roccho 4.5 k-nn SVM (poly.) SVM (rbf) durchschn. Genaugket ma. pro Kl (Klassfkaton mt Klassfkator pro Klasse, der Zugehörgket prüft.) Ergebns: SVM leferten deutlch bessere Ergebnsse k-nn Klassfkator bester der etablerten Methoden Wahl des Kernel/der Kernelparameter rel. unkrtsch Bsp.: Grad des Polynoms : 84.2% (d=2) % (d=4) 50 Anwendungen von SVM wetere Anwendungsbespele: Blderkennung [Pontl, Verr 98] Buchstabenerkennung [Boser, Guyon, Vapnk 92] Bonformatk Genepressonsanalyse [Brown et al. 99] Erkennen homologer Protene [Jaakkola, Haussler 98] 5

53 Support Vector Machnes Dskusson + erzeugt Klassfkatoren mt hoher Genaugket + verhältnsmäßg schwache Tendenz zu Overfttng (Begründung durch Generalserungtheore) + effzente Klassfkaton neuer Objekte + kompakte Modelle - unter Umständen lange Tranngszeten - aufwendge Implementerung - gefundene Modelle schwer zu deuten 52 Support Vector Machnes Lteratur:. ortes, V. Vapnk: Support-vector networks. Machne Learnng, 20: , November 995..J.. Burges: A tutoral on support vector machnes for pattern recognton. Data Mnng and Knowledge Dscovery, 2(2):2-67,998. T. Joachms: Tet categorsaton wth Support Vector Machnes. n Proceedngs of European onference on Machne Learnng (EML), 998. N. rstann, J Shawne-Taylor: An Introducton to Support Vector Machnes and other kernel-based learnng methods. ambrdge Unversty Press

54 3.6 Herarchsche Klassfkaton Bsher: Flacher Klassenraum = {,.., n } Bespel: Ene Emal st Spam oder ncht. Häufg: Herarchscher Klassenraum Bespel: Nachrchten über Fußball snd en Tel der Sportnachrchten. Herarchsche Klassfkaton berückschtgt Bezehungen der Klassen zuenander. 54 Bespel zur herarchschen Klassfkaton Nachrchtenklassen Alle Sport Poltk Wrtschaft Ballsport Motorsport Kampfsport Klassen snd n ener Taonome organsert! (s-a Bezehungen) Es glt: Gehört en (Tranngs-)Objekt o zu Klasse, dann gehört o auch zu allen Klassen, de Oberklassen von snd. es recht aus, wenn de Tranngsdokumente, hrer spezellsten Klasse zugeordnet snd. Top-Down Klassfkaton n der Taonome: Damt en Objekt zur Klasse gehört, muss es erstmal zur Vaterklasse gehören. Achtung: Es gbt auch andere Arten von herarchschen Klassfkatoren, de Klassen-Ähnlchketen ausnützen! 55

55 Aufbau von herarchschen Klassfkatoren Für de Klassfkatoren K st prnzpell jedes Klassfkatonverfahren anwendbar. Aufbau des Klassfkatonssystems: Objekt hat genau ene Klasse: Pro nneren Knoten wrd en Klassfkator tranert. K K2 K3 K4 Objekt kann mehrere Klassen haben: Pro Kante wrd en Klassfkator tranert. K K2 K3 K4 K6 K8 K5 K7 K9 K0 56 Tranng von herarchschen Klassfkatoren Top-Down Tranng für endeutge Klassenzugehörgket: Tranngsmenge TR Tranere K mt TR für Klassen,2,3 All Tranere K2 mt TR ={ TR class() = } für Klassen 4 und 5 Tranere K3 mt TR 2 ={ TR class() = 2} für Klassen 6, 7, 8 4 K 2 3 K2 K3 K

56 Tranng von herarchschen Klassfkatoren Top-Down Tranng für mehrfache Klassenzugehörgket: Tranngsmenge TR, lass(o) = {Menge der Klassen von o} Tranere K mt TR für Klassen, Other wobe TR = { TR lass()} TR other = { TR lass()}. Tranere K4 mt TR für Klassen 4, Other wobe TR 4 = { TR 4 lass()} TR other = { TR 4 lass()} K4 4 5 K All K2 K3 2 3 K5 K6 K7 K8 K9 K Klassfkaton mt herarchschen Klassfkatoren Greedy-Ansatz: Klassfkaton von Objekt o.klassfzere o mt K => t {, 2, 3} 2. Gehe zu t und klassfzere o mt Kt: Klassfkaton entlang des Pfades auf dem de jewels vorhergesagte Klasse legt. Abbruch wenn Blatt errecht st. 4 o All K 2 3 K2 K3 K o gehört zu 8. 59

57 Klassfkaton mt herarchschen Klassfkatoren Vortele des Greedy-Ansatz:. Effzenz Nur en Pfad n der Taonome muß besucht werden. 2. Taonome belebg Blätter dürfen auf unterschedlcher Höhe legen. 3. Belebge Klassfkatoren anwendbar. 4 K2 5 All K o 2 3 o gehört zu 2. K4 9 0 Nachtel des Greedy-Ansatzes: Fehler be Vaterknoten können ncht durch korrekte Behandlung be den Söhnen ausgeglchen werden. D.h. Falls K nur 55 % Genaugket lestet, kann Klassfkatonsgüte des gesamten Klassfkators nur schlechter werden. 60 Klassfkaton mt herarchschen Klassfkatoren Vollständge herarchsche Klassfkaton Bedngungen:. alle Blätter auf selber Höhe. 2. Klassfkator lefert Wahrschenlchketen /Konfdenzwerte für jede Klasse. Berechne Konfdenz/Wahrschenlchket jeder Blattklasse. Bsp: P(4 o) = P( o) P(4 o ). = 0,4 0,9 = 0,36 Ausglech be Fehlklassfkaton möglch. Nachtele: - schlechte Effzenz - von der Güte der berechneten Konfdenzwerte abhängg. 4 All K 2 3 K2 K3 K4 5 0,4 0,9 0, 0,4 0,45 0,5 0,3 0,3 0,5 0, ,36 0,04 0,8 0,35 0,35 0,075 0,075 wahrschenlchstes Blatt 6

58 Klassfkaton be mehrfacher Klassenzugehörgket Bestmme alle Klassen m Baum zu denen Objekt o gehört.. Klassfzere o mt K, K2, K3: Falls K Klasse vorhersagt, gehe zu Knoten. {, 3} 2. Für alle errechten Knoten, bestmme Klassfkatoren auf Kanten zu Sohnknoten. {K4,K5, K9, K0} K 3. Klassfzere o mt desen Klassfkatoren und bestmme alle errechten Sohnknoten All K2 K3 2 3 Sagt ncht nur Blätter sondern belebge Klassen vorher!!! Fehler n allgemenen Knoten können vele falsche Klassen m Ergebns bewrken. K6 K8 K4 K5 K9 K0 K lass(o) = {5, 0} 62 Dskusson herarchsche Klassfkaton Zel: Mtenbezehen von Taonomen für schnellere und genauere Klassfkaton. Anwendungsberech: Probleme mt velen Klassen de berets n Taonome organsert snd. (z.b. Webpages nach Yahoo-Taonome, Protenklassen,..) schnelle Klassfkaton mt Greedy-Ansatz. vollständge herarchsche Klassfkaton sehr aufwendg. Stegerung der Klassfkatonsgüte hängt von Anwendung ab. In der Regel mäßge Verbesserung der Genaugket m Verglech zu flachen Klassensystemen. Klassfkaton mt mehrfachen Klassenzugehörgketen ordnet Objekt ene Telmenge aller möglchen Klassen zu. 63

Inhalt dieses Kapitels

Inhalt dieses Kapitels Ludwg Maxmlans Unverstät München Insttut für Informatk Lehr- und Forschungsenhet für Datenbanksysteme Skrpt zur Vorlesung Knowledge Dscovery n Databases m Wntersemester 2009/200 Kaptel 3: Klassfkaton Skrpt

Mehr

Kapitel 5: Klassifikation

Kapitel 5: Klassifikation Ludwg-Maxmlans-Unverstät München Insttut für Informatk Lehr- und Forschungsenhet für Datenbanksysteme Skrpt zur Vorlesung Knowledge Dscovery n Databases m Sommersemester 2015 Kaptel 5: Klassfkaton Vorlesung:

Mehr

Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation

Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation Kaptel 8: Kernel-Methoden SS 009 Maschnelles Lernen und Neural Computaton 50 Ausgangsbass: Perceptron Learnng Rule Δw y = Kf = 0Ksonst K"target" = Kf Rosenblatt (96) Input wrd dazugezählt (abgezogen),

Mehr

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation Kaptel 7: Ensemble Methoden 133 Komtees Mehrere Netze haben bessere Performanz als enzelne Enfachstes Bespel: Komtee von Netzen aus der n-fachen Kreuzvalderung (verrngert Varanz) De Computatonal Learnng

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen Übungsklausur Wahrschenlchket und Regresson De Lösungen. Welche der folgenden Aussagen treffen auf en Zufallsexperment zu? a) En Zufallsexperment st en emprsches Phänomen, das n stochastschen Modellen

Mehr

Streuungs-, Schiefe und Wölbungsmaße

Streuungs-, Schiefe und Wölbungsmaße aptel IV Streuungs-, Schefe und Wölbungsmaße B... Lagemaße von äufgketsvertelungen geben allen weng Auskunft über ene äufgketsvertelung. Se beschreben zwar en Zentrum deser Vertelung, geben aber kenen

Mehr

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz Prof. Dr. P. Kschka WS 2012/13 Lehrstuhl für Wrtschafts- und Sozalstatstk Klausur Statstsche Inferenz 15.02.2013 Name: Matrkelnummer: Studengang: Aufgabe 1 2 3 4 5 6 7 8 Summe Punkte 6 5 5 5 5 4 4 6 40

Mehr

Grundgedanke der Regressionsanalyse

Grundgedanke der Regressionsanalyse Grundgedanke der Regressonsanalse Bsher wurden durch Koeffzenten de Stärke von Zusammenhängen beschreben Mt der Regressonsrechnung können für ntervallskalerte Varablen darüber hnaus Modelle geschätzt werden

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Graphsche Modelle els Landwehr Überblck Graphsche Modelle: Syntax und Semantk Graphsche Modelle m Maschnellen Lernen Inferenz n Graphschen

Mehr

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen arametrsche vs. nonparametrsche Testverfahren Verfahren zur Analyse nomnalskalerten Daten Thomas Schäfer SS 009 1 arametrsche vs. nonparametrsche Testverfahren nonparametrsche Tests werden auch vertelungsfree

Mehr

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung: Streuungswerte: 1) Range (R) ab metrschem Messnveau ) Quartlabstand (QA) und mttlere Quartlabstand (MQA) ab metrschem Messnveau 3) Durchschnttlche Abwechung (AD) ab metrschem Messnveau 4) Varanz (s ) ab

Mehr

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden. Ene kurze Enführung n EXCEL Daten snd n Tabellenform gegeben durch de Engabe von FORMELN können mt desen Daten automatserte Berechnungen durchgeführt werden. Menüleste Symbolleste Bearbetungszele aktve

Mehr

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression Beschrebung des Zusammenhangs zweer metrscher Merkmale Streudagramme Korrelatonskoeffzenten Regresson Alter und Gewcht be Kndern bs 36 Monaten Knd Monate Gewcht 9 9 5 8 3 4 7.5 4 3 6 5 3 6 4 3.5 7 35 5

Mehr

Anwendungsmöglichkeiten von Lernverfahren

Anwendungsmöglichkeiten von Lernverfahren Künstlche Neuronale Netze Lernen n neuronalen Netzen 2 / 30 Anwendungsmöglcheten von Lernverfahren Prnzpelle Möglcheten Verbndungsorentert 1 Hnzufügen neuer Verbndungen 2 Löschen bestehender Verbndungen

Mehr

Stochastische Prozesse

Stochastische Prozesse INSTITUT FÜR STOCHASTIK SS 009 UNIVERSITÄT KARLSRUHE Blatt 4 Prv.-Doz. Dr. D. Kadelka Dpl.-Math. W. Lao Übungen zur Vorlesung Stochastsche Prozesse Musterlösungen Aufgabe 16: (Success Run, Fortsetzung)

Mehr

18. Dynamisches Programmieren

18. Dynamisches Programmieren 8. Dynamsches Programmeren Dynamsche Programmerung we gerge Algorthmen ene Algorthmenmethode, um Optmerungsprobleme zu lösen. We Dvde&Conquer berechnet Dynamsche Programmerung Lösung enes Problems aus

Mehr

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2 ETH Arbetsgruppe Radocheme Radochemsches Praktkum P 06 Enführung n de Statstk INHALTSVERZEICHNIS Sete 1. Zählung von radoaktven Zerfällen und Statstk 2 2. Mttelwert und Varanz 2 3. Momente ener Vertelung

Mehr

Lineare Regression (1) - Einführung I -

Lineare Regression (1) - Einführung I - Lneare Regresson (1) - Enführung I - Mttels Regressonsanalysen und kompleeren, auf Regressonsanalysen aserenden Verfahren können schenar verschedene, jedoch nenander üerführare Fragen untersucht werden:

Mehr

Nomenklatur - Übersicht

Nomenklatur - Übersicht Nomenklatur - Überscht Name der synthetschen Varable Wert der synthetschen Varable durch synth. Varable erklärte Gesamt- Streuung durch synth. Varable erkl. Streuung der enzelnen Varablen Korrelaton zwschen

Mehr

Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation

Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation Kaptel 2: Klassfkaton Maschnelles Lernen und Neural Computaton 28 En enfacher Fall En Feature, Hstogramme für bede Klassen (z.b. Glukosewert, Dabetes a/nen) Kene perfekte Trennung möglch Entschedung: Schwellwert

Mehr

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Übung zur Vorlesung - Theorien Psychometrischer Tests II Übung zur Vorlesung - Theoren Psychometrscher Tests II N. Rose 9. Übung (15.01.2009) Agenda Agenda 3-parametrsches logstsches Modell nach Brnbaum Lnkfunktonen 3PL-Modell nach Brnbaum Modellglechung ( =

Mehr

Prof. Dr. Roland Füss Statistik II SS 2008

Prof. Dr. Roland Füss Statistik II SS 2008 5. Spezelle Testverfahren Zahlreche parametrsche und nchtparametrsche Testverfahren, de nach Testvertelung (Bnomal, t-test etc.), Analysezel (Anpassungs- und Unabhänggketstest) oder Konstrukton der Prüfgröße

Mehr

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung am Bespel enes Modells der chadenverscherung Für das Modell ener chadenverscherung se gegeben: s w s. n 4 chaden enes Verscherungsnehmers, wenn der chadenfall entrtt Wahrschenlchket dafür, dass der chadenfall

Mehr

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle, Verson Spaces, Lernen Chrstoph Sawade/Nels Landwehr Slva Makowsk Tobas Scheffer Überblck Problemstellungen:

Mehr

Bayessches Lernen (3)

Bayessches Lernen (3) Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen (3) Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte, Varanz

Mehr

Modelle, Version Spaces, Lernen

Modelle, Version Spaces, Lernen Unverstät Potsdam Insttut ür Inormatk Lehrstuhl Maschnelles Lernen Maschnelles Lernen Modelle Verson Spaces Lernen Tobas Scheer Mchael Brückner Klasskaton Engabe: Instanz Objekt X. Können durch Attrbut-Vektoren

Mehr

Mining Concept-Drifting Data Streams using Ensemble Classifiers

Mining Concept-Drifting Data Streams using Ensemble Classifiers Vortrag m Semnar aus maschnellem Lernen Über das Paper: Mnng Concept-Drftng Data Streams usng Ensemble Classfers Haxun Wang, We Fan, Phlp S. Yu, Jawe Han Vortrag: Robert Deußer Glederung Enführung Ensemble

Mehr

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum Abgabe: Aufgabentext und Lösungen schrftlch bs zum 15. 6. 2012 I. Thema: Zehen mt und ohne Zurücklegen Lesen Se sch zunächst folgenden Text durch! Wr haben bsher Stchprobenzehungen aus Grundgesamtheten

Mehr

binäre Suchbäume Informatik I 6. Kapitel binäre Suchbäume binäre Suchbäume Rainer Schrader 4. Juni 2008 O(n) im worst-case Wir haben bisher behandelt:

binäre Suchbäume Informatik I 6. Kapitel binäre Suchbäume binäre Suchbäume Rainer Schrader 4. Juni 2008 O(n) im worst-case Wir haben bisher behandelt: Informatk I 6. Kaptel Raner Schrader Zentrum für Angewandte Informatk Köln 4. Jun 008 Wr haben bsher behandelt: Suchen n Lsten (lnear und verkettet) Suchen mttels Hashfunktonen jewels unter der Annahme,

Mehr

2.1 Einfache lineare Regression 31

2.1 Einfache lineare Regression 31 .1 Enfache lneare Regresson 31 Regressonsanalyse De Regressonsanalyse gehört zu den am häufgsten engesetzten multvaraten statstschen Auswertungsverfahren. Besonders de multple Regressonsanalyse hat große

Mehr

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF Alternatve Darstellung des -Stchprobentests für Antele DCF CF Total n= 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Beobachtete Response No Response Total absolut DCF 43 68 111 CF 6 86 11 69 154

Mehr

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel ultlneare Algebra und hre Anwendungen Nr. : Normalformen Verfasser: Yee Song Ko Adran Jenn Rebecca Huber Daman Hodel 9.5.7 - - ultlneare Algebra und hre Anwendungen Jordan sche Normalform Allgemene heore

Mehr

Gesichtsfindung mit der Support Vektor Maschine

Gesichtsfindung mit der Support Vektor Maschine Praktkumsbercht Geschtsfndung mt der Support Vektor Maschne André Betz Geschtsfndung mt der Support Vektor Maschne Praktkumsbercht von André Betz Matr.-Nr.: 55359 Betreuer: Bernhard Fröba Praktkumsbercht

Mehr

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n Regressonsgerade x x x x 3... x n y y y y 3... y n Bem Auswerten von Messrehen wrd häufg ene durch theoretsche Überlegungen nahegelegte lneare Bezehung zwschen den x- und y- Werten gesucht, d.h. ene Gerade

Mehr

Lineare Optimierung Dualität

Lineare Optimierung Dualität Kaptel Lneare Optmerung Dualtät D.. : (Dualtät ) Folgende Aufgaben der lnearen Optmerung heßen symmetrsch dual zuenander: und { z = c x Ax b x } max, 0 { Z b A c } mn =, 0. Folgende Aufgaben der lnearen

Mehr

Auswertung univariater Datenmengen - deskriptiv

Auswertung univariater Datenmengen - deskriptiv Auswertung unvarater Datenmengen - desrptv Bblografe Prof. Dr. Küc; Statst, Vorlesungssrpt Abschntt 6.. Bleymüller/Gehlert/Gülcher; Statst für Wrtschaftswssenschaftler Verlag Vahlen Bleymüller/Gehlert;

Mehr

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e Andere Darstellungsformen für de Ausfall- bzw. Überlebens-Wahrschenlchket der Webull-Vertelung snd we folgt: Ausfallwahrschenlchket: F ( t ) Überlebenswahrschenlchket: ( t ) = R = e e t t Dabe haben de

Mehr

Technische Universität München Zentrum Mathematik Diskrete Optimierung: Fallstudien aus der Praxis. Das Cutting Stock-Problem

Technische Universität München Zentrum Mathematik Diskrete Optimierung: Fallstudien aus der Praxis. Das Cutting Stock-Problem 1 Problem Technsche Unverstät München Zentrum Mathematk Dskrete Optmerung: Fallstuden aus der Praxs Barbara Wlhelm Mchael Rtter Das Cuttng Stock-Problem Ene Paperfabrk produzert Paperrollen der Brete B.

Mehr

Werkstoffmechanik SS11 Baither/Schmitz. 5. Vorlesung

Werkstoffmechanik SS11 Baither/Schmitz. 5. Vorlesung Werkstoffmechank SS11 Bather/Schmtz 5. Vorlesung 0.05.011 4. Mkroskopsche Ursachen der Elastztät 4.1 Energeelastztät wrd bestmmt durch de Wechselwrkungspotentale zwschen den Atomen, oft schon auf der Bass

Mehr

Beispiel: Textklassifikation

Beispiel: Textklassifikation Bespel: Textklassfkaton To: ruepng@ls8.cs.undortmund.de Subject: Astonshng Guaranteed XXX Pctures FREE! Gao In the next mnutes you are gong to learn how to get access to totally FREE xxx pctures. Let me

Mehr

6. Modelle mit binären abhängigen Variablen

6. Modelle mit binären abhängigen Variablen 6. Modelle mt bnären abhänggen Varablen 6.1 Lneare Wahrschenlchketsmodelle Qualtatve Varablen: Bnäre Varablen: Dese Varablen haben genau zwe möglche Kategoren und nehmen deshalb genau zwe Werte an, nämlch

Mehr

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i Itemanalyse und Itemkennwerte De Methoden der Analyse der Itemegenschaften st ncht m engeren Snne Bestandtel der Klassschen Testtheore Im Rahmen ener auf der KTT baserenden Testkonstrukton und -revson

Mehr

Maße der zentralen Tendenz (10)

Maße der zentralen Tendenz (10) Maße der zentralen Tendenz (10) - De Berechnung der zentralen Tendenz be ategorserten Daten mt offenen Endlassen I - Bespel 1: offene Endlasse Alter x f x f p x p p cum bs 20 1? 3? 6? 6 21-25 2 23 20 460

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Bayessches Lernen Chrstoph Sawade/Nels Landwehr Jules Rasetaharson Tobas Scheffer Überblck Wahrschenlchketen, Erwartungswerte, Varanz

Mehr

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07 Auswertung von Umfragen und Expermenten Umgang mt Statstken n Maturaarbeten Realserung der Auswertung mt Excel 07 3.Auflage Dese Broschüre hlft bem Verfassen und Betreuen von Maturaarbeten. De 3.Auflage

Mehr

6. Übung zur Linearen Algebra II

6. Übung zur Linearen Algebra II Unverstät Würzburg Mathematsches Insttut Prof. Dr. Peter Müller Dr. Peter Fleschmann SS 2006 30.05.2006 6. Übung zur Lnearen Algebra II Abgabe: Bs Mttwoch, 14.06.2006, 11:00 Uhr n de Brefkästen vor der

Mehr

Facility Location Games

Facility Location Games Faclty Locaton Games Semnar über Algorthmen SS 2006 Klaas Joeppen 1 Abstract Wr haben berets sehr häufg von Nash-Glechgewchten und vor allem von deren Exstenz gesprochen. Das Faclty Locaton Game betet

Mehr

Der Erweiterungsfaktor k

Der Erweiterungsfaktor k Der Erweterungsfaktor k Wahl des rchtgen Faktors S. Meke, PTB-Berln, 8.40 Inhalt: 1. Was macht der k-faktor? 2. Welche Parameter legen den Wert des k-faktors fest? 3. Wo trtt der k-faktor auf? 4. Zusammenhang

Mehr

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm): Aufgabe 1 (4 + 2 + 3 Punkte) Bem Wegen von 0 Respaketen ergaben sch folgende Gewchte X(n Gramm): 1 2 3 4 K = (x u, x o ] (98,99] (99, 1000] (1000,100] (100,1020] n 1 20 10 a) Erstellen Se das Hstogramm.

Mehr

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren Mehrfachregresson: Enfluss mehrerer Merkmale auf en metrsches Merkmal Desgnmatrx Bestmmthetsmaß F-Test T-Test für enzelne Regressoren Mehrfachregresson Bvarat: x b b y + = 0 ˆ k k x b x b x b b y + + +

Mehr

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007 Lehrstuhl für Emprsche Wrtschaftsforschung und Ökonometre Dr Roland Füss Statstk II: Schleßende Statstk SS 007 5 Mehrdmensonale Zufallsvarablen Be velen Problemstellungen st ene solerte Betrachtung enzelnen

Mehr

Gruppe. Lineare Block-Codes

Gruppe. Lineare Block-Codes Thema: Lneare Block-Codes Lneare Block-Codes Zele Mt desen rechnerschen und expermentellen Übungen wrd de prnzpelle Vorgehenswese zur Kanalcoderung mt lnearen Block-Codes erarbetet. De konkrete Anwendung

Mehr

4. Musterlösung. Problem 1: Kreuzende Schnitte **

4. Musterlösung. Problem 1: Kreuzende Schnitte ** Unverstät Karlsruhe Algorthmentechnk Fakultät für Informatk WS 05/06 ITI Wagner 4. Musterlösung Problem 1: Kreuzende Schntte ** Zwe Schntte (S, V \ S) und (T, V \ T ) n enem Graph G = (V, E) kreuzen sch,

Mehr

Spiele und Codes. Rafael Mechtel

Spiele und Codes. Rafael Mechtel Spele und Codes Rafael Mechtel Koderungstheore Worum es geht Über enen Kanal werden Informatonen Übertragen. De Informatonen werden dabe n Worte über enem Alphabet Q übertragen, d.h. als Tupel w = (w,,

Mehr

Näherungsverfahren. Wiederhole den Algorithmusbegriff. Erläutere die Begriffe: Klasse der NP-Probleme. Probleme. Probleme. Approximative Algorithmen

Näherungsverfahren. Wiederhole den Algorithmusbegriff. Erläutere die Begriffe: Klasse der NP-Probleme. Probleme. Probleme. Approximative Algorithmen Näherungsverfahren Wederhole den Algorthmusbegrff. Erläutere de Begrffe: Klasse der P-ProblemeP Probleme Klasse der NP-Probleme Probleme Approxmatve Algorthmen Stochastsche Algorthmen ALGORITHMEN Def.:

Mehr

Lösungen zum 3. Aufgabenblock

Lösungen zum 3. Aufgabenblock Lösungen zum 3. Aufgabenblock 3. Aufgabenblock ewerber haben n enem Test zur sozalen Kompetenz folgende ntervallskalerte Werte erhalten: 96 131 11 1 85 113 91 73 7 a) Zegen Se für desen Datensatz, dass

Mehr

Übung zur Vorlesung. Informationstheorie und Codierung

Übung zur Vorlesung. Informationstheorie und Codierung Übung zur Vorlesung Informatonstheore und Coderung Prof. Dr. Lla Lajm März 25 Ostfala Hochschule für angewandte Wssenschaften Hochschule Braunschweg/Wolfenbüttel Postanschrft: Salzdahlumer Str. 46/48 3832

Mehr

SIMULATION VON HYBRIDFAHRZEUGANTRIEBEN MIT

SIMULATION VON HYBRIDFAHRZEUGANTRIEBEN MIT Smulaton von Hybrdfahrzeugantreben mt optmerter Synchronmaschne 1 SIMULATION VON HYBRIDFAHRZEUGANTRIEBEN MIT OPTIMIERTER SYNCHRONMASCHINE H. Wöhl-Bruhn 1 EINLEITUNG Ene Velzahl von Untersuchungen hat sch

Mehr

Teil E: Qualitative abhängige Variable in Regressionsmodellen

Teil E: Qualitative abhängige Variable in Regressionsmodellen Tel E: Qualtatve abhängge Varable n Regressonsmodellen 1. Qualtatve abhängge Varable Grundlegendes Problem: In velen Fällen st de abhängge Varable nur über enen bestmmten Werteberech beobachtbar. Bsp.

Mehr

Neuronale Netze. M. Gruber (1) ausgeloste Reiz ist x (1) = (1) (s (1) ) mit (1) (s) = 1 sgn(s 1 ) sgn(s 2 ) T. .

Neuronale Netze. M. Gruber (1) ausgeloste Reiz ist x (1) = (1) (s (1) ) mit (1) (s) = 1 sgn(s 1 ) sgn(s 2 ) T. . Neuronale Netze M. Gruber 7.11.015 Begnnen wr mt enem Bespel. Bespel 1 Wr konstrueren enen Klasskator auf der Menge X = [ 1; 1], dessen Wrkung man n Abb.1 rechts sehen kann. Auf der blauen Telmenge soll

Mehr

Weitere NP-vollständige Probleme

Weitere NP-vollständige Probleme Wetere NP-vollständge Probleme Prosemnar Theoretsche Informatk Marten Tlgner December 10, 2014 Wr haben letzte Woche gesehen, dass 3SAT NP-vollständg st. Heute werden wr für enge wetere Probleme n NP zegen,

Mehr

Beschreibende Statistik Mittelwert

Beschreibende Statistik Mittelwert Beschrebende Statstk Mttelwert Unter dem arthmetschen Mttel (Mttelwert) x von n Zahlen verstehen wr: x = n = x = n (x +x +...+x n ) Desen Mttelwert untersuchen wr etwas genauer.. Zege für n = 3: (x x )

Mehr

Elemente der Mathematik - Sommer 2016

Elemente der Mathematik - Sommer 2016 Elemente der Mathematk - Sommer 2016 Prof Dr Matthas Lesch, Regula Krapf Lösungen Übungsblatt 3 Aufgabe 9 (10 Punkte) Das Horner-Schema st ene Methode zum Auswerten enes Polynoms n a0 x an der Stelle s

Mehr

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A Lneare Modelle m SS 2006, Prof. Dr. W. Zucchn 1 Klausur zur Vorlesung Lneare Modelle SS 2006 Dplom, Klausur A Aufgabe 1 (18 Punkte) a) Welcher grundsätzlche Untersched besteht n der Interpretaton von festen

Mehr

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)). 44 n n F F a) b) Abbldung 3.: Besetzungszahlen enes Fermgases m Grundzustand (a)) und für ene angeregte Konfguraton (b)). 3.3 Ferm Drac Statstk In desem Abschntt wollen wr de thermodynamschen Egenschaften

Mehr

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik Grundlagen sportwssenschaftlcher Forschung Deskrptve Statstk Dr. Jan-Peter Brückner jpbrueckner@emal.un-kel.de R.6 Tel. 880 77 Deskrptve Statstk - Zele Beschreben der Daten Zusammenfassen der Daten Überblck

Mehr

3. Lineare Algebra (Teil 2)

3. Lineare Algebra (Teil 2) Mathematk I und II für Ingeneure (FB 8) Verson /704004 Lneare Algebra (Tel ) Parameterdarstellung ener Geraden Im folgenden betrachten wr Geraden m eukldschen Raum n, wobe uns hauptsächlch de Fälle n bzw

Mehr

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9 WS 2016/17 Prof. Dr. Horst Peters 06.12.2016, Sete 1 von 9 Lehrveranstaltung Statstk m Modul Quanttatve Methoden des Studengangs Internatonal Management (Korrelaton, Regresson) 1. Überprüfen Se durch Bestmmung

Mehr

Kapitel 8: Graph-Strukturierte Daten

Kapitel 8: Graph-Strukturierte Daten Ludwg Maxmlans Unerstät München Insttut für Informatk Lehr- und Forschungsenhet für Datenbanksysteme Skrpt zur Vorlesung Knowledge Dscoery n Dtb Databases II m Wntersemester 2011/2012 Kaptel 8: Graph-Strukturerte

Mehr

-70- Anhang: -Lineare Regression-

-70- Anhang: -Lineare Regression- -70- Anhang: -Lneare Regressn- Für ene Messgröße y f(x) gelte flgender mathematsche Zusammenhang: y a+ b x () In der Regel läßt sch durch enen Satz vn Messwerten (x, y ) aber kene Gerade zechnen, da de

Mehr

Kapitel 10 Die Support-Vektor-Maschine (SVM) Ein statistischer Ansatz der Lerntheorie zum Entwurf eines optimalen Klassifikators

Kapitel 10 Die Support-Vektor-Maschine (SVM) Ein statistischer Ansatz der Lerntheorie zum Entwurf eines optimalen Klassifikators Kaptel 0 De Support-Vektor-Maschne (SVM) En statstscher Ansatz der Lerntheore zum Entwurf enes optmalen Klassfkators Inhalt:. Problemstellung 2. VC-Dmenson und Gesamtfehlermnmerung 3. Lneare SVM Separerbare

Mehr

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen 196 6.5. Rückgewnnung des Zetvorgangs: Rolle der Pole und Nullstellen We n 6.2. und 6.. gezegt wurde, st de Übertragungsfunkton G( enes lnearen zetnvaranten Systems mt n unabhänggen Spechern ene gebrochen

Mehr

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y 5. Probt-Modelle Ökonometre II - Peter Stalder "Bnar Choce"-Modelle - Der Probt-Ansatz Ene ncht drekt beobachtbare stochastsche Varable hängt von x ab: x u 2 u ~ N(0, ( Beobachtet wrd ene bnäre Varable

Mehr

4. Rechnen mit Wahrscheinlichkeiten

4. Rechnen mit Wahrscheinlichkeiten 4. Rechnen mt Wahrschenlchketen 4.1 Axome der Wahrschenlchketsrechnung De Wahrschenlchketsrechnung st en Telgebet der Mathematk. Es st üblch, an den Anfang ener mathematschen Theore enge Axome zu setzen,

Mehr

Nullstellen Suchen und Optimierung

Nullstellen Suchen und Optimierung Nullstellen Suchen und Optmerung Typsche Probleme: De optmale Bahnkurve De Mnmerung des Erwartungswertes ür den Hamltonan Wr möchten ene Funkton mnmeren oder mameren solch en Problem wrd Optmerung genannt!

Mehr

FORMELSAMMLUNG STATISTIK (I)

FORMELSAMMLUNG STATISTIK (I) Statst I / B. Zegler Formelsammlng FORMELSAMMLUG STATISTIK (I) Statstsche Formeln, Defntonen nd Erläterngen A a X n qaltatves Mermal Mermalsasprägng qanttatves Mermal Mermalswert Anzahl der statstschen

Mehr

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt -

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt - Flußnetzwerke - Strukturbldung n der natürlchen Umwelt - Volkhard Nordmeer, Claus Zeger und Hans Joachm Schlchtng Unverstät - Gesamthochschule Essen Das wohl bekannteste und größte exsterende natürlche

Mehr

Konzept der Chartanalyse bei Chart-Trend.de

Konzept der Chartanalyse bei Chart-Trend.de Dpl.-Phys.,Dpl.-Math. Jürgen Brandes Konzept der Chartanalyse be Chart-Trend.de Konzept der Chartanalyse be Chart-Trend.de... Bewertungsgrundlagen.... Skala und Symbole.... Trendkanalbewertung.... Bewertung

Mehr

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x, Prof. Dr. H. Brenner Osnabrück WS 2013/2014 Analyss I Vorlesung 17 Logarthmen Satz 17.1. De reelle Exponentalfunkton R R, x exp x, st stetg und stftet ene Bjekton zwschen R und R +. Bewes. De Stetgket

Mehr

Auswertung univariater Datenmengen - deskriptiv

Auswertung univariater Datenmengen - deskriptiv Auswertung unvarater Datenmengen - desrptv Bblografe Prof. Dr. Küc; Statst, Vorlesungssrpt Abschntt 6.. Bleymüller/Gehlert/Gülcher; Statst für Wrtschaftswssenschaftler Verlag Vahlen Bleymüller/Gehlert;

Mehr

1.1 Das Prinzip von No Arbitrage

1.1 Das Prinzip von No Arbitrage Fnanzmärkte H 2006 Tr V Dang Unverstät Mannhem. Das Prnzp von No Arbtrage..A..B..C..D..E..F..G..H Das Framework Bespele Das Fundamental Theorem of Fnance Interpretaton des Theorems und Zustandsprese No

Mehr

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

5. ZWEI ODER MEHRERE METRISCHE MERKMALE 5. ZWEI ODER MEHRERE METRISCHE MERKMALE wenn an ener Beobachtungsenhet zwe (oder mehr) metrsche Varablen erhoben wurden wesentlche Problemstellungen: Frage nach Zusammenhang: Bsp.: Duxbury Press (sehe

Mehr

ω 0 = Protokoll zu Versuch E6: Elektrische Resonanz

ω 0 = Protokoll zu Versuch E6: Elektrische Resonanz Protokoll zu Versuch E6: Elektrsche esonanz. Enletung En Schwngkres st ene elektrsche Schaltung, de aus Kapaztät, Induktvtät und ohmschen Wderstand besteht. Stmmt de Frequenz der anregenden Wechselspannung

Mehr

Konkave und Konvexe Funktionen

Konkave und Konvexe Funktionen Konkave und Konvexe Funktonen Auch wenn es n der Wrtschaftstheore mest ncht möglch st, de Form enes funktonalen Zusammenhangs explzt anzugeben, so kann man doch n velen Stuatonen de Klasse der n Frage

Mehr

F A C H H O C H S C H U L E W E D E L. Seminararbeit Informatik

F A C H H O C H S C H U L E W E D E L. Seminararbeit Informatik F A C H H O C H S C H U L E W E D E L Semnararbet Informatk n der Fachrchtung Wrtschaftsnformatk Themenberech Künstlche Intellgenz Thema Nr. 3 Dskrmnanzanalyse Engerecht von: Erarbetet m: Patrck Wolf Wedeler

Mehr

Fachbereich Mathematik Prof. K. Grosse-Brauckmann D. Frisch WS 2007/08 10./ Gruppenübung

Fachbereich Mathematik Prof. K. Grosse-Brauckmann D. Frisch WS 2007/08 10./ Gruppenübung Fachberech Mathematk Prof. K. Grosse-Brauckmann D. Frsch WS 27/8./.. 6. Übungsblatt zur Lnearen Algebra für Physker Gruppenübung Aufgabe G7 (Kern, Bld, Rang und Orthogonaltät) Gegeben se ene lneare Abbldung

Mehr

Klassifikation mit dem Perceptron von Rosenblatt. Vom Perceptron zum Multilagen-Perceptron. Error-Backpropagation Lernregel

Klassifikation mit dem Perceptron von Rosenblatt. Vom Perceptron zum Multilagen-Perceptron. Error-Backpropagation Lernregel Neuronale Verfahren zur Funktonsaromaton Klassfkaton mt em Percetron von Rosenblatt Vom Percetron zum Multlagen-Percetron Error-Backroagaton ernregel Raale Bassfunktonen-Netze PD Dr Martn Stetter, Semens

Mehr

Hefte zur Logistik Prof. Dr. Siegfried Jetzke. Heft 1 Begriffsdefinitionen

Hefte zur Logistik Prof. Dr. Siegfried Jetzke. Heft 1 Begriffsdefinitionen Hefte zur Logstk Prof. Dr. Segfred Jetzke Heft 1 Begrffsdefntonen Jun 2010 Deses Heft st urheberrechtlch geschützt. Wenn Se de Quelle angeben, können Se gerne deses Heft wetergeben, Tele koperen oder aus

Mehr

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen Mathematk I für Bologen, Geowssenschaftler und Geoökologen 16. Januar 2012 Problemstellung Bespel Maß für Abwechung Trck Mnmum? Exponentalfunktonen Potenzfunktonen Bespel Problemstellung: Gegeben seen

Mehr

Kapitel 4: Lernen als Optimierung. Maschinelles Lernen und Neural Computation

Kapitel 4: Lernen als Optimierung. Maschinelles Lernen und Neural Computation Kaptel 4: Lernen als Optmerung 71 Lernen als Funktonsoptmerung Gegeben: Fehlerfunkton (.a. neg. log Lkelhood) n z.b.: 2 E E ( ) ( ( ) W = f x ; W t ) n = 1 ( ) ( ( ) ( = + ) ( ( W t log f x t f x ) n ;

Mehr

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz): LÖSUNG AUFGABE 8 ZUR INDUSTRIEÖKONOMIK SEITE 1 VON 6 Aufgabe 8 (Gewnnmaxmerung be vollständger Konkurrenz): Betrachtet wrd en Unternehmen, das ausschleßlch das Gut x produzert. De m Unternehmen verwendete

Mehr

Standardnormalverteilung / z-transformation

Standardnormalverteilung / z-transformation Standardnormalvertelung / -Transformaton Unter den unendlch velen Normalvertelungen gbt es ene Normalvertelung, de sch dadurch ausgeechnet st, dass se enen Erwartungswert von µ 0 und ene Streuung von σ

Mehr

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1. Mathematk I / Komplexe Zahlen 9 Komplexe Zahlen 9. Zele Am Ende deses Kaptels hast Du ene Grundvorstellung was komplexe Zahlen snd. Du kannst se grafsch darstellen und enfache Berechnungen durchführen.

Mehr

12 UMPU Tests ( UMP unbiased )

12 UMPU Tests ( UMP unbiased ) 89 1 UMPU Tests ( UMP unbased ) Nach Bemerkung 11.8(b) exstert m Allgemenen ken zwesetger UMP- Test zu enem Nveau α. Deshalb Enschränkung auf unverfälschte Tests: ϕ Φ α heßt unverfälscht (unbased) zum

Mehr

Seminar Analysis und Geometrie Professor Dr. Martin Schmidt - Markus Knopf - Jörg Zentgraf. - Fixpunktsatz von Schauder -

Seminar Analysis und Geometrie Professor Dr. Martin Schmidt - Markus Knopf - Jörg Zentgraf. - Fixpunktsatz von Schauder - Unverstät Mannhem Fakultät für Mathematk und Informatk Lehrstuhl für Mathematk III Semnar Analyss und Geometre Professor Dr. Martn Schmdt - Markus Knopf - Jörg Zentgraf - Fxpunktsatz von Schauder - Ncole

Mehr

6 Rechnen mit Zahlen beliebig hoher Stellenzahl 7 Intervall-Arithmetik 8 Umsetzung in aktuellen Prozessoren

6 Rechnen mit Zahlen beliebig hoher Stellenzahl 7 Intervall-Arithmetik 8 Umsetzung in aktuellen Prozessoren Inhalt 4 Realserung elementarer Funktonen Rehenentwcklung Konvergenzverfahren 5 Unkonventonelle Zahlenssteme redundante Zahlenssteme Restklassen-Zahlenssteme logarthmsche Zahlenssteme 6 Rechnen mt Zahlen

Mehr

Statistik und Wahrscheinlichkeit

Statistik und Wahrscheinlichkeit Regeln der Wahrschenlchketsrechnung tatstk und Wahrschenlchket Regeln der Wahrschenlchketsrechnung Relatve Häufgket n nt := Eregnsalgebra Eregnsraum oder scheres Eregns und n := 00 Wahrschenlchket Eregnsse

Mehr

3.3 Lineare Abbildungen und Matrizen

3.3 Lineare Abbildungen und Matrizen 33 LINEARE ABBILDUNGEN UND MATRIZEN 87 33 Lneare Abbldungen und Matrzen Wr wollen jetzt de numersche Behandlung lnearer Abbldungen zwschen Vektorräumen beschreben be der vorgegebene Basen de Hauptrolle

Mehr

Bildverarbeitung Herbstsemester 2012. Bildspeicherung

Bildverarbeitung Herbstsemester 2012. Bildspeicherung Bldverarbetung Herbstsemester 2012 Bldspecherung 1 Inhalt Bldformate n der Überscht Coderung m Überblck Huffman-Coderung Datenredukton m Überblck Unterabtastung Skalare Quantserung 2 Lernzele De wchtgsten

Mehr