Phonetische Lexika Graphem-Phonem-Konvertierung. Uwe Reichel IPS, LMU München 23. Oktober 2007

Größe: px
Ab Seite anzeigen:

Download "Phonetische Lexika Graphem-Phonem-Konvertierung. Uwe Reichel IPS, LMU München 23. Oktober 2007"

Transkript

1 Phonetische Lexika Graphem-Phonem-Konvertierung Uwe Reichel IPS, LMU München 23. Oktober 2007

2 Inhalt Abbildungsproblem Einflußfaktoren: Graphemumgebung, Silbenstruktur, Morphologie regelbasierte vs. statistische Modelle regelbasiert: P-TRA (Stock, 1992) statistische Modelle Vorarbeit: Graphem-Phonem-Alignment Statistische Klassifikatoren C4.5-Entscheidungsbäume Table Lookup with Defaults (van den Bosch et al., 1993) Evaluierungsmaße 1

3 Abbildungsproblem Ist die Abbildung g2p: Graphem /Phonem/ eine Funktion, also eindeutig? Nein. Beispiel s: 1 s /s/ (was) s /z/ (Vase) s /S/ (stehen) s / / (Wasser) Lösungsversuch: Graphemkontext s /z/ V V ; aber: losen vs. Loserwerb s /S/ t; aber: Stabilität vs. Rost... reicht nicht aus Einbezug von Silbenstruktur und Morphologie nötig (s.u.) 1 Notation: Strings in Slashes - Phoneme nach German Sampa; Kleinbuchstaben - Grapheme; Großbuchstaben - Graphemvariablen (V - Vokal) 2

4 Einflußfaktoren Graphemumgebung s / s S /: sonstige vs. schön u / u v /: Bund Qualle Silbenstruktur Auslautverhärtung, keine Beeinflussung durch Graphemumgebung über Silbengrenzen hinweg g / g k /: Wege, Weg s / z s S /: Vase, Häuschen Morphologie G2P-Konvertierung kann durch Integration morphologischer Information verbessert werden (Wothke, 1993) morphologischer Einfluß direkt und über die Silbenstruktur manifestiert 3

5 direkt: Phonem-Identität abhängig von Morphemklasse Beispiele: er in Erlöser, morph. segmentiert: er prefix + lös verb + er suffix. er wird im Präfix zu /QE6/, im Suffix dagegen zu /6/: /QE6l2:z6/. e in geben, morph. segmentiert: geb verb + en infl. /@/ ist in einsilbigem Verbstamm nicht möglich, aber obligatorisch in der Flektionsendung en: /ge:b@n/. indirekt: morphologische Struktur bestimmt Silbenstruktur und damit Phonem-Identität Beispiele: ng in Angel vs. Angelegenheit: angelnoun vs. an prefix +ge prefix +leg verb +en suffix +heit suffix. In Angel verschmilzt ng zu ambisyllabischem /N/; die Präfixsequenz verlangt hier eine trennende Silbengrenze, daher Realisierung als /ng/ (/QaN@l/ vs. /Qang@le:g@nhaIt/). losen vs. Losentscheid: los verb +en infl vs. losnoun+ent prefix +scheid verb. Präfix verlangt vorangehende Silbengrenze, was zu Auslautverhärtung und Einsetzen eines Glottal stop führt (/lo:z@n/ vs. /lo:sqentsait/). 4

6 Regelbasierte vs. statistische Modelle regelbasiert (rule based) vs. statistisch (data driven) Vorteile des regelbasierten Ansatzes gezielter Einsatz linguistischen Wissens Implementierung und Überprüfung von Theorien für viele linguistische Bereiche (z.b. morphologische Analysen) erfolgreicher als statistische Methoden Vorteile des statistischen Ansatzes Verwendung größerer Datenmengen möglich weit weniger zeitaufwendig Standardverfahren für unterschiedlichste Problemstellungen sehr viel robuster gegenüber neuen Daten adaptierbar auf andere Domänen/Sprachen automatische Aquisition von Weltwissen 5

7 Regelbasierter Ansatz: P-TRA Stock (1992), Libossek (2000) Regeln der generativen Phonologie um aussagenlogische Operatoren ( und &, oder,, nicht ) erweitert. bei Stock: insgesamt 1304 Regeln, bei Libossek: zusätzlich Einbezug morphologischer Information Regelformat: C l Graphem(e) & C r = Phonem Kontexte C l (links), C r (rechts): Grapheme, Phoneme (nur für C l ), Graphem-Klassen Regeln sortiert: je spezieller (je größer der Kontext) desto früher zu Beginn: speziellste Regeln zur Aussprache eines gesamten Worts (v.a. für Fremdwörter); am Ende: Defaultregeln (D=d, usw.) Konvertierung von links nach rechts 6

8 Beispiele: (P,p)robl em & at = /e:m/ un & #g = /n/ 2 un & g = /N/ 2 #: Morphemgrenze 7

9 Statistische Modelle Vorarbeit: Graphem-Phonem-Alignment Viterbi-Alignment (vgl. spätere Sitzung) in der Regel für one-to-one-mapping hierfür zusätzlich nötige Phonem-Kategorien: leeres Phonem, Phonem-Cluster < Schule > leeres Phonem : / S u: / Phonemcluster + : < Exen > / Q+E n / 8

10 Maschinelles Lernen Ziel: Erlernen des Zusammenhangs zwischen Zielwerten (Kategorien oder kontinuierliche Werte) für Objekte und deren Eigenschaften. Beispiel: Graphem-Phonem-Konvertierung Objekte: Grapheme Eigenschaften: Graphem-Identität, umgebende Grapheme, Position des Graphems innnerhalb der Silbe Training: Erlernen des Zusammenhangs zwischen einer oder mehreren unabhängigen Variablen und einer abhängigen Variablen abhängige Variable: Phonemklasse unabhängige Variablen: Eigenschaften (s.o.) Anwendung: Vorhersage des (unbekannten) Werts der abhängigen Variablen anhand der gegebenen unabhängigen Variablen. 9

11 Objekte als Merkmalsvektoren (Featurevektoren) repräsentiert unabhängige Variablen (Attribute) für Graphem g i : < g i 1, g i, g i+1, Morphemtyp, # σ > Attributwerte: <[a z],[a z],[a z], frei gebunden, 0 1> Merkmalsvektor für erstes e in geben: <g, e, b, frei, 1> Kategorie (abhängige Variable): Phonem /e:/ Variablenwerte: kategorial oder kontinuierlich kategorial: Graphem-Identität, Position in Silbe, Phonemklasse, Wort +/ akzentuiert kontinuierlich: relative Position des Graphems im Wort, Lautdauer, F0-Wert 10

12 Überwachtes Lernen: Werte der abhängigen Variable in Trainingsdaten bekannt; C4.5, CART, neuronale Netze (ANN) Unüberwachtes Lernen: Werte nicht bekannt; Clustering, ANN Variablentypen: C4.5: kategorial/kontinuierlich kategorial; z.b. Akzent CART: kategorial/kontinuierlich kategorial/kontinuierlich; z.b. Lautdauer ANN: kontinuierlich kategorial/kontinuierlich 11

13 C4.5-Entscheidungsbäume Quinlan (1993); quinlan Repräsentation von Objekten, Attributen (Eigenschaften), Attributwerten: Attribute: (nonterminale) Knoten Attributwerte: Kanten Objekt: Pfad durch den Baum An jedem der Blätter wird im Training gezählt, wieviele Objekt-Pfade von jeder Kategorie dort enden. Jedes Blatt bekommt dann die am häufigsten beobachtete Kategorie zugewiesen. Vorteil: Transparenz Wissensakquirierung möglich 12

14 Aufbau des Baums Rekursives Vorgehen: Gehören alle Objekte, die noch nicht durch einen vollständigen Pfad im Baum repräsentiert sind, der gleichen Klasse an, so erzeuge ein Blatt und ordne die Objekte diesem Blatt zu. Verfahre genauso, wenn die Objekte verschiedenen Klassen angehören, sich aber anhand der gegebenen Attribute nicht mehr weiter unterscheiden lassen. Gehören die Objekte verschiedenen Klassen an und unterscheiden sie sich in einer oder mehreren Eigenschaften, so wähle das zur Partitionierung der Objektmenge am besten geeignete Attribut und erzeuge einen Knoten, an dem sich der Baum in mehrere durch Werte des betrachteten Attributs vorgegebene Kanten aufspaltet (lokale Optimierung). Verteile die Trainingsdaten entsprechend ihrer Attributwerte auf die so entstandenen Unterbäume. Wiederhole dies für jeden Pfad so lange, bis eine der beiden zuvor genannten Bedingungen greift und ein Blatt erzeugt wird. 13

15 Bestimmung des besten Attributs: Das beste Attribut liefert den höchsten Informationsgewinn (bzw. das höchste Gewinnverhältnis). Entropie: durchschnittlicher Informationsgehalt einer Variablen H(C) = c C p(c)ldp(c) [Bit] wo C die Menge aller Objektklassen, p(c) gleich der Wahrscheinlichkeit der Klasse c C. (C=Variable, c=variablenbelegung) Angabe, wieviel Information im Durchschnitt benötigt wird, um die Klasse eines Objekts vorhersagen zu können 14

16 Bedingte Entropie H(C A) = a A p(a)h(c A = a) = a A p(a) [ c C p(c a)ldp(c a) ] Angabe, wieviel Information im Durchschnitt zusätzlich zu dem Wissen darüber, daß das Attribut A den Wert a hat, nötig ist, um die Klasse c C eines Objekts vorhersagen zu können Informationsgewinn (umso größer, je mehr Information über C in A steckt) Gewinnverhältnis (bei C4.5-Bäumen) G(A) = H(C) H(C A) GR(A) = G(A) SI(A) 15

17 split information: SI(A) = s i=1 T i T ld T i T, s: Anzahl der möglichen Attributwerte T : Anzahl der Objekte, die durch Attribut A aufgeteilt werden sollen T i : Anzahl der Objekte im i-ten Unterbaum, also dem Unterbaum, der durch den i-ten Attributwert aufgespannt wird hoher Wert für SI(A) bei vielen Unterbäumen mit wenig Objekten (Überadaptionsgefahr) gewählt wird also Attribut  = argmax A[GR(A)] Attributtypen: diskret: Gruppierung von Werten, falls dadurch GR erhöht; Anlegen eines Unterbaums für jeden Wert, bzw. Wert-Gruppe kontinuierlich: binäre Verzweigung des Baums bezogen auf Trennwert, der GR maximiert 16

18 Pruning Beschneidung des Baums vs. Überadaption an Trainingsdaten möglich: Evaluierung anhand eines Entwicklungskorpus bei C4.5: Ermittlung pessimistischer Fehlerraten δ (d.i. der bei gewähltem Vertrauensniveau β maximal zu erwartende Anteil falsch klassifizierter Objekte) Teilbaum t wird durch Blatt ersetzt, wenn: ( δ aller Teilbäume von t) > (δ im Falle der Ersetzung durch ein Blatt) Zusammenfassung von Teilbäumen zu Teilbaum analog 17

19 Anwendung von C4.5-Bäumen (Reichel et al., 2005) Training von C4.5-Entscheidungsbäumen Features: aus symmetrischem Fenster der Länge n über jeweiligem Graphem Graphemkontext Silben-Features: Aufbau der Silbe (nacht/bedeckt, offen/geschlossen), Position in Silbe (Onset, Nukleus, Coda, Gelenk) morphologische Features: Morphemklasse, +/- folgende Morphemgrenze Phonem-Vorgeschichte 18

20 Table Lookup with Defaults (van den Bosch et al., 1993) Im Trainingskorpus wird für jedes Graphem-Phonem-Mapping der kleinstmögliche Graphemkontext bestimmt, der dieses Mapping eindeutig macht. Die so erhaltenen Graphemstrings werden mit dem zugehörigen Phonem in einer Tabelle abgelegt; Graphemstringmuster: (Länge des linken Graphemkontexts) (Zielgraphem) (Länge des rechten Graphemkontexts); 0 1 0, 0 1 1, 1 1 1, 1 1 2, Zusätzlich werden 2 Default-Tabellen angelegt, die eine mit Mustern, die andere mit Mustern, jeweils zusammen mit dem am häufigsten kookurrierenden Phonemen. Bei der Anwendung wird für jedes zu mappende Graphem in der Tabelle in der oben dargestellten Reihenfolge nach einem passenden Graphemstringmuster gesucht. Findet sich ein passendes, so ist ein eindeutiges Mapping auf das dem Muster zugehörige Phonem möglich. Matcht kein Muster, so wird auf die Default-Tabellen zurückgegriffen. rein datenbasierter Ansatz sprachunabhängig 19

21 Evaluierung anhand eines Testcorpus Word error rate: Anteil der Wörter, in denen (mindestens) ein Tranksriptionsfehler auftritt Phone error rate: ermittelt über die Levenshtein-Distanz zwischen gewünschter und tatsächlicher Transkription 20

22 Levenshtein-Distanz minimale Anzahl der Editieroperationen (Einfügung, Löschung, Substitution), um einen String in einen anderen zu transformieren Berechnung nach Wagner und Fischer (1974): 3 Berechnung der Levenshtein-Distanz für Strings V und W (V hat die Länge m, W die Länge n). V wird hierzu nach W umeditiert. c( ) ist eine Kostenfunktion: Einfügung von W j : c(ɛ, W j ) := 1 Löschung von V i : c(v i, ɛ) := 1 Substitution von V i durch W j : c(v i, W j ) := 0, wenn V i gleich W j, sonst 1 In der Tabelle C mit den Dimensionen mxn wird die Distanz zwischen den Strings mittels dynamischer Programmierung berechnet. 3 Weitestgehend von Schulz (2001) übernommen. 21

23 Initialisierung der Tabelle: C[0,0] := 0 for i:=1 to m: C[i,0] := C[i-1,0]+c(V i, ɛ) for j:=1 to n: C[0,j] := C[0,j-1]+c(ɛ, W j ) Induktive Berechnung der restlichen Tabellenwerte for i:=1 to m for j:=1 to n C[i,j]=min {C[i-1,j-1]+c(V i, W j ), C[i,j-1]+c(ɛ, W j ), C[i-1,j]+c(V i, ɛ)} 3 Möglichkeiten, wie W 1,j aus V 1,i hervorgeht: 4 1. editiere V 1,i 1 nach W 1,j 1 um und substituiere V i durch W j : C[i-1,j-1]+c(V i, W j ) 2. editiere V 1,i nach W 1,j 1 um und füge W j ein: C[i,j-1]+c(ɛ, W j ) 3. editiere V 1,i 1 nach W 1,j um und lösche V i : C[i-1,j]+c(V i, ɛ) Beispiel s. Tafel 4 S1,j bedeutet String-Präfix von S bis zur Stelle j. 22

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Proseminar Kodierverfahren bei Dr. Ulrich Tamm Sommersemester 2003 Thema: Codierung von Bäumen (Prüfer Codes...)

Proseminar Kodierverfahren bei Dr. Ulrich Tamm Sommersemester 2003 Thema: Codierung von Bäumen (Prüfer Codes...) Proseminar Kodierverfahren bei Dr. Ulrich Tamm Sommersemester 2003 Thema: Codierung von Bäumen (Prüfer Codes...) Inhalt: Einleitung, Begriffe Baumtypen und deren Kodierung Binäre Bäume Mehrwegbäume Prüfer

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Klausurnummer Name: Vorname: Matr.Nummer: Bachelor: Master: Aufgabe 1 2 3 4 5 6 7 8 max. Punkte 10 5 6 7 5 10 9 8 tats. Punkte

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Kapitel : Andere dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Kapitel : Andere dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete Kapitel 4.8-4.11: Andere dynamische Datenstrukturen Algorithmen und Datenstrukturen WS 2012/13 Prof. Dr. Sándor Fekete 4.6 AVL-Bäume 4.8 Rot-Schwarz-Bäume Idee: Verwende Farben, um den Baum vertikal zu

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Maschinelles Lernen. Kapitel 5

Maschinelles Lernen. Kapitel 5 Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache

Mehr

SQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT

SQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT SQL SQL SELECT Anweisung Mit der SQL SELECT-Anweisung werden Datenwerte aus einer oder mehreren Tabellen einer Datenbank ausgewählt. Das Ergebnis der Auswahl ist erneut eine Tabelle, die sich dynamisch

Mehr

4. Kreis- und Wegeprobleme Abstände in Graphen

4. Kreis- und Wegeprobleme Abstände in Graphen 4. Kreis- und Wegeprobleme Abstände in Graphen Abstände in Graphen Definition 4.4. Es sei G = (V,E) ein Graph. Der Abstand d(v,w) zweier Knoten v,w V ist die minimale Länge eines Weges von v nach w. Falls

Mehr

Klausur Informatik-Propädeutikum (Niedermeier/Hartung/Nichterlein, Wintersemester 2012/13)

Klausur Informatik-Propädeutikum (Niedermeier/Hartung/Nichterlein, Wintersemester 2012/13) Berlin, 21. Februar 2013 Name:... Matr.-Nr.:... Klausur Informatik-Propädeutikum (Niedermeier/Hartung/Nichterlein, Wintersemester 2012/13) 1 2 3 4 5 6 7 8 9 Σ Bearbeitungszeit: 90 min. max. Punktezahl:

Mehr

Übrigens: um den Algorithmus im Unterricht einzuführen, sind keine Formeln notwendig! Warum reicht die normale ASCII-Codierung nicht aus?

Übrigens: um den Algorithmus im Unterricht einzuführen, sind keine Formeln notwendig! Warum reicht die normale ASCII-Codierung nicht aus? Huffman-Code Dieser Text ist als Hintergrundinformation ausschliesslich für die Lehrperson gedacht. Der Text ist deshalb eher technisch gehalten. Er lehnt sich an das entsprechende Kapitel in "Turing Omnibus"

Mehr

Aufgabe 4.2 Sei G = (V, E, l) ein ungerichteter, gewichteter und zusammenhängender Graph.

Aufgabe 4.2 Sei G = (V, E, l) ein ungerichteter, gewichteter und zusammenhängender Graph. Aufgabe 4.2 Sei G = (V, E, l) ein ungerichteter, gewichteter und zusammenhängender Graph. a) Es seien W 1 = (V, E 1 ), W 2 = (V, E 2 ) Untergraphen von G, die beide Wälder sind. Weiter gelte E 1 > E 2.

Mehr

Studientag zur Algorithmischen Mathematik

Studientag zur Algorithmischen Mathematik Studientag zur Algorithmischen Mathematik Eulertouren, 2-Zusammenhang, Bäume und Baumisomorphismen Winfried Hochstättler Diskrete Mathematik und Optimierung FernUniversität in Hagen 22. Mai 2011 Outline

Mehr

Text Mining 4. Seminar Klassifikation

Text Mining 4. Seminar Klassifikation Text Mining 4. Seminar Klassifikation Stefan Bordag 1. Klassifikation Stringklassifikation (männliche-weibliche Vornamen) Dokument klassifikation Bayesian Neuronal network (Decision tree) (Rule learner)

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse:

Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse: Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse: Segmentieren in Morphe (gegebenenfalls) Zusammenfassen von Morphen als Realisierungen eines Morphems Erfassen von Allomorphie-Beziehungen (Art

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie Gliederung 1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie 4/2, Folie 1 2014 Prof. Steffen Lange - HDa/FbI

Mehr

Kapitel : Andere dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2013/14. Prof. Dr. Sándor Fekete

Kapitel : Andere dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2013/14. Prof. Dr. Sándor Fekete Kapitel 4.8-4.11: Andere dynamische Datenstrukturen Algorithmen und Datenstrukturen WS 2013/14 Prof. Dr. Sándor Fekete 1 4.6 AVL-Bäume 2 4.8 Rot-Schwarz-Bäume Rudolf Bayer Idee: Verwende Farben, um den

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Binäre Bäume Darstellung und Traversierung

Binäre Bäume Darstellung und Traversierung Binäre Bäume Darstellung und Traversierung Name Frank Bollwig Matrikel-Nr. 2770085 E-Mail fb641378@inf.tu-dresden.de Datum 15. November 2001 0. Vorbemerkungen... 3 1. Terminologie binärer Bäume... 4 2.

Mehr

MafI I: Logik & Diskrete Mathematik (F. Hoffmann)

MafI I: Logik & Diskrete Mathematik (F. Hoffmann) Lösungen zum 14. und letzten Aufgabenblatt zur Vorlesung MafI I: Logik & Diskrete Mathematik (F. Hoffmann) 1. Ungerichtete Graphen (a) Beschreiben Sie einen Algorithmus, der algorithmisch feststellt, ob

Mehr

Datenstrukturen & Algorithmen Lösungen zu Blatt 6 FS 14

Datenstrukturen & Algorithmen Lösungen zu Blatt 6 FS 14 Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Federal Institute of Technology at Zurich Institut für Theoretische Informatik 2. April

Mehr

Antwort: h = 5.70 bit Erklärung: Wahrscheinlichkeit p = 1/52, Informationsgehalt h = ld(1/p) => h = ld(52) = 5.70 bit

Antwort: h = 5.70 bit Erklärung: Wahrscheinlichkeit p = 1/52, Informationsgehalt h = ld(1/p) => h = ld(52) = 5.70 bit Übung 1 Achtung: ld(x) = Logarithmus dualis: ld(x) = log(x)/log(2) = ln(x)/ln(2)! Aufgabe 1 Frage: Wie gross ist der Informationsgehalt einer zufällig aus einem Stapel von 52 Bridgekarten gezogenen Spielkarte?

Mehr

Auf der Festplatte des Rechners sind Informationen als Dateien (Bilddateien, Textdateien, Videodateien usw.) abgespeichert.

Auf der Festplatte des Rechners sind Informationen als Dateien (Bilddateien, Textdateien, Videodateien usw.) abgespeichert. Auf der Festplatte des Rechners sind Informationen als Dateien (Bilddateien, Textdateien, Videodateien usw.) abgespeichert. Dateimanager Das Werkzeug, mit dem man Dateien am besten anschauen und verwalten

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum)

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum) Allgemeine diskrete Wahrscheinlichkeitsräume I Allgemeine diskrete Wahrscheinlichkeitsräume II Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete Wahrscheinlichkeitsräume Ω endlich

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN Kapitel LF: I I. Einführung in das Maschinelle Lernen Bemerkungen: Dieses Kapitel orientiert sich an dem Buch Machine Learning von Tom Mitchell. http://www.cs.cmu.edu/ tom/mlbook.html 1 Autoeinkaufsberater?

Mehr

B-Bäume, Hashtabellen, Cloning/Shadowing, Copy-on-Write

B-Bäume, Hashtabellen, Cloning/Shadowing, Copy-on-Write B-Bäume, Hashtabellen, Cloning/Shadowing, Copy-on-Write Thomas Maier Proseminar: Ein- / Ausgabe Stand der Wissenschaft Seite 1 von 13 Gliederung 1. Hashtabelle 3 2.B-Baum 3 2.1 Begriffserklärung 3 2.2

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Informatik II Bäume. Beispiele. G. Zachmann Clausthal University, Germany zach@in.tu-clausthal.de. Stammbaum. Stammbaum. Stammbaum

Informatik II Bäume. Beispiele. G. Zachmann Clausthal University, Germany zach@in.tu-clausthal.de. Stammbaum. Stammbaum. Stammbaum lausthal Beispiele Stammbaum Informatik II. Zachmann lausthal University, ermany zach@in.tu-clausthal.de. Zachmann Informatik - SS 06 Stammbaum Stammbaum / Parse tree, Rekursionsbaum Parse tree, Rekursionsbaum

Mehr

Algorithmen & Datenstrukturen 1. Klausur

Algorithmen & Datenstrukturen 1. Klausur Algorithmen & Datenstrukturen 1. Klausur 7. Juli 2010 Name Matrikelnummer Aufgabe mögliche Punkte erreichte Punkte 1 35 2 30 3 30 4 15 5 40 6 30 Gesamt 180 1 Seite 2 von 14 Aufgabe 1) Programm Analyse

Mehr

Morphologie. Ending Khoerudin Deutschabteilung FPBS UPI

Morphologie. Ending Khoerudin Deutschabteilung FPBS UPI Morphologie Ending Khoerudin Deutschabteilung FPBS UPI Morphologie Was ist ein Wort? Morphologie ist linguistische Teildisziplin, die sich mit dem Gestalt, Flexion (Beugung) und Bildung von Wörtern beschäftigt.

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Kapitel 3: Variablen

Kapitel 3: Variablen Kapitel 3: Variablen Thema: Programmieren Seite: 1 Kapitel 3: Variablen Im letzten Kapitel haben wir gelernt, bestimmte Ereignisse zu wiederholen solange eine Bedingung erfüllt ist. Nun möchten wir aber

Mehr

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten

Mehr

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Stand der Folien: 14. Februar 2013 Einführung Direkte Programmierung eines intelligenten Agenten nicht

Mehr

entspricht der Länge des Vektorpfeils. Im R 2 : x =

entspricht der Länge des Vektorpfeils. Im R 2 : x = Norm (oder Betrag) eines Vektors im R n entspricht der Länge des Vektorpfeils. ( ) Im R : x = x = x + x nach Pythagoras. Allgemein im R n : x x = x + x +... + x n. Beispiele ( ) =, ( 4 ) = 5, =, 4 = 0.

Mehr

Einführung in die Linguistik

Einführung in die Linguistik Lösung 4 Einführung in die Linguistik Phonologie Aufgabe 1, Latein Letzte Silbe etrametrikalisch. Parsing: Rechts nach Links Fuß: moraischer Trochäus End-Regel: rechter Fuß wird betont a) lau-'da:-tus

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Dominik Lahmann Tobias Scheffer Entscheidungsbäume

Mehr

368 4 Algorithmen und Datenstrukturen

368 4 Algorithmen und Datenstrukturen Kap04.fm Seite 368 Dienstag, 7. September 2010 1:51 13 368 4 Algorithmen und Datenstrukturen Java-Klassen Die ist die Klasse Object, ein Pfeil von Klasse A nach Klasse B bedeutet Bextends A, d.h. B ist

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester

Mehr

Flächenbildung durch Interpolation von diskreten Punktdaten

Flächenbildung durch Interpolation von diskreten Punktdaten Flächenbildung durch Interpolation von diskreten Punktdaten Praktische Anwendung von Thiessen-Polygonen als Methode der Regionalisierung im GIS Koris Forum 14.Okt.2010 Corinna Mundzeck Vortragsübersicht

Mehr

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen aussagenlogischer Regeln: Wissensbasis (Kontextwissen): Formelmenge,

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

Übung zur Vorlesung Algorithmische Geometrie

Übung zur Vorlesung Algorithmische Geometrie Übung zur Vorlesung Algorithmische Geometrie Dipl.-Math. Bastian Rieck Arbeitsgruppe Computergraphik und Visualisierung Interdisziplinäres Zentrum für Wissenschaftliches Rechnen 8. Mai 2012 B. Rieck (CoVis)

Mehr

MB2-ALG, SS15 Seite 1 Hauptklausur, geschrieben am

MB2-ALG, SS15 Seite 1 Hauptklausur, geschrieben am MB-ALG, SS1 Seite 1 Hauptklausur, geschrieben am.07.01 Vorname Nachname Matrikel-Nr Diese Klausur ist mein letzter Prüfungsversuch (bitte ankreuzen): Ja Nein Ihre Lösung für Aufgabe 1 können Sie direkt

Mehr

Randomisierte Algorithmen 2. Erste Beispiele

Randomisierte Algorithmen 2. Erste Beispiele Randomisierte Algorithmen Randomisierte Algorithmen 2. Erste Beispiele Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2016/2017 1 / 35 Randomisierter Identitätstest

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können. 6. Bäume Lernziele 6. Bäume Lernziele: Definition und Eigenschaften binärer Bäume kennen, Traversierungsalgorithmen für binäre Bäume implementieren können, die Bedeutung von Suchbäumen für die effiziente

Mehr

Einführung in die Theoretische Informatik

Einführung in die Theoretische Informatik Technische Universität München Fakultät für Informatik Prof. Tobias Nipkow, Ph.D. Dr. Werner Meixner, Dr. Alexander Krauss Sommersemester 2010 Lösungsblatt 7 15. Juni 2010 Einführung in die Theoretische

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 5 Prof. Peter F. Stadler & Dr. Christian Höner zu Siederdissen Bioinformatik/IZBI Institut für Informatik & Interdisziplinäres Zentrum für Bioinformatik Universität

Mehr

Informationstheorie als quantitative Methode in der Dialektometrie

Informationstheorie als quantitative Methode in der Dialektometrie Informationstheorie als quantitative Methode in der Dialektometrie 1 Informationstheorie als quantitative Methode in der Dialektometrie Informationstheorie als quantitative Methode in der Dialektometrie

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

kontextfreie Grammatiken Theoretische Informatik kontextfreie Grammatiken kontextfreie Grammatiken Rainer Schrader 14. Juli 2009 Gliederung

kontextfreie Grammatiken Theoretische Informatik kontextfreie Grammatiken kontextfreie Grammatiken Rainer Schrader 14. Juli 2009 Gliederung Theoretische Informatik Rainer Schrader Zentrum für Angewandte Informatik Köln 14. Juli 2009 1 / 40 2 / 40 Beispiele: Aus den bisher gemachten Überlegungen ergibt sich: aus der Chomsky-Hierarchie bleiben

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 12.01.2012 INSTITUT FÜR THEORETISCHE 0 KIT 12.01.2012 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der Informatik

Mehr

Binäre Suchbäume. Mengen, Funktionalität, Binäre Suchbäume, Heaps, Treaps

Binäre Suchbäume. Mengen, Funktionalität, Binäre Suchbäume, Heaps, Treaps Binäre Suchbäume Mengen, Funktionalität, Binäre Suchbäume, Heaps, Treaps Mengen n Ziel: Aufrechterhalten einer Menge (hier: ganzer Zahlen) unter folgenden Operationen: Mengen n Ziel: Aufrechterhalten einer

Mehr

Vorlesung 4 BETWEENNESS CENTRALITY

Vorlesung 4 BETWEENNESS CENTRALITY Vorlesung 4 BETWEENNESS CENTRALITY 101 Aufgabe! Szenario: Sie arbeiten bei einem sozialen Online-Netzwerk. Aus der Netzwerk-Struktur Ihrer Benutzer sollen Sie wichtige Eigenschaften extrahieren. [http://www.fahrschule-vatterodt.de/

Mehr

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Datenstruktur BDD 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer: Booleschen Funktionen)

Mehr

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Übungen mit dem Applet Vergleich von zwei Mittelwerten Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

14. Rot-Schwarz-Bäume

14. Rot-Schwarz-Bäume Bislang: Wörterbuchoperationen bei binären Suchbäume effizient durchführbar, falls Höhe des Baums klein. Rot-Schwarz-Bäume spezielle Suchbäume. Rot-Schwarz-Baum mit n Knoten hat Höhe höchstens 2 log(n+1).

Mehr

System der deutschen Sprache Phonologie und Graphematik

System der deutschen Sprache Phonologie und Graphematik System der deutschen Sprache Phonologie und Graphematik Beat Siebenhaar Frank Liedtke PHONOLOGIE Phonologische Regel: Auslautverhärtung! /bdgvzʒ/ -> [ptkfsʃ]/_#! /bdgvzʒ/ -> [ptkfsʃ]/_$! [-son, +sth] ->

Mehr

Funktionale Programmiersprachen

Funktionale Programmiersprachen Funktionale Programmiersprachen An den Beispielen Haskell und Erlang Übersicht Programmiersprachen λ-kalkül Syntax, Definitionen Besonderheiten von funktionalen Programmiersprache, bzw. Haskell Objektorientierte

Mehr

Konzepte der AI: Maschinelles Lernen

Konzepte der AI: Maschinelles Lernen Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann Blatt Nr. 8 Übung zur Vorlesung Grundlagen: Datenbanken im WS14/15 Harald Lang (harald.lang@in.tum.de) http://www-db.in.tum.de/teaching/ws1415/grundlagen/

Mehr

2. Repräsentationen von Graphen in Computern

2. Repräsentationen von Graphen in Computern 2. Repräsentationen von Graphen in Computern Kapitelinhalt 2. Repräsentationen von Graphen in Computern Matrizen- und Listendarstellung von Graphen Berechnung der Anzahl der verschiedenen Kantenzüge zwischen

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

8. Konfidenzintervalle und Hypothesentests

8. Konfidenzintervalle und Hypothesentests 8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars

Mehr

Vorlesung Datenstrukturen

Vorlesung Datenstrukturen Vorlesung Datenstrukturen Binärbaum Suchbaum Dr. Frank Seifert Vorlesung Datenstrukturen - Sommersemester 2016 Folie 356 Datenstruktur Binärbaum Strukturrepräsentation des mathematischen Konzepts Binärbaum

Mehr