Tree-Mining. Warum Tree-Mining? Baumtypen. Anwendungsgebiete. Philipp Große



Ähnliche Dokumente
Lichtbrechung an Linsen

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

1 topologisches Sortieren

Discovering Frequent Substructures in Large Unordered Trees Unot

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Informationsblatt Induktionsbeweis

Information Systems Engineering Seminar

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Anleitung über den Umgang mit Schildern

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Theoretische Grundlagen der Informatik

Informatik I WS 07/08 Tutorium 24

Erfahrungen mit Hartz IV- Empfängern

Erstellen der Barcode-Etiketten:

1 Mathematische Grundlagen

Wasserfall-Ansätze zur Bildsegmentierung

Kapitel 6: Graphalgorithmen Gliederung

Grundlagen der Theoretischen Informatik, SoSe 2008

Angaben zu einem Kontakt...1 So können Sie einen Kontakt erfassen...4 Was Sie mit einem Kontakt tun können...7

Fragebogen: Rätoromanisch

Wärmebildkamera. Arbeitszeit: 15 Minuten

Alles zu seiner Zeit Projektplanung heute

Konzentration auf das. Wesentliche.

AW: AW: AW: AW: Kooperationsanfrage anwalt.de

Mining High-Speed Data Streams

Das neue Tech Data Software Download Portal

Einführung in. Logische Schaltungen

Zusammenführen mehrerer Dokumente zu einem PDF In drei Abschnitten erstellen Sie ein Dokument aus mehreren Einzeldokumenten:

Die Komplexitätsklassen P und NP

Festigkeit von FDM-3D-Druckteilen

1.5 Umsatzsteuervoranmeldung

FAQ Verwendung. 1. Wie kann ich eine Verbindung zu meinem virtuellen SeeZam-Tresor herstellen?

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

Primzahlen und RSA-Verschlüsselung

User Manual Data 24. Login und Layout

Einführung in die Algebra

Meinungen zur Altersvorsorge

Algorithmik II. a) Fügen Sie in einen anfangs leeren binären Baum die Schlüsselfolge 20, 28, 35, 31, 9, 4, 13, 17, 37, 25 ein.

Erweiterungen Webportal

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

Beschreibung der Umstellungsschritte für moneyplex (neue Benutzerkennung und Kommunikationsadresse)

4 Aufzählungen und Listen erstellen

Spezielle Lebenslösung für die Grafts zum Aufbewahren - Songul Alci

5 DATEN Variablen. Variablen können beliebige Werte zugewiesen und im Gegensatz zu

AutoSPARQL. Let Users Query Your Knowledge Base

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Wie man Registrationen und Styles von Style/Registration Floppy Disketten auf die TYROS-Festplatte kopieren kann.

WS 2009/10. Diskrete Strukturen

Dazu stellen Sie den Cursor in die Zeile, aus der eine Überschrift werden soll, und klicken auf die gewünschte Überschrift.

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Schrittweise Anleitung zur Erstellung einer Angebotseite 1. In Ihrem Dashboard klicken Sie auf Neu anlegen, um eine neue Seite zu erstellen.

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense

Im Folgenden werden die jeweiligen Elemente erklärt. Im Anschluss folgt ein Beispieldatensatz in xml.

Der Wert von Lebensmitteln Umfragen im Auftrag des BMELV

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Das Werk einschließlich aller seiner Texte ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechts

Ihr Ideen- & Projektmanagement-Tool

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Unterscheidung: Workflowsystem vs. Informationssystem

telemed ISDN Update der ISDN-Einwahlnummer

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Musterlösungen zur Linearen Algebra II Blatt 5

Toolbeschreibung: EVERNOTE

Ablauf bei der Synchronisation und Sortierung von Dateien aus mehreren Kameras

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Wie Google Webseiten bewertet. François Bry

Leere Zeilen aus Excel-Dateien entfernen

Simulation LIF5000. Abbildung 1

Drahtlosnetzwerke automatisch konfigurieren mit WCN (Windows Connect Now) unter Windows Vista

Animationen erstellen

Bei der Anlage von Pauschalen ist folgendes zu beachten!!!!!!!!

So gehts Schritt-für-Schritt-Anleitung

Anleitung zur Erstellung von Serienbriefen (Word 2003) unter Berücksichtigung von Titeln (wie Dr., Dr. med. usw.)

13 Öffentliche Güter

Navigation. Drucken Klicken Sie auf ein Symbol, um nähere Informationen zu erhalten. Papierhandhabung Anzeigen der Online-Informationen

Microsoft Access 2010 Navigationsformular (Musterlösung)

Vermessung und Verständnis von FFT Bildern

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Die aktuelle Entwicklung des GeoService-Portals. Analyse- und Auswertefunktionen

Arbeiten mit UMLed und Delphi

WinVetpro im Betriebsmodus Laptop

Repetitionsaufgaben Wurzelgleichungen

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Erstellen von x-y-diagrammen in OpenOffice.calc

1. Wie viel Zinsen bekommt man, wenn man 7000,00 1 Jahr lang mit 6 % anlegt?

Geld Verdienen im Internet leicht gemacht

Import und Export von Übergängern

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Jeder ist ein Teil vom Ganzen Inklusion ändert den Blick

Themenblock 2: Datenmodellierung mit ERM

Workshop. Zeitmanagement Hamburg, 24. November 2004

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Teaser-Bilder erstellen mit GIMP. Bildbearbeitung mit GIMP 1

Transkript:

Tree Mining 2 Warum Tree-Mining? Tree-Mining Philipp Große Theoretische Probleme des Graphminings: Kein effektiver Algorithmus zur systematischen Nummerierung von Subgraphen bekannt Kein effizienter Algorithmus zu Ermittlung isomorphen Subgraphen bekannt Jedoch in der Praxis: Häufig wenige Zyklen, oder gar Azyklisch Tree Mining 3 Tree Mining 4 Anwendungsgebiete Programmablauf Optimierung Web Mining ioinformatik Data Mining XML Dokument Mining aumtypen Free tree Rooted unordered tree Rooted ordered tree 0 1 2 3

Tree Mining 5 Kanonische Repräsentation für beschriftete äume Rooted ordered trees Pre-order String: AD0E0F00CG000 Depth sequences: D E F C G ((0,A),(1,),(2,D),(2,E),(2,F),(1,C),(2,G)) Rooted unordered trees Sorted pre-order string Free trees A ottom-up ST D E F Induced ST D F Embedded ST Tree Mining 6 Subtreetypen A C D E F G A D F C ottom-up ST Induced ST Embedded ST Tree Mining 7 Mining Frequent Subtree Gegeben: Grenzwert minfreq Klasse von äumen C transitive subtree Relation P T zwischen P,T C Endlichen Datensatz D C Problem: Finde alle P C so dass Keine 2 P isomorph zueinander P P : sup(p,d) = Σ T D d(p,t) minfreq T C : d(p,t) d(p,t) wenn P P Einfachster Fall: Tree Mining 8 naive Lösung für ottom-up subtree Mining 1. ringe D in pre-ordered string Format O( V D ) 2. Inizalisiere Array von Pointern O( V D ) auf alle Knoten der D 3. Sortiere Pointer durch O(m V D log V D ) vergleich der Strings der Subtrees 4. Zähle die Häufigkeit O( V D ) V D = Anzahl der Knoten in der D D m = Anzahl der Knoten im größen aum der D D sup(p,d) oder sup(p,d)/ D

Tree Mining 9 Tree Mining 10 Generelles Vorgehen Naive Lösung nicht für Induced und Embedded ST möglich Generat-and-test Methode: (1) erechne sup(p) für alle T D, P T (2) P = succ(p), goto (1) Kein effizienter Algorithmus sollte höhere Komplexität haben Rooted Ordered Embedded Subtrees Nützt Eigenschaft der Stringdarstellung von rooted ordered trees: Löschen einer der 2 letzen Knoten im String erzeugt einen Embedded Subtree t3,t4,t5,t6 durch-löschen t1 oder t2 t1 und t2 teilen gleiches (k-1)-präfix Tree Mining 11 Tree Mining 12 Diese Eigenschaft nutzt man nun Umgekehrt Indem man Schrittweise Pattern Trees mit gleichen (k-1)-prefix joint Aufzählung Datenbasis der Pattern Trees Zur Ermittlung des Supports verwendet TreeMinder Scopelisten (t, M, S) t = TransaktionsId M = Liste von Knoten auf die (k-1) von P gemapped wird S = Scope des rightmost Vertex von P Scopes der Knoten Scope-List Join

Tree Mining 13 Tree Mining 14 FreqT Problem: Scopelist kann größer als Texttree werden eispiel: Rooted Ordered Induced Subtrees Nutzt einen extension-only Ansatz zur Erzeugung der Pattern Trees Vorverarbeitungsschritt: Ermittlung aller frequent Labels Schrittweise anhängen eines neuen Knotens an den rightmost path Obwohl T nur m Subtrees hat Gibt es Untermengen von T auf die P abgebildet werden kann. Daher ist es möglich das schlechtere Komplexität als der Naive Algorithmus Tree Mining 15 FreqT Zur Ermittlung des Supports verwendet FreqT occurrence lists Datenbasis Occurence List Tree Mining 16 Der Datensatz: Web Access Trees einer Homepage Anzahl der Labels: L=100 Anzahl der Knoten des Mastertrees : M=10.000 Anzahl der Knoten in der D: N=2.563.796 Maximale Tiefe: D=10 Maximale Verzeigungen: F=10 Anzahl der Subtrees: T=1.000.000 Occurence List ist sehr gut skalierbar da unabhängig von Größe der frequent ST und durch V D beschränkt

Tree Mining 17 Tree Mining 18 Tree Mining 19 Tree Mining 20 Vielen Dank für eure Aufmerksamkeit

Tree Mining 21 Quellen Yun Chi, Richard R. Muntz, Siegfried Nijssen, Joost N. Kok: Frequent Subtree Mining An Overview; 2005 T. Asai, K. Abe, S. Kawasoe, H. Arimura, H. Sakamoto, S. Arikawa: Efficient Substructure Discovery from Large Semistructured Data; April 2002 Mohammed J. Zaki: Efficiently Mining Frequent Trees in a Forest; July 2002