Ludwg Maxmlans Unerstät München Insttut für Informatk Lehr- und Forschungsenhet für Datenbanksysteme Skrpt zur Vorlesung Knowledge Dscoery n Dtb Databases II m Wntersemester 2011/2012 Kaptel 8: Graph-Strukturerte Daten Skrpt 2007 Matthas Schubert und Karsten Borgwardt http://www.dbs.f.lmu.de/lehre/kdd de/lehre/kdd 418
Kaptelüberscht 7.1 Graphrepräsentatonen Arten on Graphen, Grundlegende Defntonen, Anwendungsbespele 7.2 Isomorphebaserter Grapherglech und Edt-Dstanz Max. Common Subgraph, Mn. Common Supergraph, Edt Operatonen auf Graphen 7.3 Topologsche Deskrptoren und Graph-Kernel R-Conoluton Kernel, All-Subgraphs Kernel, Random Walks Kernel, Shortest Path-Kernel 419
Graphrepräsentaton Graphen snd de allgemenste Datenstruktur n der Vorlesung Defnton: En Graph st en Tupel G=(V,E), wobe V ene Menge on Knoten st und E V V ene Menge on Kanten. Darstellung on Bezehungen zwschen Obekten durch Kanten Darstellung anderer Datenstrukturen durch Graphen mest möglch Bespel: MI-Obekte snd Menge aus Knoten ohne Kanten. Problem mt Graphrepräsentatonen: Verglech 2er Graphen st sehr teuer! Verwende enfachere Datenstrukturen wenn möglch! 420
Anwendungen Bespele: Molekulare Strukturen, RNA-Transkrpton Bo-Informatk: Proten-Interaktonsnetzwerke, Phlogenetsche Netzwerke, Metabolom-Netzwerke.. Sozale Netzwerke: Verglech ähnlcher sozaler Gruppen (Zusammenarbet n Arbetsgruppe, Zuspel Fußballmannschaft..) WWW, Internet, Computernetzwerke: Web-Rnge, Netzwerk- Topologen.. XML-Dokumente snd ebenfalls Graphen m allgemensten Fall. (Vorscht ele XML-Datenquellen lassen sch ohne Informatonserlust durch Feature-Vektoren modelleren.) 421
Arten on Graphen Erweterungen der Defnton: GRAPH: En Graph st en Tupel G=(V,E), wobe V ene Menge on Knoten st und E V V V ene Menge on Kanten. GERICHTETER GRAPH: Glt ( k, l ) ( l, k ) st der Graph gerchtet. GELABELTE oder ATTRIBUTIERTE GRAPHEN: Seen F V und F E Feature-Räume. En Graph G heßt gelabelt oder attrbutert bzgl. der Knoten V, wenn es zu edem Knoten V genau ene Feature-Beschrebung l F E gbt. En Graph G heßt gelabelt oder attrbutert bzgl. der Kanten E, wenn es zu eder Kante e E genau ene Feature-Beschrebung l e F E gbt. Bemerkung: In der Regel snd Knoten und Kanten nur mt enzelnen dskreten Attrbuten gelabelt. 422
Darstellung on Graphen Knotengrad: Der Grad d G ( ) enes Knotens n G=(V,E) st de Anzahl der anlegenden Kanten: d = (, ) E G ( ) { } Adanzenz-Matrx: Mt De Adazenz-Matrx enes Graphen G=(V,E) st gegeben durch: 1 falls, [ A], = 0 sonst ( ) Weg (Walk): En Weg n G=(V,E) der Länge k-1 st ene Sequenz on Knoten w=( 1, 2,.., k ) und ( -1, ) E für alle 1 k. Pfad (Path): w st en Pfad falls für alle. (=> Ken Knoten darf n w zwemal auftauchen.) Zyklus (Cycle): Se w=( 1,..,,, k ) und 1= k und für alle 1 <, < k glt dann st w en Zyklus. E Walk Path Cycle 423
Das Graph-Verglechsproblem Gegeben: 2 Graphen G und G. Gesucht: Abbldung s:(v E) (V E) IR, de de Ähnlchket on G und G quantfzert. Ansätze: Isomorphe: 2 Graphen snd glech, wenn es ene enendeutge Abbldung on Knoten und Kanten gbt. => Ähnlchket über de Größe der somorphen Telgraphen. Edt-Dstanz: Unähnlchket der Graphen wrd durch Aufwand berechnet den enen Graphen n enen anderen zu erwandeln. Topologsche Deskrptoren: Zwe Graphen snd ähnlch, wenn hre Topologe ähnlche Egenschaften aufwest. (z.b. ähnlche Anzahl on Knoten mt Grad n) 424
7.2 Isomorphebaserte Graphergleche Wann snd zwe Graphen glech? Graph-Isomorphe: Seen G=(V (V,E) und G =(V,E E ) )22 Graphen. G und G snd genau dann somorph ( G G ), wenn es ene Becton f: V V mt (, ) E (f(),f( )) E für alle, V. f heßt dann Isomorphsmus. Subgraph: Se G =(V,E) en Graph, dann st G =(V,E ) en Subgraph on G, wenn V V und E (V V E). Subgraph-Isomorphe: Seen G=(V,E) und G =(V,E ) 2 Graphen. G st subgraphsomorph zu G falls es enen Subgraph G on G gbt mt G " G. Maxmaler Gemensamer Subgraph : Seen G=(V,E) und G =(V,E ) 2 Graphen. En Graph S st en maxmaler gemensamer Subgraph mcs(g,g ), wenn S sowohl Subgraph on G als auch on G st und es kenen anderen gemensame Subgraphen S mt mehr Knoten gbt. Mnmaler Gemensamer Supergraph: p Seen G=(V,E) und G =(V,E ) 2 Graphen. En Graph S st en mnmaler gemensamer Supergraph MCS(G,G ), wenn sowohl G als auch on G en Subgraph on S st und es kenen anderen gemensamen Supergraphen gbt der wenger Knoten hat. 425
Isomorphebaserte Dstanzen Sowohl de Größe des max. gemensamen Subgraphen als auch de Größe des mnmalen gemensamen Supergraphen beschreben Ähnlchket der Graphen. Dstanzmaß 1: Relate Größe des maxmalen gemensamen Subgraphen d 1 ( G, G ) = 1 mcs( G, G ) max ( G, G ) Dstanzmaß 2: Dfferenz der Größe zwschen MCS(G,G ) und mcs(g,g ) d ( G, G ) = MCS( G, G ) mcs( G, ) 2 G Abhängg on Bestmmung der Größe enes Graphen: z.b. Anzahl der Knoten => auch unterschedlche Graphen haben Abstand 0 Dstanzen sehr teuer n Berechnung, da Bestmmung on MCS und mcs das Subgraph-Isomorphe p Problem enthält (NP-hart). 426
Edt Dstanzen auf Graphen Idee: Abstand zweer Graphen entsprcht den mnmalen Kosten um G so abzuändern, dass G zu G somorph st. ntegrert Fehlertoleranz, ndem Unterschede bewertet werden Operatonen: Löschen, Enfügen, Umlabeln on Knoten und Kanten. Jede Operaton hat Kosten, de on den Labeln abhängen können. Egenschaften we Symmetre, Defnthet und Dreecksunglechung hängen on den Kosten der Edt-Operaton ab. De Graph Matchng Dstanz zwschen 2 Obekten entsprcht: d( G, G ) = mn S S { c( S) st Sequenz on Operatonen, de G n G' ändert} wobe b c(s) de Kosten der Edt-Operatonen t darstellt. Problem: Graph- und Subgraph-Isomorphe können als Spezalfall der Edt-Dstanz betrachtet werden => Berechnung sehr aufwendg Ergebns stark on den Kosten der Edt-Operatonen abhängg 427
Edt Dstanzen auf Graphen Performanz: allgemen kann de Komplextät ncht reduzert werden Enschränkung der Graphen z.b. auf Bäume. => Bäume können endeutg als Strngs dargestellt werden => Edt-Dstanz auf Strngs st n O(n 2 ) => Problem: Enfügen enes Blatts erändert Baum anders als Enfügen enes nneren Knotens. A B A B A C [A[B[A][B[A]]][C]] Bestmmung der Edt-Kosten: Doman-Experten Mathematsche Modelle Lernen der Kosten für Klassfkaton [A[B[A][B[A]]][C]] [A[B[A][B]][C]] Deleton A n Blatt 428
Fazt Mathematsche fundertes Framework Graphen werden drekt und bzgl. all hrer Egenschaften erglchen Isomorphe-baserte Verfahren hängen daon ab we G defnert wrd. (Kosten für Label, Kanten, Knoten..) Edt-Dstanz erallgemenert Isomorphe-baserte Verfahren Kosten und Art der Edt-Operatonen bestmmen Dstanz Kosten für den Verglech on Graphen sehr hoch => nur auf wenge Graphen und klene Graphen anwendbar Enschränkung auf bestmmte Topologen kann Problem entspannen. Aber: Verlust der Allgemenhet on Graphen 429
7.3 Topologsche Deskrptoren und Graph-Kernel Idee: Da der drekte Verglech der Graphen zu teuer st, ergleche nur de Egenschaften der Graphen. Möglche Egenschaften: Graph-Summarserung: Bestmme Hstogramme über Kantengrade, Kantenlänge, Label-Häufgketen.. Betrachte Graphen als Menge on Kanten und Knoten => Graph besteht aus 2 Repräsentatonen aus MI-Obekten Knotenlabel: (3, 3 ) Knotengrade: (0 (0), 1 (1), 0(2), 5(3)) Kantenmenge Knotenmenge 430
Topologsche Deskrptoren Aber: Bs etzt kene Beschrebung der Graph-Topologe Topologsche Deskrptoren z.b. Egenschaften on Wegen, Pfaden, Subgraphen... Topologsche Deskrptoren zerlegen en Graphen n ene Menge on enfacheren topologschen Obekten. Eentuell werden dese noch summarsert. Bespel: Wener Index Se G=(V,E) en Graph. Dann st der Wener Index W(G) defnert durch: W ( G) = d(, ) wobe d(, ) de Länge des kürzesten Pfades on nach n G st. G G Bemerkgung: g Es glt: Wenn G G W(G) = W(G ). Aber: W(G) = W(G ) kann auch für unterschedlche Graphen G und G gelten. 431
Ähnlchketsmaße mt topologschen Deskrptoren Idee: Benutze topologsche Deskrptoren und Zerlegungen, um Ähnlchket zwschen Graphen zu beschreben. Ansätze: Ableten on Feature-Räumen aus Topologschen Deskrptoren Integraton on topologschen Zerlegungen n Dstanzen und Kernel-Funkton Im folgenden werden überwegend Kernel-Funktonen besprochen, da n desem Gebet mehr Forschungsergebnsse orlegen. 432
R-Conoluton Kernel Verallgemenerung des Conoluton-Kernels für Mengen auf zusammengesetzte Obekte Allgemenes Framework für fast alle Graph-Kernel. Korrektes Ensetzen n deses Framework erlechtert den Bewes der posten Defnthet. Se o O en zusammengesetztes Obekt mt Z(o) = (x 1,.. x n ) (=Zerlegung on o ), be der ede Komponente x Tel des Raums X st. R: X 1.. R n {True, False} gbt an, ob (x 1,.. x n ) ene gültge Zerlegung on o st. R -1 (o):={x R(o,(x1,..,xn)=True} de Menge aller gültgen Zerlegungen. Der R-conoluton Kernel der Kernelfunktonen K 1,..K D mt K :X X IR st K ( x x ) = K 1... K ( x, x ) = K ( x, x ), 1 n 1 1 x R ( x), x R ( x ) = 1 Bemerkung: Alle Paare on gültgen Obektzerlegungen werden aufsummert. Für edes Paar aus Komponenten werden Kernel-Werte aufmultplzert. De Flexbltät steckt n der Menge der Zerlegungen und der Komponenten-Kernel n 433
R-Conoluton Kernel Bespel: Spezalserung auf Mengen und lneare Kernel Gegeben:Graph G=(V,E) mt L: V IR d. Zerlegung enes Graphen und Kernel: Z(G)=V Kernel K: xy x,y lnearer Kernel Bemerkung: 1 ( G, G ) = L( ), L( ) = L( ), L( K ) V = 1 V V V Der Conoluton Kernel aus Kaptel 6 st also en R-Conoluton Kernel. 434
R-Conoluton auf topologschen Deskrptoren Se S(G) de Menge aller Subgraphen on G. All-Subgraph-Kernel für G und G : K ( G, G ) = Ksomorphsm K ( g g ) Subgraph, g S ( G) g S ( G) wobe somorphsm 1 falls g g ( g, g ) = = 0 sonst Bemerkungen: Verglech aller Telgraphen auf Isomorphe NP-harter Kernel, da das Subgraph-Isomorphe Problem Tel der Berechnung st. 435
Der Produktgraph Idee: Um gemensame Wege on G und G zu fnden, kann man bede Graphen n enen Produktgraphen G =G G zusammenfassen. Wege m Produktgraphen entsprechen dann den gemensamen Wegen on G und G Produktgraphen entsprechen dann den gemensamen Wegen on G und G. Produktgraph: G =G G für G=(V,E,L) und G=(V,E,L ) st folgendermaßen defnert: ( ) { } ( ) ( ) ( ) ( ) ( ) ( ) ( ) { } L L E E V V E L L V V V k l k l k = = = =,,,, :,,, ) ( ) ( :, ( ) ( ) ( ) ( ) ( ) ( ) ( ) { } k l k l k 2 3 1 A B = 1B 3B 2A 436
Random Walk Kernel Idee: Vergleche 2 Graphen bzgl. der Anzahl aller Wege, de n beden Graphen gelaufen werden können. Wege snd glech, wenn man de glechen Label und de gleche Anzahl on Knoten n beden Wegen beobachten kann. Berechnung: Zähle alle Wege n beden Knoten auf und ergleche dese. Aber: Wege können unendlch lang sen und Matchng st teuer. Lösung: Berechnung mt dem Produktgraphen: K V V n n ( G, G ) = λ A =, = 1 n= 0, = 1 [ 1 ( I A ) ] ( λ Bemerkung: Faktor 0< λ < 1 sorgt für Konergenz. Unter Konergenz st der Random Walk Kernel post defnt. (I st ene Dagonalmatrx mt 1 n der Hauptdagonale.), 437
Random Walk Kernel Zetkomplextät: für 2 Graphen G und G se n = max( V, V ) Berechnung des Produktgraphen: Verglech aller Paare on Kanten: n 2 potentelle Kanten Komplextät: O(n 4 ) Inerteren der Adazenzmatrx: Inerson ener n 2 n 2 Matrx : O(n 6 )( (Inerteren st kubsch) Laufzetkomplextät für Berechnung enes Grapherglechs: O(n 6 ) Fazt: Sehr teures Ähnlchketsmaß!! (Verfahren kann allerdngs auf O(n 3 ) beschleungt werden [Vshwanathan et al. 2006] ) 438
Wetere Probleme mt Random Walks Totterng Walk-Kernel erlauben, dass Wege de glechen Knoten und Kanten mehrmals enthalten => durch hn und her Wandern zwschen den glechen gec e 2 Knoten wrd dde de Ähnlchket etkünstlch erhöht. Lösungsansätze: Enführen zusätzlcher Knoten-Labels Matchende Knoten nehmen ab Klassfkatonsgenaugket stegt Verbeten on Zyklen aus 2 Knoten. => kene Verbesserung => Totterng trtt auch über mehr als 2 Knoten auf 439
Shortest Path Kernel Idee: Enschränkung der Random Walks auf kürzeste Pfade (Shortest Path). Herdurch wenger Telkomponenten, de zu erglechen lh snd dund dk ken Totterng mehr. Berechne de Menge der kürzesten Pfade für G und G separat Verglech der Graphen als Menge aus kürzesten Pfaden Über Aufsummeren aller Kernel-Werte über alle Paare on kürzesten Pfaden kann en Kernel auf Graphen defnert werden. 440
Shortest Path Kernel Berechnung der kürzesten Pfade: Berechnung über All-Par Shortest Path Algorthmus (Floyd-Warshal Algorthmus: O(n 3 ) ) Ergebns defnert ene Matrx D: M ShortestPath ( G) = d, falls sonst errechbar e on Menge der kürzesten Pfade SD(G) beschrebt Graph G ( unendlche Wege ncht n SD(G) enthalten) 441
Shortest Path Kernel Verglech 2er Graphen über Conoluton Kernel: K (, ) = shortestpath G G k ( s, s ) s SD( G) s SD( G ) 1 2 Bemerkung: k(s 1,s 2 ) st ene Kernelfunkton auf Pfaden/Wegen Möglchketen: - Verglech der Dstanzen - Berückschtgen der Start- und End-Label - Berückschtgen aller Label Komplextät: O(n 4 ) da n 2 möglche kürzeste Pfade, de paarwese erglchen werden müssen. (be komplexen Kerneln auf Pfaden höher!) 1 2 442
Bezug zu Dstanzen auf Graphen Häufg lassen sch Kernel drekt n Dstanzen überführen, wenn das on der Anwendung her erforderlch st. 1. Jeder Kernel mplzert auch en Dstanzmaß: D( G, G') = K( G, G) + K( G, G') 2 K( G, G') 2. Auch konzeptonell können ele Ideen drekt übertragen werden: 1. All-Subgraph: Zähle Anzahl ncht-somorphe Subgraphen 2. Shortest Path: Verglech Mengen der kürzesten Pfade mt enem der Abstandsmaße aus Kaptel 6. 443
Fazt Modellerung on Obekten als Graphen erlaubt de Beschrebung on Bezehungen zwschen Telobekten. Graphen können gerchtet sen und gelabelte Knoten und Kanten haben. Als Label können belebge andere Obektrepräsentatonen denen. (Mestens: 1 dskretes Attrbut) Komplextät on Graphen schränkt hre Anwendbarket en. Verglech über topologsche Egenschaften erlaubt de Verwendung on Bezehungswssen mt ertretbarem Aufwand. Topologscher Verglech lharbetet b oft auf ftransformaton enes Graphen n wenger komplexe Darstellungen (z.b. MI-Obekte oder Feature-Vektoren). Dabe geht en Tel der Informaton erloren. (z.b. Ungleche Obekte können Dstanz 0 haben.) 444
Lteratur Borgwardt K., Kregel H.-P.: Shortest-path kernels on graphs. In Proc. Intl. Conf. Data Mnng g( (ICDM 2005), 2005 Borgwardt K.: Graph Kernels, Dssertaton m Fach Informatk, Ludwg- Maxmlans-Unerstät München, 2007 Bunke, H. : Recent deelopments n graph matchng. In ICPR, pages 2117 2124. 2124 2000 Gärtner, T., Flach, P., and Wrobel: On graph kernels: Hardness results and effcent alternates. Proc. Annual Conf. Computatonal Learnng Theory, pages 129 143, 2003 Wener, H.: Structural determnaton of paraffn bolng ponts. J. Am. Chem. Soc., 69(1):17 20, 1947 445