Lösug - Übugsblatt 1 (Strig Matchig) Fabia Pase pase@iformatik.ui-hamburg.de Uiversität Hamburg
Aufgabe 1: Overlap Measure ud Jaccard Koeffiziet Gegebe: x = Heri Wateroose ud y = Hery Waterose Tokebildug durch -grams X = { ##H, #He, He, er, ri, ri, i W, Wa, Wat, ate, ter, er, ro, oo, oos, ose, se#, e## } Y = { ##H, #He, He, er, ry, ry, y W, Wa, Wat, ate, ter, er, ro, os, ose, se#, e## } X = { ##H, #He, He, er, ri, ri, i W, Wa, Wat, ate, ter, er, ro, oo, oos, ose, se#, e## } Y = { ##H, #He, He, er, ry, ry, y W, Wa, Wat, ate, ter, er, ro, os, ose, se#, e## } O(X, Y ) = 1 Jacc(X, Y ) = 1/ = 0.591 Fabia Pase Lösug - Blatt 1
Aufgabe : Leveshtei Distaz/Ählichkeit Gegebe: x = Sea ud y = Shaw ε s e a ε s h a w 0 1 1 5 LevDst(x, y) = LevSim(x, y) = 1 max(,5) = 0.6 Fabia Pase Lösug - Blatt 1
Aufgabe : Leveshtei Distaz/Ählichkeit Gegebe: x = Sea ud y = Shaw ε s e a ε s h a w 0 1 1 0 1 1 5 LevDst(x, y) = LevSim(x, y) = 1 max(,5) = 0.6 Fabia Pase Lösug - Blatt 1
Aufgabe : Leveshtei Distaz/Ählichkeit Gegebe: x = Sea ud y = Shaw ε s e a ε s h a w 0 1 1 0 1 1 1 5 LevDst(x, y) = LevSim(x, y) = 1 max(,5) = 0.6 Fabia Pase Lösug - Blatt 1
Aufgabe : Leveshtei Distaz/Ählichkeit Gegebe: x = Sea ud y = Shaw ε s e a ε s h a w 0 1 1 0 1 1 1 1 5 LevDst(x, y) = LevSim(x, y) = 1 max(,5) = 0.6 Fabia Pase Lösug - Blatt 1
Aufgabe : Leveshtei Distaz/Ählichkeit Gegebe: x = Sea ud y = Shaw ε s e a ε s h a w 0 1 1 0 1 1 1 1 5 LevDst(x, y) = LevSim(x, y) = 1 max(,5) = 0.6 Fabia Pase Lösug - Blatt 1
Aufgabe : Leveshtei Distaz/Ählichkeit Gegebe: x = Sea ud y = Shaw ε s e a ε s h a w 0 1 1 0 1 1 1 1 5 LevDst(x, y) = LevSim(x, y) = 1 max(,5) = 0.6 Fabia Pase Lösug - Blatt 1
Aufgabe : Affie Gap Distace Gegebe: x = Marti Thomas Doe ud y = Marti T Do Koste für Öffe eier Lücke: w g = 1 Koste für Weiterführe eier Lücke: w s = 0. Die erste Lücke l 1 umfasst de substrig homas Gesamtkoste der Lücke: w(l 1 ) = 1 + 0. = 1.8 Die zweite Lücke l umfasst de substrig e Gesamtkoste der Lücke: w(l ) = 1 Gesamtkoste:.8 Fabia Pase Lösug - Blatt 1
Aufgabe : Soudex Code Gegebe: x = depardieu, y = debado ud z = tepadeu depardieu debado tepadeu Step 1 dprd dbd tpd Step d16 d15 t1 Step d16 d15 t1 Step d16 d15 t10 Mit Ausahme des erste Buchstabe werde alle Vorkommisse der Buchstabe a, e, i, o, u, y, h, ud w etfert Mit Ausahme des erste Buchstabe werde alle verbliebede Buchstabe durch Ziffer ersetzt (b,p 1, r 6, d, 5) Alle aufeiaderfolgee Auftrete der gleiche Ziffer werde durch ei eizele Auftrete ersetzt Der Code wird auf die Läge vier beschräkt (Auffülle mit 0 ) Fabia Pase Lösug - Blatt 1 5
Aufgabe 5: Exteded Jaccard Gegebe: x = Tom Joh Kim ud y = Tim Jo threshold θ = 0.5 Leveshtei Ählichkeite der Toke Tom Joh Kim Tim / 0 / Jo 1/ / 0 shared(x, Y ) = {( Tom, Tim ),( Joh, Jo ),( Kim, Tim )} uique(x ) = uique(y ) = ExtJacc(X, Y ) = +0+0 = = 1 Fabia Pase Lösug - Blatt 1 6
Aufgabe 5: Geeralized Jaccard Gegebe: x = Tom Joh Kim ud y = Tim Jo threshold θ = 0.5 Tim 0.66 Tom 0. 0 Joh 0.75 Jo 0 0.66 Kim GeJacc(X, Y ) = 0.66+0.75 + = 1.1 = 0.7 Fabia Pase Lösug - Blatt 1 7
Aufgabe 5: Geeralized Jaccard Gegebe: x = Tom Joh Kim ud y = Tim Jo threshold θ = 0.5 Tim 0.66 Tom Jo 0.75 0.66 Joh Kim GeJacc(X, Y ) = 0.66+0.75 + = 1.1 = 0.7 Fabia Pase Lösug - Blatt 1 7
Aufgabe 5: Geeralized Jaccard Gegebe: x = Tom Joh Kim ud y = Tim Jo threshold θ = 0.5 Tim 0.66 Tom 0.75 Joh Jo Kim GeJacc(X, Y ) = 0.66+0.75 + = 1.1 = 0.7 Fabia Pase Lösug - Blatt 1 7
Aufgabe 5: Moge-Elka Tim 0.66 0. Tom Joh Tim Tom 0 Joh 0.75 Jo Kim Jo Kim Tom Tim Joh Jo 0 0.66 Kim MogeElka(Y, X ) = 1 (0.66 + 0.75 + 0.66) = 0.69 Fabia Pase Lösug - Blatt 1 8
Aufgabe 6: TF/IDF term frequecy: tf x 1 x x x x 5 x 6 Isurace 1 1 0 1 0 0 Compay 1 0 1 0 1 0 A&B 0 1 0 0 1 0 BC 0 0 1 0 0 0 AX 0 0 1 1 0 0 XY 0 0 0 0 0 Eterprises 0 0 0 0 0 1 Fabia Pase Lösug - Blatt 1 9
Aufgabe 6: TF/IDF iverse documet frequecy: idf Isurace 6/ = Compay 6/ = A&B 6/ = BC 6/1 = 6 AX 6/ = XY 6/1 = 6 Eterprises 6/1 = 6 Fabia Pase Lösug - Blatt 1 9
Aufgabe 6: TF/IDF Kosius Ählichkeit zwische x ud x : v =, 0,, 0, 0, 0, 0 v =, 0, 0, 0,, 0, 0 CosSim(x, x ) = (+0+0+0+0+0+0)/( + 9 + 9) = /( 1 1) = /1 Fabia Pase Lösug - Blatt 1 9
Aufgabe 7: Skalierbarkeit a) Aufbaue eies ivertierte Idexes über die Toke der eizele Strigwerte vo B Mege B Y 1 = {alpha, beta, delta, iota} Y = {gamma, delta} Y = {alpha, beta, zeta} Y = {alpha, gamma, iota, zeta} Y 5 = {alpha, iota} Toke i B ID Liste alpha 1,,,5 beta 1, gamma, delta 1, iota 1,,5 zeta, Kadidate aufgrud Toke alpha : {1,,,5} Kadidate aufgrud Toke delta : {1,} Kadidate aufgrud Toke zeta : {,} Gesamte Mege a Kadidate: {1,,,,5} (also alle) Fabia Pase Lösug - Blatt 1 10
Aufgabe 7: Skalierbarkeit b) Verwedug des Size Filterigs Mege B Y 1 = {alpha, beta, delta, iota} Y = {gamma, delta} Y = {alpha, beta, zeta} Y = {alpha, gamma, iota, zeta} Y 5 = {alpha, iota} Gegebe: θ = 0.8 ud X ={alpha, delta, zeta} Damit y i ei Match vo x sei ka, muss also gelte:. = 0.8 Y i /0.8 =.75 Das eizige y i B für welches dies gilt ist y Gesamte Mege a Kadidate: {} Fabia Pase Lösug - Blatt 1 11
Aufgabe 7: Skalierbarkeit c) Verwedug des Prefix Filterigs Mege B Y 1 = {alpha, beta, delta, iota} Y = {gamma, delta} Y = {alpha, beta, zeta} Y = {alpha, gamma, iota, zeta} Y 5 = {alpha, iota} Y i k X k 1 1 {alpha} {alpha} 5 {alpha} Gegebe: θ = 0.8, X =, Jaccard Koeffiziet Damit y i ei Match vo x sei ka, muss also gelte: X Y i k = θ 1+θ ( X + Y i ) = 0. ( + Y i ) Y i muss die erste X (k 1) Toke vo X beihalte 1 ud scheide aus, da sie gemeisame Toke bräuchte, ud 5 sid Kadidate we sie alpha beihalte Gesamte Mege a Kadidate: {,5} Fabia Pase Lösug - Blatt 1 1