Vektorrauoell Mchael Gratzer gra@ko-ceter.at / - geförert urch as Kopetezzetreprogra
Vektorrauoell Ausgagsbass Gegebe: Vorverarbetug vo Dokuete Tokezato POS Taggg Nae Etty Extracto Mege vo Merkale pro Dokuet Gesucht: Matheatsches Moell für Berechuge Ählchkets- u Dstazberechug Ato Subtrakto vo Dokuete Trasforato vo Dokuete 8
Vektorrauoell Matheatsches Moell Vektorrauoel atheatsches Moell auf Bass Vektoralgebra/learer Algebra Erzeugug über statstsche Ausertug er Merkale ees Dokuetes. Aalyse er Merkalstype. Aalyse er Merkale pro Dokuet. Merkalsgechtug 4. Merkalsreukto. Selekto. Trasforato 5. Aufspae es Vektorraus 8
Vektorrauoell Merkale Vektorrau D D D D D "De Vorlesug gehalte v o Markus Strohaer. Vorlesug SS 8" "Behaelt r { Kk as Vector } {" Vorlesug" K" Strohaer" " Vorlesug"} {" Vector" K" VSM" " Vorlesug"" VSM"} k Space Moel kurz VSM. Vector Defto FeatureTyp es {" Vorlesug"" Strohaer"" Vector"" VSM} :" Mege er Merkalstype D D D 4 8
Vektorrauoell Merkale Vektorrau Wörterbuch: De Mege er uterschelche Merkalstype Dokuet Besteht aus eer Mege vo Merkale Jees Merkal st.a. ee Zechekette Dokuet Jees Merkal hat ee Merkalstyp 5 8
Vektorrauoell Merkalstyp vs. Merkalsstaz Merkalstyp/Deso/Merkalsklasse De Veregugsege aller uterschelche Merkale (.e. Zechekette Dokuete Uabhägg vo Dokuet Merkalsstaz/Merkalsvorkoss Vorkos ees Merkalstyp ee Dokuet Istaz er Zechekette ee Dokuet Achtug: Merkal als Ter oft ehreutg er Lteratur 6 8
Vektorrauoell Dokuet Vektor Zel: r r M r < < < K K K Jeer Etrag Vektor etsprcht ee Merkalstyp > > > r r r <. <..4.4.5. < K > > > Gechtug es Merkalstyps ach Wchtgket für as Dokuet 7 8
Merkalsgechtug Bär Führe zu bäre Merkalsvektore Aeug vo Megeoperatoe als atheatsches Moell Nachtel as Stoppörter e u oer etc. glech chtg s e svolle Wörter erkal Dokuet Dokuet erkal < K > r 8 8
Merkalsgechtug TF-IDF Berückschtgug er voragegagee Aalyse zur Bestug er Wchtgket ees Merkals TF: Ter Frequez resp. Merkalsfrequez: We oft kot e Merkal ee Dokuet (bezoge auf esse Läge vor IDF: Iverse Dokuetfrequez /Dokuetfrequez: I e ehr Merkale e Dokuet vorkot u so uchtger r es Kobato vo TF u IDF: TF *log( IDF TF erkal Dokuet Dokuet IDF erkal Dokuet Dokuet 9 8
Merkalsgechtug TF-IDF Repräsetato ees Dokuetes als uerscher Vektor Aeug vo Vektorrechug u Vektoralgebra Uterschelche Möglchkete er TF/IDF Berechug TF log( TF * IDF *log( IDF 8
8 Aufspae es Vektorraus Vektorrau Moell - Matheatsch D K M O M L Dokuet Ter Matrx 4.4........4. 4 6 5 4
Aufspae es Vektorraus Vektorrau Moell Vsuelle Iterpretato I er Praxs ufasst er Terrau. Desoe u ehr 8
Aufspae es Vektorraus Bespel Dokuet : Des st er erste Satz Dokuet : Des st er zete Satz erste 8 Dokuet : Des st er erste erste/zete Satz erste zete zete.5.5.5.5
Operatoe Vektorrau Ato vo Dokuete Subtrakto vo Dokuete Textokuete Trasforato es Vektorraus ee eue Vektorrau (Merkalsselekto & Proekto Ählchketsberechug Vektorrau Dstazberechuge Vektorrau Multesoale Skalerug er Vektore zur Vsualserug 4 8
Operatoe Vektorrau Ählchket/Dstaz Ählchket/Dstaz eröglcht as Ore vo Dokuete Relevat uterschelche Algorthe Relevace Rakg (IR Query by Exaple Klassfkato Clusterg Trasforato & Proekto 5 8
Operatoe Vektorrau Egeschafte v. Ählchket/Dstaz Fukto s : D D R st : D D R Syetrsch s ( s( st ( st( Selbstählchket s ( s( s( st( st( st( Ählchket est Itervall [] s( s( 6 8
Operatoe Vektorrau Egeschafte eer Metrk We Dreecksuglechug erfüllt Dstaz efert Metrk über Vektorrau st ( st( k + st( k 7 8
Operatoe Vektorrau Ählchkete Bär Bärer Vektorrau: Ählchket st proportoal er Mege er überestee Merkale Jaccar Koeffzet Ählchket # geesae Merkale/# veregte Merkale s ( 8 8
Operatoe Vektorrau Bespel Jaccar Koeffzet Bespel: Dokuet : Des st er erste Satz Dokuet : Des st er zete Satz Bäre Gechtug [] [] Merkal Des Ist Der Erste Zete Satz Dokuet Dokuet Jaccar(Docuet Docuet 4/6 9 8
Operatoe Vektorrau Kosusählchket Vektorrau Moell: Wkel zsche Vektore etsprcht Ählchket (Cosusaß Häufg egesetzt efach lefert gute Ergebsse Bespel: Proble: Aahe as Merkale voeaer uabhägg s stt cht 8
8 Skalarproukt (arthetsche Forel Cosusaß Cosus es Wkels zsche Query u Dokuetvektor x y y x y x y x... + + + Operatoe Vektorrau Kosusählchket - atheatsch D k k D k k D k k k s ( r r r r r r
Operatoe Vektorrau Kosusählchket - Bespel Dokuet : Des st er erste Satz Dokuet : Des st er zete Satz erste Dokuet : Des st er erste erste/zete Satz erste zete.5.5.5.5 s( s( s(.5 + * +.5.5.5 +.5 5 5.5 +.5 +.5 +.5.5 + * *.5.5 + 5 + 5 89 44 zete 8
Operatoe Vektorrau Euklsche Dstaz st euclea r r ( ( k k k 8
Operatoe Vektorrau Euklsche Dstaz - Bespel Dokuet : Des st er erste Satz Dokuet : Des st er zete Satz Dokuet : Des st er erste erste/zete Satz erste zete.5.5.5.5 erste st( st( (.5 + (.5 (.5.5 + (.5.5*.9.49 zete st( (..5 + (.5.5. 5 4 8
8 5 Matrx elche alle Ählchkete/Dstaze zsche alle Obekte ethält Quaratsch Syetrsch Bespel Operatoe Vektorrau Dstaz u Ählchketsatrx ( ( ( ( ( ( s S s s s s S L M O M L 44 5.5 * 5.5.5.5 ( 89 5.5 * 5.5.5.5 (.5 *.5.5.5 ( + + + + + + + + + s s s.44.89.44.89
Vektorrauoell Zusaefassug Vortele: Schell u efach Erstellug es VSM erfolgt O( Ählchketskrteru zsche Dokuete TFIDF stellt ee beährte Heurstk ar (set 968 Nachtele: Uabhäggketsaahe er Tere Relatv llkürlches Ählchketsaß bezoge auf atürlchsprachlche Texte Berückschtgug es Kotextes 6 8