Vektorraummodell. Michael Granitzer Know-Center - gefördert durch das Kompetenzzentrenprogramm

Ähnliche Dokumente
9. Clustern und Klassifizieren

WIB 2 Mathematik und Statistik Formelsammlung. Z Menge der ganzen Zahlen {...,-3,-2,-1,0,1,2,3,...}

Kapitel 6: Regression

Optimierungsverfahren: Motivation. Bayes-Formalismus. Schätztheorie. -- Fehlerfunktion L -- Regularisierungsfunktion R

Erinnerung: Funktionslernen. 5.6 Support Vector Maschines (SVM) Beispiel: Funktionenlernen. Reale Beispiele

Konzentrationsanalyse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II. Clustering

Elemente der Algebra und Zahlentheorie Musterlösung, Serie 7, Wintersemester vom 21. Januar 2006

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II. Clustering 2

Verteilungen und Schätzungen

Neuronale Verfahren zur Regression

Regressionsrechnung und Korrelationsrechnung

Eigenwerteinschließungen I

6.Hashing. Vorlesung Algorithmen (RN/MK/AZ) WSI für Informatik, Universität Tübingen 1

19. Amortisierte Analyse

Genexpression (1) Clustering

Erzeugen und Testen von Zufallszahlen

Fernstudium. Technische Thermodynamik Teil: Energielehre

Regelungs- und Systemtechnik 3

Definitionen und Aussagen zu Ringen

Schiefe- und Konzentrationsmaße

für j=0,1,...,n Lagrange zur Lösung der Interpolation nicht geeignet, da numerisch problematisch und teuer. 1 n

Einführung 2. Teil: Fehleranalyse

Statistische Maßzahlen

Innovative Information Retrieval Verfahren

Statistische Grundlagen Ein kurzer Überblick (diskret)

Schiefe- und Konzentrationsmaße

Sitzplatzreservierungsproblem

(Markowitz-Portfoliotheorie)

Übungen zum Vorkurs Mathematik

2 42 ). logn, y an, bzw die Information, die y über x enthält. input y besitzt, dann gibt die notwendige Programmlänge, KΦ x y p : Φ p x

3 Allgemeine lineare Gleichungssysteme über R. Superposition

3 Allgemeine lineare Gleichungssysteme über R. Superposition

Statistik. ist die Kunst, Daten zu gewinnen, darzustellen, zu analysieren und zu interpretieren um zu neuem Wissen zu gelangen.

5.5 MSC - Erweiterungen

Schiefe-, Wölbungs- und Konzentrationsmaße

Vorlesung Reaktionskinetik

Spannweite, Median Quartilsabstand, Varianz und Standardabweichung.

Grundlagen der Energietechnik Energiewirtschaft Kostenrechnung. Vorlesung EEG Grundlagen der Energietechnik

Physikalisch-Technische Bundesanstalt, Braunschweig

Ergebnis- und Ereignisräume

Definitionen und Aussagen zu Potenzreihen

Quellencodierung I: Redundanzreduktion, redundanzsparende Codes

Lösungen zum Übungs-Blatt 7 Wahrscheinlichkeitsrechnung

Stochastik und Vektorgeometrie 1

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Allgemeine Prinzipien

Skript Teil 7: Polygonzug

Zum Problem unterjähriger Zinsen und Zahlungen in der Zinseszinsrechnung

Thema 5: Reduzierte Datenanforderungen II: Naive Diversifikation

Zur Interpretation einer Beobachtungsreihe kann man neben der grafischen Darstellung weitere charakteristische Größen heranziehen.

Eigenschaften der arithmetischen Mittel. Schätzer für die Varianz. Allgeimeines Method: Likelihood Funktion. Schätzer für die Wahrscheinlichkeit

( ) := 1 N. μ 1 : Mittelwert. 2.2 Statistik und Polydispersität. Definition des k-ten Moments: Definition des k-ten zentralen Moments: 1 N

Strichlisten bei Laplace-Experimenten zum Paradox der ungleichmäßigen

Intervallschätzungen geben unter Berücksichtigung des Verteilungstyps von X einen Bereich an, der den Parameter mit vorgegebener Sicherheit enthält.

Ein paar einfache q-analoga des binomischen Lehrsatzes

Vorkurs, Teil 1. (3) Matrizen, lineare Gleichungssysteme, Determinanten (Lehrbuch Kap )

Abschlussprüfung zum/zur Finanzplaner/in mit eidg. Fachausweis. Formelsammlung. Autor: Iwan Brot

Abschlussprüfung zum/zur Finanzplaner/in mit eidg. Fachausweis. Formelsammlung. Autor: Iwan Brot

Interpolationspolynome

Quantitative BWL 2. Teil: Finanzwirtschaft

Vl. Statistische Prozess- und Qualitätskontrolle und Versuchsplanung Übung 3: Diskrete Verteilungen

Stochastische Bildmodelle und deren Anwendung

Skript zur Vorlesung. Knowledge Discovery in Databases II. im Wintersemester 2013/2014. Kapitel 2: Feature Selection und Feature Reduktion

Reihen n. Man benutzt letztere Schreibweise aber häufig auch zur Bezeichnung der Partialsummenfolge. konvergiert, die geometrische Reihe.

Quellencodierung I: Redundanzreduktion, redundanzsparende Codes

Mathematikaufgabe 96

F 6-2 π. Seitenumbruch

Lohnkosten pro Arbeitsstunde. Wie hoch sind die Lohnkosten pro Arbeitsstunde im Jahresdurchschnitt?

5 Reproduktions- und Grenzwertsätze

Unter einer Rente versteht man eine regelmässige und konstante Zahlung

Dr. Monika Meiler. Inhalt

Lösungen zum Übungs-Blatt 7 Wahrscheinlichkeitsrechnung

Schiefe-, Wölbungs- und Konzentrationsmaße

Physikalische Messungen sind immer fehlerbehaftet! Der wahre Wert ist nicht ermittelbar. Der wahre Wert x ist nicht identisch mit dem Mittelwert

Ordnungsstatistiken und Quantile

Statistik und Wahrscheinlichkeitsrechnung

( ) ( ) ) ( ) 1/ ( ) Beispiel: U = y1. 3. Ergänzungen zur Haushaltstheorie, insbesondere Dualität und Anwendungen

1. Zufallsbewegung und Binomialverteilung. Statistische Betrachtungsweise bezieht sich stets auf ein Ensemble.

Hier die ausführlichen Lösungen (wenn auch nicht druckreif ): Zeigen Sie für vollkommene Konkurrenz auf dem Faktormarkt:

Versuch Dichte- und Dickenmessung

absoluter Fehler x Relativer Fehler = = wahrer Wert x

Rekurrenz. Algorithmen rufen sich selbst (rekursiv) auf.

Short Listing für multikriterielle Job-Shop Scheduling-Probleme

2. Mittelwerte (Lageparameter)

Dr. Monika Meiler. Inhalt

Investmentfonds Kennzahlen- berechnung

Fachhochschule Jena University of Applied Sciences Jena Grundbegriffe. Fachhochschule Jena University of Applied Sciences Jena Ereignisse

Es ist dann nämlich 2 2 2

Peter Hager: Eine kleine mathematische Auffrischung

Probleme mit mehreren Zielen. Probleme mit mehreren Zielen. Probleme mit mehreren Zielen

Aufgaben. 1. Gegeben seien folgende Daten einer statistischen Erhebung, bereits nach Größe sortiert (Rangliste):

( x) eine Funktion definiert, in der nur die i-te Komponente variabel ist. Folgende Schreibweisen werden aufgrund dieser Anmerkungen auch verwendet:

Carl Friedrich Gauß (Deutscher Mathematiker, 1777 bis 1855) formulierte die folgende Formel n

Zahlensysteme. Dezimalsystem. Binär- oder Dualsystem. Hexadezimal- oder Sedezimalzahlen

Einführung Fehlerrechnung

Transkript:

Vektorrauoell Mchael Gratzer gra@ko-ceter.at / - geförert urch as Kopetezzetreprogra

Vektorrauoell Ausgagsbass Gegebe: Vorverarbetug vo Dokuete Tokezato POS Taggg Nae Etty Extracto Mege vo Merkale pro Dokuet Gesucht: Matheatsches Moell für Berechuge Ählchkets- u Dstazberechug Ato Subtrakto vo Dokuete Trasforato vo Dokuete 8

Vektorrauoell Matheatsches Moell Vektorrauoel atheatsches Moell auf Bass Vektoralgebra/learer Algebra Erzeugug über statstsche Ausertug er Merkale ees Dokuetes. Aalyse er Merkalstype. Aalyse er Merkale pro Dokuet. Merkalsgechtug 4. Merkalsreukto. Selekto. Trasforato 5. Aufspae es Vektorraus 8

Vektorrauoell Merkale Vektorrau D D D D D "De Vorlesug gehalte v o Markus Strohaer. Vorlesug SS 8" "Behaelt r { Kk as Vector } {" Vorlesug" K" Strohaer" " Vorlesug"} {" Vector" K" VSM" " Vorlesug"" VSM"} k Space Moel kurz VSM. Vector Defto FeatureTyp es {" Vorlesug"" Strohaer"" Vector"" VSM} :" Mege er Merkalstype D D D 4 8

Vektorrauoell Merkale Vektorrau Wörterbuch: De Mege er uterschelche Merkalstype Dokuet Besteht aus eer Mege vo Merkale Jees Merkal st.a. ee Zechekette Dokuet Jees Merkal hat ee Merkalstyp 5 8

Vektorrauoell Merkalstyp vs. Merkalsstaz Merkalstyp/Deso/Merkalsklasse De Veregugsege aller uterschelche Merkale (.e. Zechekette Dokuete Uabhägg vo Dokuet Merkalsstaz/Merkalsvorkoss Vorkos ees Merkalstyp ee Dokuet Istaz er Zechekette ee Dokuet Achtug: Merkal als Ter oft ehreutg er Lteratur 6 8

Vektorrauoell Dokuet Vektor Zel: r r M r < < < K K K Jeer Etrag Vektor etsprcht ee Merkalstyp > > > r r r <. <..4.4.5. < K > > > Gechtug es Merkalstyps ach Wchtgket für as Dokuet 7 8

Merkalsgechtug Bär Führe zu bäre Merkalsvektore Aeug vo Megeoperatoe als atheatsches Moell Nachtel as Stoppörter e u oer etc. glech chtg s e svolle Wörter erkal Dokuet Dokuet erkal < K > r 8 8

Merkalsgechtug TF-IDF Berückschtgug er voragegagee Aalyse zur Bestug er Wchtgket ees Merkals TF: Ter Frequez resp. Merkalsfrequez: We oft kot e Merkal ee Dokuet (bezoge auf esse Läge vor IDF: Iverse Dokuetfrequez /Dokuetfrequez: I e ehr Merkale e Dokuet vorkot u so uchtger r es Kobato vo TF u IDF: TF *log( IDF TF erkal Dokuet Dokuet IDF erkal Dokuet Dokuet 9 8

Merkalsgechtug TF-IDF Repräsetato ees Dokuetes als uerscher Vektor Aeug vo Vektorrechug u Vektoralgebra Uterschelche Möglchkete er TF/IDF Berechug TF log( TF * IDF *log( IDF 8

8 Aufspae es Vektorraus Vektorrau Moell - Matheatsch D K M O M L Dokuet Ter Matrx 4.4........4. 4 6 5 4

Aufspae es Vektorraus Vektorrau Moell Vsuelle Iterpretato I er Praxs ufasst er Terrau. Desoe u ehr 8

Aufspae es Vektorraus Bespel Dokuet : Des st er erste Satz Dokuet : Des st er zete Satz erste 8 Dokuet : Des st er erste erste/zete Satz erste zete zete.5.5.5.5

Operatoe Vektorrau Ato vo Dokuete Subtrakto vo Dokuete Textokuete Trasforato es Vektorraus ee eue Vektorrau (Merkalsselekto & Proekto Ählchketsberechug Vektorrau Dstazberechuge Vektorrau Multesoale Skalerug er Vektore zur Vsualserug 4 8

Operatoe Vektorrau Ählchket/Dstaz Ählchket/Dstaz eröglcht as Ore vo Dokuete Relevat uterschelche Algorthe Relevace Rakg (IR Query by Exaple Klassfkato Clusterg Trasforato & Proekto 5 8

Operatoe Vektorrau Egeschafte v. Ählchket/Dstaz Fukto s : D D R st : D D R Syetrsch s ( s( st ( st( Selbstählchket s ( s( s( st( st( st( Ählchket est Itervall [] s( s( 6 8

Operatoe Vektorrau Egeschafte eer Metrk We Dreecksuglechug erfüllt Dstaz efert Metrk über Vektorrau st ( st( k + st( k 7 8

Operatoe Vektorrau Ählchkete Bär Bärer Vektorrau: Ählchket st proportoal er Mege er überestee Merkale Jaccar Koeffzet Ählchket # geesae Merkale/# veregte Merkale s ( 8 8

Operatoe Vektorrau Bespel Jaccar Koeffzet Bespel: Dokuet : Des st er erste Satz Dokuet : Des st er zete Satz Bäre Gechtug [] [] Merkal Des Ist Der Erste Zete Satz Dokuet Dokuet Jaccar(Docuet Docuet 4/6 9 8

Operatoe Vektorrau Kosusählchket Vektorrau Moell: Wkel zsche Vektore etsprcht Ählchket (Cosusaß Häufg egesetzt efach lefert gute Ergebsse Bespel: Proble: Aahe as Merkale voeaer uabhägg s stt cht 8

8 Skalarproukt (arthetsche Forel Cosusaß Cosus es Wkels zsche Query u Dokuetvektor x y y x y x y x... + + + Operatoe Vektorrau Kosusählchket - atheatsch D k k D k k D k k k s ( r r r r r r

Operatoe Vektorrau Kosusählchket - Bespel Dokuet : Des st er erste Satz Dokuet : Des st er zete Satz erste Dokuet : Des st er erste erste/zete Satz erste zete.5.5.5.5 s( s( s(.5 + * +.5.5.5 +.5 5 5.5 +.5 +.5 +.5.5 + * *.5.5 + 5 + 5 89 44 zete 8

Operatoe Vektorrau Euklsche Dstaz st euclea r r ( ( k k k 8

Operatoe Vektorrau Euklsche Dstaz - Bespel Dokuet : Des st er erste Satz Dokuet : Des st er zete Satz Dokuet : Des st er erste erste/zete Satz erste zete.5.5.5.5 erste st( st( (.5 + (.5 (.5.5 + (.5.5*.9.49 zete st( (..5 + (.5.5. 5 4 8

8 5 Matrx elche alle Ählchkete/Dstaze zsche alle Obekte ethält Quaratsch Syetrsch Bespel Operatoe Vektorrau Dstaz u Ählchketsatrx ( ( ( ( ( ( s S s s s s S L M O M L 44 5.5 * 5.5.5.5 ( 89 5.5 * 5.5.5.5 (.5 *.5.5.5 ( + + + + + + + + + s s s.44.89.44.89

Vektorrauoell Zusaefassug Vortele: Schell u efach Erstellug es VSM erfolgt O( Ählchketskrteru zsche Dokuete TFIDF stellt ee beährte Heurstk ar (set 968 Nachtele: Uabhäggketsaahe er Tere Relatv llkürlches Ählchketsaß bezoge auf atürlchsprachlche Texte Berückschtgug es Kotextes 6 8