Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Größe: px

Ab Seite anzeigen:

Download "Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining."

Kajetan Lichtenberg
vor 8 Jahren
Abrufe

1 Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen eingeordnet (Entscheidungsbaumverfahren) Hauptseminar Wintersemester 26/7 Universität Hildesheim Data Mining... Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm (U. Fayyad 997, in Heft der Zeitschrift Data Mining and Knowledge Discovery) Data Mining... enumerates patterns... models... Data Mining befasst sich mit Mustern und Modellen über Daten d.h. Data Mining extrahiert Wissen, das nicht explizit in der Datenbasis gespeichert ist und abgefragt werden kann sondern dieses Wissen ergibt sich aus einer Gesamtschau auf sehr viele Daten Data Mining fasst viele Wissenseinheiten zu neuem Wissen zusammen Maschinelles Lernen: Definitionen Anpassung des Verhaltens (Output) an die Umwelt (Input) Lernen als Näherung Lernen als Fehlerminimierung einer komplexen Funktion Maschinelles Lernen: Definitionen... changes in the system... that... enable the system to do the same task... more efficiently and more effectively the next time (Simon 983 zitiert nach Rich & Knight 99) Maschinelles Lernen beschäftigt sich mit Computer-Programmen, die in der Lage sind, durch die Benutzung von Eingabeinformationen neues Wissen zu konstrurieren (Michalski & Kodratoff 99 zitiert nach Herrmann 997)

.. Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm (U. Fayyad 997, in Heft der Zeitschrift Data Mining and Knowledge Discovery) Data Mining.

2 Maschinelles Lernen: Lernstrategien Induktives Lernen aus positiven (und negativen) Bespielen Klassifikation durch Beobachtung und Entdeckung Clustering Eingaben Komponenten der Eingaben: Konzept: was gelernt werden kann oder soll Ziel: verständliche und anwendbare Konzeptbeschreibung z.b. Gruppe der Kunden, die über 2 ausgeben Instanz: ein einzelnes, unabhängiges Beispiel für das zu erlernende Konzept Z.B. Konkreter Kunde, der einmal mehr als 2 ausgegeben hat Attribut: Eigenschaft einer Instanz zur Charakterisierung nominal, ordinal, Intervall, Ratio z.b. Alter des Kunden, Häufigkeit des Besuchs, Preiskategorie des als erstes angeklickten Produkts... Eingaben: Konzept Arten des Lernens: klassifizierendes Lernen aus bereits klassifizierten Beispielen lernen und neue Beispiele klassifizieren assoziierendes Lernen Assoziationen zwischen Attributen erkennen Clustering Suchen von Gruppen ähnlicher Beispiele numerische Vorhersage Ergebnis: numerische Größe statt Klasse Lineare Lineare Modelle für numerische Daten Ergebnis als lineare und gewichtete Kombination der Attribute Gewichte werden aus den Trainingsdaten berechnet Bsp.: Zusammenhang zwischen Körpergröße und Gewicht Zwischen den beiden Größen Körpergröße und Gewicht besteht eine Abhängigkeit Die eine Größe kann aus der anderen hergeleitet werden Die Abhängigkeit lässt sich mit einer Gerade darstellen (Die Größen sind nicht unabhängig) 2

B. Konkreter Kunde, der einmal mehr als 2 ausgegeben hat Attribut: Eigenschaft einer Instanz zur Charakterisierung nominal, ordinal, Intervall, Ratio z.b. Alter des Kunden, Häufigkeit des Besuchs, Preiskategorie des als erstes angeklickten Produkts.

3 Die Abhängigkeit lässt sich mit einer Gerade darstellen -> lineare Abhängigkeit Gerade: x = a + b y Parameter a und b müssen gefunden werden Liegen zwei Punkte vor, können die Parameter berechnet werden -> lineare Abhängigkeit natürlich können auch andere, komplexere Abhängigkeiten vorkommen z.b. Polynome Bei mehreren Punkten sollte die Gerade möglichst gut durch alle Punkte verlaufen -> Der Abstand der Punkte von der Geraden sollte im Durchschnitt verringert werden Auch bei mehreren Dimensionen kann mit linearer Abhängigkeit gearbeitet werden Gerade wird dann zu einer (evtl. mehrdimensionalen) Ebene Lineare Klasse als lineare Kombination aller Attributwerte Konvergenz Erfolgreiches Lernen: Minimierung des Fehlers sinkt der Fehler stetig, so spricht man von Konvergenz Dann hat das System die präsentierten Beispiele richtig gelernt 3

ängigkeit natürlich können auch andere, komplexere Abh

4 Generalisierbarkeit Die Leistungsfähigkeit eines Systems zeigt sich jedoch erst an unbekannten Beispielen kann ein System auch neue Muster, die nicht in der Trainingsmenge waren richtig zuordnen, dann generalisiert es Trainings- und Testmenge Um zu prüfen, wie gut ein System generalisiert, wird beim Lernen eine Testmenge mit unbekannten Beispielen genutzt Der Fehler in der Testmenge ist der Maßstab für die Qualität Overlearning Der Fehler in der Trainingsmenge konvergiert bei besserer Anpassung Der Testfehler sinkt nur bis zu einem bestimmten Wert und steigt dann bei weiterer Anpassung an die Trainingsmenge Durch zu starke Anpassung an die Trainingsmenge sinkt also oft die Generalisierungsfähigkeit. Das Training sollte daher bei einem Minimum in der Testmenge beendet werden Adaptivität im Information Retrieval cognitive structures authors cognitive structures information seeker documents resultdocuments query representation fusion processing representation matching functions Adaptivität im Information Retrieval Erschließung und Repräsentation unterschiedlich z.b. automatisch und manuell indexierte Dokumente gemeinsam in einer Digitalen Bibliothek semantische Probleme: Term bedeutet in verschiedenen Korpora etwas anderes Individuelle Unterschiede Benutzer erwarten unter gleichem Begriff etwas anderes Transformation zwischen verschiedenen Repräsentationen Relevanz-Bewertungen unterschiedlicher Benutzer stimmen oft nicht überein 4

Maßstab für die Qualität Overlearning Der Fehler in der Trainingsmenge konvergiert bei besserer Anpassung Der Testfehler sinkt nur bis zu einem bestimmten Wert und steigt dann bei weiterer Anpassung

5 Gewichtung Repräsentation: Term- Dokument Matrix Term A Reform Term B Partei Term C Ziel... Autoren Erstellung IR-Prozess Dokumenten- Bestand Text- Dokumente Indexierung Repräsentation Dokument Dokument 2 Dokument 3 /4 4/8 6/9 2/4 3/8 /9 /4 /8 2/9 Profil: Benutzer A Benutzungsoberfläche Relevanz- Bewertung Ähnlichkeitsberechnung Informations- Suchender Interaktion mehr Information Ergebnis- Dokumente Dokument-Term- Matrix Indexierung - Weitere Terme - Beispiel-Dokumente - Repräsentation mehr Information Interpretation im Vektorraum-Modell Verschiebung der hin zu den relevanten Dokumenten -> langfristiger Effekt: Aufbau Benutzermodell Gewicht von Term B relevant nicht relevant Gewicht von Term A Dokument- Term-Matrix Dok A Benutzer- Profil Adaptivität Haus Bank Geld Park,,6,4 Dok B,9,6 Ä ( t, t ) = n w dt w qt 2 2 d =,4 Lösungsmöglichkeit für Individualisierung bei wenig Wissen Privates Modell + Öffentliches Modell Beide Modelle tragen zum Gesamtergebnis bei Anfangs hohes Gewicht öffentliches Modell Mit steigender Anzahl individueller Urteile steigt der Einfluss des privaten Modells Gesamtergebnis berücksichtigt zwei Modelle Das private Modell: ( ω private, A ; ω private, B ; ω private, C ; ; ω private, N ) Das öffentliche Modell: (ω public, A ; ω public, B ; ω public, C ; ; ω public, N ) Integration der RSV des privaten und des öffentlichen Modells 5

Relevanz- Bewertung Ähnlichkeitsberechnung Informations- Suchender Interaktion mehr Information Ergebnis- Dokumente Dokument-Term- Matrix Indexierung - Weitere Terme - Beispiel-Dokumente -

Ähnliche Dokumente

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische