Text Mining - Wissensrohstoff Text Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik
Definitionen soziale Netzwerke 2
Soziale Netzwerke Mit dem Terminus soziale Netzwerke werden Internetanwendungen bezeichnet, die auf den technologischen und ideologischen Grundlagen des Web 2.0 aufbauen und die Herstellung und den Austausch von User Generated Content ermöglichen [1] Hierzu zählen insbesondere Blogs Microblogs (Twitter) Foren Bewertungsportale (Ciao, Amazon) Social Bookmarks (Delicious, Mr. Wong) Multimedia Sharing (Youtube, Flickr) Chats Wikis (Wikipedia) 3
Blogs Eigenschaften/Besonderheiten: Journalistisch Chronologisch Freie Gestaltung Tags Kommentare Vernetzung ( Blogosphäre ) Feeds 4
Foren Eigenschaften/Besonderheiten : Themenspezifisch Fokus auf Diskussion Hierarchisch strukturiert (Forum, Thread/Topic, Post) Zitate Views/Hits 5
Twitter Eigenschaften/Besonderheiten: Echtzeit -Kommunikation Chronologisch Auf 140 Zeichen beschränkt Follower/Following Retweet/Reply Hashtags 6
Ziele Identifizieren von Communities und deren Ausbreitung Beobachtung von Meinungen und Meinungstrends Beobachtung des Entstehens neuer Themen Identifizieren von Meinungsmachern Konkrete Anwendungen u.a. im Bereich Marketing Technologie Mining Öffentliche Sicherheit Jugendschutz Enge Verbindung zu Autorenerkennung, Topic Detection und Tracking, Sentiment Analyse 7
Daten, Content, Metadaten Netzwerk-bezogen: Vernetzungsgrad, Expert-Score, Credibility-Score, Meta-Daten-bezogene QA: Tags, Verlinkung, Bewertungen Video Bild Contentbezogen: Anzahl Tags, Stickiness,.. Content-bezogene QA: Unerwünschter Content, Schreibstil, User-bezogen: Engagement- Score, RFM- Score, Externe : Verlinkung, Vernetzung, Bewertungen, 8
Semantic Structure Analyse sozialer Netzwerke Vernetzung von Daten und Beziehungen DATA CONNECTIVITY QM/ QA Taxonomie... Meta Data Management Business/ Content Intelligence TEXT Mining SCHAFT DUCH INTEGRATION NEUE MÖGLIICHKEITEN DER INTELLIGENTEN NUTZUNG DES WEB Tagging Wiki Blogs Folksonomie Collective Intelligence WEB 1.0 WEB 2.0... SOCIAL CONNECTIVITY 9
Aufgaben Merkmalsextraktion (z.b. Key Term Extraction, ) Generierung und Repräsentation von Metadaten (z.b. FOAF) Algorithmen für die Generierung und Analyse komplexer Graphen Einbindung von Trend Analysen und Sentiment Analysis Benutzungsoberflächen 10
Communities 11
Definition Virtuelle Gemeinschaft mit vielen Nutzern. Technisch ist eine Community eine Menge von Nutzern/ Dokumenten/ Contents, die stärker innerhalb der Community, als ausserhalb der Community verbunden sind. (Hierbei wird ein enger Zusammenhang zwischen den Menschen und den von ihnen genutzten bzw. generierten Contents angenommen). 12
Communities sind Graphen mit Kantengewichten Mit der Definition werden Kantengewichte auf Gewichte zwischen Teilmengen von Knoten erweitert w(v) ist der Grad von v 13
Nachbarschaften von u und v N(U) enthält alle echten Nachbarn von U, d.h. alle Knoten, die kein Element von U sind und zu Knoten in U benachbart sind. 14
Communities nach Flake [2, 3] 15
Ein Beispiel 16
Minimale Schnitte Communities (in dem definierten Sinne) können mit Hilfe von minimalen Schnitten berechnet werden. 17
Ein Beispiel 18
Definition s-t-schnitt Seien s und t zwei Knoten und S ein minimaler s-t-schnitt. Gilt w(s, S) w(s) dann ist S eine Community. 19
Ein Beispiel 20
Minimale Schnitte und maximaler Fluss Satz von Ford-Fulkerson Das Gewicht eines minimalen s-t-schnittes ist genau die Kapazität eines maximalen Flusses von s nach t. 21
Algorithmus für die Berechnung von Communities Führe eine künstliche Quelle s und eine künstliche Senke t ein: Wähle eine Menge S V von Seiten, die Saat, und einen Parameter α. s wird mit jedem Knoten in S verbunden. Die Kanten erhalten unendliche Kapazität. t wird mit allen Knoten des ursprünglichen Graphen verbunden. Die Kanten erhalten Kapazität α. Berechne einen maximalen s-t-fluss. C sei die Menge aller Knoten in der Komponente, die s enthält, nachdem alle Kanten des Flusses entfernt wurden. Falls S C gilt, ist C eine Community. 22
Eigenschaften des Verfahrens Der maximale Fluss zwischen zwei Knoten s und t eines gerichteten und gewichteten Graphen G = (V,E) lässt sich in Zeit O( V E 2 ) berechnen. Sei C eine Community, die mit dem vorhergehenden Verfahren und Paramter α konstruiert wurde. Dann gilt für alle P,Q mit P Q = C und P Q = 0 c S,V S c P,Q V S α min P, Q 23
Einfluss von α Wenn α zu klein ist, liefert der Algorithmus nur ein einzelnes großes Cluster zurück; Wenn α zu groß ist, liefert der Algorithmus nur eine Vielzahl an einzelnen Singletons zurück Der (für eine Anwendung) richtige Wert muss experimentell bestimmt werden. 24
Beispiel: Jugendschutz 25
ChatAG Auswertung von Daten aus der moderierten Chat AG in Kooperation mit dem Institut für Medienpädagogik der Ulei Textstatistik ChatAG de_web de_07 # Zeilen / Sätze 1.812.816 1.812.816 1.812.816 # Wortformen 21.455.788 44.033.392 47.620.998 Durchschnittliche Satzlänge 11,84 24,29 26,27 # verschiedene Wörter 31.625 1.239.762 1.866.076 Häufigstes Wort du und der Weiterführende Statistik: ChatAG: Bei nur 31T verschiedenen Wörter können 362T Mehrwortbegriffe extrahiert werden (maximale Länge: 6 Wörter) Bei de07 und deweb werden gerade einmal knapp 200T Mehrwortbegriffe extrahiert 26
Vorgehen Berechnung von relevanten Termen (Differenzanalyse) Extraktion von Eigennamen Berechnung von Kookkurrenzen Clustern von Kookkurrenzen mit Chinese Whispers Analyse der so erzeugten Cluster (Communities) 27
Beispiele aus dem ChatAG-Korpus Personenkookkurrenzen 28
Personencluster globale Sicht 29
Personencluster - Symmetrie 30
Personencluster Asymmetrie 31
Personencluster mit Namen 32
Personencluster Mikrosicht 33
11.05.02 11.03.02 11.01.02 11.11.01 11.09.01 11.07.01 11.05.01 11.03.01 11.01.01 11.11.00 11.09.00 11.07.00 11.05.00 11.03.00 11.01.00 11.11.99 11.09.99 11.07.99 11.05.99 Analyse sozialer Netzwerke Social Network Analysis kritische Gravitationszentren Die Diskussion um das Thema X verbreitet sich nur in bestimmten Teilen des Netzes. (Farbe: Quellen-Typus, Grösse: Zentralität) Wachstum der Diskussion um das Thema X 25 20 15 10 5 22 22 22 22 22 2 22 Authors discussing keyword 19 2 Per. Gleitender Durchschnitt (Authors discussing keyword) 15 15 12 12 12 8 7 7 7 7 7 7 6 6 6 3 2 0 0 0 0 0 0 0 34
Integrierter Ansatz für realistische Projekte Content & Usage based Metrics SNA based Metrics Page impressions User Session duration Share Active users/passive readers Length of text Content: proximity to popular topic Share of unwanted terms Size of user groups grouped by external ref. Content: proximity to category Comment: proximity to story Spelling quality Profile Completeness Number of tags Term collection for topic categories Term collection for emerging topic category Story Popularity (Content>Story) Average story popularity ContentPopularity/tim e Comment (increase Popularity citations) (Content>Comments) Average comment popularity Actor Productivity (Activity) User Popularity (citations) User Popularity/time (increase citations) User Work Centrality (embeddedness) User Social Centrality (embeddedness) Work/Social Popularity Correlation Number of users and contents + Integrated Metrics People/Groups centrally related to unwanted content (risk index) Active popularity vs. passive readership of a content object High popularity AND low quality 35
Textklassifikation Content Issue-Taxonomy Drawingizlife, 23 March 2009 @ 02:15 am: im not supposed to post here until im 10 lbs lighter (and so far i'm only 1 lmao) but god i cannot sleep i know i wont be able to fall asleep so im just going to exercise up until i have to go to school Klassifikation Pornographisch 4% Rechtsradikal 1% Gewaltverherrlichung 2% Mobbing 5% Pro-Ana 85% 36
Trendanalyse Zeugnis (Grundlage Seitenstark) 37
Trendanalyse wichtige Themen (Grundlage Seitenstark) 38
Mögliche Anwendungen im Jugendschutz Sperren bzw. Weiterleiten von Seiten Erstellung von Nutzer- und Seitenprofilen Beobachtung bestimmter Teilnehmer Trendanalysen 39
Literatur [1] Kaplan, Andreas M.; Michael Haenlein (2010) "Users of the world, unite! The challenges and opportunities of Social Media". Business Horizons 53(1): 59 68. [2] Gary Flake, Steve Lawrence, C. Lee Giles, Efficient identification of Web Communities, SIGKDD 2000 [3] G.W. Flake, K. Tsioutsiouliklis, R.E. Tarjan, Graph Clustering Techniques based on Minimum Cut Trees, Internet Mathematics, Volume 1, Issue 4, 2004 40