Text Mining - Wissensrohstoff Text

Ähnliche Dokumente
Internet Thementag Social Media an Hochschulen. Was ist Social Media? Ein Überblick. Christoph Zehetleitner

Aus rechtlichen Gründen sind nur vereinzelnd Bildinhalte verfügbar.

Algorithmentheorie Maximale Flüsse

Team Collaboration im Web 2.0

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

Enterprise Social Network. Social Media im Unternehmen

ANALYSIEREN VON SOCIAL MEDIA AKTIVITÄTEN

Science 2.0 Eine Einführung

Wie Web 2.0 und Suche zusammenwachsen. Prof. Dr. Dirk Lewandowski

Web 2.0 als Marketing Instrument Der Erfolg gibt uns recht!

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

#twittwoch #leipzig #220910

Konzepte der Informatik

Ursula Coester // Social Media Institute / Chancen für den Einsatz von Social Media im Handel

Exploration und Klassifikation von BigData

Maximizing the Spread of Influence through a Social Network

Wie Google Webseiten bewertet. François Bry

Online Relations. Kundenkommunikation im sozialen Web. Online Relations 1

Internetseite & Online Marketing

Berlin, Get Social!

Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen

Social Business What is it?

Frauenwirtschaftstag Wie kann ich Social Networking als Marketing Instrument nutzen?

Algorithmen & Datenstrukturen 1. Klausur

Algorithmische Mathematik

Gewinnen Sie in Dynamics CRM Erkenntnisse über Ihre Kunden und Ihr Unternehmen im gesamten Social Web in Echtzeit. Version 3.0

Twittern, bloggen, interagieren - das neue Web 2.0 Twittern, bloggen, interagieren - das neue Web 2.0

Petri-Netze / Eine Einführung (Teil 2)

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Feedback in Echtzeit. Social Media Monitoring Services von Infopaq. SOCIAL MEDIA

Social Media für EPUs. Neue Kommunikationskanäle jenseits von Facebook, Xing und Twitter. gerlach&co

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Anmerkungen zur Übergangsprüfung

Wasserfall-Ansätze zur Bildsegmentierung

Erfolgreiche Tourismus-Kommunikation im (Social) Web (2.0) 2011 F.F.T. MedienAgentur 1

Teil III: Routing - Inhalt I. Literatur. Geometric Routing. Voraussetzungen. Unit Disk Graph (UDG) Geometric Routing 29

Staatskanzlei des Kantons Zürich. Kommunikationsabteilung des Regierungsrates

Knowledge Management in der Technischen Dokumentation. Knowledge Management in der Technischen Dokumentation

Unternehmen und Social Media

1. Was ist Social-Media? 2. Die 7-Social-Media-Bausteine. 3. Anwendungen. 4. Plattformen. 5. Vorstellung einiger Plattformen

Kunden im Dickicht der sozialen Netzwerke finden und binden - Content-Pushen ist out, eine perfekte Context- Strategie entscheidet über Ihren Erfolg

Maximaler Fluß und minimaler Schnitt. Von Sebastian Thurm

Wie wichtig ist Social Media Marketing für mein Google Ranking?

Anwendung: Multiplikatoren-Report

Social Intranets und Enterprise 2.0

Social CRM - Hype oder Notwendigkeit? Dr. Elmar Stenzel, Steria

Wer spricht mit wem? Kooperations- Controlling per Netzwerkanalyse. Ralph Klocke PZN Kooperationsberatung.

WS 2009/10. Diskrete Strukturen

Fragebogen für eine qualitative/quantitative Befragung zur Mediencommunity 2.0 aus Sicht der Lernenden

Mister Wong Eine Community schafft eine Ergänzung zu klassischen Suchmaschinen

File Carving für Mediendateien. Multimedia Sicherheit, Martin Steinebach

Traditionelle Suchmaschinenoptimierung (SEO)

Auf dem Weg zur Bibliothek 2.0: Wie Bibliotheken den Dialog mit ihren Nutzer/innen aktiv gestalten

Das Social Semantic Web

WEBTEXTEN. Tipps und Tricks rund um das Webtexten. Version 1 / April 2014 gutgemacht.at Digitalmarketing GmbH

Social-CRM (SCRM) im Überblick

Enterprise 2.0 Redefinition der Wissensorganisation oder alter Wein in neuen Schläuchen? 9. Publishers Forum, 23. April 2012, Berlin

Freunde, Fans und Faszinationen: Das Potenzial von Social Media

OPAC 2.0 die Grundlagen: Web 2.0-Technologien und ihre Anwendung im Bibliothekskatalog

Algorithmen und Datenstrukturen 2

6. November 2013 Maik Bruns, Bloofusion Germany Schnell nach oben mit SEO Mythos vs. Realität

Information Systems Engineering Seminar

Selbsthilfe und neue Medien - Chance oder Risiko?

connect.basf Chemie, die verbindet Marlene Wolf Community Management connect.basf 7. November 2013

Stadtarchiv Web2.0 Aus der social-media-praxis eines Kommunalarchivs (Kassel, Nov. 2012) Zunächst ein Zitat

Wissensmanagement 2.0.

Die Zukunft der Arbeit ist dabei. Your time, our technologies

Entwicklung der Technologie, die dezentrale Diskussionen (in verschiedenen Sprachen) über ein gemeinsames Thema zusammenführt.

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH

Ergebnisse. Umfrage Kurz-Statistiken Umfrage 'Feedback und Entertain 2.0'

Von Web 2.0 zum User 2.0

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie

Service CASES. Praxis-Beispiele zur Gestaltung eines echten Kundennutzens. Volume 18

SEO. am Beispiel von. Jürgen Schlott

Social Media Strategie. Projektplanung Einige Schritte für den Start

Expertenstudie Social Media

re-lounge GmbH MEDIENBÜRO

Suisse-Emex Social Media in Hotellerie & Gastronomie

Acht Gute Gründe für Integration und einen Content Backbone

Marketing mit Umweltthemen Social Media Marketing

QS solutions GmbH. präsentiert das Zusammenspiel von. Ihr Partner im Relationship Management

Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

Kurzanweisung für Google Analytics

SOCIAL MEDIA ALS AKQUISETOOL. Frankfurt,

facebook wie geht das eigentlich? Und was ist überhaupt Social media?

Software-Engineering SS03. Zustandsautomat

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Komplexe Netzwerke Robustheit

WEB Potentiale und Gefahren von social media! Was steckt hinter den Begriffen Web 2.0, social media, soziale Netzwerke?

Natural Realtime, Universal & Blended Search SEO Sorgen Sie dafür, dass Ihr Content schneller und besser gefunden wird!

Kommission Digitale Medien der Deutschen Fachpresse. Blitz-Umfrage Thema: Social Media in Fachverlagen

Algorithmen II Vorlesung am

Social Media und die Veränderung der Kommunikation

PERSONALIZED NETWORK SOCIAL NETWORK

WS 2013/14. Diskrete Strukturen

SMO Services. Mehr Erfolg durch Social Media Optimization (SMO) von dmc Steigerung von Umsatz Erhöhung der Markenbekanntheit


Transkript:

Text Mining - Wissensrohstoff Text Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik

Definitionen soziale Netzwerke 2

Soziale Netzwerke Mit dem Terminus soziale Netzwerke werden Internetanwendungen bezeichnet, die auf den technologischen und ideologischen Grundlagen des Web 2.0 aufbauen und die Herstellung und den Austausch von User Generated Content ermöglichen [1] Hierzu zählen insbesondere Blogs Microblogs (Twitter) Foren Bewertungsportale (Ciao, Amazon) Social Bookmarks (Delicious, Mr. Wong) Multimedia Sharing (Youtube, Flickr) Chats Wikis (Wikipedia) 3

Blogs Eigenschaften/Besonderheiten: Journalistisch Chronologisch Freie Gestaltung Tags Kommentare Vernetzung ( Blogosphäre ) Feeds 4

Foren Eigenschaften/Besonderheiten : Themenspezifisch Fokus auf Diskussion Hierarchisch strukturiert (Forum, Thread/Topic, Post) Zitate Views/Hits 5

Twitter Eigenschaften/Besonderheiten: Echtzeit -Kommunikation Chronologisch Auf 140 Zeichen beschränkt Follower/Following Retweet/Reply Hashtags 6

Ziele Identifizieren von Communities und deren Ausbreitung Beobachtung von Meinungen und Meinungstrends Beobachtung des Entstehens neuer Themen Identifizieren von Meinungsmachern Konkrete Anwendungen u.a. im Bereich Marketing Technologie Mining Öffentliche Sicherheit Jugendschutz Enge Verbindung zu Autorenerkennung, Topic Detection und Tracking, Sentiment Analyse 7

Daten, Content, Metadaten Netzwerk-bezogen: Vernetzungsgrad, Expert-Score, Credibility-Score, Meta-Daten-bezogene QA: Tags, Verlinkung, Bewertungen Video Bild Contentbezogen: Anzahl Tags, Stickiness,.. Content-bezogene QA: Unerwünschter Content, Schreibstil, User-bezogen: Engagement- Score, RFM- Score, Externe : Verlinkung, Vernetzung, Bewertungen, 8

Semantic Structure Analyse sozialer Netzwerke Vernetzung von Daten und Beziehungen DATA CONNECTIVITY QM/ QA Taxonomie... Meta Data Management Business/ Content Intelligence TEXT Mining SCHAFT DUCH INTEGRATION NEUE MÖGLIICHKEITEN DER INTELLIGENTEN NUTZUNG DES WEB Tagging Wiki Blogs Folksonomie Collective Intelligence WEB 1.0 WEB 2.0... SOCIAL CONNECTIVITY 9

Aufgaben Merkmalsextraktion (z.b. Key Term Extraction, ) Generierung und Repräsentation von Metadaten (z.b. FOAF) Algorithmen für die Generierung und Analyse komplexer Graphen Einbindung von Trend Analysen und Sentiment Analysis Benutzungsoberflächen 10

Communities 11

Definition Virtuelle Gemeinschaft mit vielen Nutzern. Technisch ist eine Community eine Menge von Nutzern/ Dokumenten/ Contents, die stärker innerhalb der Community, als ausserhalb der Community verbunden sind. (Hierbei wird ein enger Zusammenhang zwischen den Menschen und den von ihnen genutzten bzw. generierten Contents angenommen). 12

Communities sind Graphen mit Kantengewichten Mit der Definition werden Kantengewichte auf Gewichte zwischen Teilmengen von Knoten erweitert w(v) ist der Grad von v 13

Nachbarschaften von u und v N(U) enthält alle echten Nachbarn von U, d.h. alle Knoten, die kein Element von U sind und zu Knoten in U benachbart sind. 14

Communities nach Flake [2, 3] 15

Ein Beispiel 16

Minimale Schnitte Communities (in dem definierten Sinne) können mit Hilfe von minimalen Schnitten berechnet werden. 17

Ein Beispiel 18

Definition s-t-schnitt Seien s und t zwei Knoten und S ein minimaler s-t-schnitt. Gilt w(s, S) w(s) dann ist S eine Community. 19

Ein Beispiel 20

Minimale Schnitte und maximaler Fluss Satz von Ford-Fulkerson Das Gewicht eines minimalen s-t-schnittes ist genau die Kapazität eines maximalen Flusses von s nach t. 21

Algorithmus für die Berechnung von Communities Führe eine künstliche Quelle s und eine künstliche Senke t ein: Wähle eine Menge S V von Seiten, die Saat, und einen Parameter α. s wird mit jedem Knoten in S verbunden. Die Kanten erhalten unendliche Kapazität. t wird mit allen Knoten des ursprünglichen Graphen verbunden. Die Kanten erhalten Kapazität α. Berechne einen maximalen s-t-fluss. C sei die Menge aller Knoten in der Komponente, die s enthält, nachdem alle Kanten des Flusses entfernt wurden. Falls S C gilt, ist C eine Community. 22

Eigenschaften des Verfahrens Der maximale Fluss zwischen zwei Knoten s und t eines gerichteten und gewichteten Graphen G = (V,E) lässt sich in Zeit O( V E 2 ) berechnen. Sei C eine Community, die mit dem vorhergehenden Verfahren und Paramter α konstruiert wurde. Dann gilt für alle P,Q mit P Q = C und P Q = 0 c S,V S c P,Q V S α min P, Q 23

Einfluss von α Wenn α zu klein ist, liefert der Algorithmus nur ein einzelnes großes Cluster zurück; Wenn α zu groß ist, liefert der Algorithmus nur eine Vielzahl an einzelnen Singletons zurück Der (für eine Anwendung) richtige Wert muss experimentell bestimmt werden. 24

Beispiel: Jugendschutz 25

ChatAG Auswertung von Daten aus der moderierten Chat AG in Kooperation mit dem Institut für Medienpädagogik der Ulei Textstatistik ChatAG de_web de_07 # Zeilen / Sätze 1.812.816 1.812.816 1.812.816 # Wortformen 21.455.788 44.033.392 47.620.998 Durchschnittliche Satzlänge 11,84 24,29 26,27 # verschiedene Wörter 31.625 1.239.762 1.866.076 Häufigstes Wort du und der Weiterführende Statistik: ChatAG: Bei nur 31T verschiedenen Wörter können 362T Mehrwortbegriffe extrahiert werden (maximale Länge: 6 Wörter) Bei de07 und deweb werden gerade einmal knapp 200T Mehrwortbegriffe extrahiert 26

Vorgehen Berechnung von relevanten Termen (Differenzanalyse) Extraktion von Eigennamen Berechnung von Kookkurrenzen Clustern von Kookkurrenzen mit Chinese Whispers Analyse der so erzeugten Cluster (Communities) 27

Beispiele aus dem ChatAG-Korpus Personenkookkurrenzen 28

Personencluster globale Sicht 29

Personencluster - Symmetrie 30

Personencluster Asymmetrie 31

Personencluster mit Namen 32

Personencluster Mikrosicht 33

11.05.02 11.03.02 11.01.02 11.11.01 11.09.01 11.07.01 11.05.01 11.03.01 11.01.01 11.11.00 11.09.00 11.07.00 11.05.00 11.03.00 11.01.00 11.11.99 11.09.99 11.07.99 11.05.99 Analyse sozialer Netzwerke Social Network Analysis kritische Gravitationszentren Die Diskussion um das Thema X verbreitet sich nur in bestimmten Teilen des Netzes. (Farbe: Quellen-Typus, Grösse: Zentralität) Wachstum der Diskussion um das Thema X 25 20 15 10 5 22 22 22 22 22 2 22 Authors discussing keyword 19 2 Per. Gleitender Durchschnitt (Authors discussing keyword) 15 15 12 12 12 8 7 7 7 7 7 7 6 6 6 3 2 0 0 0 0 0 0 0 34

Integrierter Ansatz für realistische Projekte Content & Usage based Metrics SNA based Metrics Page impressions User Session duration Share Active users/passive readers Length of text Content: proximity to popular topic Share of unwanted terms Size of user groups grouped by external ref. Content: proximity to category Comment: proximity to story Spelling quality Profile Completeness Number of tags Term collection for topic categories Term collection for emerging topic category Story Popularity (Content>Story) Average story popularity ContentPopularity/tim e Comment (increase Popularity citations) (Content>Comments) Average comment popularity Actor Productivity (Activity) User Popularity (citations) User Popularity/time (increase citations) User Work Centrality (embeddedness) User Social Centrality (embeddedness) Work/Social Popularity Correlation Number of users and contents + Integrated Metrics People/Groups centrally related to unwanted content (risk index) Active popularity vs. passive readership of a content object High popularity AND low quality 35

Textklassifikation Content Issue-Taxonomy Drawingizlife, 23 March 2009 @ 02:15 am: im not supposed to post here until im 10 lbs lighter (and so far i'm only 1 lmao) but god i cannot sleep i know i wont be able to fall asleep so im just going to exercise up until i have to go to school Klassifikation Pornographisch 4% Rechtsradikal 1% Gewaltverherrlichung 2% Mobbing 5% Pro-Ana 85% 36

Trendanalyse Zeugnis (Grundlage Seitenstark) 37

Trendanalyse wichtige Themen (Grundlage Seitenstark) 38

Mögliche Anwendungen im Jugendschutz Sperren bzw. Weiterleiten von Seiten Erstellung von Nutzer- und Seitenprofilen Beobachtung bestimmter Teilnehmer Trendanalysen 39

Literatur [1] Kaplan, Andreas M.; Michael Haenlein (2010) "Users of the world, unite! The challenges and opportunities of Social Media". Business Horizons 53(1): 59 68. [2] Gary Flake, Steve Lawrence, C. Lee Giles, Efficient identification of Web Communities, SIGKDD 2000 [3] G.W. Flake, K. Tsioutsiouliklis, R.E. Tarjan, Graph Clustering Techniques based on Minimum Cut Trees, Internet Mathematics, Volume 1, Issue 4, 2004 40