Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome



Ähnliche Dokumente
Text Mining für News-Sites Nina Hälker

Social Monitoring. HAW Hamburg Hochschule für Angewandte Wissenschaften University of Applied Sciences Master Informatik - Anwendungen 1 WS 2013/2014

Text-Mining: Einführung

Kurze Einführung in Web Data Mining

Ausarbeitung AW1 - WiSe 2013/2014

Text Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014

Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume

Generierung von sozialen Netzwerken. Steffen Brauer WiSe 2011/12 HAW Hamburg

Predictive Modeling Markup Language. Thomas Morandell

OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH

Big Data - Datenquellen und Anwendungen

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery


Detecting Near Duplicates for Web Crawling

Lehrveranstaltungsverzeichnis für den Studienplan 921 Masterstudium Informatik (03W) 15W

Complex Event Processing

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Social Media as Sensors. Nikolai Bock FOSSGIS 2014

Semantische Suche auf einem Web-Korpus

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Mensch-Maschine-Interaktion 2 Übung 1

Wie wichtig ist Social Media Marketing für mein Google Ranking?

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Visual Analytics: Personalisierung im E- Commerce

Big-Data and Data-driven Business KMUs und Big Data Imagine bits of tomorrow 2015

Redaktionelles Arbeiten auf Basis von Big-Data Methoden aus der Rundfunk/Fernseh-Perspektive

Natural Realtime, Universal & Blended Search SEO Sorgen Sie dafür, dass Ihr Content schneller und besser gefunden wird!

Thementisch Anwendungsgebiete und

Datenanalyse im Web. Einführung in das Thema. Prof. Dr. Ingo Claÿen. Beispiele für Daten im Web. Extraktion und Aggregation von Informationen

Mastering Social Media, Web, Satellite and Spatial Data with R. Dr. Martin Vogt Seminar

Seminar im Sommersemester 2012 Prozessanalyse und Privatheit in Workflowmanagementsystemen

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Social SEO Intelligente Verknüpfung von Suchmaschinen und Social Media

2. Twitterdaten Korpuserstellung

Living Lab Big Data Konzeption einer Experimentierplattform

Usability von Bedienkonzepten auf Tablets

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

DCS-3110 EVENT SETUP

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

DATEN NARRATION. HAW Hamburg Department Informa9k Next Media. Jessica Broscheit,

MCP Managing Conference Proceedings

Complex Event Processing für intelligente mobile M2M- Kommunikation

Social Media Intelligence - eine neue Form der Informationsbeschaffung

Graphalgorithmen in massiv parallelen Umgebungen

Google findet Teilen gut? Eine empirische Studie zum Einfluss von Facebook- Shares und Co. auf das organische Ranking von Suchmaschinen

Big Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen

Der Weg zur Erfolgsformel im Performance Marketing: Multi-Kanal-Optimierung. Ralph Klin E-Marketing-Tag des bvh Berlin

ANALYSIEREN VON SOCIAL MEDIA AKTIVITÄTEN

Oracle 9i Real Application Clusters

Gegenwart und Zukunft

Seminar Datenbanksysteme

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot

Large Scale Data Management

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

Sozio- Technische Systeme

Vorhersage mit CA CleverPath Predictive Analysis Server. Laszlo Mihalka Senior Consultant

Studierende, die diese Vorlesung hören, haben sich auch für folgende Lehrveranstaltungen interessiert:

Text Mining Praktikum. Durchführung: Andreas Niekler Zimmer: Paulinum (P) 818

WEKA A Machine Learning Interface for Data Mining

Big & Smart Data. bernard.bekavac@htwchur.ch

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Big und Smart Data für Hochschulforschung und Hochschulmanagement

Mobile! Usability Testing for Innovative Interfaces!

Die EnMAP-Box Ziele, Stand der Entwicklung und Ausblick

Apache HBase. A BigTable Column Store on top of Hadoop

Recherche Texte und Grafiken dürfen ausschließlich unter Angabe der Quelle und nach Rücksprache übernommen werden: news aktuell GmbH

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Event Stream Processing & Complex Event Processing. Dirk Bade

Web-Recherche WS 2015/ Veranstaltung 29. Oktober 2015

Social Media-Trendmonitor

vinsight BIG DATA Solution

Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten

Wissenschaftliches Arbeiten ( )

Erkennung von Kontext aus Sensordaten in einer intelligenten Wohnung

Wie Google Webseiten bewertet. François Bry

SOCIAL MEDIA & PHOTOGRAPHY BOOTCAMP. Social Media & Fotografie. Workshop für Unternehmer & Mitarbeiter

Wie Amazon mit Hilfe von Technologie und Daten erfolgreich ist Startup Firmen in Deutschland und weltweit haben Agilität, Innovation und globale

Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen. Frank Irnich SAP Deutschland

Betrieb komplexer IT-Systeme

Cross-Channel-Marketing und Customer Journey

Ist Ihre Mainframe Anwendungs- Umgebung wirklich so effizient, wie Sie denken?

APTs: Sind gezielte Angriffe normal? Jürgen Eckel Helene Hochrieser

Sponsoring-Informationen. Projektleitung Larissa Oßwald 089 / Larissa.osswald@nmg.de

Data/Information Quality Management

Mit In-Memory Technologie zu neuen Business Innovationen. Stephan Brand, VP HANA P&D, SAP AG May, 2014

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

BIG DATA STREAMING BIG DATA CHALLENGES. Big Data PROF. DR. E. RAHM UND MITARBEITER WS 2016/17. Volume Petabytes / exabytes of data

Effiziente Presse- und Öffentlichkeitsarbeit für KMU

Engineer Your Sound! Jugendliche erkunden Audio- und Videotechnologie. Birgit Hofstätter

Big Data Mythen und Fakten

Internet der Dinge (Internet of Things, IoT)

Der Mensch im Fokus: Möglichkeiten der Selbstkontrolle von Datenschutz und Datensicherheit durch den Anwender

Social Media in University Communication

Der Ü- Wagen in der Cloud

IMPULS AM VORMITTAG. Smart Grids 2.0, Österreich als Leitmarkt und Leitanbieter 27. Februar 2014

Exploration und Klassifikation von BigData

Item-based Collaborative Filtering

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Big Data Projekte richtig managen!

Transkript:

Big Data bei unstrukturierten Daten AW1 Vortrag Sebastian Krome

Agenda Wiederholung Aspekte von Big Data Datenverarbeitungsprozess TextMining Aktuelle Paper Identification of Live News Events Using Twitter Open Domain Event Extraction From Twitter Ausblick Konferenzen

Wiederholung Big Data Volume MB GB TB PB Velocity batch peridoic near realtime realtime Variety table database audio social [7]

Wiederholung Big Data Volume MB GB TB PB Velocity batch peridoic near realtime realtime Variety table database social Audio Veracity [7]

Datenverarbeitungsprozesse acquire parse filter mine respresent refine interact angeleht an [5]

Text Mining In Text enthaltenes Wissen extrahieren Unter Nutzung von Statistischen Verfahren Musterbasierten Verfahren Anwendungen Klassifikation Clustering Information Extraction

Text Mining und Twitter Herausforderungen Redundante Informationen Uninteressante Informationen (Alltägliches) Umgangssprache, Rechtschreibung Fehlen von Kontext Zuverlässigkeit/Glaubwürdigkeit Chancen Kurze Tweets Keine komplexe Struktur

Identification of Live News Events Using Twitter [4], Jackoway et al. Fragestellungen Welche Tweets sind für die Masse interessant? Welche Tweets betreffen ein reales Ereignis? Wie Zuverlässig sind die Informationen? Verbindung von traditionellen Zeitungsartikeln und Twitter Zeitung Extrahieren von Events Twitter live-updates zu Events

Identification of Live News Events Using Twitter [4], Jackoway et al. Basiert auf NewsStand Zukünftige Ereignisse in Zeitungsartikeln finden Extrahieren von Keywords zu Ereignissen charakteristische Merkmale Live-Updates durch Tweets Input: Tweets, die min. 1 Keyword enthalten 1. Grobfilterung Junk/News 2. Tweet einem Event zuordnen oder verwerfen Winkel zwischen Vektoren (Cosinus-Maß)

Open Domain Event Extraction From Twitter [2], Ritter et al. 4-Tupel aus Tweet extrahieren Named Entity Event Phrase Date Type [2]

Open Domain Event Extraction From Twitter [2 ], Ritter et al. [2]

Ausblick Zunächst Twitter Intelligente Formel 1 Tisch Master Next Media Später? Evtl. Zusammenarbeit Signal Iduna

Konferenzen KDD International Conference on Knowledge Discovery and Data Mining WSDM International Conference on Web Search and Data Mining WWW Word Wide Web Conference (ISC Big Data) HT ACM Conference on Hypertext and Social Media

Quellen Twitter Textmining [1] Fabian Abel, Claudia Hauff, Geert-Jan Houben, Richard Stronkman, and Ke Tao. 2012. Semantics + filtering + search = twitcident. exploring information in social web streams. In Proceedings of the 23rd ACM conference on Hypertext and social media (HT '12). ACM, New York, NY, USA, 285-294. DOI=10.1145/2309996.2310043 http://doi.acm.org/10.1145/2309996.2310043 [2] Alan Ritter, Mausam, Oren Etzioni, and Sam Clark. 2012. Open domain event extraction from twitter. In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '12). ACM, New York, NY, USA, 1104-1112. DOI=10.1145/2339530.2339704 http://doi.acm.org/10.1145/2339530.2339704 [3] Takeshi Sakaki, Makoto Okazaki, and Yutaka Matsuo. 2010. Earthquake shakes Twitter users: real-time event detection by social sensors. In Proceedings of the 19th international conference on World wide web (WWW '10). ACM, New York, NY, USA, 851-860. DOI=10.1145/1772690.1772777 http://doi.acm.org/10.1145/1772690.1772777 [4] Alan Jackoway, Hanan Samet, and Jagan Sankaranarayanan. 2011. Identification of live news events using Twitter. In Proceedings of the 3rd ACM SIGSPATIAL International Workshop on Location-Based Social Networks (LBSN '11). ACM, New York, NY, USA, 25-32. DOI=10.1145/2063212.2063224 http://doi.acm.org/10.1145/2063212.2063224 [5] Dimitar Robev. 2013. Visualize me. Java Magazin 10.2013 [6] Alan Ritter, Sam Clark, Mausam, and Oren Etzioni. 2011. Named entity recognition in tweets: an experimental study. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11). Association for Computational Linguistics, Stroudsburg, PA, USA, 1524-1534.

Quellen 2 [7]Big Data http://www.gi.de/nc/service/informatiklexikon/detailansicht/article/big-data.html (1.12.2013) [8] AnHai Doan, Jeffrey F. Naughton, Raghu Ramakrishnan, Akanksha Baid, Xiaoyong Chai, Fei Chen, Ting Chen, Eric Chu, Pedro DeRose, Byron Gao, Chaitanya Gokhale, Jiansheng Huang, Warren Shen, and Ba-Quy Vuong. 2009. Information extraction challenges in managing unstructured data. SIGMOD Rec. 37, 4 (March 2009), 14-20. DOI=10.1145/1519103.1519106 http://doi.acm.org/10.1145/1519103.1519106 [9] Gerhard Heyer, Uw Quasthoff, Thomas Witting. Text Mining: Wissensrohstoff Text: Konzepte, Algorithmen, Ergebnisse. W3L-Verlag. 2008