Data Science Made in Berlin Dr. Thomas Hoppe

Größe: px

Ab Seite anzeigen:

Download "Data Science Made in Berlin Dr. Thomas Hoppe"

Hilke Hummel
vor 6 Jahren
Abrufe

1 Data Science Made in Berlin Dr. Thomas Hoppe

2 Reales Problem der Klassifikation Smart Content durch Data Science Evaluation der Güte der Lösung

3 Inspired by Drew Conway

4 Datenaufbereitung Datenanalyse Social Network Analysis Data Mining Algorithm Engineering Knowledge Engineering

5 994 Miramax Films

6 say big data once more CC-BY-SA David Blackwell Flickr

7 Big Data braucht Data Science, aber Data Science braucht keine Big Data

8 Weiterbildungsangebote Weiterbildungsdatenbank Berlin-Brandenburg Zukunftscluster

10 Weiterbildungsangebote durch Anbieter klassifiziert klassifiziert & dublettenfrei

11 Automatischer Upload Aufwand wird gemieden Willkürliche Zuordnung Fragwürdige Qualität

12 Bestpassende Cluster Vermeidung manuellen Aufwands Hohe Genauigkeit CC-BY-SA Peter Hamer Flickr

13 Nutzung eines überwachten Lernverfahrens Erlernen eines Klassifikationsmodells Validierung und Evaluation der Qualität

14 Trainigsbeispiele Lernalgorithmus Modell Neue Fälle Vorhersagealgorithmus R

15 Mangelhafte Klassifikationsqualität bzgl. Zukunftsfelder Zusatzaufwand für manuelle Klassifikation

17 Semantisches Modell um Clusterbegriffe erweitern Ableitung des Klassifikationsmodells Validierung und Evaluation der Qualität

18 Begriffe aus externen Quellen Dokumente Cluster Clusterbegriffe + Zentralität Dokumente Cluster 2 Extraktion Semantisches Modell Text Mining /Modellierung Clusterbegriffe + Zentralität Dokumente Cluster n Semantische Suche Clusterbegriffe + Zentralität

19 . Dokumentenrecherche 2. Text Mining 3. Begriffssichtung 4. Begriffsrecherche 5. Begriffsmodellierung

extrahiert & abgestimmt zusätzlich modelliert Gesamt Ernährung 25 34 385 Life Science & Health.36 432.

20 extrahiert & abgestimmt zusätzlich modelliert Gesamt Ernährung Life Science & Health IKT und Kreativwirtschaft Kunststoff & Chemie Metall Optik & Mikrosystemtechnik Energie- und Umwelttechnik Tourismus Verkehr, Mobilität, Logistik Gesamt

22 .300 Konzepte Bezeichnungen generierte, erkennbare Schreibvarianten >> Stemming, Normalform

24 Begriffe aus externen Quellen Dokumente Cluster Clusterbegriffe + Zentralität Dokumente Cluster 2 Text Mining /Modellierung Semantisches Modell Extraktion Clusterbegriffe + Zentralität Dokumente Cluster n Semantische Suche Clusterbegriffe + Zentralität

25 Häufigkeit der Verwendung eines Begriffes zur Definition anderer Begriffe

27 KWEA Kleinwindenergiea. Windenergieanlage Flugwindkraftanlage Rotorblatt

28 KWEA Kleinwindenergiea. Windenergieanlage Flugwindkraftanlage Rotorblatt 2 2

29 KWEA Kleinwindenergiea. Windenergieanlage Flugwindkraftanlage Rotorblatt 2 2 2

30 KWEA Kleinwindenergiea. Windenergieanlage Flugwindkraftanlage Rotorblatt 3 2 2

31 KWEA Kleinwindenergiea. Windenergieanlage Flugwindkraftanlage Rotorblatt 4 2 2

32 Windenergieanlage 4 Kleinwindenergieanlage 2 KWEA 2 Flugwindkraftanlage Rotorblatt Windpark Windenergie Windkraftmaschine Stromerzeugungsanlage Windkraftanlage Windanlage WKA Windkraftkonverter WEA Windkraftwerk Annotation eines virtuellen, das Cluster beschreibenden Dokuments

34 *Autom. Verschlagwortung, Entity Recognition, Fingerprinting, Footprinting,

35 Clusterbegriffe + Zentralität Verrechnung zu Scores Klassifik. Modell Neue Angebote Clusterbegriffe + Zentralität Vorhersagealgorithmus Clusterbegriffe + Zentralität R

36 3.500 dublettenfrei & Anbieter klassifiziert mit fragwürdiger Qualität für Optimierung 700 manuell reklassifiziert für Evaluation

37 Ähnlichkeitsmaße Naïve Bayes Cosinusähnlichkeit Berücksichtigung der Termfrequenz Löschung zu allgemeiner Begriffe

38 700 Angebote manuell klassifiziert 600 (von 700) den Clustern zugeordnet Bewertung Accuracy Precision Recall Konfidenzintervallen

39 Automatische Klassifikation Ernährung Kunststoff/Chemie Optik/Mikrosystemtechnik Tourismus Zuordnung zu Clustern Ernährung Gesundheitsw. IKT Kunststoff Metall Optik Tourismus Energie- /Umwelt Verkehr Summe Ernährung Gesundheitsw IKT Kunststoff Metall Optik Tourismus Energie-/Umwelt Verkehr Summe Precision/ Genauigkeit Recall/ Trefferquote 30,00% 93,22% 84,73% 0,00% 90,77% 0,00% 43,75% 83,87% 96,39% Accuracy 23,08% 92,44% 84,09% 0,00% 90,77% 0,00% 00,00% 72,22% 8,63% 85,50%

unspezifischer Weiterbildungsangebote Aussagen über verlässlich

42 + Cosinusmaß anstelle Naïve Bayes + Hohe Klassifikationsgüte erzielbar Cluster mangels Daten nicht bewertbar Zuordnung unspezifischer Weiterbildungsangebote Aussagen über verlässlich klassifizierbare Cluster nutzen Beispiele für nicht-verlässliche Cluster erheben

43 Unterstützung bei der Entwicklung Aussage über Güte und Verlässlichkeit der Lösung Überwachung von Veränderungen in den Daten

44 CC-BY-ND Vitorio Benedett Flickr

Ähnliche Dokumente

Risiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe

Risiken bei der Analyse sehr großer Datenmengen Dr. Thomas Hoppe Datenaufbereitung Datenanalyse Data Mining Data Science Big Data Risiken der Analyse Sammlung Integration Transformation Fehlerbereinigung