Department Geoinformation in Environmental Planning Einsatz von Data Mining ein nichtparametrischer Klassifikator in der Umweltanalyse

Ähnliche Dokumente
Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

RapidEye - Das schnelle Auge für das Monitoring von Cross-Compliance-Landschaftselementen?

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

ForestHype Teilprojekt Biodiversität

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Knowledge Discovery. Lösungsblatt 1

Data Mining als Arbeitsprozess

Wissensmanagement. in KMU. Beratung und Produkte GmbH

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

Business Application Framework für SharePoint Der Kern aller PSC-Lösungen

Anwendung der Predictive Analytics

Präsentation: Google-Kalender. Walli Ruedi Knupp Urdorf

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Mining High-Speed Data Streams

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Eliciting Requirements for a Company-wide Data Leakage Prevention System

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Virtual Roundtable: Business Intelligence - Trends

Text-Mining: Einführung

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Datenmigration K1Max (Exchange)

Daten haben wir reichlich! The unbelievable Machine Company 1

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Statistische Auswertung:

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Vorhersagemodell für die Verfügbarkeit von IT-Services

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

Einrichtung HBCI mit PIN/TAN in VR-NetWorld-Software

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Data/Information Quality Management

Anwendung von Wissensmanagement und E-Learning in Unternehmen Lehrbeauftragter: Dipl.-Oec Gerrit Buchenau

SFirm32 Umstellung FTAM EBICS

Verwendung des IDS Backup Systems unter Windows 2000

Die Wirtschaftskrise aus Sicht der Kinder

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester Prof. Dr. R. D. Reiß

IMS - Learning Design

Exploration und Klassifikation von BigData

OECD Programme for International Student Assessment

Umsetzung des OrViA-Frameworks mit ARIS

Arbeitshilfe "Tipps für Gespräche mit Vorgesetzten und KollegInnen" Was gilt für mich?

Lizenzierung von StarMoney 8.0 bzw. StarMoney Business 5.0 durchführen

ERPaaS TM. In nur drei Minuten zur individuellen Lösung und maximaler Flexibilität.

Algorithmische Mathematik

One-class Support Vector Machines

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

HP Software Patch- und Version-Notification

Kontextsensitive und prozessbasierte Unterstützung für Servicetechniker: Vorstellung eines Prototypen mit hoher Usability

Vortrag Diplomarbeit. Testentwurf in komplexen softwareintensiven Systemen mit der Klassifikationsbaummethode. von Rebecca Tiede

Anleitung zur Benutzung des jobup.ch Stellensuchendekontos

Data Mining: Einige Grundlagen aus der Stochastik

Das neue Volume-Flag S (Scannen erforderlich)

Evaluierung der UltraCamX

Quartierbäume. Baumquartiere. Bedeutung und Vorkommen in unseren Wäldern

EXASOL Anwendertreffen 2012

SimPDM Datenmodell im Kontext zu Teamcenter und PLMXML

Stadtvermessung Frankfurt. RGB Bild, 10 cm Pixel. LIDAR DSM, 4 Pkt/m². Version: März 09

Matrikelnr: Name: Vorname: Aufgabe Summe Maximal erreichbare Punktzahl Erreichte Punktzahl. Note:

Daniel Warneke Ein Vortrag im Rahmen des Proseminars Software Pioneers

Unterstützung von Dienstleistung Unternehmen im Rahmen der Exportinitiative Erneuerbare Energien

Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

Terminologie zwischen normativer Referenz und deskriptiver Dokumentation. Dr. Birte Lönneker-Rodman, Across Systems GmbH

Europäischer Fonds für Regionale Entwicklung: EFRE im Bundes-Land Brandenburg vom Jahr 2014 bis für das Jahr 2020 in Leichter Sprache

Das Schulsystem in Deutschland (Band 2, Lektion 1)

Arbeiten mit dem Outlook Add-In

Einleitung Mobilitätsverhalten Daten zum Mobilitätsverhalten Kurze Einführung ins Data Mining Ein Beispiel aus dem Verkehrsbereich

Integriertes Klimaschutzkonzeptes Strom, Wärme, Kälte der Stadt Weimar

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

LABS/QM. Durchgängige Integration vom Messgerät bis zum SAP QM mit Unterstützung vom OpenLab sowie LABS/QM

Sportbezogene direkte Einnahmen

Bedienungsanleitung für den Dokumentenserver

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Eine Veranstaltung der Allianz für die Handschrift und des BLLV

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Jan Parthey, Christin Seifert. 22. Mai 2003

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Technische Hochschule Wildau Qualitätsmanagement. Ergebnisbericht. Öffentlicher Bericht für Fachbereiche

Einrichtung der Bankverbindung in der VR-NetWorld Software HBCI-Chip-Karte

arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek

Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes

Sie finden im Folgenden drei Anleitungen, wie Sie sich mit dem Server der Schule verbinden können:

GIS-Modellierung alpiner Kulturlandschaften

Leitfaden die ersten Schritte mit der HBCI-Chipkarte

Workflow- basiertes Data Mining in der Bioinformatik

GEVITAS Farben-Reaktionstest

Kundenwissen für den Energieversorger der Zukunft

Verfügbarkeit von Applikationen und Failover Szenarien. Winfried Wojtenek.

Auswertung der Evaluation des Schulversuchs PraxisHAS

Qualitätserlebnis statt Qualitätssicherung. Eine Mehrfachfallstudie agiler Teams

Analyse und Visualisierung von massiven, semantisch klassifizierten 3D-Punktwolken. Jürgen Döllner Hasso-Plattner-Institut Universität Potsdam

Emergency Room für Projektleiter


Transkript:

Deutsche Gesellschaft für Photogrammetrie, Fernerkundung und Geoinformation (DGPF) e.v. Arbeitskreis Auswertung von Fernerkundungsdaten 26 Oktober, Halle (Saale) Department Einsatz von Data Mining ein nichtparametrischer Klassifikator in der Umweltanalyse

Motivation für Data Mining Daten und Information Daten Information Wissen Über die Umwelt sind große Datenmengen vorhanden Diese Daten enthalten implizit (nicht unmittelbar einsehbar) Informationen Problem: Wie kann man diese Information explizit machen? Wie kann man komplexe Umweltphänomene erkennen?

Data Mining: Definition Data Mining is a nonparametric method of identifying valid novel potentially useful ultimately understandable patterns in data. It employs techniques from Machine learning Statistics Databases (Fayyad et al. 1996) 4

Data Mining is a 5 step process The steps are not followed linearly, but in an iterative process Source: http://alg.ncsa.uiuc.edu/tools/docs/d2k/manual/datamining.html, after Fayyad, Piatetsky-Shapiro, Smyth, 1996 Data mining steps (Qi and Zhu 2003): Data selection Data preprocessing and transformation Pattern extraction Knowledge consolidation Examination Interpretation 5

Mg C / ha Fallbeispiel: Corg-Modellierung in Auen Flussauen, insbesondere Auwälder, haben hohes Speicherpotential für organischen Kohlenstoff (Corg), bis zu 474 Mg C /ha (Cierjacks et al. 2010) Bisher nur wenig Daten zu Corg in Auwäldern, speziell Bodendaten 500 400 300 200 100 0 Auwald Borealer Wald Tropischer Regenwald Wald gemäßigter Zonen CO 2 Biomasse 600 Gt C 1 100 Jahre CO 2 Organische Bodenmasse C org 2000 Gt C 10 10 000 Jahre Verweildauer Kapazität CO2 Swift 2001, Houghton 2005, Fontaine et al. 2007, Hamilton 2007, Hartmann und Kempe 2008 7

Untersuchungsgebiet Lage: im Donauauen - Nationalpark, Österreich Eine der letzten großen ursprünglichen Auengebiete in Mitteleuropa Hohe kleinräumige Variation 9

Daten Ikonos 2 (2009), RapidEye (2009) Historische Landesaufnahmen DGM Grundwassermodell Felderhebungen (2008; 68 Punkte) mit Daten zu Vegetation und Boden 10

Data preparation, data cleaning and preprocessing Satellitendaten Historische Landesaufnahmen ÖK DGM Spektralbänder & Indizes Distanz zum Hauptstrom und Nebenströmen Historischer Flussverlauf Hangneigung, Höhe, Himmelsrichtung, Senken, Rücken Segmentierung Wissensbasis Artenzahl, Bedeckung, Alter, Totholz, Bodenart, Bodentyp, Stammzahl Klassifikation Vegetationstypen 70% Data Mining 30% Felderhebungen Validierung Modellierung von C org Validierung Forstinventur C org Karte 11

Input Daten für Data Mining Satelliten-Daten Ikonos ( 22. April 2009): Blau (445-516 nm) Grün (506-595 nm) Rot (632-698 nm) NIR (757-853 nm) Grün-blau NDVI NIR / grün NIR-rot Rot/ blau Rot-blau Rot-grün Rapid Eye (01. August 2009): Blau (440-510 nm) Grün (520-590 nm) Rot (630-685 nm) Red edge (690-730 nm) NIR (760-850 nm) Zusatzdaten RÄUMLICHE LAGEPARAMETER Absolute Höhe über NN Relative Höhe über Fluss Hangneigung Distanz zum Hauptstrom Distanz zu Seitenkanälen Existenz eines historischen Flussbetts bei der 1. Landesaufnahme Existenz eines historischen Flussbetts bei der 2. Landesaufnahme Existenz eines historischen Flussbetts bei der 3. Landesaufnahme VEGETATIONSPARAMETER Vegetationstyp Artenzahl Bedeckungsgrad der Vegetation Baumalter Totholzanteil Stammzahl BODENPARAMETER (Haupt-)Bodenart Bodentyp Höhe mittleres Grundwasser Höhe niederes Grundwasser 12

Data Mining / Knowledge Discovery durch Entscheidungsbäume Entscheidungsbaum als ein Unterstützungswerkzeug in Form eines Graphen mit Entscheidungsästen und möglichen Konsequenzen Einfache Form die kompakt gespeichert werden kann und effizient neue Daten klassifiziert Führt automatische Feature-Auswahl und Komplexitätsreduzierung durch, Baumstruktur gibt leicht verständliche und interpretierbare Information 13

Data Mining Regelsätze 14

Beispiel Regelwerk (Entscheidungsbaum) Blue (RapidEye) Soil texture <= 5998 > 5998 Green (RapidEye) >4412 >4412 >4242 Vega-Gley Vega >4242 and <=4412 NIR (Ikonos) Dead wood <=1058 > 52 <= 52 (< 250 Mg/ha Corg) (250 330 Mg/ha Corg) (331-455 Mg/ha Corg) (> 455 Mg/ha Corg) 16

Häufigkeit Attributverwendung 17

Evaluierung mit Trainingsdaten (70%) Regelwerk Regeln Fehler (%) 0 8 8 (16.0) 1 7 13 (27.0) 2 9 14 (29.2) 3 8 11 (22.0) 4 7 11 (22.9) 5 7 15 (31.9) 6 8 11 (22.9) 7 7 13 (27.1) 8 8 13 (27.1) 9 6 12 (25.0) boost 0 ( 0.0) << (a) (b) (c) (d) klassifiziert als 12 (a): 11 (b): 11 (c): 14 (d): < 250 Mg/ha Corg 250 330 Mg/ha Corg 330-455 Mg/ha Corg > 455 Mg/ha Corg

Evaluierung mit Testdaten (30%) Regelwerk Regeln Fehler (%) 0 8 14 (70.0) 1 7 14 (70.0) 2 9 12 (60.0) 3 8 13 (65.0) 4 7 13 (65.0) 5 7 12 (60.0) 6 8 15 (75.0) 7 7 14 (70.0) 8 8 11 (55.0) 9 6 13 (65.0) boost 10 (50.0) << (a) (b) (c) (d) klassifiziert als 2 3 (a): 4 1 1 (b): 1 1 2 2 (c): 1 2 (d): < 250 Mg/ha Corg 250 330 Mg/ha Corg 330-455 Mg/ha Corg > 455 Mg/ha Corg

Diskussion Vorteile Automatisierter Prozess statt Wissensbasierter Auswertung Erkennung bisher unbekannter Muster Nachteile Einzelne Regeln nicht nachvollziehbar (Gefahr des Data Dredging) Geringe Flexibilität der Software 20

Zusammenfassung & Ausblick Zusammenfassung: Kohlenstoffverteilung kann mittels Fernerkundung und zusätzlichen Geodaten dargestellt werden Entscheidungsbaum kann Beziehungen abbilden Ergebnisse haben hohe Fehlerquote Aufgrund hoher Inhomogenität der Kohlenstoffverteilung Auswahl der Zusatzparameter muss evaluiert werden Bisher geringe Anzahl an Stichproben (68 Stichproben) Ausblick: Ausweitung des Data Mining auf Textur-Parameter und eine höhere Stichprobenzahl Test auf Übertragbarkeit

Referenzen leonhard.suchenwirth@tu-berlin.de michael.foerster@tu-berrlin.de birgit.kleinschmit@tu-berlin.de Gefördert durch die Cierjacks, A., B. Kleinschmit, M. Babinsky, F. Kleinschroth, A. Markert, M. Menzel, U. Ziechmann, T. Schiller, M. Graf, and F. Lang. 2010. Carbon stocks of soil and vegetation on Danubian floodplains. Journal of Plant Nutrition and Soil Science 173(5) : 644-653. Cierjacks, A., B. Kleinschmit, I. Kowarik, M. Graf, and F. Lang. 2011. Organic matter distribution in floodplains can be predicted using spatial and vegetation structure data. River Research and Applications 27: 1048-1057. Suchenwirth, L., Förster, M., Cierjacks, A., Lang, F. & Kleinschmit B. (submitted): Knowledge-based classification of Remote Sensing data for the estimation of below- and above-ground organic carbon stocks in riparian forests.