Anwendung der Business Analytics



Ähnliche Dokumente
Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Anwendung der Predictive Analytics

Management Support Systeme

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Data Mining Anwendungen und Techniken

Zeichen bei Zahlen entschlüsseln

Anmerkungen zur Übergangsprüfung

Exploration und Klassifikation von BigData

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Data Mining und Knowledge Discovery in Databases

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

2 Evaluierung von Retrievalsystemen

Neuronale Netze (I) Biologisches Neuronales Netz

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Data Mining und maschinelles Lernen

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Mining High-Speed Data Streams

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Mean Time Between Failures (MTBF)

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Willkommen zur Vorlesung Statistik

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Business Analytics im E-Commerce

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Clustering Seminar für Statistik

Ablaufbeschreibung für das neu Aufsetzen von Firebird und Interbase Datenbanken mit der IBOConsole

Lavid-F.I.S. Ablaufbeschreibung für. Arbeitszeiterfassung. Lavid-F.I.S.

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Künstliche Intelligenz Maschinelles Lernen

QM: Prüfen -1- KN

Theoretische Grundlagen der Informatik WS 09/10

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Entscheidungsbaumverfahren

WEKA A Machine Learning Interface for Data Mining

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense

360 - Der Weg zum gläsernen Unternehmen mit QlikView am Beispiel Einkauf

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

14. Minimale Schichtdicken von PEEK und PPS im Schlauchreckprozeß und im Rheotensversuch

Übungen zur Softwaretechnik

Dokumentation zum Spielserver der Software Challenge

Leseauszug DGQ-Band 14-26

Lineare Gleichungssysteme

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

robotron*e count robotron*e sales robotron*e collect Anmeldung Webkomponente Anwenderdokumentation Version: 2.0 Stand:

7. Übung - Datenbanken

26. GIL Jahrestagung

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Data Mining: Einige Grundlagen aus der Stochastik

teischl.com Software Design & Services e.u. office@teischl.com

Dokumentation für die software für zahnärzte der procedia GmbH Onlinedokumentation

Mitarbeiterbefragung als PE- und OE-Instrument

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

Erstellen einer digitalen Signatur für Adobe-Formulare

Programmiersprachen und Übersetzer

Was meinen die Leute eigentlich mit: Grexit?

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

SFirm32 Umstellung FTAM EBICS

Vorgehensweise bei Lastschriftverfahren

Was bisher geschah. Lernen: überwachtes Lernen. biologisches Vorbild neuronaler Netze: unüberwachtes Lernen

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Quadratische Gleichungen

Grundlagen verteilter Systeme

Fibonacci Retracements und Extensions im Trading

Grundbegriffe der Informatik

Transparente Hausverwaltung Marketingschmäh oder doch: eine neue Dimension der Dienstleistung?

FlowFact Alle Versionen

Software Engineering. Sommersemester 2012, Dr. Andreas Metzger

Bedienungsanleitung für den Online-Shop

Wie Sie beliebig viele PINs, die nur aus Ziffern bestehen dürfen, mit einem beliebigen Kennwort verschlüsseln: Schritt 1

Zusatzmodul Lagerverwaltung

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Lichtbrechung an Linsen

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Retouren im Online-Handel Verbraucherbefragung

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Additional Cycle Index (ACIX) Thomas Theuerzeit

Tutorial: Homogenitätstest

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

XT Großhandelsangebote

Repräsentative Umfrage zur Beratungsqualität im deutschen Einzelhandel (Auszug)

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Speicher in der Cloud

Lernende Suchmaschinen

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Transkript:

Anwendung der Business Analytics TDWI 2013 München Prof. Dr. Carsten Felden Dipl.-Wirt.-Inf. Claudia Koschtial Technische Universität Bergakademie Freiberg (Sachsen) Institut für Wirtschaftsinformatik Silbermannstraße 2, 09599 Freiberg (Sachsen), Deutschland

Die Dozenten Univ.-Prof. Dr. Carsten Felden Institut für Wirtschaftsinformatik an der Technischen Universität Bergakademie Freiberg (Sachsen). Geschäftsführer der Marmeladenbaum GmbH (www.marmeladenbaum.de) Gutachter für internationale Journals und eingeladener Sprecher auf internationalen Veranstaltungen im Themengebiet der Business Intelligence. Dipl.-Wirt.-Inf. Claudia Koschtial Institut für Wirtschaftsinformatik an der Technischen Universität Bergakademie Freiberg (Sachsen). Geschäftsführerin der Marmeladenbaum GmbH 2

Agenda Einführung und Einordnung Business Analytics Begriffe Analytische Fähigkeiten Hype Cycle Analytischer Prozess Anwendungsfelder und Verfahren Assoziationsanalyse Entscheidungsbaum Neuronale Netze Clusterverfahren Praktischer Teil 3

Eine kurze Geschichte der Business Analytics Business Analytics beschreibt den Prozess der so genannten Datenveredelung. Es ist ein strategisches Werkzeug für Entscheidungsträger in Unternehmen. Analyticslösungen kommen branchenübergreifend zum Einsatz. Ziel ist es, Antworten nicht nur auf die Frage: Was war?, sondern auch: Was wird sein? zu finden. [Felden, 2009] 4

Vier Typen der analytischen Fähigkeit nach Gartner 5

Hype Cycle für Business Intelligence (2007) http://www.gartner.com/id=509936 6

Hype Cycle für Business Intelligence (2011) http://softwarestrategiesblog.com/2011/08/13/saas-based-analytics-and-business-intelligence-marketupdate-august-2011/ 7

Daten und Datenhaltung Komponenten eines Entscheidungsunterstützungssystems [Hansen/Neumann (2005), S. 785] 8

Statistische Grundlagen Maschinelles Lernen und Data Mining I Knowledge Discovery in Databases (KDD) beschreibt den.. non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.. [Fayyad et al. 1996] Prozess, umfangreiche Datenbestände implizit vorhandenes Wissen entdecken Knowledge Extraction Data Archaeology Data Analysis 9

Statistische Grundlagen Prozessmodelle Knowledge Discovery in Databases I Data Mining Interpretation Wissen Transformation Muster Vorverarbeitung Auswahl Transformierte Daten Vorverarbeitete Daten Datenbank Zieldatenbestand 10

Statistische Grundlagen Klassische Aufgabenstellungen Aufgaben Verfahren Klassifikation/ Regression Clusterung Abhängigkeitsanalyse Entscheidungsbäume Künstliche Neuronale Netze Clusterverfahren Assoziationsanalyse 11

Statistische Grundlagen Datenbereinigung Name Alter Region Stadt Kinder Meier 56 Sachsen Freiberg 3 Schulz 32 Sachsen Freiberg Yes Muster Sachsen Dresden 2 Müller 18 Sachsen Freiburg 4 fehlende Werte fehlerhafte Werte Redundanz 12

Agenda Einführung und Einordnung Business Analytics Begriffe Analytische Fähigkeiten Hype Cycle Analytischer Prozess Anwendungsfelder und Verfahren Assoziationsanalyse Entscheidungsbaum Neuronale Netze Clusterverfahren Praktischer Teil 13

Analyse des Kundenverhaltens Assoziationsanalyse Ziel der Assoziationsanalyse ist das Erkennen und Bewerten von gemeinsam auftretenden Datenelementen (Items). Items können Elemente von Mengen oder einzelne Attributwerte von Datensätzen sein. Eine Menge von Items wird als Itemset oder auch Itemmenge bezeichnet. Beispiel: Items in Mengen: Warenkorb {Artikel A, Artikel B} Items im Datensatz: (PLZ=47057,..., Käufergruppe=A) Voraussetzung: Vorhandensein einer Datenbasis bestehend aus einzelnen Transaktionen (z. B. Menge von Kassenbons) 14

Analyse des Kundenverhaltens Ergebnisse der Assoziationsanalyse Assoziationsregel: allgemeiner: WENN Item a DANN Item b Kurz: {a} {b} WENN Itemset X DANN Itemset Y Kurz: X Y Beispiel: WENN Artikel a und Artikel b gekauft werden, DANN wird auch Artikel c gekauft. 15

Analyse des Kundenverhaltens Einsatzgebiete der Assoziationsanalyse Warenkorbanalyse Gesundheitswesen Banken Telekommunikation Technik Text-Mining Web-Log-Mining Welche Verbundkäufe werden getätigt? Welche Behandlungsmethoden werden nacheinander verwendet? Welche Kunden sind abwanderungsgefährdet? Optimierung von Prozessabläufen bei telefonischen Serviceanforderungen Fehlerentdeckung in Fertigungsprozessen Finden von Begriffszusammenhängen Auffinden von Zugriffsmustern auf Web-Sites 16

Analyse des Kundenverhaltens Bewertung von Assoziationsregeln Einfache Regeln: WENN Itemset X DANN Itemset Y Die Aussagekraft der Regeln soll bewertet werden, etwa so: Wird Produkt a gekauft, so wird in 75% der Fälle auch Produkt b gekauft! Dies ist im gesamten Datenbestand bei 10% aller Transaktionen zu beobachten. Diese Größen bezeichnet man als Support und Konfidenz. Zu ihrer Definition benötigt man einen Datenbestand D, der aus einzelnen Transaktionen t 1,..., t n besteht. Also D = {t 1,..., t n } mit D = n (Anzahl der Elemente) 17

Analyse des Kundenverhaltens Grundstruktur der Algorithmen 1. Bestimme alle Regeln, deren Support größer oder gleich einer vorgegebenen Schranke (MinSup) ist. 2. Bestimme von diesen Regeln diejenigen, deren Konfidenz größer oder gleich einer vorgegebenen Schranke (MinKonf) ist. Die beiden Schranken MinSup und MinKonf müssen vom Anwender vorgegeben werden. Bekannteste Vertreter: Apriori und Apriori-Tid Algorithmus (Agrawal und Srikant (1994)) 18

Analyse des Kundenverhaltens Erweiterungen der Assoziationsanalyse Taxonomien Ziel: Betrachtung von Zusatzwissen (Strukturen) in der Menge der Items Taxonomie: Getränke alkoholische Getränke nicht-alkoholische Getränke Backwaren Bier Wein Spirituosen Kaffee Saft Milch Zucker Mehl Ergebnis: Neue, verallgemeinerte Regeln auf Basis der Taxonomie. 19

Neukundengewinnung Data Mining im Beziehungslebenszyklus 20

Neukundengewinnung Entscheidungsbaumverfahren Ziel der Anwendung von Entscheidungsbaumverfahren ist die Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen zugeordnet werden können. Diese Zuordnung geschieht anhand von Regeln, die durch einen Klassifikationsbaum dargestellt werden können. Beispiel Einteilung von Datensätzen, die Angaben über Kunden enthalten, so dass damit die Käufergruppe erkannt werden kann, in die der Kunde voraussichtlich gehört. Voraussetzung: Datenbestand bei dem für jeden Datensatz die zugehörige Klasse bereits bekannt ist. 21

Neukundengewinnung Grundstruktur der Algorithmen zum Entscheidungsbaumverfahren Der Gesamtdatenbestand wird in eine Trainingsmenge und eine Testmenge aufgeteilt. Dann wird die Trainingsmenge sukzessive aufgeteilt, so dass daraus homogenere Gruppen von Datensätzen bezüglich der Klassifikationsvariablen entstehen. Die Aufteilung der Datenmengen kann durch einen Baum dargestellt werden, in dem jeder Knoten eine Datenmenge indiziert, dem ein Homogenitätsmaß zugeordnet wird. Erreicht dieses Homogenitätsmaß einen vorgegebenen Wert, so wird der Knoten einer bestimmten Klasse zugeordnet. 22

Neukundengewinnung Allgemeiner Aufbau eines Entscheidungsbaum Datensätze gesamt: 1000 kreditwürdig: 500 nicht-kreditwürdig: 500 Attribut A erfüllt Bedingung K 1 Attribut A erfüllt nicht Bedingung K 1 Datensätze gesamt: 700 kreditwürdig: 480 nicht-kreditwürdig: 220 Datensätze gesamt: 300 kreditwürdig: 20 nicht-kreditwürdig: 280 Attribut B erfüllt Bedingung K 2 Attribut B erfüllt nicht Bedingung K 2 Datensätze gesamt: 400 kreditwürdig: 390 nicht-kreditwürdig: 10 Datensätze gesamt: 300 kreditwürdig: 90 nicht-kreditwürdig: 210 23

Neukundengewinnung Modellevaluation Overfitting Empirische Studien zeigen, dass eine Verbesserung der Fehlklassifikationsquote auf der Trainingsmenge zunächst einhergeht mit einer Verbesserung auf der Testmenge. Ab einem gewissen Punkt steigt die Fehlklassifikationsquote auf der Testmenge dann wieder an. Dieses Phänomen bezeichnet man als Overfitting. Mögliche Gründe prinzipielles Problem fehlerhafte Testdaten (noise) geringe Aussagekraft der Regeln bei zu kleiner Datenbasis 24

Neukundengewinnung Neuronale Netze Bei der Erstellung Künstlicher Neuronaler Netze wird versucht, die Arbeitsweise des menschlichen Gehirns nachzubilden. Ein Netz besteht aus künstlichen Neuronen und deren Verknüpfungen. Wesentliches Merkmal der Netze ist ihre Lernfähigkeit. 25

Neukundengewinnung McCulloch-Pitts-Neuron Gesamtinput: ergibt sich als gewichtete Summe der Eingangssignale (Inputwerte) x 1,, x j,, x n Aktivierung: Die Aktivierung des Neurons geschieht über die Aktivierungsfunktion f, deren Wert von der Differenz aus Gesamtinput und Schwellenwert θ abhängt. Je nach Aktivierung entsteht ein Outputwert y. 26

Neukundengewinnung Vorwärts gerichtete Neuronale Netze Multilayer-Perzeptron Das Multilayer-Perzeptron (MLP) ist ein Spezialfall eines vorwärts gerichteten KNNs, das zur Klassifikation eingesetzt werden kann. Es können drei Schichttypen differenziert werden: Inputschicht, Versteckte Schicht, Outputschicht. Es sind nur Neuronen verschiedener Schichten miteinander verbunden. Die Outputwerte vorgelagerter Neuronen werden über gewichtete Verbindungen an nachgelagerte Neuronen gesendet. Beim vorwärts gerichteten Netz werden Impulse nur in eine Richtung weitergegeben, es gibt keine Schleifen. 27

Neukundengewinnung Beispiel Multilayer-Perzeptron 28

Neukundengewinnung Lernparadigmen Überwachtes Lernen (supervised learning) Klassifizierung [z.b. Back-Propagation] Bestärkendes Lernen (reinforcement learning) Unüberwachtes Lernen (unsupervised learning) Clusterung [z.b. Self-Organizing-Maps] 29

Neukundengewinnung Back-Propagation Die Werte eines Datensatzes werden in die Neuronen der Inputschicht eingegeben. Anschließend über die Neuronen und deren Verbindungen weitergeleitet, bis ein Wert in der Outputschicht erzeugt wurde, der die durch das Netz berechnete Klasse des Datensatzes angibt. (Forward Pass) Dieser Wert wird mit der tatsächlichen Klassenzugehörigkeit verglichen. (Fehlerbestimmung) Bei einer Abweichung von Soll - und Ist -Wert werden ausgehend von den Outputneuronen die zugehörigen Verbindungsgewichte sowie die Verbindungsgewichte der Neuronen vorgelagerter Schichten derart geändert, dass die Abweichung minimiert wird. (Backward Pass) 30

Neukundengewinnung Kritische Betrachtung Vorteile Vorwärts gerichtete Künstliche Neuronale Netze können sehr gute Ergebnisse bei der Klassifikation und Prognose erzeugen. Die offene Struktur macht das Modell sehr flexibel. Nachteile Es werden keine expliziten Regeln angegeben. Das Adaptieren der Gewichte geschieht mitunter sehr langsam. Netzstruktur & Gewichtsinitialisierung sind nicht vorgegeben. 31

Cluster-Verfahren Idee der Cluster-Verfahren 32

Cluster-Verfahren Anwendungsbeispiele Kundensegmentierung Welche Kundenprofile existieren? (Analyse von Kundenattributen) Kaufverhalten Welche Gruppen bzgl. des Kaufverhaltens bestehen? (Analyse von Kaufähnlichkeiten) Technik Finden ähnlicher Oberflächen Text-Mining Finden ähnlicher Texte Web-Log-Mining Auffinden von Benutzergruppen auf Web- Sites 33

Cluster-Verfahren Ähnlichkeitsmaße vs. Distanzmaße Um die Ähnlichkeit zweier Datensätze zu bestimmen, werden oftmals geometrische Distanzmaße d herangezogen. Es gilt: kleine Distanz große Ähnlichkeit große Distanz kleine Ähnlichkeit Dabei ist für die Anwendbarkeit der Maße zu beachten, welche Definitionsbereiche die Attribute haben. Unterschieden werden muss zwischen numerischen und nominalen Attributen. 34

Cluster-Verfahren Distanzfunktion zweier Datensätze mit nominalen Merkmalen Gegeben seien zwei Datensätze, die Objekte anhand von n nominalen Merkmalen unterscheiden x = (x1, x2,..., xn) und y = (y1, y2,..., yn) Distanz: Anzahl der Attribute, deren Ausprägungen nicht übereinstimmen. Ähnlichkeit: Anzahl der Attribute, deren Ausprägungen übereinstimmen x = (blau, hoch, dick, süß, Mainz) y = (grün, hoch, dick, süß, Essen) d(x, y) = 2 sim(x, y) = 3 35

Cluster-Verfahren Dendrogramm zur Darstellung hierarchischer Verfahren 1 2 1, 2 3 3,4 1, 2, 3, 4, 5 4 3, 4, 5 5 agglomerative Methode divisive Methode 0 1 2 3 4 4 3 2 1 0 Schritt 36

Cluster-Verfahren Single-Linkage Complete-Linkage Average-Linkage x x x x o o x x x x 37

Cluster-Verfahren Algorithmus für ein agglomeratives Verfahren Erstelle die Distanzmatrix. Bilde einen neuen Cluster aus den zwei Objekten bzw. Clustern, die den geringsten Abstand zueinander haben. Bestimme die Distanz zwischen dem neuen Cluster und allen anderen Objekten bzw. Clustern. Wiederhole ab Schritt 2, bis sich alle Objekte in einem einzigen Cluster befinden. 38

Cluster-Verfahren Partitionierendes Cluster-Verfahren k-means Wähle K Objekte zufällig als initiale Clustercentroide. Ordne die Objekte jeweils dem Cluster zu, zu dessen Centroid der geringste Abstand vom Objekt besteht. Bestimme in den Clustern die aktuellen Centroide. Prüfe, ob alle Objekte den Clustern mit dem geringsten Abstand zum Centroiden zugeordnet sind, wenn nein, springe zu 2. Problem: Abhängigkeit von der Auswahl der initialen Centroide und der Reihenfolge der Werte. 39

Text Mining Das Data Mining, als eine Phase im KDD-Prozess, dient der Erkenntnisgewinnung aus umfangreichen Datenbeständen, wobei diese auf Grundlage strukturierter Daten durchgeführt wird. Die Methoden des Data Mining wurden nicht entwickelt, um unstrukturierte Daten zu verarbeiten. Liegen Textdokumente als Basis zur inhaltlichen Entdeckung bisher unbekannter Informationen vor, wird daher das Text Mining angewendet. Im Gegensatz zum Data Mining sind die durch das Text Mining aufgespürten, unbekannten Informationen nicht für jeden unbekannt. Der Autor des Dokumentes kannte die Information und legte sie schriftlich nieder. Wichtig ist, dass die ermittelten Informationen für den Rezipienten neu sind. 40

Text Mining Das Vektormodell, oft auch als algebraisches Modell bezeichnet, erzeugt einen Vektor im mehrdimensionalen Raum. Jeder Deskriptor eines Index stellt eine Dimension dieses Vektors dar. Dieser spannt einen Dokumentenraum auf. Hierbei wird die Termhäufigkeit als Stärke der Ausprägung einer Dimension genutzt und durch den Begriff Gewicht ausgedrückt. 41

Text Mining Dokument Vektor Mr Brown, the former Agriculture Secretary, told the BBC he would be prepared to oppose the government on the issue of variable fees. He is among the Labour backbenchers and several former ministers who fear the fees may deter students from poorer backgrounds from going to the best institutions. They claim the variable rate charged for different courses could cause a "two-tier" system. 1 0 1 0 2 1.. 1 1 0 0 agriculture market government freedom fees students rate system country policy Dimension Gewicht d j freq ij t i 42

Text Mining und Intelligente Software Agenten Das Probabilistische Modell integriert die Beziehungen der Deskriptoren in die Bewertung und geht nicht von der Annahme der Unabhängigkeit zwischen den Deskriptoren aus. Im Ergebnis werden Wahrscheinlichkeiten ermittelt, welche die Relevanz von Dokumenten für den Nutzer aufzeigen. Um Aussagen über die Wahrscheinlichkeit treffen zu können, ist zumindest für eine Teilmenge der Dokumente die Relevanz zu bestimmen. 43

Text Mining und Intelligente Software Agenten Beispiele: Entscheidungsbaum; Support Vector Machines; Rocchio Algorithmus; k-nn Algorithmus; Multilayer Perceptron; HyperPipes. 44

Text Mining Zulässigkeit beschränkt auf deutsche Zeichen Anwendung einer Stoppwortliste Eliminierung bei einer Wortlänge < 3 Eliminierung bei Termfrequenz #1 pro Text Anwendung von Wortstämmen Eliminierung der oberen 5 Prozent der Verteilungskurve Anzahl der verbleibenden Worte Nr. 10.511 1 10.343 2 15.676 3 31.602 4 33.247 5 33.392 6 10 Prozent 32.854 7 Sonderzeichen 33.602 8 33.776 9 45

Text Mining 80,0000 75,0000 70,0000 SVM 65,0000 Voted Perceptron k-nn (k=1) J48 60,0000 55,0000 50,0000 naive Bayes HyperPipes AdaBoost M1 SimpleLogistic MLP Rocchio 45,0000 40,0000 1 2 3 4 5 6 7 8 9 46

Agenda Einführung und Einordnung Business Analytics Begriffe Analytische Fähigkeiten Hype Cycle Analytischer Prozess Anwendungsfelder und Verfahren Assoziationsanalyse Entscheidungsbaum Neuronale Netze Clusterverfahren Praktischer Teil 47

Fragen? 48