Projektaufgaben Block 2

Größe: px
Ab Seite anzeigen:

Download "Projektaufgaben Block 2"

Transkript

1 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis Zur Einstimmung (freiwillig, ohne Abgabe) Auf der Webseite findet man bei den Projektaufgaben zu Block 2 die Dateien regressionline.r und testlinmodel.r. Diese R-Dateien wurden benutzt, um die Beispielplots im Skript zu Block 2 zu erzeugen. Verwende diese Dateien, um dich mit dem linearen Modell in R vertraut zu machen. Verwende auch den Befehl predict. SPAM-Klassifizierer (SPAM oder HAM) Das Ziel dieser Aufgabe ist drei verschiedene SPAM-Klassifizierer zu implementieren und auf verschiedenen Datensätzen miteinander zu vergleichen. Zur Begriffsherkunft von SPAM siehe Wikipedia. Lies zunächst die nachfolgenden Informationen über die Methoden, Datensätze, Features usw. gründlich durch. Die eigentliche Aufgabenstellung steht weiter unten. Methoden Konkret betrachten wir die drei Methoden aus der Vorlesung: Lineare Regression, Logistische Regression und Naive Bayes. Für Lineare Regression und Logistische Regression können die R-Befehle lm bzw. glm verwendet werden (zusammen mit predict, wie in der Einstimmung weiter oben). Wer möchte kann die Lineare Regression auch selber implementieren mit der Formel für den kleinste-quadrate- Schätzer aus der Vorlesung (verwende dann aber QR-Zerlegung für die Inversion von X T X, z.b. mit qr). Datensätze Wir arbeiten mit den folgenden Datensätzen: 1

2 1. Der Data.frame spam aus dem R-package ElemStatLearn (enthält zahlreiche Beispiele aus dem Buch Hastie, Trevor and Tibshirani, Robert and Friedman, Jerome H., The Elements of Statistical Learning: Data Mining, Inference, and Prediction, das auch in der Vorlesung erwähnt worden ist). Enthält 4601 private s von George Forman, davon 1813 SPAM. Dementsprechend ist George eines der häufigsten Worte in den s. Die eigentlichen s sind hier nicht verfügbar, sondern nur eine Reihe von Features mit Klassifikation als SPAM oder nicht-spam. Für jede wurden 58 Features ausgewertet (hauptsächlich Wort-Häufigkeiten, aber auch Satzzeichen, usw.). Das letzte Feature enthält die Klassifikation in SPAM oder nicht-spam. Mehr Information erhält man mit?spam, nachdem man das R-package oben installiert hat. Außerdem findet man eine genaue Beschreibung der Features in der Datei spambase.names auf der Webseite. 2. Eine Sammlung von etwa Textdateien, eingesammelt von einer Linguistik-Mailingliste. Die Dateien findet man als zip-datei s.zip auf der Webseite. Im entpackten Ordner findet man die -Texte, die allerdings bereits vorverarbeitet wurden (alles Kleinbuchstaben, Worte auf Grundformen zurückgeführt, sehr häufige Worte wie Artikel und Personalpronomen wurden entfernt). Die Texte sind daher nicht mehr unbedingt verständlich. Sprachmodell und Features Für diese Aufgaben modellieren wir s als bag of words, d.h. jede wird durch die auftauchenden Worte repräsentiert, ohne Grammatik und ohne Beachtung der Wortreihenfolge (siehe auch Wikipedia). Dies ist ein entscheidender Schritt in der modernen Sprachverarbeitung, um die Komplexität der Daten zu reduzieren und wenn nur wenige Daten verfügbar sind. Um Features zu erzeugen gibt es nun mehrere Möglichkeiten. Da wir aber das bag of words Modell benutzen, verzichten wir von Anfang auf die Information welche Worte aufeinanderfolgen, was allerdings auch sehr informativ sein kann. Für die SPAM-Klassifikation reicht es aber oft aus nur auf bestimmte Schlüsselwörter zu achten. Dafür legt man zunächst ein Wörterbuch W fest, z.b. die häufigsten 250 Wörter in den Daten. Wir betrachten die folgenden beiden Möglichkeiten zur Erzeugung von Features, separat für jede in den Daten: 1. Binäre Features. Wie in der Vorlesung erwähnt, enthält der Feature-Vektor für jedes auftauchende Wort im Wörterbuch eine 1 und für jedes nicht auftauchende Wort eine 0. Wenn das Wörterbuch W die Länge W hat, dann ist also der Feature-Vektor X ein Vektor in {0, 1} W. 2. Stetige Features. Die Features sind relative Worthäufigkeiten in Prozent, d.h. wenn z.b. Apfel das k-te Wort in W ist, dann ist Also ist X [0, 100] W. X k = 100 #Apfel in #Anzahl aller W orte in . Training vs. Testing Das Vorgehen bei der Implementierung der drei genannten Methoden ist bei beiden Datensätzen und jeder Wahl von Features gleich: 1. Teile den Datensatz in Trainings- und Testdaten auf. 2. Trainiere den Klassifizierer auf den Trainingsdaten. 2

3 3. Teste den Klassifizierer auf neuen Daten, d.h. den Testdaten. Für welche Ergebnisse wir uns nach dem Testen interessieren wird unter Auswertung weiter unten erläutert. Zusätzlich zu dem einfachen Vorgehen oben soll eine Kreuzvalidierung (engl. Cross-validation) durchgeführt werden (siehe auch Wikipedia, der englische Wikipedia-Eintrag ist wesentlich informativer). Kurz zusammengefasst bedeutet dies: 1. Teile den Datensatz in n Mengen auf (n wird vorher festgelegt, oft ist n = 4 oder n = 10). 2. Für jede der n Mengen trainiere den Klassifizierer auf den übrigen n 1 Mengen und teste auf der betrachtenten Menge. 3. Mittele die Ergebnisse durch n. Auswertung In der Statistik- bzw. Machine Learning-Literatur findet man viele viele verschiedene Ansätze, um Ergebnisse von Regression bzw. Klassifikation zu untersuchen. Wir interessieren uns hier vorallem für accuracy, precision und recall (siehe Wikipedia für Definitionen). Gibt es noch mehr interessante Auswertungsmerkmale? Implementation von Naive Bayes Während für Lineare und Logistische Regression direkt die entsprechenden R-Methoden verwendet werden sollen, soll der Naive Bayes Klassifizierer explizit implementiert werden. Wie in der Vorlesung beschrieben muss man dafür im Wesentlichen die A-Priori-Wahrscheinlichkeiten P (Y = 1) bzw. P (Y = 0) und die bedingten Klassenwahrscheinlichkeiten P (X k Y = 1) bzw. P (X k Y = 0) aus den Daten berechnen, wobei Y die Zielvariable (SPAM oder nicht-spam) und X k das k-te Feature ist. Je nach Wahl der Features hat der zweite Schritt die folgende Form: 1. Binäre Features. X k nimmt nur die Werte 0 oder 1 an. Dann schätzt man also z.b. P (X k = 1 Y = 1) = #Anzahl der nicht SP AM Mail wo X k auftaucht + 1. #Anzahl aller nicht SP AM Mails + W Die 1 im Zähler bzw. W im Nenner (wobei W das Wörterbuch ist) entsprechen dem Laplace- Smoothing, um zu vermeiden, dass man 0-Wahrscheinlichkeiten erhält (Intuition: man fügt eine konzeptuelle hinzu, die alle Wörter im Wörterbuch enthält). 2. Stetige Features. Man nimmt an, dass X k bedingt auf Y durch eine Normalverteilung gegeben ist. Wir setzen dann P (X k = x Y = 1) = f (x, µ k,1, σ k,1 ), (1) für k = 1,..., W, wobei f die Dichte der Standardnormalverteilung ist, x R, µ k,1 R der Mittelwert von X k in der Klasse Y = 1 und σ k,1 die Standardabweichung in der Klasse Y = 1. Entsprechend definiert man µ k,0 und σ k,0. Bemerke, dass die Notation in (1) keine Standardnotation ist. Allerdings ist die linke Seite der Ausdruck aus der Bayesformel, und wird deswegen übernommen. 3

4 Aufgabenstellung Schreibe ein Programm, das die gegebenen Datensätze mit den beschriebenen Features und Methoden analysiert, mit Kreuzvalidierung. Für jeden Datensatz und jede Feature-Wahl soll eine Matrix ausgegeben werden, in der die Ergebnisse der Analyse für alle drei Klassifizierer angezeigt werden (Zeilen: Klassifizierer, Spalten: Auswertungsmethode). Insgesamt sollen also vier Matrizen erzeugt werden. Als Vorlage kann die Datei testclassifiers_vorlage.r von der Webseite verwendet werden. Bearbeite konkret wenigstens die folgenden Schritte (in der Reihenfolge, die du für richtig hälst): 1. Für den Grundlagenteil der Auswertung: (a) Beschreibe und vergleiche die einzelnen Methoden (Lineare Regression, Logistische Regression und Naive Bayes). (b) Beschreibe die Methode der Kreuzvalidierung und warum man sie in der Klassifikation einsetzt. Erkläre auch die Schwierigkeiten die auftreten können, wenn man die Daten in Teilmengen aufteilt im Bezug auf Ausgewogenheit der zu betrachtenden Klassen. (c) Beschreibe die erwähnten Methoden der Auswertung der Klassifikationen. Warum genügt accuracy im Bereich der Klassifikation nicht? Welchen Vorteil haben recall und accuracy? (d) Erkläre bzw. beweise, dass Gleichung (1) sinnvoll ist, d.h. zeige, dass f (x, µ k,1, σ k,1 ) eine sinnvolle Schätzung von P (X k = x Y = 1) im Rahmen der Naive Bayes-Methode ist, so wie sie in der Vorlesung präsentiert worden ist (Stichwort: Bayesformel für die Dichten). 2. Für den Teil Algorithmische Problemstellung der Auswertung: Erkläre die Grundidee des Programms, so wie du es geschrieben hast. Erläutere wichtige Methoden und Strukturen in R, die du verwendet hast. 3. Für den Ergebnisteil der Auswertung: (a) Erzeuge die vier Matrizen wie beschrieben und markiere in jeder Spalte den besten Klassifizierer. Vergleiche die Ergebnisse, insbesondere im Bezug auf Feature-Wahl. Sind die Ergebnisse erwartungsgemäß? (b) Diskutiere wie die Ergebnisse verbessert werden könnten, d.h. insbesondere wie der recall verbessert werden kann (im Grundlagenteil sollte klar geworden sein, dass der recall besonders wichtig ist). (c) Diskutiere (und demonstriere mit Zahlen) wie man bei Linearer und Logistischer Regression bestimmen kann, welche Features nicht signifikant sind, d.h. welche Features man auch weglassen könnte ohne das Ergebnis entscheidend zu beeinflussen. Welche Worte/Features sind besonders wichtig für die Klassifikation? 4. Zur Implementierung: (a) Analysiere zunächst den ersten Datensatz (spam), da dieser bereits ein data.frame ist und daher bereit zur Analyse. Die Features sind dort bereits als relative Häufigkeiten (wie oben beschrieben) gegeben. Um die Klassifikation mit binären Features durchzuführen, muss also eine Funktion geschrieben werden, die nichts anderes macht als nachzuschauen ob ein Wort/Feature in einer auftaucht oder nicht. (b) Für den zweiten Datensatz müssen erst alle s als Strings in R eingelesen und Worte gezählt werden. Außerdem muss ein Wörterbuch festgelegt weren (z.b. die ersten 250 häufigsten Worte). Erzeuge anschließend einen data.frame mit derselben Struktur wie für spam. Dann können alle Methoden genauso verwendet werden wie beim ersten Datensatz. 4

5 Hinweise zur Implementierung Essentiell für die ganze Aufgabe ist das Arbeiten mit data.frame-objekten in R. Data-Frames sind im Wesentlichen Matrizen, bei denen die Spalten Namen haben und die Datentypen in den Einträgen nicht beschränkt sind (für Matrizen müssen alle Einträge denselben Typ haben). Insbesondere kann man auf Spalten und Zeilen mit den jeweiligen Namen zugreifen. Sehr hilfreich sind z.b. (wenn datatrain ein data.frame ist) # z e i g e nur d i e S p a l t e n von datatrain an, d i e n i c h t den Namen "spam" haben datatrain [, colnames ( datatrain )!= "spam" ] # z e i g e nur d i e S p a l t e n "spam" an datatrain [, "spam" ] # normaler Z u g r i f f wie b e i Matrizen datatrain [ 3, 2 ] # f ü r Komponente in der d r i t t e n Z e i l e und z w e i t e n S p a l t e man sich mit names die Namen eines Objektes anzeigen lassen (funktioniert bei data.frames, Matrizen, Vektoren und Listen) für die Auwertung der Klassifizierer ist der Befehl table sehr hilfreich, da man damit sehr leicht Wahrheitsmatrizen erstellen (engl. confusion matrix), um zu sehen welche Daten richtig bzw. falsch klassifiziert worden sind, versuche z.b. table ( c ( " ", " ", "spam", " " ), c ( " ", "spam", "spam", " " ) ) beim Naive Bayes Klassifizierer mit stetigen Features muss man überprüfen, ob der Vektor, aus dem man die Standardabweichung berechnet, nur 0-Einträge besitzt, weil in diesem die Normalverteilung nicht definiert ist und man keine Schätzung angeben kann sehr praktisch beim Umgang mit kategoriellen Daten ist der Befehl factor, z.b. in grouping < factor ( spam [, "spam" ] ) ; viele Befehle nehmen direkt einen Faktor als Argument, z.b. p r i o r s < table ( grouping ) /length ( grouping ) # wenn v ein Z a h l e n v e k t o r i s t tapply ( v, grouping, sd ) zur Kreuzvalidierung: Wenn alldata ein data.frame ist, in dem jede Zeile einer entspricht, so muss man für die Kreuzvalidierung diese in n Mengen aufteilen. Das kann man z.b. machen, indem man jeder Zeile eine Zahl zuordnet zwischen 1 und n und dann beim Trainieren bzw. Testen nur die Zeilen mit den entsprechenden Zahlen betrachtet, z.b. d a t a I d s < sample ( 1 : n, nrow( a l l D a t a ), replace = TRUE) for (ncv i n 1 : n ) { datatrain < a l l D a t a [ d a t a I d s!= ncv, ] datatest < a l l D a t a [ d a t a I d s == ncv, ] # e i g e n t l i c h e K l a s s i f i k a t i o n... } Beim zweiten Datensatz muss der data.frame mit den Wortfrequenzen erst selber erzeugt werden. Dafür sind die folgenden Befehle sehr hilfreich: 5

6 # A u f l i s t e n a l l e r Dateien in U n t e r v e r z e i c h n i s s e n von s f i l e s < l i s t. f i l e s ( " e m a i l s ", r e c u r s i v e=true, f u l l. names=true) # E i n l e s e n e i n e r Datei a l s Vektor von S t r i n g s words < scan ( f i l e = f i l e, what = character ( ) ) ) # r e d u z i e r e n Vektor auf e i n d e u t i g e Einträge unique ( d i c t i o n a r y ) # z ä h l e f ü r j e d e s Wort im d i c t i o n a r y wie o f t es in words vorkommt table ( factor ( words, l e v e l s = d i c t i o n a r y ) ) 6

Einfaches Datenmanagement in R

Einfaches Datenmanagement in R Einfaches Datenmanagement in R Achim Zeileis 2009-02-20 1 Daten einlesen Datensätze werden in R typischerweise als Objekte der Klasse "data.frame" dargestellt. In diesen entsprechen die Zeilen den Beobachtungen

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011 Evaluation Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 26.05.2011 Caroline Sporleder Evaluation (1) Datensets Caroline Sporleder Evaluation (2) Warum evaluieren?

Mehr

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015 Allgmeine Hinweise Die Hausübung umfasst 7 Aufgaben mit insgesamt 120 Punkten. Erstellen Sie eine R Skript-Datei mit Ihrer Matrikelnummer als Dateinamen. Diese Datei enthält Ihren vollständigen und mit

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18 Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Tag 9: Datenstrukturen

Tag 9: Datenstrukturen Tag 9: Datenstrukturen A) Datenstrukturen B) Cell Arrays C) Anwendungsbeispiel: Stimulation in einem psychophysikalischen Experiment A) Datenstrukturen Wenn man komplizierte Datenmengen verwalten möchte,

Mehr

Info zum Junk-Mail-Filter in Thunderbird:

Info zum Junk-Mail-Filter in Thunderbird: Datenverarbeitungszentrale Datenverarbeitungszentrale dvz@fh-muenster.de www.fh-muenster.de/dvz Info zum Junk-Mail-Filter in Thunderbird: Der Grossteil der Benutzer verwendet zusätzlich zum zentralen Mail-Filter

Mehr

5 Eigenwerte und die Jordansche Normalform

5 Eigenwerte und die Jordansche Normalform Mathematik für Physiker II, SS Mittwoch 8.6 $Id: jordan.tex,v.6 /6/7 8:5:3 hk Exp hk $ 5 Eigenwerte und die Jordansche Normalform 5.4 Die Jordansche Normalform Wir hatten bereits erwähnt, dass eine n n

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Fakultät Angewandte Informatik Programmierung verteilter Systeme 28.11.2011. Übungen zur Vorlesung Informatik II, Blatt 6

Fakultät Angewandte Informatik Programmierung verteilter Systeme 28.11.2011. Übungen zur Vorlesung Informatik II, Blatt 6 WS 2011/12 Fakultät Angewandte Informatik Programmierung verteilter Systeme 28.11.2011 Prof. Dr. Bernhard Bauer Übungen zur Vorlesung Informatik II, Blatt 6 Abgabe: Montag, 05.12.2011, 12.00 Uhr, Informatik

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

PHP 5.4 ISBN 978-3-86249-327-2. Stephan Heller, Andreas Dittfurth 1. Ausgabe, September 2012. Grundlagen zur Erstellung dynamischer Webseiten GPHP54

PHP 5.4 ISBN 978-3-86249-327-2. Stephan Heller, Andreas Dittfurth 1. Ausgabe, September 2012. Grundlagen zur Erstellung dynamischer Webseiten GPHP54 PHP 5.4 Stephan Heller, Andreas Dittfurth 1. Ausgabe, September 2012 Grundlagen zur Erstellung dynamischer Webseiten ISBN 978-3-86249-327-2 GPHP54 5 PHP 5.4 - Grundlagen zur Erstellung dynamischer Webseiten

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

R-Wörterbuch Ein Anfang... ein Klick auf einen Begriff führt, sofern vorhanden, zu dessen Erklärung.

R-Wörterbuch Ein Anfang... ein Klick auf einen Begriff führt, sofern vorhanden, zu dessen Erklärung. R-Wörterbuch Ein Anfang... ein Klick auf einen Begriff führt, sofern vorhanden, zu dessen Erklärung. Carsten Szardenings c.sz@wwu.de 7. Mai 2015 A 2 B 3 C 4 D 5 F 6 R 16 S 17 V 18 W 19 Z 20 H 7 I 8 K 9

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Kleine Einführung in die lineare Regression mit Excel

Kleine Einführung in die lineare Regression mit Excel Kleine Einführung in die lineare Regression mit Excel Grundoperationen mit Excel Werte mit Formeln berechnen Bsp.: Mittelwert und Standardabweichung Das $-Zeichen Beispielauswertung eines Versuches Daten

Mehr

Einführung in SPSS. 1. Die Datei Seegräser

Einführung in SPSS. 1. Die Datei Seegräser Einführung in SPSS 1. Die Datei Seegräser An 25 verschiedenen Probestellen wurde jeweils die Anzahl der Seegräser pro m 2 gezählt und das Vorhandensein von Seeigeln vermerkt. 2. Programmaufbau Die wichtigsten

Mehr

Kapitel 15. Lösung linearer Gleichungssysteme

Kapitel 15. Lösung linearer Gleichungssysteme Kapitel 15. Lösung linearer Gleichungssysteme Lineare Gleichungssysteme Wir befassen uns nun mit der Lösung im allgemeinen nichthomogener linearer Gleichungssysteme in zweifacher Hinsicht. Wir studieren

Mehr

Graphen: Einführung. Vorlesung Mathematische Strukturen. Sommersemester 2011

Graphen: Einführung. Vorlesung Mathematische Strukturen. Sommersemester 2011 Graphen: Einführung Vorlesung Mathematische Strukturen Zum Ende der Vorlesung beschäftigen wir uns mit Graphen. Graphen sind netzartige Strukturen, bestehend aus Knoten und Kanten. Sommersemester 20 Prof.

Mehr

Die druckfähige pdf-version ist zu laden von lernelesen.com/bedienungsanleitung.htm

Die druckfähige pdf-version ist zu laden von lernelesen.com/bedienungsanleitung.htm 1 Die druckfähige pdf-version ist zu laden von lernelesen.com/bedienungsanleitung.htm Anleitung LeLe_S1 ------------------- Diese App ist inhaltlich gleich mit LeLe_1. Nur die Darstellung und der Zugriff

Mehr

Statistisches Programmieren

Statistisches Programmieren Statistisches Programmieren Session 1 1 Was ist R R ist eine interaktive, flexible Software-Umgebung in der statistische Analysen durchgeführt werden können. Zahlreiche statistische Funktionen und Prozeduren

Mehr

Verbessern Sie Ihre Webinare

Verbessern Sie Ihre Webinare Verbessern Sie Ihre Webinare Auswertung von Informationen über Ihre Teilnehmer auf edudip zur Verbesserung Ihrer Webinare Dies ist die downloadbare CSV Datei, nur für edudip. Pro Mitglieder verfügbar Heutzutage

Mehr

Web Mining Übung. www.ke.tu-darmstadt.de/lehre/ss13/web-mining/uebungen. Aufgaben. Umfang

Web Mining Übung. www.ke.tu-darmstadt.de/lehre/ss13/web-mining/uebungen. Aufgaben. Umfang www.ke.tu-darmstadt.de/lehre/ss13/web-mining/uebungen zusätzliche Informationen, Registrierung, Upload, Übungsblätter Aufgaben aus dem Bereich Data-, Text- und Web-Mining Crawling, Textanalyse, Textklassifizierung,

Mehr

Datamining Cup Lab 2005

Datamining Cup Lab 2005 Datamining Cup Lab 2005 Arnd Issler und Helga Velroyen 18. Juli 2005 Einleitung Jährlich wird der Datamining Cup 1 von der Firma Prudsys und der TU Chemnitz veranstaltet. Im Rahmen des Datamining-Cup-Praktikums

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Weka: Software-Suite mit Maschineller Lernsoftware

Weka: Software-Suite mit Maschineller Lernsoftware : Software-Suite mit Maschineller Lernsoftware Computational Linguistics Universität des Saarlandes Sommersemester 2011 21.04.2011 Erste Schritte Waikato Environment for Knowledge Analysis entwickelt von

Mehr

Numerisches Programmieren

Numerisches Programmieren Technische Universität München SS 2012 Institut für Informatik Prof Dr Thomas Huckle Dipl-Inf Christoph Riesinger Dipl-Math Alexander Breuer Dipl-Math Dipl-Inf Jürgen Bräckle Dr-Ing Markus Kowarschik Numerisches

Mehr

Running R. Windows Aus Menü. Lese R Code ein führt den Code auch gleich aus, eventuell muss vorher das Verzeichnis gewechselt werden.

Running R. Windows Aus Menü. Lese R Code ein führt den Code auch gleich aus, eventuell muss vorher das Verzeichnis gewechselt werden. Einführung 1 / 1 Einführung 2/1 Running R Windows Aus Menü Linux Lese R Code ein führt den Code auch gleich aus, eventuell muss vorher das Verzeichnis gewechselt werden. Auf der Konsole/Eingabeaufforderung:

Mehr

Aufgabe 1. »Programmieren«, WS 2006/2007. Nino Simunic M.A.

Aufgabe 1. »Programmieren«, WS 2006/2007. Nino Simunic M.A. »Programmieren«, WS 006/007 Nino Simunic (nino.simunic@uni-due.de) Übungsblatt 4 Aufgabe 1 OOP In dieser Aufgabe sollen Sie Autos als Klasse Car modellieren. Die Eigenschaften auf attributiver Ebene sind:

Mehr

PRAXISBUTLER ANPASSUNG DER VORLAGEN

PRAXISBUTLER ANPASSUNG DER VORLAGEN Praxisbutler Anpassung der Vorlagen 1 PRAXISBUTLER ANPASSUNG DER VORLAGEN Die Vorlagen werden hauptsächlich in den Bereichen Klienten und Fakturierung benutzt. Die Anpassung dieser Vorlagen ist wichtig,

Mehr

Installation. Arbeiten mit der MATLAB-Entwicklungsumgebung. MATLAB als Taschenrechner mit Matrix- und Vektorrechnung.

Installation. Arbeiten mit der MATLAB-Entwicklungsumgebung. MATLAB als Taschenrechner mit Matrix- und Vektorrechnung. Installation. Arbeiten mit der MATLAB-Entwicklungsumgebung. MATLAB als Taschenrechner mit Matrix- und Vektorrechnung. Die heutige Sitzung dient dem ersten Kennenlernen von MATLAB. Wir wollen MATLAB zuerst

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Reihungen. Martin Wirsing. in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03

Reihungen. Martin Wirsing. in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03 Reihungen Martin Wirsing in Zusammenarbeit mit Matthias Hölzl und Nora Koch 11/03 2 Ziele Die Datenstruktur der Reihungen verstehen: mathematisch und im Speicher Grundlegende Algorithmen auf Reihungen

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

PIWIN 1 Übung Blatt 5

PIWIN 1 Übung Blatt 5 Fakultät für Informatik Wintersemester 2008 André Gronemeier, LS 2, OH 14 Raum 307, andre.gronemeier@cs.uni-dortmund.de PIWIN 1 Übung Blatt 5 Ausgabedatum: 19.12.2008 Übungen: 12.1.2009-22.1.2009 Abgabe:

Mehr

Numerisches Programmieren

Numerisches Programmieren Technische Universität München WS /3 Institut für Informatik Prof Dr Hans-Joachim Bungartz Dipl-Inf Christoph Riesinger Dipl-Inf Dipl-Math Jürgen Bräckle Numerisches Programmieren Programmieraufgabe: Polnominterpolation,

Mehr

Kapitel 3 Das Projekt Bankkonto Seite 1

Kapitel 3 Das Projekt Bankkonto Seite 1 Kapitel 3 Das Projekt Bankkonto Seite 1 3 Das Projekt Bankkonto Nun wirst du dich etwas gründlicher mit dem Quelltext einer Klasse beschäftigen. Du lernst, wie zwei Objekte eine gemeinsame Aufgabe erledigen.

Mehr

Institut für Informatik

Institut für Informatik Technische Universität München Institut für Informatik Lehrstuhl für Computer Graphik & Visualisierung WS 2010 Praktikum: Grundlagen der Programmierung Lösungsblatt 7 Prof. R. Westermann, A. Lehmann, R.

Mehr

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag Ludwig-Maximilians-Universität München WS 2015/16 Institut für Informatik Übungsblatt 9 Prof. Dr. R. Hennicker, A. Klarl Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung:

Mehr

Jungen in sozialen Berufen einen Leserbrief schreiben

Jungen in sozialen Berufen einen Leserbrief schreiben Arbeitsblatt 8.5 a 5 10 In einem Leserbrief der Zeitschrift Kids heute erläutert Tarek seinen Standpunkt zum Thema Jungen in sozialen Berufen. Jungs in sozialen Berufen das finde ich total unrealistisch!

Mehr

Fachgebiet Informationssysteme Prof. Dr.-Ing. N. Fuhr. Programmierung Prof. Dr.-Ing. Nobert Fuhr. Übungsblatt Nr. 6

Fachgebiet Informationssysteme Prof. Dr.-Ing. N. Fuhr. Programmierung Prof. Dr.-Ing. Nobert Fuhr. Übungsblatt Nr. 6 Gudrun Fischer Sascha Kriewel programmierung@is.informatik.uni-duisburg.de Anmeldung zur Klausur! Übungsblatt Nr. 6 Um an der Klausur teilzunehmen, müssen sich Studierende der angewandten Informatik in

Mehr

Matrizen, Determinanten, lineare Gleichungssysteme

Matrizen, Determinanten, lineare Gleichungssysteme Matrizen, Determinanten, lineare Gleichungssysteme 1 Matrizen Definition 1. Eine Matrix A vom Typ m n (oder eine m n Matrix, A R m n oder A C m n ) ist ein rechteckiges Zahlenschema mit m Zeilen und n

Mehr

Gruber I Neumann. TI-Nspire CX CAS. von der Sek I bis zum Abitur. Ausführliche Beispiele und Übungsaufgaben

Gruber I Neumann. TI-Nspire CX CAS. von der Sek I bis zum Abitur. Ausführliche Beispiele und Übungsaufgaben Gruber I Neumann TI-Nspire CX CAS von der Sek I bis zum Abitur Ausführliche Beispiele und Übungsaufgaben Inhaltsverzeichnis 3 Inhaltsverzeichnis Vorwort 6 1 Der TI-Nspire TM CX CAS 7 1.1 Der Hauptbildschirm...............................

Mehr

Aufgabenstellung und Zielsetzung

Aufgabenstellung und Zielsetzung Aufgabenstellung und Zielsetzung In diesem Szenario werden Sie eine Bestellung, vorliegend im XML-Format, über einen Web-Client per HTTP zum XI- System senden. Dort wird die XML-Datei mittels eines HTTP-Interfaces

Mehr

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 Wahrscheinlichkeit und Sprache Ausgangsfrage: Nächstes Wort vorhersagen. Sprache als Zufallsprozess: Für jede

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Erwin Grüner 15.12.2005

Erwin Grüner 15.12.2005 FB Psychologie Uni Marburg 15.12.2005 Themenübersicht Mit Hilfe der Funktionen runif(), rnorm() usw. kann man (Pseudo-) erzeugen. Darüber hinaus gibt es in R noch zwei weitere interessante Zufallsfunktionen:

Mehr

M. Graefenhan 2000-12-07. Übungen zu C. Blatt 3. Musterlösung

M. Graefenhan 2000-12-07. Übungen zu C. Blatt 3. Musterlösung M. Graefenhan 2000-12-07 Aufgabe Lösungsweg Übungen zu C Blatt 3 Musterlösung Schreiben Sie ein Programm, das die Häufigkeit von Zeichen in einem eingelesenen String feststellt. Benutzen Sie dazu ein zweidimensionales

Mehr

Internetkommunikation I WS 2004/05 Rafael Birkner

Internetkommunikation I WS 2004/05 Rafael Birkner Vortrag zum Thema: Bayes'sche Filter zur SPAM-Erkennung 1. Bayes'sche Filter: Eigenschaften - englischer Mathematiker Thomas Bayes (1702 1761) - state of the art Technologie zur Bekämpfung von Spam - adaptive

Mehr

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag Ludwig-Maximilians-Universität München WS 2015/16 Institut für Informatik Übungsblatt 13 Prof. Dr. R. Hennicker, A. Klarl Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung:

Mehr

Excel Pivot-Tabellen 2010 effektiv

Excel Pivot-Tabellen 2010 effektiv 7.2 Berechnete Felder Falls in der Datenquelle die Zahlen nicht in der Form vorliegen wie Sie diese benötigen, können Sie die gewünschten Ergebnisse mit Formeln berechnen. Dazu erzeugen Sie ein berechnetes

Mehr

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung Ludwig-Maximilians-Universität München WS 2013/14 Institut für Informatik Übungsblatt 10 Prof. Dr. R. Hennicker, A. Klarl Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung

Mehr

4. Relationen. Beschreibung einer binären Relation

4. Relationen. Beschreibung einer binären Relation 4. Relationen Relationen spielen bei Datenbanken eine wichtige Rolle. Die meisten Datenbanksysteme sind relational. 4.1 Binäre Relationen Eine binäre Relation (Beziehung) R zwischen zwei Mengen A und B

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

5. Übung: PHP-Grundlagen

5. Übung: PHP-Grundlagen 5.1. Erstes PHP-Programm 1. Schreiben Sie PHP-Programm innerhalb einer Webseite, d.h. innerhalb eines HTML-Dokument. Ihr PHP-Programm soll einen kurzen Text ausgeben und Komentare enthalten. Speichern

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume?

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume? Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume? Bernhard Ganter Institut für Algebra TU Dresden D-01062 Dresden bernhard.ganter@tu-dresden.de WS 2013/14 Isomorphie Zwei Graphen (V 1, E 1 ) und (V

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

eassessment Oracle DB Engine Whitepaper

eassessment Oracle DB Engine Whitepaper eassessment Oracle DB Engine Whitepaper DOKUMENT: TYP: eassessment Oracle DB Engine Whitepaper Plattformdokumentation ERSTELLT VON: nova ratio AG Universitätsstraße 3 56070 Koblenz Deutschland VERSION:

Mehr

MS SQL Server 2012 (4)

MS SQL Server 2012 (4) MS SQL Server 2012 (4) Data Mining, Analyse und multivariate Verfahren Marco Skulschus Jan Tittel Marcus Wiederstein Webseite zum Buch: http://vvwvv.comelio-medien.com/buch-kataiog/ms sql_server/ms sql

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

1 Überblick. A-Z SiteReader Benachrichtigung.doc Seite 1 von 9

1 Überblick. A-Z SiteReader Benachrichtigung.doc Seite 1 von 9 1 Überblick In A-Z SiteReader ist das Feature Benachrichtigung enthalten. Dieses Feature ermöglicht einer Installation, beim Auftreten von Ereignissen eine automatische Benachrichtigung für verschiedene

Mehr

Kurzübericht der implementierten Funktionen der Fachinformatiker -== Info Datenbank ==-

Kurzübericht der implementierten Funktionen der Fachinformatiker -== Info Datenbank ==- Kurzübericht der implementierten Funktionen der Fachinformatiker -== Info Datenbank ==- Einleitung : Zu Beginn möchte ich kurz den Sinn dieser Datenbank erläutern. Als Webmaster der Fachinformatiker -==

Mehr

Bedienung von BlueJ. Klassenanzeige

Bedienung von BlueJ. Klassenanzeige Im Folgenden werden wichtige Funktionen für den Einsatz von BlueJ im Unterricht beschrieben. Hierbei wird auf den Umgang mit Projekten, Klassen und Objekten eingegangen. Abgeschlossen wird dieses Dokument

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Computer Graphik (CS231) - Installation der Software

Computer Graphik (CS231) - Installation der Software UNIVERSITÄT BASEL Prof. Dr. Thomas Vetter Departement Mathematik und Informatik Spiegelgasse 1 CH 4051 Basel Tobias Maier (tobias.maier@unibas.ch) Jasenko Zivanov (jasenko.zivanov@unibas.ch) Marc Schmidlin

Mehr

Firefox: Die Lesezeichen im Griff

Firefox: Die Lesezeichen im Griff Firefox: Die Lesezeichen im Griff Die Favoriten im Internet Explorer sind eine Lachnummer gegen die Lesezeichen im Firefox. Eingetippte Schlagworte reichen, um sie aufzurufen. Außerdem können ganze Befehlsfolgen

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Poster Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Timm Euler Tobias Otte viadee GmbH viadee GmbH Anton-Bruchausen-Str. 8 Anton-Bruchausen-Str. 8 48147 Münster 48147 Münster Timm.Euler@viadee.de

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Hilfe zur Dokumentenverwaltung

Hilfe zur Dokumentenverwaltung Hilfe zur Dokumentenverwaltung Die Dokumentenverwaltung von Coffee-CRM ist sehr mächtig und umfangreich, aber keine Angst die Bedienung ist kinderleicht. Im Gegensatz zur Foto Galeria können Dokumente

Mehr

Universität Bonn, Institut für Angewandte Mathematik. WS 2012/2013 Prüfung Angewandte Mathematik und Statistik - Agrarwiss. /ELW

Universität Bonn, Institut für Angewandte Mathematik. WS 2012/2013 Prüfung Angewandte Mathematik und Statistik - Agrarwiss. /ELW Universität Bonn, Institut für Angewandte Mathematik Dr. Antje Kiesel WS 2012/2013 Prüfung Angewandte Mathematik und Statistik - Agrarwiss. /ELW 08.03.2013 Matrikelnummer Platz Name Vorname 1 2 3 4 5 6

Mehr

Übungsblatt 3: Algorithmen in Java & Grammatiken

Übungsblatt 3: Algorithmen in Java & Grammatiken Humboldt-Universität zu Berlin Grundlagen der Programmierung (Vorlesung von Prof. Bothe) Institut für Informatik WS 15/16 Übungsblatt 3: Algorithmen in Java & Grammatiken Abgabe: bis 9:00 Uhr am 30.11.2015

Mehr

Schulberichtssystem. Inhaltsverzeichnis

Schulberichtssystem. Inhaltsverzeichnis Schulberichtssystem Inhaltsverzeichnis 1. Erfassen der Schüler im SBS...2 2. Erzeugen der Export-Datei im SBS...3 3. Die SBS-Datei ins FuxMedia-Programm einlesen...4 4. Daten von FuxMedia ins SBS übertragen...6

Mehr

R ist freie Software und kann von der Website. www.r-project.org

R ist freie Software und kann von der Website. www.r-project.org R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird

Mehr

1 Zahlentheorie. 1.1 Kongruenzen

1 Zahlentheorie. 1.1 Kongruenzen 3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern

Mehr

Computerlinguistische Textanalyse

Computerlinguistische Textanalyse Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller

Mehr

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University

Mehr

Anlegen von Serviceboxen

Anlegen von Serviceboxen TYPO3 an der TU Berlin Anlegen von Serviceboxen Version: 1.0 Stand: 01.11.2007 Autor: Antje Janke Überarbeitung: Roman Zimmer 1 Inhaltsverzeichnis 1. Allgemeine Informationen......3 1.1 Was sind Serviceboxen?......3

Mehr

DAP2-Klausur 07.08.2004

DAP2-Klausur 07.08.2004 DAP2-Klausur 07.08.2004 Vorname : Familienname: Ich studiere (Bitte markieren): Informatik/Inform. Lehramt/Inf.technik/Physik/ Mathe/Statistik/Sonstiges: Bitte beachten: Auf jedem Blatt Matrikelnummer

Mehr

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen. Zusätze zum Gelben Rechenbuch LU-Zerlegung Peter Furlan Verlag Martina Furlan Inhaltsverzeichnis Definitionen 2 (Allgemeine) LU-Zerlegung 2 3 Vereinfachte LU-Zerlegung 3 4 Lösung eines linearen Gleichungssystems

Mehr

Übungsblatt 2. Abgabe: Freitag, 7. November 2014, 18:00 Uhr

Übungsblatt 2. Abgabe: Freitag, 7. November 2014, 18:00 Uhr Informatik I: Einführung in die Programmierung Prof. Dr. Bernhard Nebel Dr. Christian Becker-Asano, Dr. Stefan Wölfl Wintersemester 2014/2015 Universität Freiburg Institut für Informatik Übungsblatt 2

Mehr

Scheinaufgabe im Fach Web Engineering

Scheinaufgabe im Fach Web Engineering Otto-von-Guericke-Universität Magdeburg Fakultät für Informatik Institut für Verteilte Systeme Scheinaufgabe im Fach Web Engineering Thomas Thüm 07. August 2006 Matrikel: 171046 Lehrveranstaltung: Web

Mehr

Bearbeitungszeit: 120 Minuten. Kommentare kosten Zeit; kommentieren Sie ihr Programm nur da, wo der Code alleine nicht verständlich wäre.

Bearbeitungszeit: 120 Minuten. Kommentare kosten Zeit; kommentieren Sie ihr Programm nur da, wo der Code alleine nicht verständlich wäre. Fakultät IV Elektrotechnik/Informatik Klausur Einführung in die Informatik I für Elektrotechniker Name:... Matr.-Nr.... Bearbeitungszeit: 120 Minuten Bewertung (bitte offenlassen : ) Aufgabe Punkte Erreichte

Mehr

Preisaktualisierungen via BC Pro-Catalogue

Preisaktualisierungen via BC Pro-Catalogue Preisaktualisierungen via BC Pro-Catalogue 1. Allgemein Seite 1 2. Anwendungsfall : Lieferant mit im System bereits vorhandenen Katalog Seite 2-3 3. Anwendungsfall : Neuer Lieferant Seite 4-8 1. Allgemein

Mehr