Outlier Detection in USENET Newsgruppen

Größe: px
Ab Seite anzeigen:

Download "Outlier Detection in USENET Newsgruppen"

Transkript

1 Dplomarbet Outler Detecton n USENET Newsgruppen Stephan Deutsch Dplomarbet am Fachberech Informatk der Unverstät Dortmund Oktober 2006 Betreuer: Prof. Dr. Katharna Mork Dpl.-Inform. Mchael Wurst

2 2

3 Inhaltsverzechns 1. Enletung Knowledge Dscovery und Outler Detecton Snn und Nutzen von Outler Detecton Defnton für Outler Zele und Vorgehenswese deser Arbet Exsterende Outler Detecton Ansätze Generelle Defntonen und Begrffe Vertelungsbaserte Ansätze Tefenbaserte Ansätze Entfernungsbaserte Outler Unfzerende entfernungsbaserte Ansätze Entfernungsbaserte Outler zum k-ten nächsten Nachbarn Dchtebaserte Outler Detecton Ansätze Local Outler Factor (LOF) Top-n Local Outler Outlererkennung durch Dchtemessung n Projektonen Räumlche Outler Erkennung Spatal Outler Spatal Temporal Outler Clusterng und Outler Detecton Clusterng Verfahren m Ensatz zur Outlererkennung Cluster Based Local Outler CBLOF Outler unter Enbezehung semantschen Wssens Überscht über Outler Detecton Ansätze USENET Newsgruppen als Anwendungsdomane Enführung n USENET News Motvaton für Outler Detecton n USENET Newsgruppen Outler Detecton n USENET News Feldbeschrebungen und Attrbute von Newsartkeln Nutzungsmechansmen von Newsgruppen Mechansmen bezogen auf Newsgruppen Mechansmen bezogen auf den Artkelfluss Mechansmen bezogen auf Newsartkel Vektorserung von Texten für de Outlererkennung Möglche Outler-Kategoren für USENET News Überscht über Kategoren von zu erwartenden Outlern Ncht-gruppenspezfsche Kategoren (ng) Gruppenspezfsche Kategoren (g) Auswahl von Standardverfahren Anpassung von Standardverfahren Angepasste Vorverarbetungsverfahren Ergänzung mt Hntergrundwssen über Autoren Erstellung ener Testdatenmenge Praktsche Umsetzung und Implementerung Anwendung der YALE Umgebung und des Outler-PlugIn Implementerung der Verfahren Operatoren-Testmenge DB(p,D)-Outler Operator D(k,n)-Outler Operator LOF(MnPts)-Outler Operator ESOM-Export Operator OutlerDmensonReducton Operator Textsplttng / NewsArtcleSpltter Operator Implementerung unterschedlcher Abstandsmaße AuthorBackgroundKnowledgeAppler Operator LabelPredctonAppler Operator OutlerPerformanceEvaluator zur Ergebnsauswertung Möglche Verbesserungen und Entwcklerhnwese

4 6. Evaluaton: Expermente und Ergebnsse Expermentelles SetUp Testmengenbeschrebung Generelle Hnwese alt.support.cancer Testmenge Durchführung der Expermente für alt.support.cancer D(k,n) Experment DB(p,D)-Experment LOF(MnPts) Experment ESOM Experment Anwendung von Autorenwssen Verglech der Erkennung von Kategoren Zusammenfassung der expermentellen Ergebnsse Abschlussbetrachtung und Ausblck Lteraturverzechns

5 Abbldungsverzechns Abbldung 1 - Hawkns Defnton von Outlern n Datenmengen... 9 Abbldung 2 - Zele der Dplomarbet Abbldung 3 - Tefenkonturen ener zwedmensonalen Datenwolke mt 5000 Punkten Abbldung 4 - Auswahlbaum für statstsche Outlererkennung Abbldung 5 - Expermentelle Ergebnsse des Parttonsalgorthmus Abbldung 6 - Bespelvertelung für de Erkennung dchtebaserter Outler (LOF) Abbldung 7 - Errechbarketsdstanz von Objekten Abbldung 8 - Drekte und ndrekte Errechbarket von Objekten Abbldung 9 - Qualtät der Grenzen für LOF n Bezug auf statstsche Fluktuaton Abbldung 10 - Verschedene Cluster überlappende MnPts Nachbarschaften Abbldung 11 - Qualtät von LOF-Werten be verändertem MnPts Abbldung 12 - Bespel für de Bestmmung geegneter MnPts-Werte Abbldung 13 - Anwendungsergebnsse des LOF Verfahrens Abbldung 14 - Mcrocluster ohne Überlappung mt enem Objekt x Abbldung 15 - Schnttebenenkonzept für Mcrocluster Abbldung 16 - Mnmale und maxmale Entfernungen zwschen Mcroclustern Abbldung 17 - Expermentelle Ergebnsse des top-n LOF Verfahrens Abbldung 18 - Projektonen hochdmensonaler Datenräume m Bespel Abbldung 19 - Klassfzerung von Outler Ansätzen nach Shekhar Abbldung 20 - Bespel für Spatal Outler Abbldung 21 - Varogram Cloud für Spatal Outler Abbldung 22 - Moran Scatter Plot für Spatal Outler Abbldung 23 - Scatter Plot für Spatal Outler Abbldung 24 - Statstscher Zs(x) Test für Spatal Outler Abbldung 25 - Mehrschrttverfahren für Spatal Temporal Outler Abbldung 26 - Spatal Temporal Outler am Bespel von Wasserstandsdaten Abbldung 27 - Cluster als Outler am Bespel ener Datenmenge Abbldung 28 - USENET Topologe (Ausschntt) Abbldung 29 - USENET News Statstken Abbldung 30 - Vertelung der Artkelgrößen von News Abbldung 31 - Zetlche Vertelung der Nachrchtengröße n Newsgruppen Abbldung 32 - Monatlche Spam Statskken für USENET News Abbldung 33 - Exemplarscher Artkelfluss als Snapshot ener Newsgruppe Abbldung 34 - Grafsche Textelemente n Nachrchten Abbldung 35 - Textuelle Querverwese n Dskussonsthreads Abbldung 36 - Überscht erwarteter Outler-Kategoren n USENET News Abbldung 37 - Anwendung der Kosnusdstanz für Textvektoren Abbldung 38 - Anwendung von verschedenen Dstanzen m D(k,n)-Verfahren Abbldung 39 - Testmenge für Outler Operatoren Abbldung 40 - Anwendung von DB(p,D)-Outlerverfahren auf de Testmenge Abbldung 41 - Outler der Testdatenmenge nach dem D(k,n)-Verfahren Abbldung 42 - LOF-Werte für de Testdatenmenge / dchtebaserte Outler Abbldung 43 - Testmengenanalyse durch ESOM Tools Abbldung 44 - Performance-Maße für Erkennung kategorserter Objekte Abbldung 45 - Testumgebung für praktsche Expermente Abbldung 46 - Testmengenanalyse n reduzerter Dmensonaltät Abbldung 47 - D(k,n)-Test mt k=5 und n=80 n zwedmensonaler Redukton dargestellt Abbldung 48 - D(k,n)-Test mt Vsualserung der postv erkannten Kategorserungen Abbldung 49 - D(k,n)-Auswertung für Precson und Recall Abbldung 50 - Auswertung des D(k,n)-Experments - F_Measure Abbldung 51 - D(k,n)-Experment mt Textsplttng Abbldung 52 - DB(p,D)-Verfahren für eukldsche Dstanz be voller Dmensonaltät Abbldung 53 - DB(p,D)-Verfahren be reduzerter Anzahl an Dmensonen Abbldung 54 - DB(p,D)-Verfahren mt Kosnusdstanz als Abstandsmaß Abbldung 55 - DB(p,D)-Verfahren mt Kosnusdstanz und reduzerten Dmensonen Abbldung 56 - DB(p,D)-Verfahren m F_measure Verglech Abbldung 57 - DB(p,D)-Verfahren mt Textsplttng und eukldscher Dstanz be 2555 Dmensonen Abbldung 58 - DB(p,D)-Experment mt Textsplttng und Kosnusdstanz be 2555 Dmensonen Abbldung 59 - DB(p,D)-Experment mt Textsplttng, eukldscher Dstanz und reduzerten Dmensonen

6 Abbldung 60 - DB(p,D)-Experment mt Textsplttng und Kosnusdstanz be reduzerten Dmensonen Abbldung 61 - LOF-Auswertung auf der Ursprungsmenge (2.949 Dmensonen) Abbldung 62 - LOF Analyse auf 3-dmensonaler Testmenge nach SVD Abbldung 63 - LOF-Experment Ergebnsse m Verglech Abbldung 64 - LOF-Verfahren: F_Measure Verglech Abbldung 65 - LOF-Experment mt Textsplttng Abbldung 66 - ESOM Karten von alt.support.cancer (eukldsch (l), cosnus (r)) Abbldung 67 - ESOM Karte mt gekennzechneten Outler-Knoten be eukldschen Dstanz Abbldung 68 - ESOM Karte mt gekennzechneten Outler-Knoten be Kosnusdstanz Abbldung 69 - Anwendung von Autorenwssen auf de Testdatenmenge Abbldung 70 - Grafsche Auswertung des Cross-Valdaton Experments für Autorenwssen De m Folgenden aufgelsteten Abbldungen wurden aus den referenzerten Lteraturquellen übernommen bzw. anhand deren Quellenangaben nachgebldet. Alle n deser Tabelle ncht aufgelsteten Abbldungen stammen vom Autor deser Arbet (Irrtum/Fehler ncht ausgeschlossen). Abbldung Lteraturquelle Abbldung 3 [37] Abbldung 4 [6] Abbldung 5 [61] Abbldung 6 13 [4] Abbldung [5] Abbldung 18 [68] Abbldung [28] Abbldung [46] Abbldung 27 [10] Abbldung 28 unbekannt (aus altem Vortragsdokument) Abbldung Pathlnk Technologe Corporaton (2005) Tabellenverzechns Tabelle 1 - Ergebnsse der Vorkategorserung m Überblck Tabelle 2 - D(k,n)-Verfahren mt k=5 und n=80 be 2949 Dmensonen und eukldscher Dstanz Tabelle 3 - Entfernungsmaße m Verglech bem D(k,n)-Verfahren Tabelle 4 - Auswertung D(k,n)-Verfahren / Precson und Recall Tabelle 5 - Auswertung D(k,n)-Verfahren nach Textsplttng Tabelle 6 - Auswertung DB(p,D)-Verfahren mt m=2949, eukldscher Dstanz und D=Ø Tabelle 7 - Auswertung DB(p,D)-Verfahren mt m=2949, eukldscher Dstanz und D=Ø+σ² Tabelle 8 - Auswertung DB(p,D)-Verfahren mt m=2949, eukldscher Dstanz und D=Ø-σ Tabelle 9 - Auswertung DB(p,D)-Verfahren mt m=2949, eukldscher Dstanz und D=Ø-σ² Tabelle 10 - Auswertung DB(p,D)-Verfahren mt m=3, eukldscher Dstanz und D=Ø Tabelle 11 - Auswertung DB(p,D)-Verfahren mt m=3, eukldscher Dstanz und D=Ø+σ² Tabelle 12 - Auswertung DB(p,D)-Verfahren mt m=3, eukldscher Dstanz und D=Ø-σ² Tabelle 13 - Auswertung DB(p,D)-Verfahren mt m=2949, Kosnusdstanz und D=Ø Tabelle 14 - Auswertung DB(p,D)-Verfahren mt m=2949, Kosnusdstanz und D=Ø-σ² Tabelle 15 - Auswertung DB(p,D)-Verfahren mt m=2949, Kosnusdstanz und D=Ø-σ Tabelle 16 - Auswertung DB(p,D)-Verfahren mt m=3, Kosnusdstanz und D=Ø Tabelle 17 - Auswertung DB(p,D)-Verfahren mt m=3, Kosnusdstanz und D=Ø+σ² Tabelle 18 - Auswertung DB(p,D)-Verfahren mt m=3, Kosnusdstanz und D=Ø-σ² Tabelle 19 - Auswertung DB(p,D)-Verfahren mt m=3, Kosnusdstanz und D=Ø-σ Tabelle 20 - Auswertung LOF-Verfahren mt MnPts=[10;20], m=2949 und eukldscher Dstanz Tabelle 21 - Auswertung LOF-Verfahren mt MnPts=[20;100], m=2949 und eukldscher Dstanz Tabelle 22 - Auswertung LOF-Verfahren mt MnPts=[10;20], m=3 und eukldscher Dstanz Tabelle 23 - Auswertung LOF-Verfahren mt MnPts=[20;100], m=3 und eukldscher Dstanz Tabelle 24 - Auswertung LOF-Verfahren mt MnPts=[10;20], m=2949 und Kosnusstanz Tabelle 25 Auswertung LOF-Verfahren mt MnPts=[20;100], m=2949 und Kosnusdstanz Tabelle 26 - Auswertung LOF-Verfahren mt MnPts=[10;20], m=3 und Kosnusstanz Tabelle 27 - Auswertung LOF-Verfahren mt MnPts=[20;100], m=3 und Kosnusdstanz Tabelle 28 - Ergebnsse des Autorenwssen-Cross-Valdaton Experments Tabelle 29 - Erkennung von Kategoren durch Outler-Detecton Verfahren

7 OUTLIER DETECTION IN USENET NEWS Danksagung Zuallererst möchte ch den Betreuern am Lehrstuhl 8 für Künstlche Intellgenz des Fachberechs Informatk an der Unverstät Dortmund, Frau Prof. Dr. Katharna Mork und Dpl.-Inform. Mchael Wurst für de Unterstützung und Navgaton m noch sehr jungen und durch ene Velzahl von Menungen, neuen Erkenntnssen und vor allem ungelösten Problemen gekennzechneten Feld der Entdeckung von Outlern m Rahmen der Knowledge Dscovery n Datenbanken (KDD), herzlch danken. Glechsam danke ch für de Unterstützung nternatonaler Autoren, her vor allem Zhengyou He, der mr ncht nur neueste Lteratur aus der egenen Forschung, sondern auch Implementerungen expermenteller Algorthmen zur Verfügung stellte. Men Dank be der Erstellung deser Arbet glt jedoch vor allem mener Ehefrau für hre besondere Unterstützung n deser Zet und auch menem Sohn Smon, der mr zwar kene fachlche Hlfe war, jedoch ene große Inspraton. Mener Tochter danke ch dafür, dass se nach dem drtten Lebensmonat aufhörte, jeden Abend dre Stunden zu schreen, da sch des sehr postv auf mene Konzentraton ausgewrkt hat. 7

8 DIPLOMARBEIT 1. Enletung 1.1. Knowledge Dscovery und Outler Detecton Der Berech der Wssensentdeckung (Knowledge Dscovery) nmmt m Rahmen der KI-Forschung enen wchtgen Platz en. De Aufgaben der Knowledge Dscovery snd n ver große Felder getelt: Das Entdecken von Abhänggketen De Klassfzerung bzw. das Entdecken von Klassen De Beschrebung von Klassen De Entdeckung von Ausnahmen (sog. Outlern) Dabe st das Fnden von Strukturen, Mustern und glechen Egenschaften, z.b. durch Clusterng oder konzeptonelle Generalserung, mest das Zel der Forschung. Ausnahmen blden hngegen nur enen sehr klenen Prozentsatz der Datenmenge und werden oft entweder gnorert oder als Rauschen bezechnet. Daher haben vele exsterende Algorthmen und Verfahren des maschnellen Lernens Outler nur nsowet betrachtet, als dass se gegenüber desen Erschenungen tolerant snd. Für ene ganze Rehe von Anwendungen snd außergewöhnlche Eregnsse jedoch für de Wssensentdeckung von zentraler Bedeutung. Im Weteren wrd gezegt, dass Outler Detecton dem Nutzer strategsche Vortele be der Beurtelung von Stuatonen geben kann. Des rechtfertgt ene ntensve Ausenandersetzung mt desem Thema n der vorlegenden Arbet Snn und Nutzen von Outler Detecton Das Rauschen für den enen st für den anderen en Sgnal. Im Rahmen der velfältgen Betrachtung von Wssensentdeckung n Datenbanken, allgemen auch als KDD Knowledge Dscovery n Databases bezechnet, wurden Outler ene lange Zet m Berech des maschnellen Lernens und des Data Mnng von exsterenden Anwendungen und hren Algorthmen nur nsowet betrachtet, als dass se gegenüber desen Erschenungen tolerant, bzw. robust waren [3]. Es gbt jedoch ene brete Palette von Anwendungen, für de gerade das Wssen um außergewöhnlche Eregnsse und deren systematsche Entdeckung von mmenser Bedeutung st. En wchtger Aspekt von Outler Detecton st de Anwendung zur Entdeckung von Anomalen und n hrer Interpretaton de Entschedung, ob es sch um postve oder negatve Abwechungen von dem handelt, was ntutv als Norm betrachtet oder beschreben wrd. Das wohl namhafteste Bespel st de Untersuchung der Transaktonen bem Ensatz von Kredtkarten oder ähnlchen Zahlungsmtteln (z.b. SmartCards) mt dem Zel, Mssbrauch zu dentfzeren und erfolgrech zu unterbnden. De Unterschedung zwschen normalen und außergewöhnlchen Transaktonsmustern gbt den Kredtkartenfrmen de Möglchket, schnell und zelgerchtet enzugrefen und de Kosten von mssbräuchlcher Verwendung enzudämmen, Täter ggf. zu dentfzeren und trotzdem dem Anwender enen normalen, n Bezug auf dese Aspekte transparenten Zahlungsverkehr zu gewährlesten. Outler Detecton Anwendungen zur Erkennung von Mssbrauch snd jedoch ncht herauf beschränkt. De Nutzung von Telefonverbndungen oder Moblfunkanschlüssen, de Identfzerung der Infltraton von Netzwerken (Intruson Detecton and Preventon), de Analyse von Verkehrsmustern m Internet zur Vermedung von Denal of Servce Attacken (DoS), ecommerce Krmnaltät m allgemenen Snn, Wahl- und Steuerbetrug (z.b. über de IDEA Software [111] der Prüfer des Fnanzamtes), etc. snd alles potentelle und exsterende Anwendungen für de Erkennung von Outlern. Darüber hnaus kann Outler Detecton zu enem strategschen Vortel durch Wssensgewnn führen. De Identfzerung von Ausnahmesportlern n dversen Sportarten und hren Lgen betet Sportverenen ncht nur de Möglchket, spelersches Potental zu maxmeren. In der Zet der starken Kommerzalserung des Sports mt Börsengängen von Fußballverenen und Sponsorng- und Werbeverträgen von Sptzensportlern, proftert ene ganze Industre davon, Wssen um de extraordnären Fähgketen von Menschen schnell und effzent zu erwerben. De Erkennung abwechender Eregnsse betet zusätzlch handfeste Vortele, wenn es um de Vorhersage geht. Extreme Wetterstuatonen zu erkennen kann genauso überlebenswchtg sen, we Erkenntnsse über 8

9 OUTLIER DETECTION IN USENET NEWS tektonsche Anomalen m geologschen Berech zu gewnnen, oder außergewöhnlche Zusammenhänge be der Terrorsmusbekämpfung, z.b. durch Rasterfahndung und verglechbare Methoden rchtg zu bewerten. Auch be der langfrstgen Betrachtung von Systemen, z.b. n der Klma- und Umweltforschung, m Gesundhetswesen oder m Transportwesen spelt Outler Detecton ene mmer wchtgere Rolle. Zudem wrd se auch für de neuen Locaton Based Servces engesetzt. Dadurch wrd deutlch, dass de Outlererkennung enen festen Platz m Rahmen der Wssensentdeckung hat und enen Forschungszweg etablert, welcher sch fachübergrefend mt den theoretschen Grundlagen und mt praktschen Anwendungen beschäftgt. Er bedent sch dazu den verschedensten Methoden und Werkzeugen aus der Mathematk (Statstk) und Informatk (theoretsche Informatk, Künstlche Intellgenz, etc.) und verbndet dese mt praktschen Anwendungsfeldern. So velfältg we de potentellen Anwendungsmöglchketen, so verscheden snd auch de vorgeschlagenen Methoden und Ansätze für de erfolgreche Identfzerung von Outlern. Insgesamt handelt es sch also um en junges Wssenschaftsfeld mt täglch neuen Entdeckungen. Des drückt sch z.b. n enem generellen Fehlen ener formalen, allgemengültgen und allsets anerkannten Defnton dessen aus, was en Outler egentlch st. Ohne Anspruch auf Vollständgket wrd m Folgenden versucht, enen Defntonsansatz zu geben, der den Nutzer zumndest befähgt, n der Velzahl der Forschungsquellen zu navgeren. Denn das Identfzeren von valdem, neuem, potentell snnvollem und nutzbarem, sowe letztendlch verständlchem Wssen aus Daten st laut Fayyad und Smyth [52] ene grundlegende Frage der KDD, welche als Problemstellung ncht trval zu beantworten st Defnton für Outler Outler werden von Barnett und Lews [33] nformell als Beobachtungen defnert, welche zum Rest ener Datenmenge nkonsstent erschenen. Hawkns [45] defnert Outler formeller als Beobachtungen, welche so stark von anderen Beobachtungen abwechen, dass des den Verdacht begründet, hnen läge en (gänzlch) andersartger Mechansmus zugrunde. In den mesten Quellen zu den Themen Outler und Outler Detecton wrd auf dese Defntonen Bezug genommen. Glechzetg wrd beklagt, dass es kene enhetlche Defnton gbt, welche ene genauere Enordnung der velfältgen Ansätze für Outler Detecton ermöglcht. Auch st es schwerg, de verschedenen Ansätze sozusagen rückwärts enzuordnen, ndem auf de angewendeten Verfahren Bezug genommen wrd. Ene solche Ordnung erlaubt zwar den Verglech von Ansätzen für Outler Detecton anhand der Art, Kosten und Umsetzung von Algorthmen und n gröberem Rahmen auch ene quas Ordnung nach den allgemenen oder statstschen Maßen, welche der Identfzerung zugrunde gelegt werden. Jedoch erschent de Navgaton zwschen den Ansätzen und vor allem de Entschedung, welches Verfahren für ene Stuaton konkret am besten geegnet st, für enen Anwender ohne ausführlches Studum fast aller Ansätze nur sehr schwer möglch zu sen. andersartger zugrunde legender Mechansmus beobachtete Werte ausschlaggebender Attrbute Postonen (m) (engeschränkt) projzerten (Daten-) Raum Abbldung 1 - Hawkns Defnton von Outlern n Datenmengen Abbldungsbeschrebung: De Defnton von Outlern nach Hawkns [45] wrd grafsch gezegt und drückt aus, dass sch Mechansmen, welche dem Verhalten von Objekten zugrunde legen, n der Poston deser Objekte m Datenraum nederschlagen, der durch de Attrbute des Objektes aufgespannt wrd. 9

10 DIPLOMARBEIT Ene Defnton von Outlern sollte demnach vor allem für den Nutzer ntutv und snnvoll sen. Se sollte ene Enordnung und das Fnden enes oder mehrerer geegneter Verfahren möglch machen. En geegnetes Verfahren se hermt als en solches bezechnet, welches Outler gemäß deser ntutven Defnton erfolgrech und zu vertretbaren Kosten fndet. Verfenert man de Defnton von Hawkns, ndem der Gedanke der Andersartgket des zugrunde legenden Mechansmus konsequent fortgeschreben wrd, so wrd deutlch, dass en solches Outler -Objekt an enem abwechenden ursächlchen Verhalten erkennbar wrd. Deses abwechende Verhalten lässt sch an den beobachteten Werten der ausschlaggebenden Attrbute des Objektes ablesen. Mathematsch bzw. m Rahmen der erfolgrechen Anwendung von statstschen Verfahren äußert sch des n konkreten Postonen von Objekten n enem engeschränkt projzerten Raum. Somt lassen sch Objekte also unter Nutzung der globalen Gesamthet all hrer möglchen Attrbute räumlch ordnen. Her wrd, noch bevor de verschedenen Verfahren zur Outlererkennung, welche berets von der weltweten Forschungsgemenschaft m KDD Berech beretgestellt werden, zur Anwendung kommen, das größte Dlemma deutlch. En Anwender, welcher nach Outlern sucht, kann nach Erkennung von Outlern durch en Verfahren nur schwer ene Aussage darüber treffen, welche Qualtät dese Outler haben. Noch wenger lässt sch vermuten, warum es sch um Outler handelt. Allen wenn en Verfahren de Menge der betrachteten Attrbute gezelt oder wllkürlch enschränkt (z.b. durch de Anwendung enes Algorthmus, durch fehlende Vollständgket von beobachteten Daten, etc.), ergeben sch jewels verschedenartge Stuatonen. Ob n Folge dverse Verfahren glechartge oder verschedenartge Outler dentfzeren, lässt sch nur expermentell klären. Inwewet dese Erkennung dann auf de Systematk der Attrbutwahl, de Systematk der Verfahrenswahl bzw. überhaupt auf de Konstellaton der zu untersuchenden Beobachtungen bezogen werden kann, dafür kann de Forschung derzet nur Ansätze und erste Überlegungen lefern [55]. Im Rahmen der ntensven Dskusson verschedener Ansätze be der Vorstellung ener Auswahl von Verfahren n enem Dplomandensemnar ergab sch de Schlussfolgerung, dass de Antwort auf de Fragestellung nach dem Warum? von erkannten Outlern ggf. ene vollständge Lösung des Grundproblems der KDD bedngen würde. Denn maschnelle Lernverfahren zur Erkennung von Outlern müssten de Gründe und Egenschaften deser Outler be der Identfzerung vollständg beschreben können, da der Anwender zwar ene Erwartungshaltung hat, jedoch auch hm unbekanntes Wssen entdecken wll, welches sch ncht a pror umfassend beschreben lässt. Daher wrd m Rahmen deser Arbet ncht versucht, Outler Detecton Ansätze zu ordnen bzw. zu klassfzeren. Glechsam wrd m Hnblck auf de Anwendung der USENET Newsgruppen ncht versucht, m Vorfeld ene Enschätzung der Egnung von Verfahren zur Erkennung von Outlern zu treffen. Velmehr steht n der praktschen Anwendung von unterschedlchen, gezelt ausgewählten Verfahren unter der Voraussetzung, dese snd rechentechnsch überhaupt praktkabel versucht, emprsche Ergebnsse vorzuwesen und de erkannten Outler entsprechend vorzustellen. Dabe steht en Effzenzverglech von Verfahren ebenso m Vordergrund, we de quanttatve Menge erkannter Outler m drekten Verfahrensverglech. Über de Qualtät der erkannten Outler wrd kene Aussage getroffen, da des mt Scht auf den Anspruch der Arbet ncht möglch wäre. De her geforderte deale Defnton exstert somt derzet noch ncht. 10

11 OUTLIER DETECTION IN USENET NEWS 1.4. Zele und Vorgehenswese deser Arbet 1. De Erstellung enes möglchst umfassenden Überblcks auf bestehende Ansätze zur Erkennung von Outlern. Des wrd m ersten Tel der Arbet durch ene Enführung n de generelle Problematk der Outlererkennung errecht und für de Verfahren wrd ene detallerte Darstellung der hnen jewels zugrunde legenden Ansätze vorgenommen. Dabe werden zur Begrenzung des Umfangs ncht alle Verfahren vorgestellt. Durch de Aktualtät des Forschungsgebetes werden zudem jedes Jahr neue Verfahren engeführt. Es wrd jedoch ene möglchst umfänglche Lste als Abschluss angeboten, welche über entsprechende Lteraturverwese ene Vertefung der Matere erlaubt. 2. De Enführung n de Anwendungsdomane der USENET Newsgruppen a. Herbe werden de der Benutzung zugrunde legenden wesentlchen Mechansmen durch ene Betrachtung des Systems und sener technschen Funkton, sowe durch de auf den entsprechenden Standards baserende Analyse der Struktur von Newsartkeln und des Anwenderverhaltens vorgestellt. b. Im zweten Schrtt wrd ene Anforderungsanalyse für de Erkennung von Outlern durch de Beschrebung von Objektkategoren, welche als Outler erwartet werden könnten, vorgenommen. c. Auf Bass der Anforderungen und Kategoren wrd en umfänglcher Benchmark-Datensatz erstellt. 3. De Implementerung von Outler Detecton Verfahren zum Zweck hrer Evaluaton a. Dafür werden ausgewählte Standardverfahren zur Erkennung von Outlern mplementert. b. Es werden spezell auf das Problem hn angepasste Vorverarbetungsverfahren zur Vektorserung der Testdatenmengen umgesetzt. c. Durch de Entwcklung von Zusatzverfahren m Vorverarbetungsschrtt soll untersucht werden, ob dese de Ergebnsse der Standardverfahren entschedend verbessern können. 4. De Durchführung und Auswertung von Expermenten a. Mttels des Benchmark-Datensatzes und zusätzlcher Datensätze werden de mplementerten Verfahren n ener Testumgebung evaluert. b. Im Abschluss der Arbet wrd ene Interpretaton der Ergebnsse der Expermente durchgeführt. Abbldung 2 - Zele der Dplomarbet Dese Arbet konzentrert sch m theoretschen Tel auf de Betrachtung von Outler Detecton Ansätzen. Dabe wrd ene Auswahl von Verfahren engeführt, wobe durch de rasant fortschretende Entwcklung ken Anspruch auf Vollständgket bestehen kann, da pro Jahr mt Scherhet mndestens fünf bs zehn echte neue Ansätze mt entsprechenden Verfahren und neuen Algorthmen publzert werden. Auch würde de ausführlche Lstung und Beschrebung aller bekannten Verfahren den Umfang deser Arbet sprengen. De Abgrenzung der Verfahren wrd baserend auf den Aussagen der jewelgen Autoren der Ansätze vorgenommen. Es st ncht das Zel deser Arbet, Ansätze systematsch zu ordnen oder bzgl. der generellen Qualtät oder Aussagekraft der Ergebnsse der Ansätze verbndlche Aussagen zu machen (z.b. n Form enes Schemas oder Systems). Trotzdem gbt deser Tel der Arbet enen guten Überblck über möglche Verfahren und hre KDD Grundlagen. Zusätzlch werden Algorthmen und deren Anwendbarket auf verschedene Sachgebete bzw. Stuatonen vorgestellt, wobe de Art der Erkennung und de Komplextät der Verfahren n Bezug auf de Rechenzet ene wchtge Rolle spelt. Durch ausführlche Referenzen der Lteraturquellen wrd ene wetergehende Betrachtung des Themas durch den nteresserten Leser ermöglcht. 11

12 DIPLOMARBEIT Im praktschen Tel der vorlegenden Dplomarbet wrd de Anwendung der Outlererkennung auf en konkretes Sachgebet vorgestellt. Dazu werden de USENET Newsgruppen herangezogen. Neben ener Enführung n das USENET Thema wrd vor allem auf de zu erwartenden Ergebnsse von Outlererkennungen aus Scht des Anwenders abgestellt, um ene Enschätzung der Ergebnsse der Anwendung ausgewählter Outler- Detecton Ansätze zu erlauben. Dabe wrd auf de spezellen Anwendungsumstände für Newsgruppen hngewesen, um sowohl de Wahl von geegneten Verfahren (jedoch ncht n Bezug auf ene systematsche Ordnung) als auch deren algorthmsche Implementerung zu begründen. Dese Verfahrensauswahl wrd n enem expermentellen Set-Up mplementert. Darauf baserend wrd ene Rehe von Expermenten umgesetzt, damt emprsche Erkenntnsse gewonnen werden können. Um ene möglchst brete Weterverwendung der Verfahren zu ermöglchen, setzt de Implementerung auf de Plattform des Systems YALE des Lehrstuhls für Künstlche Intellgenz des Fachberechs Informatk an der Unverstät Dortmund auf. Glechsam werden auch Schnttstellen für de sog. ESOM Tools des Lehrstuhls für Datenbonk am Fachberech Mathematk der Unverstät Marburg beretgestellt, um de Expermente zwschen beden Systemplattformen zu verbnden. Aufgrund der nternatonalen Verbretung beder Systeme st damt en Zusatznutzen der praktschen Ergebnsse deser Arbet gegeben. Interesserte Leser snd engeladen, de unter der GNU Publc Lcense (GPL) erstellten Implementatonen des Outler Plugn für YALE zu nutzen und ggf. selbst weterzuentwckeln. 12

13 OUTLIER DETECTION IN USENET NEWS 2. Exsterende Outler Detecton Ansätze Quot captum vvunt, totdem studorum mla (HORAZ) In desem Kaptel werden verschedene Outlererkennungsverfahren n unterschedlcher Detaltefe vorgestellt. Dese unterschedlche Tefe ergbt sch aus der Unterstützung der gesamthetlchen Betrachtung des Themas und aus der notwendgen Beschrebung von Detals der Verfahren, welche m praktschen Tel ene konkrete Anwendung fnden. De verschedenen Quellen, welche m Rahmen der Beschrebung des von den Autoren jewels vertretenen Ansatzes für Outler Detecton natürlch auf vorangegangene und vor allem vom egenen Ansatz abwechende Methoden engehen, stellen Vergleche der Verfahren an. De Nennung der Verfahren und deren Beschrebung stellt her jedoch kene Enordnung, Kategorserung oder Prorserung durch den Autor deser vorlegenden Arbet dar. Im Allgemenen ergbt sch m Forschungsfeld der Outler-Detecton Ansätze der Trend, Verfahren n ener jewelgen Famle glecher oder verwandter Ansätze zu verallgemenern um en besseres Gefühl für de Anwendbarket und ene Bass für allgemen effzentere Umsetzungen n Algorthmen zu bekommen. Dementsprechend reflektert de m Kaptel vorgenommene Untertelung zum enen de Herkunft des Ansatzes, als auch de Entwcklung hn zur Bearbetung spezeller Probleme bzw. n anderen Fällen de Unfzerung von Verfahren. Stück für Stück werden neue Ideen hnzugenommen, sodass n Telen en hstorserter Abrß entsteht. Es wäre aber auch ene andere Glederung unter abwechenden Geschtspunkten genauso gut möglch. De Beschrebungen und Bewese wurden möglchst unverändert aus den Veröffentlchungen der Autoren übernommen und um Anmerkungen anderer Autoren angerechert. Herbe se ausdrücklch auf de orgnalen Quellen verwesen Generelle Defntonen und Begrffe De Autoren der verschedenen Verfahren setzen ene Rehe unterschedlcher Begrffe und vor allem Varablendefntonen en, mt denen se hre Ansätze formal beschreben. Um ene Verglechbarket der Ansätze zu erlechtern und auch das Verständns zu fördern, wurden de formalen Defntonen wetgehend verenhetlcht und wechen daher von den Lteraturquellen entsprechend ab. Defnton der Begrffe Datenraum, Datenpunkt, Objekt, Attrbut und Dstanz sowe Dstanzfunkton: Se ene Menge X von Datenpunkten (oder m Folgenden auch Punkten bzw. Objekten oder Elementen) m m gegeben mt X = { x = 1,... n X } und X R ene echte Telmenge des Datenraumes R mt n X = X. Se n ene Anzahl von Datenpunkten bzw. Objekten und bezechne ggf. sowohl de Kardnaltät der Menge X mt n = nx oder auch de Kardnaltät ener Untermenge von X mt n nx. Se ferner x r der m-dmensonale Vektor (m Folgenden auch m-dmensonales Tupel von Koordnaten), m welcher de Poston des Datenpunktes x m Datenraum R beschrebt, so se de Attrbutmenge m A = { a j = 1,... m} des Datenpunktes durch de m Achsen des Datenraumes R beschreben und der Wert des j Attrbutes a j glech dem Wert der j-ten Koordnate von x r. De Dstanzfunkton zwschen zwe Datenpunkten + se durch d : X X Ro gegeben und de Dstanz zwschen zwe verschedenen Objekten x, x' X bezechnet mt D = d( x, x' ). Defnton der Begrffe Nachbarschaft und Cluster: Der Nachbarschaftsbegrff wrd von verschedenen Ansätzen unterschedlch defnert. Es handelt sch jedoch fast durchgängg um ene Telmenge N X, wobe de Besetzung deser Menge durch ene Abhänggket von enem oder mehren Objekten bzw. Datenpunkten bestmmt st, z.b. N k ( x) = { x' X d( x, x' ) < D k }. En Cluster se durchgängg bezechnet mt C X, wobe sch de Zugehörgket von Objekten zu enem Cluster durch de Defnton der Egenschaften enes Clusters a.a.o. ergbt. Defnton zusätzlcher Begrffe: Ene Rehe von Ansätzen führt zusätzlche Begrffsdefntonen en und sowet dese spezfsch für den Ansatz snd, werden se n den folgenden Abschntten entsprechend defnert. 13

14 DIPLOMARBEIT 2.2. Vertelungsbaserte Ansätze Im Berech der frühen Ausenandersetzung mt dem Thema Outler Detecton werden ene Velzahl an Testverfahren vorgestellt, welche sch auf verschedene statstsche Standardvertelungen bzw. Normalvertelungen stützen. Anmerkung: He, Deng und Xu grupperen n Ihren Veröffentlchungen [10] mt Bezug auf erste Studen zur Identfzerung von Outlern setens Barnett und Lews [33] vertelungsbaserte Tests als ene von zwe Kategoren von statstschen Tests für Outler Detecton. De zwete Kategore umfasst n deser Veröffentlchung de tefenbaserten Tests. Motvaton für dese Art von Kategorserung st der Fokus auf starke statstsche Maße, welche enen drekten mathematschen Bezug n den Vordergrund stellen. Andere Tests werden eher anhand der ntutven Idee und der daraus folgenden Defnton enes Outlers sowe der algorthmschen Umsetzung oder unter Bezug auf das Verfahren geordnet. Interessant st n desem Zusammenhang de Beobachtung, dass trotzdem all desen Tests n der Regel, d.h. bs auf wenge Ausnahmen, en oder mehrere spezelle, manchmal auch fre wählbare, statstsche Maße zugrunde legen. Outler werden demgemäß n desen vertelungsbaserten statstschen Ansätzen auch vertelungsabhängg defnert. De Vertelung wrd zur Darstellung normalen Verhaltens der zu beobachtenden Objekte herangezogen. Da für jede Normalvertelung ene Rehe von statstschen Maßen exstert, um Objekte m Rahmen deser Vertelung zu beschreben (Mttelwerte bzw. Erwartungswerte und deren Wahrschenlchketen, Varanzen und Standardabwechungen), können Outler anhand deser Maße beschreben und erkannt werden. 2 Barnett und Lews stellen mehr als 100 Tests für dverse Vertelungen vor, darunter für N( µ ; σ ) - Normalvertelungen, exponentelle Vertelungen, Gamma Vertelungen, Posson Vertelungen und bnomale Vertelungen. De Wahl des Tests basert nach Knorr und Ng [6] unter anderem auf der Vertelung selbst, da es Snnvollerwese verschedene optmerte Tests für verschedene Vertelungen gbt. Wchtg für de Auswahl des Verfahrens st zudem, ob vertelungsspezfsche Parameter, we z.b. der Erwartungswert oder de Varanz oder bede Größen zusammen, bekannt snd. Auch de Anzahl der erwarteten Outler und de Typen der erwarteten Outler, also ob enzelne, Paare, oder ene Anzahl n von Outlern erwartet werden, st entschedend. Ebenso fleßt en, wo dese Outler erwartet werden, z.b. m oberen, unteren oder m oberen und unteren Berech der Vertelung. Allerdngs gbt es kene Garante dafür, dass Outler auch tatsächlch gefunden werden. Dafür gbt es verschedene Gründe. Möglcherwese wurde gerade für de vorlegende Vertelung ken Test entwckelt. Oder es gbt kene Standardvertelung, welche de tatsächlche Vertelung der vorlegenden Testmenge an beobachteten Objekten adäquat abbldet. De große Zahl der statstschen vertelungsbaserten Testverfahren st unvarat und untersucht nur en enzelnes Attrbut. Des stellt nsbesondere be der Betrachtung von multvaraten Datenmengen en Problem dar. Zwar kann unter der naven Annahme grundsätzlch unabhängger Attrbute n ener mehrdmensonalen Datenmenge ene Rehe von solchen unvaraten Verfahren pro Attrbut angewendet werden. Im Gesamtergebns würde dann ene geegnete Zusammenführung der unterschedlchen Enzelergebnsse angestrebt. We dese snnvoll stattzufnden hat und ob ene Abhänggket der Attrbute überhaupt ausgeschlossen werden kann, st jedoch fraglch. Daher st en solcher Ansatz n der Praxs scher ncht effzent durchsetzbar. Über rene statstsche Tests hnaus snd m Rahmen von KI Betrachtungen von Yamansh, Takeusch und Wllams ([34], [35]) wetere Verfahren vorgeschlagen worden, welche statstsche Modelle und deren Untersuchung mt überwachten Lernverfahren kombneren, um generelle Muster für Outler zu fnden. Allgemen gehen alle Verfahren davon aus, dass zumndest de Vertelung der Objekte bem Ansatz des für eben dese Vertelung geegneten Verfahrens m Voraus bekannt st. Des st für ene große Menge an Stuatonen nur schwer ntutv anzunehmen und stellt de Praktkabltät der vertelungsbaserten statstschen Tests und darauf baserender wetergehender Outler Detecton Methoden n Frage. Trotzdem sollten statstsche vertelungsbaserte Methoden ncht grundsätzlch negatv bewertet werden. Denn zum enen spelen statstsche Maße auch be der überwegenden Zahl anderer Verfahren ene zentrale Rolle. Zum anderen st ene Velzahl von Tests für de unterschedlchsten Vertelungen bekannt. Daher kann n dem Fall, dass ene vorhandene Testmenge ncht a pror n hrer Vertelung bekannt st, bzw. ener Standardvertelung ncht entsprcht, dese Testmenge durch Berechnungen n ene Menge mt entsprechender Vertelung umgewandelt werden. Leder snd de Kosten ener solchen Übertragung bzw. Anpassung sgnfkant und können ncht vernachlässgt werden. Auch st de Frage zu beantworteten, nwewet ene Anpassung de Charakterstka der gesuchten Outler so verändert, dass dese nur noch schwer oder gar ncht mehr dentfzert werden können, und ob sogar Objekte, welche vor ener Umwandlung ncht als Outler n Frage kamen, nun als solche lecht zu erkennen snd. Da de Defnton, was en Outler n enem konkreten Fall sen soll, ncht enhetlch st, se des ene Anregung für 14

15 OUTLIER DETECTION IN USENET NEWS wetergehende Überlegungen. Dese snd mt dem Gedanken verbunden, dass sch de statstschen Verfahren ggf. deswegen ncht vorrangg als geegnet erwesen, n praktschen Stuatonen Outler erfolgrech bzw. kostengünstg zu dentfzeren, wel se von ener zu starren Defnton enes Outlers ausgehen, welche sch mmer auf de zugrunde legende Vertelung bezeht, de das Normalverhalten darstellt. Verfahren, welche vertelungsbaserte Outler Detecton Ansätze generalseren, könnten genau deshalb erfolgrecher sen, wel se de starren Grenzen der statstschen Tests aufwechen und flexblseren. Derartge Verfahren werden n desem Kaptel vorgestellt. Dem stünde allerdngs argumentatv entgegen, dass gerade auch de statstsch baserten, vertelungsorenterten Testverfahren ene gewsse Flexbltät erlauben, wenn ncht sogar erfordern, da sch en spezfsches Verfahren ensetzen lässt, welches gewssen Parametern der Outler, z.b. m Hnblck auf deren Anzahl, Vertelungsparameter, Typen etc., entsprcht. Her muss jedoch zwschen der Erwartungshaltung an Outler und der Auswahl enes konkreten Verfahrens unterscheden werden. Letztere erfordert be den vertelungsbaserten Verfahren detallerte Kenntnsse über den tatsächlchen statstschen Charakter dessen, was als Outler gesucht wrd. Deses Wssen st n der Regel jedoch ncht gegeben. Velmehr st davon auszugehen, dass der Anwender gar ncht weß, was er als Outler sucht. Daraus ergbt sch en Folgeproblem, wel der Anwender demgemäß ncht selbst entscheden kann, welche Qualtät Outler haben, de von enem jewels vorgeschlagenen Verfahren entdeckt werden. Auf dese Fragestellung betet de KDD Forschung derzet noch kene vollständge Antwort und daher wrd sch de vorlegende Arbet auch ncht mt der Lösung deses Problems befassen können Tefenbaserte Ansätze Tefenbaserte Testverfahren zur Identfzerung von Outlern, z.b. vorgestellt von Ruts und Rousseeuw [36], organseren de zu prüfenden Objekte m Datenraum anhand ener Tefendefnton. Baserend auf deser Defnton ener Tefe werden de Objekte n konvexen Hüllen-Ebenen oder anhand hrer Schältefe geordnet. Outler werden unter den Objekten mt gerngem Tefenwert bzw. n Ebenen mt gerngen Tefenwerten erwartet. Dese Tests wurden entwckelt, um der be den vertelungsbaserten Tests erforderlchen Bestmmung der Vertelung welche.d.r. unbekannt st zu entgehen. Peelng bzw. de Schältefe st en Tefenbegrff, der ausführlcher von Preparata [38] vorgestellt wrd. Deser Ansatz ledet jedoch darunter, dass er sch zu schnell n Regonen mt ener hohen Punktdchte bewegt und daher ncht so robust we der Ansatz der Tefenkonturen mt Halbraumtefen von Ruts und Rousseeuw st. Der Begrff der Halbraumtefe enes Punktes relatv zu ener multvaraten Datenmenge wurde 1975 von Tukey [39] engeführt. Im unvaraten Fall wrd de Tefe enes Punktes x ' relatv zu ener endmensonalen X = x,, als das Mnmum der Anzahl der Punkte lnks und rechts von x ' defnert: Menge { } 1 K x n { ; x x' }, { ; x '}) depth1 ( x') = mn( x m De Halbraumtefe enes Punktes x R X = x1, K, x n wrd als de gerngste Tefe von x ' n jeder endmensonalen Projekton der Datenmenge defnert und kann auch als de mnmale Zahl an Datenpunkten n enem geschlossenen Halbraum gesehen werden, dessen Randebene x ' passert. Es gbt noch wetere Tefendefntonen, welche von Small, Nnmaa und Tukey engeführt werden und für ene wetergehende Betrachtung der Unterschede zur her verwendeten Defnton se auf de entsprechenden Quellen ([40], [41] und [42]) verwesen. De Halbraumtefe st affn nvarant, d.h. wenn x ' und X lnear transformert werden, ändert se sch ncht. Des mplzert, dass das Konzept der Halbraumtefe unabhängg vom gewählten Koordnatensystem st und sch daher n velfältger Wese ensetzen lässt. Dese Egenschaft wrd von Donoho und Gasko [43] n zwe Paperen ausführlcher dskutert. De Tefe steht n enger Bezehung zum Rang. Des st besonders deutlch m unvaraten Fall zu sehen. Wenn de Datenpunkte ener Dmenson mt Rang versehen werden, so erhalten de extremen Punkte mt dem nedrgsten und dem höchsten Rang de Tefe 1. Datenwerte mt dem nächstnedrgsten und nächsthöchsten Rang erhalten de Tefe 2, usw. Der Medan st folglch der Punkt mt der maxmalen Tefe. Der Medan st en emprsches Lagemaß n der Statstk und wrd auch Zentralwert genannt. 50% der Werte ener nach Größe geordneten Menge x( 1), K, x( n) snd größer oder glech und 50% der Werte snd klener oder glech dem Wert des Medan. Somt errechnet sch der Medan ~ x = x falls n ungerade; und 0,5 (( n+ 1)/ 2) ~ 1 x ( x n + x ) falls n gerade st. = 0,5 2 ( / 2) (( n+ 2)/ 2) ' relatv zu ener m-dmensonalen Datenmenge { } 15

16 DIPLOMARBEIT In höherdmensonalen Fällen gbt de Tefe enes Punktes enen Endruck davon, we tef sch der Punkt n der Datenwolke befndet. En Punkt mt maxmaler Tefe kann als multdmensonaler Medan nterpretert werden. Wchtg zur Abgrenzung des Ansatzes st, dass das Maß der Tefe ncht äquvalent zum Maß der Dchte st. Während de Tefe enes Punktes x ' en globaler Begrff st, da se von der Gesamthet der Datenmenge X abhängt, st de Dchte von x ' lokal n hrer Natur, da se nur von den Punkten von X abhängt, welche sch n ener Nachbarschaft von x ' befnden. Dchtebaserte Ansätze zur Identfkaton von Outlern werden separat n desem Kaptel engeführt. m Von Ruts und Rousseeuw werden sogenannte Tefenkonturen zur Berechnung engeführt. Se X R ene m m-dmensonale Datenmenge. Se de Menge X = { x R depth( x; X ) k}. De nneren Punkte von X k k haben mndestens de Tefe k und de Randpunkte von X k haben ene Tefe glech k. Damt st X k de Kontur der Tefe k, wenn auch ene strengere Auslegung deser Begrfflchket auf den Rand von X beschränkt st. Da X k der Schntt aller der Halbräume st, welche mndestens n + 1 k Punkte der Wolke enthalten, st X k konvex. De verschedenen Tefenkonturen formen ene verschachtelte Rehe, wel X k+ 1 n X k enthalten st. De äußerste Kontur X 1 st de normale konvexe Hülle von X. Punkte außerhalb deser konvexen Hülle der Datenmenge haben de Tefe Null. De Anzahl der Tefenkonturen ener gegebenen Menge X und damt deren maxmale Tefe hängen von der Form von X ab. Ist se nahezu symmetrsch, kann es bs zu n / 2 Tefenkonturen geben. Ist se jedoch sehr asymmetrsch, werden es aller Wahrschenlchket nach sehr vel wenger Tefenkonturen sen. Abbldung 3 zegt de ersten 10 Tefenkonturen ener Datenwolke mt 5000 Punkten als Bespel. k Abbldung 3 - Tefenkonturen ener zwedmensonalen Datenwolke mt 5000 Punkten Abbldungsbeschrebung: Ene Datenwolke mt 5000 Punkten n enem zwedmensonalen Datenraum mt ener Gauß-Vertelung wrd dargestellt, wobe de unterschedlchen Tefenkonturen [36] durch verbundene Lnen dargestellt snd. Zur Berechnung der Konturen werden mehrere Algorthmen vorgeschlagen, wobe sch Ruts und Rousseeuw auf bvarate Datenmengen konzentreren. Se beten enen naven Algorthmus mt O ( n 5 log n) und enen ISODEPTH Algorthmus mt ca. O( n 2 log n) an. Johnson, Kwok und Ng [37] entwckelten baserend auf der Idee von ISODEPTH enen schnelleren und robusteren Algorthmus zur Berechnung von zwedmensonalen Tefenkonturen. Deser FDC Algorthmus konzentrert sch zur Berechnung der ersten k Tefenkonturen auf ene klene, ausgewählte Telmenge an Datenpunkten, anstatt de gesamte Datenmenge zu evalueren. Dese Telmenge wrd durch de Berechnung der entsprechenden konvexen Hüllen dentfzert. Da für de Identfzerung von Outlern.d.R. nur de ersten 100 Tefenkonturen nteressant snd, st de erwartete Performance von FDC sehr vel besser, als de von ISODEPTH. Generell st der Aufwand mt 2 3 O ( nlogn + hlog n + k h ) angegeben, wobe n de Anzahl der Datenpunkte, k de Zahl der Tefenkonturen und h de maxmale Kardnaltät der ersten k Elemente n der Sere von Tefenkonturen st. Ene nähere Ausführung 16

17 OUTLIER DETECTION IN USENET NEWS und expermentelle Ergebnsse der Performance von FDC geben de Autoren des Algorthmus m Rahmen hrer Veröffentlchung an. Theoretsch snd alle dese Ansätze lt. He, Deng und Xu (et al) auch für hochdmensonale Datenräume geegnet. Da sch de geschätzten Rechenkosten jedoch n der Praxs durch den Ensatz von konvexen Hüllen ergeben, ene Technk de enen unteren Grenzaufwand von O n ) hat, wobe n de Anzahl der Objekte und m de Anzahl der Dmensonen darstellt, st deser Ansatz unter praktschen Geschtspunkten auf Datenmengen mt velen Dmensonen ncht unengeschränkt anwendbar. Untersuchungen we de von Rousseeuw haben gezegt, dass n der Praxs de Performance nur für Datenmengen mt ener Zahl von m 2 Dmensonen akzeptabel st. Solche effzenten zwedmensonalen Verfahren werden z.b. von Johnson, Kwok und Ng [37] vorgeschlagen und enge Peelng-Verfahren für Datenmengen mt m = 3 werden von Preparata und Shamos [38] vorgestellt Entfernungsbaserte Outler m 2 ( Unfzerende entfernungsbaserte Ansätze Knorr und Ng [3] stellen n verschedenen Paperen ([6], [7] und [8]), unter anderem gemensam mt Tucakov, ausführlch enen Ansatz für Outler Detecton vor, der n Bezug auf das angewendete statstsche Maß entfernungsbasert st. Se motveren hren Ansatz mt den n den vorhergegangenen Abschntten beschrebenen Unzulänglchketen der vertelungs- bzw. auch tefenbaserten Ansätze. Dese snd zum enen von der Auslegung der Tests mest auf unvarate Datenmengen bezogen. Solche Tests snd für mehrdmensonale Anwendungen schlcht ungeegnet. Zum anderen snd be vertelungsbaserten Verfahren de Vertelungen nnerhalb der Datenmenge ncht a pror bekannt und es snd ntensve Tests nötg, um dese Vertelungen zu dentfzeren. Sofern ene beobachtete Vertelung gar kener Vertelung entsprcht, für de en Test exstert, st es sehr aufwändg, dese entsprechend umzurechnen. Tefenbaserte Tests umgehen de Notwendgket, de Vertelung zu kennen oder ene bekannte Vertelung aus der beobachteten Datenmenge zu erzeugen. Auch snd se vom Ansatz her prnzpell für multvarate Anwendungen ensetzbar. De Idee, welche den Überlegungen von Knorr und Ng zugrunde legt, st de Enführung enes Outler Begrffs, der de vertelungsbaserten Begrffe unfzert und glechzetg Algorthmen lefert, welche für mehrdmensonale Fälle enfach und kosteneffzent ensetzbar snd. Dabe snd der statstsche Ansatz und das engesetzte Maß mt den vertelungs- und tefenbaserten Verfahren verglechbar. Auch dort werden statstsche Entfernungsmaße verwendet, um de Objekte anhand ener Vertelung oder anhand der Enordnung n ene gewsse Tefe, welche eben anhand enes statstschen Entfernungsmaßes errechnet wrd, mtenander zu verglechen und Outler entsprechend zu dentfzeren. Defnton von entfernungsbaserten (dstance based) Outlern: En Objekt x n ener Datenmenge X st en DB(p,D)-Outler, wenn zumndest en Antel p von Objekten n X weter als de Entfernung D von x legt. En DB(p,D)-Outler wrd also anhand der Parameter p und D erkannt. Deser ntutve Outler Begrff steht mt der Defnton nach Hawkns [45] m Enklang und egnet sch auch, aber ncht ausschleßlch, für solche Fälle, n denen de beobachtete Vertelung ncht mt ener Standardvertelung überenstmmt. De Defnton egnet sch für multvarate Anwendungen mt ener unbegrenzten Anzahl m an Dmensonen. Knorr und Ng führen aus, dass de Berechnung der Entfernung be DB(p,D)-Outlern auf Bass ener metrschen Dstanzfunkton vorgenommen wrd, wobe de von den Autoren vorgestellten Algorthmen davon ausgehen, dass dese Funkton eukldsch st. Obwohl ken Anspruch geltend gemacht wrd, dass de entfernungsbaserten Outler alle anderen Outler Begrffe ersetzen würden oder unversellen Charakter hätten, bezechnen Knorr und Ng se trotzdem auch als unfzerte Outler oder sog. UO(p,D)-Outler. Demgemäß snd DB(p,D)-Outler und UO(p,D)-Outler synonym zu verstehen. Anmerkung: Da Knorr und Ng den Begrff erst als unfzerte Outler (UO(p,D)) enführten und n der detallerteren Ausführung der Algorthmen den Begrff DB(p,D)-Outler prägten, se her der spätere Begrff, also DB(p,D)-Outler angenommen. Für den nteresserten Leser se noch angefügt, dass das Paper [6], A Unfed Approach for Mnng Outlers, ene erweterte Verson des Papers [7], A unfed noton of outlers: Propertes and computaton, st (sehe Lteraturverzechns). De Analyse zegt, dass der DB(p,D)-Outler Begrff de Outler Begrffe der vertelungsbaserten Tests nsofern generalsert, als dass es für en Objekt x, welches nach enem vertelungsbaserten Test en Outler st, auch ene passende Kombnaton der Parameter p und D gbt, sodass x auch en DB(p,D)-Outler st. Somt snd dverse vertelungsbaserte Outler dann Instanzen von DB(p,D)-Outlern. 17

18 DIPLOMARBEIT Defnton der Unfzerung von Outlern durch DB(p,D)-Outler: En DB(p,D)-Outler (bzw. en UO(p,D)-Outler) unfzert ene andere Outler Begrffsdefnton Def genau dann, wenn es ene spezfsche Wertekombnaton p 0, D0 gbt, mt der glt, dass wenn x en Outler nach Def st, x auch en DB p 0, D ) Outler st und des für alle x X glt. ( 0 Defnton der Parameter p und D: Se n ene Anzahl von Objekten n ener Test-Datenmenge X. Jedes Objekt x wrd mt denselben m Attrbuten dentfzert, m st also de Dmensonaltät der Menge X. Angenommen, es exstert ene zugrundelegende metrsche Funkton d, welche de Dstanz zwschen jedem möglchen Paar von Objekten n X lefert, dann glt: 1. Für en Objekt x enthält de D-Nachbarschaft N D von x de Menge an Objekten x' X, welche sch ( x) = x' X d( x, x' ) D. maxmal n der Entfernung D von x befnden, also { } 2. Der Antel p st der mnmale Antel von Objekten n X, welche sch außerhalb der D-Nachbarschaft enes Outlers befnden müssen. Anhand von zwe Bespelen, dem statstschen vertelungsbaserten Test zu ener Normalvertelung und der Erkennung von Outlern n Regressonsmodellen, soll deutlch werden, we dese Unfzerung belegt st, bevor der egentlche Ansatz zur Berechnung ausgeführt wrd [8]. Outler n ener Normalvertelung snd solche Punkte, welche mehr als de drefache Standardabwechung ( 3σ ) vom Erwartungswert µ entfernt legen, vgl. u.a. Freedman, Psan und Purves [47]. X se also ene 2 Datenmenge, deren Objekte wrklch normalvertelt snd mt N ( µ ; σ ). Damt se Def Normal we folgt defnert: x X st en Outler, wenn N D x µ 3 σ x µ oder 3 σ st. Lemma der Unfzerung von Outlern n Normalvertelungen: en DB(p,D)-Outler unfzert Def Normal mt p 0 = 0, 9988 und D 0 = 0,13σ. Der Bewes dazu wrd n [6] geführt. Als weters Bespel se de Identfzerung von Outlern n Regressonsmodellen beschreben. En enfaches lneares Regressonsmodell st durch de Glechung y = α + βx gegeben. De Datenmenge X enthält Beobachtungen der Form ( x, y) für = 1,... n, welche n deses Modell engepasst werden. Ene Möglchket zur Erkennung von Outlern st de Betrachtung der Resduen, d.h. der Unterschede zwschen beobachteten und engepassten Werten. Der resduale Fehler der -ten Beobachtung wrd durch e n y = α + βx + e ausgedrückt. Outler werden dann als solche Resduen erkannt, de wetaus höhere Unterschede aufwesen, als de mesten, z.b. wenn se mehr als 3 Standardabwechungen vom mttleren Erwartungswert der Resduen abwechen (vgl. auch Draper und Smth [49]). Unter der verenfachenden Annahme, dass de Resduen vonenander unabhängg und damt normalvertelt snd, lassen sch dese Outler nach Def Normal dentfzeren und folglch unfzert DB ( p 0, D0 ) auch her. Der multvarate Fall legt wesentlch komplexer. Im Allgemenen st es schwer, enen vertelungsbaserten Unterschedungstest für multvarate Regressonsmodelle zu fnden. Daher wrd der Ansatz der robusten Regressonstechnken nach Rousseeuw und Leroy [50] verwendet. Deser Methode nach wrd de Regressonsglechung für den mehrhetlchen Antel der Daten berechnet und Outler werden als de Punkte erkannt, welche große Resduen gegenüber der robusten Glechung haben. Im generellen Regressonsmodell, n dem k Parameter von n Beobachtungen geschätzt werden, snd de Resduen ncht als vonenander unabhängg zu betrachten. De n Resduen snd ledglch mt n k Frehetsgraden assozert. Se zum Bespel X ene Menge mt n = 150 Beobachtungen für k = 10 Parameter, welche n en Regressonsmodell der Form y = α + β1x1 + L + β10x10 engepasst snd, und seen de Resduen für de -te Beobachtung bezechnet als e. Dann st Def Regresson defnert durch: x X st en Outler, wenn e ncht m 99%-Konfdenzntervall von Students t-kurve mt 140 Frehetsgraden legt [51]. Lemma der Unfzerung von Outlern n Regressonsmodellen: DB p 0, D ) unfzert Def Regresson mt ( 0 p 0 = 0,99 und D 0 = 0, 258. Der Bewes für deses Lemma wrd n enem separaten, ncht veröffentlchten Dokument [51] von Knorr und Ng geführt. Generell st de Outler Erkennung n Regressonsmodellen en wchtges Thema der Statstk und wrd von den her vorgestellten entfernungsabhänggen Ansätzen unterstützt. Wetere Bespele für de Unfzerung von vertelungsbaserten Unterschedungstests für de Exponentalvertelung und de Posson-Vertelung können drekt n der angegebenen Lteraturquelle [3] nachgelesen werden. Allen desen Bespelen st gemen, dass de 18

19 OUTLIER DETECTION IN USENET NEWS Werte p 0, D0 wohldefnert waren. Aber was gescheht n den Fällen, welche für vorgegebene Entschedungstests ungeegnet snd? En erster Ansatz geht von der Beretstellung effektver Vsualserung und effzenter nkrementeller Werkzeuge zur expermentellen Veränderung des Wertepaars p 0, D0 aus. En effzenter Algorthmus zum Fnden von DB( p 0, D0 ) - Outlern st ene Voraussetzung für de notwendge Performance derartger nteraktver Werkzeuge. Allerdngs gehen selbst Knorr und Ng davon aus, dass ene heutge Implementerung von DB( p 0, D0 ) - Outlern ncht auf de Erarbetung optmater Werte für p und D ausgerchtet st, da des m Allgemenen sehr schwer zu errechen se. Auch st zu bedenken, dass ene Vsualserung be multdmensonalen Datenmengen mt vel mehr als 3 Dmensonen vom Nutzer ggf. en sehr hohes räumlches Vorstellungsvermögen oder be der Arbet mt Projektonen auf handhabbare Unterräume wederum ene sehr hohe Abstrakton verlangt. Zudem snd solche Projektonsmechansmen sehr rechenntensv (vgl. [104] und [87]). En alternatver zweter Ansatz bezeht den Nutzer en, welcher Werte für p und D vergbt und verändert. Her sollen Bespeltechnken dem Anwender geegnete Startwertkombnatonen zur Verfügung stellen, da sonst en hoher Kostenaufwand mt ungeegneten Entfernungswerten für große Datenmengen ergebnslos blebt. Durch das Samplng enes Bespels von nˆ von n Tupeln n der Menge wrd en Konfdenzntervall für de ntalen Schätzungen von D be gegebenem p erarbetet. Um de unfzerende Natur des Ansatzes entfernungsbaserter Outler verständlcher zu machen, wrd her auf deren Bezehung zu Clusterng-Methoden engegangen. Im Prnzp klassfzeren Clusterng Verfahren glechartge Objekte und beten verglechswese weng Unterstützung für Outler Detecton. Outler werden mest als Beprodukt angesehen und als Rauschen entfernt, jedoch ncht dentfzert. Das konkrete Verfahren DBSCAN [100] betet dabe enen drekten Bezug zum Ansatz der DB p 0, D ) - Outler. Es klassfzert Objekte ( 0 n Kern-, Rand- und Außen-Bereche abhängg von der Anzahl der Objekte n ener ε -Nachbarschaft, sowe abhängg von der Errechbarket und der Verbundenhet enes Objekts. Dese ε -Nachbarschaft st drekt verglechbar mt der D-Nachbarschaft, se verwendet en verglechbares statstsches Maß, arbetet aber mt klenen Werten für de Bldung starker Cluster, während D entsprechend groß st, um starke Outler zu fnden. Den Errechbarkets- und Verbndungsbegrffen von DBSCAN wrd bem DB( p 0, D0 ) Ansatz ncht wdersprochen. Zusammenfassend kann festgestellt werden, dass DBSCAN auf maxmal große Cluster abzelt und sehr zurückhaltend bem Kennzechnen von Outlern st. DB( p 0, D0 ) hngegen st so aufgebaut, dass Outler nach vom Anwender gewählten bzw. vorgegebenen Parametern p und D erkannt und gekennzechnet werden. Im Fall ε = D snd de dentfzerten Outler also glech, n der Praxs sollte D jedoch größer als ε sen. Darüberhnaus snd Clusterng-Algorthmen, also de konkreten Umsetzungen der Ansätze n praktkable und kosteneffzente Verfahren, ncht für de Unfzerung von Unterschedungstests entworfen. Des muss berückschtgt werden, wenn Clusterng der Outler Detecton gegenübergestellt wrd. En großer Vortel des enhetlchen entfernungsbaserten Ansatzes st der Ersatz für vele Unterschedungstests. Abbldung 4 zegt enen möglchen Entschedungsbaum für de Anwendung vertelungsbaserter Unterschedungstests und unterlegt damt deutlch de Reduzerung des Aufwandes durch de entfernungsbaserte Unfzerung, sofern ene Wahl geegneter Parameter für p und D gegeben st. Der Anwender muss sonst de Wahl des Tests von velen Aspekten abhängg machen, we z.b. Vertelungen, Vertelungswerten und Outler Charakterstka. Ene Rehe deser Informatonen snd nur schwer festzustellen oder gar ncht vorhanden, wenn de Vertelung unbekannt st. Mt dem enhetlchen Ansatz können de Fragestellungen und damt verbundenen Entschedungen vermeden werden. Knorr und Ng beanspruchen kene Unversaltät des Verfahrens, verwesen aber darauf, dass es besser st, als de mesten Standard-Statstktests [3]. 19

20 DIPLOMARBEIT Start Ja / Nen Standard Vertelung? Nen Identfzere DB(p,D)-Outler Stop Ja Normal- Vertelung? Nen Posson Vertelung? Nen Ja Erwartungswert und Varanz unbekannt? Nen Erwartungswert bekannt; Varanz unbekannt? Nen Ja Suchen nach oberen Outlern? Ja Suche enfachen Outler? Ja Test durchführen! Nen Nen Suchen nach unteren Outlern? Ja Suche Outler Paar? Ja Nen Nen Suchen nach Oberen & unteren Outlern? Ja Suchen nach Mehreren solcher Outler? Ja Nen Nen Stop Quelle: Knorr, Ng, A Unfed Approach for Mnng Outlers, Sete 6 Abbldung 4 - Auswahlbaum für statstsche Outlererkennung Abbldungsbeschrebung: Statstsche Erkennungsverfahren [33] für Outler setzen ene Rehe von Annahmen über de Natur der zu erkennenden Outler voraus. Der hohe Aufwand der Auswahl enes Verfahrens wrd durch den dargestellten Entschedungsbaum deutlch und motvert Verfahrensalternatven [3], für de derartge Entschedungen ncht a pror als Annahmen getroffen werden müssen. Entfernungsabhängge Tests erlauben es dem Anwender, durch de geegnete Wahl der Parameter p und D selbst Enfluss auf das Verfahren zu nehmen. En weteres Charakterstkum der entfernungsbaserten Tests st de homogene Betrachtung aller Dmensonen bezogen auf de Attrbute, welche zum Verglech von Verhalten und zur Identfzerung von Outlern verwendet werden. Zudem st das statstsche Maß, de Entfernungsfunkton d kombnert mt der Entfernung D, en globales Maß, de dadurch entdeckten Outler haben also enen globalen Charakter. Für entfernungsbaserte Tests exsteren mehrere Algorthmen mt verschedenen Kostenabschätzungen. Es werden von Knorr und Ng zwe Algorthmen für mehrdmensonale Datenmengen angeboten, welche ene 2 Komplextät von O ( mn ) haben, wobe n de Anzahl der Objekte und m de Anzahl der Dmensonen mt m 2 st. Zusätzlch exstert en parttonsbaserter Algorthmus, der ene Komplextät von O (n) be gegebenem m hat, allerdngs exponentell gegenüber wachsendem m st. Ene Abwandlung deses Algorthmus wrd zudem für große, festplattenbaserte Datenmengen angeboten und garantert ene maxmale Zahl von dre Läufen über de Datenmenge auf dem Spechermedum. Des stellt enen großen Vortel dar, da be deser Art von Datenspecherung.d.R. de Zugrffszeten de größten Kosten verursachen. Auch deser Algorthmus st für m 4 nach expermentellen Untersuchungen de beste Wahl für desen generellen Outler Detecton Ansatz. Fraglch blebt allerdngs, we sch de Performance für Datenmengen mt ener sehr hohen Zahl an Dmensonen entwckelt. Her legt de Tatsache, dass de Kosten mt m exponentell wachsen, den Ensatz anderer Algorthmen oder generell anderer Outler Detecton Verfahren nahe. Im Folgenden snd de entsprechenden Algorthmen nach [8] kurz beschreben. En naves Verfahren zum Fnden aller DB( p 0, D0 ) -Outler n unvaraten Testmengen st das Feststellen der Anzahl von Objekten, welche sch n der D-Nachbarschaft von x befnden, was ene Komplextät von O ( n 2 ) hat, wenn es für alle n Objekte x festgestellt wrd. En optmertes Verfahren baut ene ndzerte räumlche Suchstruktur auf, welche dann mt ener Intervallabfrage dazu benutzt wrd, de Anzahl der Objekte n der D- Nachbarschaft zu x zu fnden. Der Aufwand dafür legt zwschen O ( nlog n) und O ( n 2 ), abhängg von der tatsächlchen Vertelung der Objekte n der Datenmenge. Für mehrdmensonale Mengen st de Berechnung der 2 Entfernung von m abhängg, wobe de Komplextät mt O( mn ) angenommen werden kann, sofern der Aufwand der Bestmmung des Entfernungsmaßes lnear von m abhängt. Für ene klene Zahl an Dmensonen m st en spezeller, zellenbaserter Algorthmus besonders effzent, wel er mt lnearem Aufwand zu n be festem m betreben werden kann. Der Effzenzgewnn resultert aus der 20

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen arametrsche vs. nonparametrsche Testverfahren Verfahren zur Analyse nomnalskalerten Daten Thomas Schäfer SS 009 1 arametrsche vs. nonparametrsche Testverfahren nonparametrsche Tests werden auch vertelungsfree

Mehr

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e Andere Darstellungsformen für de Ausfall- bzw. Überlebens-Wahrschenlchket der Webull-Vertelung snd we folgt: Ausfallwahrschenlchket: F ( t ) Überlebenswahrschenlchket: ( t ) = R = e e t t Dabe haben de

Mehr

4. Musterlösung. Problem 1: Kreuzende Schnitte **

4. Musterlösung. Problem 1: Kreuzende Schnitte ** Unverstät Karlsruhe Algorthmentechnk Fakultät für Informatk WS 05/06 ITI Wagner 4. Musterlösung Problem 1: Kreuzende Schntte ** Zwe Schntte (S, V \ S) und (T, V \ T ) n enem Graph G = (V, E) kreuzen sch,

Mehr

Netzwerkstrukturen. Entfernung in Kilometer:

Netzwerkstrukturen. Entfernung in Kilometer: Netzwerkstrukturen 1) Nehmen wr an, n enem Neubaugebet soll für 10.000 Haushalte en Telefonnetz nstallert werden. Herzu muss von jedem Haushalt en Kabel zur nächstgelegenen Vermttlungsstelle gezogen werden.

Mehr

Polygonalisierung einer Kugel. Verfahren für die Polygonalisierung einer Kugel. Eldar Sultanow, Universität Potsdam, sultanow@gmail.com.

Polygonalisierung einer Kugel. Verfahren für die Polygonalisierung einer Kugel. Eldar Sultanow, Universität Potsdam, sultanow@gmail.com. Verfahren für de Polygonalserung ener Kugel Eldar Sultanow, Unverstät Potsdam, sultanow@gmal.com Abstract Ene Kugel kann durch mathematsche Funktonen beschreben werden. Man sprcht n desem Falle von ener

Mehr

Gruppe. Lineare Block-Codes

Gruppe. Lineare Block-Codes Thema: Lneare Block-Codes Lneare Block-Codes Zele Mt desen rechnerschen und expermentellen Übungen wrd de prnzpelle Vorgehenswese zur Kanalcoderung mt lnearen Block-Codes erarbetet. De konkrete Anwendung

Mehr

FORMELSAMMLUNG STATISTIK (I)

FORMELSAMMLUNG STATISTIK (I) Statst I / B. Zegler Formelsammlng FORMELSAMMLUG STATISTIK (I) Statstsche Formeln, Defntonen nd Erläterngen A a X n qaltatves Mermal Mermalsasprägng qanttatves Mermal Mermalswert Anzahl der statstschen

Mehr

Seminar Analysis und Geometrie Professor Dr. Martin Schmidt - Markus Knopf - Jörg Zentgraf. - Fixpunktsatz von Schauder -

Seminar Analysis und Geometrie Professor Dr. Martin Schmidt - Markus Knopf - Jörg Zentgraf. - Fixpunktsatz von Schauder - Unverstät Mannhem Fakultät für Mathematk und Informatk Lehrstuhl für Mathematk III Semnar Analyss und Geometre Professor Dr. Martn Schmdt - Markus Knopf - Jörg Zentgraf - Fxpunktsatz von Schauder - Ncole

Mehr

ERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Preise erfassen. www.comarch-cloud.de

ERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Preise erfassen. www.comarch-cloud.de ERP Cloud SFA ECM Backup E-Commerce ERP EDI Prese erfassen www.comarch-cloud.de Inhaltsverzechns 1 Zel des s 3 2 Enführung: Welche Arten von Presen gbt es? 3 3 Beschaffungsprese erfassen 3 3.1 Vordefnerte

Mehr

12 LK Ph / Gr Elektrische Leistung im Wechselstromkreis 1/5 31.01.2007. ω Additionstheorem: 2 sin 2 2

12 LK Ph / Gr Elektrische Leistung im Wechselstromkreis 1/5 31.01.2007. ω Additionstheorem: 2 sin 2 2 1 K Ph / Gr Elektrsche estng m Wechselstromkres 1/5 3101007 estng m Wechselstromkres a) Ohmscher Wderstand = ˆ ( ω ) ( t) = sn ( ω t) t sn t ˆ ˆ P t = t t = sn ω t Momentane estng 1 cos ( t) ˆ ω = Addtonstheorem:

Mehr

Nernstscher Verteilungssatz

Nernstscher Verteilungssatz Insttut für Physkalsche Cheme Grundpraktkum 7. NERNSTSCHER VERTEILUNGSSATZ Stand 03/11/2006 Nernstscher Vertelungssatz 1. Versuchsplatz Komponenten: - Schedetrchter - Büretten - Rührer - Bechergläser 2.

Mehr

Kreditpunkte-Klausur zur Lehrveranstaltung Projektmanagement (inkl. Netzplantechnik)

Kreditpunkte-Klausur zur Lehrveranstaltung Projektmanagement (inkl. Netzplantechnik) Kredtpunkte-Klausur zur Lehrveranstaltung Projektmanagement (nkl. Netzplantechnk) Themensteller: Unv.-Prof. Dr. St. Zelewsk m Haupttermn des Wntersemesters 010/11 Btte kreuzen Se das gewählte Thema an:

Mehr

Methoden der innerbetrieblichen Leistungsverrechnung

Methoden der innerbetrieblichen Leistungsverrechnung Methoden der nnerbetreblchen Lestungsverrechnung In der nnerbetreblchen Lestungsverrechnung werden de Gemenosten der Hlfsostenstellen auf de Hauptostenstellen übertragen. Grundlage dafür snd de von den

Mehr

Ich habe ein Beispiel ähnlich dem der Ansys-Issue [ansys_advantage_vol2_issue3.pdf] durchgeführt. Es stammt aus dem Dokument Rfatigue.pdf.

Ich habe ein Beispiel ähnlich dem der Ansys-Issue [ansys_advantage_vol2_issue3.pdf] durchgeführt. Es stammt aus dem Dokument Rfatigue.pdf. Ich habe en Bespel ähnlch dem der Ansys-Issue [ansys_advantage_vol_ssue3.pdf durchgeführt. Es stammt aus dem Dokument Rfatgue.pdf. Abbldung 1: Bespel aus Rfatgue.pdf 1. ch habe es manuell durchgerechnet

Mehr

Lineare Regression (1) - Einführung I -

Lineare Regression (1) - Einführung I - Lneare Regresson (1) - Enführung I - Mttels Regressonsanalysen und kompleeren, auf Regressonsanalysen aserenden Verfahren können schenar verschedene, jedoch nenander üerführare Fragen untersucht werden:

Mehr

IT- und Fachwissen: Was zusammengehört, muss wieder zusammenwachsen.

IT- und Fachwissen: Was zusammengehört, muss wieder zusammenwachsen. IT- und achwssen: Was zusammengehört, muss weder zusammenwachsen. Dr. Günther Menhold, regercht 2011 Inhalt 1. Manuelle Informatonsverarbetung en ntegraler Bestandtel der fachlchen Arbet 2. Abspaltung

Mehr

Statistik und Wahrscheinlichkeit

Statistik und Wahrscheinlichkeit Regeln der Wahrschenlchketsrechnung tatstk und Wahrschenlchket Regeln der Wahrschenlchketsrechnung Relatve Häufgket n nt := Eregnsalgebra Eregnsraum oder scheres Eregns und n := 00 Wahrschenlchket Eregnsse

Mehr

Einbau-/Betriebsanleitung Stahl-PE-Übergang Typ PESS / Typ PESVS Originalbetriebsanleitung Für künftige Verwendung aufbewahren!

Einbau-/Betriebsanleitung Stahl-PE-Übergang Typ PESS / Typ PESVS Originalbetriebsanleitung Für künftige Verwendung aufbewahren! Franz Schuck GmbH Enbau-/Betrebsanletung Stahl-PE-Übergang Typ PESS / Typ PESVS Orgnalbetrebsanletung Für künftge Verwendung aufbewahren! Enletung Dese Anletung st für das Beden-, Instandhaltungs- und

Mehr

18. Dynamisches Programmieren

18. Dynamisches Programmieren 8. Dynamsches Programmeren Dynamsche Programmerung we gerge Algorthmen ene Algorthmenmethode, um Optmerungsprobleme zu lösen. We Dvde&Conquer berechnet Dynamsche Programmerung Lösung enes Problems aus

Mehr

Nomenklatur - Übersicht

Nomenklatur - Übersicht Nomenklatur - Überscht Name der synthetschen Varable Wert der synthetschen Varable durch synth. Varable erklärte Gesamt- Streuung durch synth. Varable erkl. Streuung der enzelnen Varablen Korrelaton zwschen

Mehr

Free Riding in Joint Audits A Game-Theoretic Analysis

Free Riding in Joint Audits A Game-Theoretic Analysis . wp Wssenschatsorum, Wen,8. Aprl 04 Free Rdng n Jont Audts A Game-Theoretc Analyss Erch Pummerer (erch.pummerer@ubk.ac.at) Marcel Steller (marcel.steller@ubk.ac.at) Insttut ür Rechnungswesen, Steuerlehre

Mehr

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm): Aufgabe 1 (4 + 2 + 3 Punkte) Bem Wegen von 0 Respaketen ergaben sch folgende Gewchte X(n Gramm): 1 2 3 4 K = (x u, x o ] (98,99] (99, 1000] (1000,100] (100,1020] n 1 20 10 a) Erstellen Se das Hstogramm.

Mehr

Ionenselektive Elektroden (Potentiometrie)

Ionenselektive Elektroden (Potentiometrie) III.4.1 Ionenselektve Elektroden (otentometre) Zelstellung des Versuches Ionenselektve Elektroden gestatten ene verhältnsmäßg enfache und schnelle Bestmmung von Ionenkonzentratonen n verschedenen Meden,

Mehr

6. Modelle mit binären abhängigen Variablen

6. Modelle mit binären abhängigen Variablen 6. Modelle mt bnären abhänggen Varablen 6.1 Lneare Wahrschenlchketsmodelle Qualtatve Varablen: Bnäre Varablen: Dese Varablen haben genau zwe möglche Kategoren und nehmen deshalb genau zwe Werte an, nämlch

Mehr

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt -

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt - Flußnetzwerke - Strukturbldung n der natürlchen Umwelt - Volkhard Nordmeer, Claus Zeger und Hans Joachm Schlchtng Unverstät - Gesamthochschule Essen Das wohl bekannteste und größte exsterende natürlche

Mehr

binäre Suchbäume Informatik I 6. Kapitel binäre Suchbäume binäre Suchbäume Rainer Schrader 4. Juni 2008 O(n) im worst-case Wir haben bisher behandelt:

binäre Suchbäume Informatik I 6. Kapitel binäre Suchbäume binäre Suchbäume Rainer Schrader 4. Juni 2008 O(n) im worst-case Wir haben bisher behandelt: Informatk I 6. Kaptel Raner Schrader Zentrum für Angewandte Informatk Köln 4. Jun 008 Wr haben bsher behandelt: Suchen n Lsten (lnear und verkettet) Suchen mttels Hashfunktonen jewels unter der Annahme,

Mehr

Praktikum Physikalische Chemie I (C-2) Versuch Nr. 6

Praktikum Physikalische Chemie I (C-2) Versuch Nr. 6 Praktkum Physkalsche Cheme I (C-2) Versuch Nr. 6 Konduktometrsche Ttratonen von Säuren und Basen sowe Fällungsttratonen Praktkumsaufgaben 1. Ttreren Se konduktometrsch Schwefelsäure mt Natronlauge und

Mehr

Für jeden reinen, ideal kristallisierten Stoff ist die Entropie am absoluten Nullpunkt gleich

Für jeden reinen, ideal kristallisierten Stoff ist die Entropie am absoluten Nullpunkt gleich Drtter Hauptsatz der Thermodynamk Rückblck auf vorherge Vorlesung Methoden zur Erzeugung tefer Temperaturen: - umgekehrt laufende WKM (Wärmepumpe) - Joule-Thomson Effekt bs 4 K - Verdampfen von flüssgem

Mehr

1 Definition und Grundbegriffe

1 Definition und Grundbegriffe 1 Defnton und Grundbegrffe Defnton: Ene Glechung n der ene unbekannte Funkton y y und deren Abletungen bs zur n-ten Ordnung auftreten heßt gewöhnlche Dfferentalglechung n-ter Ordnung Möglche Formen snd:

Mehr

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung: Streuungswerte: 1) Range (R) ab metrschem Messnveau ) Quartlabstand (QA) und mttlere Quartlabstand (MQA) ab metrschem Messnveau 3) Durchschnttlche Abwechung (AD) ab metrschem Messnveau 4) Varanz (s ) ab

Mehr

"Zukunft der Arbeit" Arbeiten bis 70 - Utopie - oder bald Realität? Die Arbeitnehmer der Zukunft

Zukunft der Arbeit Arbeiten bis 70 - Utopie - oder bald Realität? Die Arbeitnehmer der Zukunft "Zukunft der Arbet" Arbeten bs 70 - Utope - oder bald Realtät? De Arbetnehmer der Zukunft Saldo - das Wrtschaftsmagazn Gestaltung: Astrd Petermann Moderaton: Volker Obermayr Sendedatum: 7. Dezember 2012

Mehr

2. Nullstellensuche. Eines der ältesten numerischen Probleme stellt die Bestimmung der Nullstellen einer Funktion f(x) = 0 dar.

2. Nullstellensuche. Eines der ältesten numerischen Probleme stellt die Bestimmung der Nullstellen einer Funktion f(x) = 0 dar. . Nullstellensuche Enes der ältesten numerschen Probleme stellt de Bestmmung der Nullstellen ener Funkton = dar. =c +c =c +c +c =Σc =c - sn 3 Für ene Gerade st das Problem trval, de Wurzel ener quadratschen

Mehr

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition Informatk II Raner Schrader und Implkanten Zentrum für Angewandte Informatk Köln 27. Oktober 2005 1 / 28 2 / 28 Was bsher geschah: jede Boolesche Funkton kann durch enfache Grundfunktonen dargestellt werden

Mehr

phil omondo phil omondo Skalierung von Organisationen und Innovationen gestalten Sie möchten mehr Preise und Leistungen Workshops und Seminare

phil omondo phil omondo Skalierung von Organisationen und Innovationen gestalten Sie möchten mehr Preise und Leistungen Workshops und Seminare Skalerung von Organsatonen und Innovatonen gestalten phl omondo Se stehen vor dem nächsten Wachstumsschrtt hrer Organsaton oder haben berets begonnen desen aktv zu gestalten? In desem Workshop-Semnar erarbeten

Mehr

Auswertung univariater Datenmengen - deskriptiv

Auswertung univariater Datenmengen - deskriptiv Auswertung unvarater Datenmengen - desrptv Bblografe Prof. Dr. Küc; Statst, Vorlesungssrpt Abschntt 6.. Bleymüller/Gehlert/Gülcher; Statst für Wrtschaftswssenschaftler Verlag Vahlen Bleymüller/Gehlert;

Mehr

1 BWL 4 Tutorium V vom 15.05.02

1 BWL 4 Tutorium V vom 15.05.02 1 BWL 4 Tutorum V vom 15.05.02 1.1 Der Tlgungsfaktor Der Tlgungsfaktor st der Kehrwert des Endwertfaktors (EWF). EW F (n; ) = (1 + )n 1 T F (n; ) = 1 BWL 4 TUTORIUM V VOM 15.05.02 (1 ) n 1 Mt dem Tlgungsfaktor(TF)

Mehr

Fachkräfte- Die aktuelle Situation in Österreich

Fachkräfte- Die aktuelle Situation in Österreich Chart 1 Fachkräfte- De aktuelle Stuaton n Österrech Projektleter: Studen-Nr.: Prok. Dr. Davd Pfarrhofer F818..P2.T n= telefonsche CATI-Intervews, repräsentatv für de Arbetgeberbetrebe Österrechs (ohne

Mehr

Kreditrisikomodellierung und Risikogewichte im Neuen Baseler Accord

Kreditrisikomodellierung und Risikogewichte im Neuen Baseler Accord 1 Kredtrskomodellerung und Rskogewchte m Neuen Baseler Accord erschenen n: Zetschrft für das gesamte Kredtwesen (ZfgK), 54. Jahrgang, 2001, S. 1004-1005. Prvatdozent Dr. Hans Rau-Bredow, Lehrstuhl für

Mehr

Grundlagen der makroökonomischen Analyse kleiner offener Volkswirtschaften

Grundlagen der makroökonomischen Analyse kleiner offener Volkswirtschaften Bassmodul Makroökonomk /W 2010 Grundlagen der makroökonomschen Analyse klener offener Volkswrtschaften Terms of Trade und Wechselkurs Es se en sogenannter Fall des klenen Landes zu betrachten; d.h., de

Mehr

Wechselstrom. Dr. F. Raemy Wechselspannung und Wechselstrom können stets wie folgt dargestellt werden : U t. cos (! t + " I ) = 0 $ " I

Wechselstrom. Dr. F. Raemy Wechselspannung und Wechselstrom können stets wie folgt dargestellt werden : U t. cos (! t +  I ) = 0 $  I Wechselstrom Dr. F. Raemy Wechselspannung und Wechselstrom können stets we folgt dargestellt werden : U t = U 0 cos (! t + " U ) ; I ( t) = I 0 cos (! t + " I ) Wderstand m Wechselstromkres Phasenverschebung:!"

Mehr

Qualitative Evaluation einer interkulturellen Trainingseinheit

Qualitative Evaluation einer interkulturellen Trainingseinheit Qualtatve Evaluaton ener nterkulturellen Tranngsenhet Xun Luo Bettna Müller Yelz Yldrm Kranng Zur Kulturgebundenhet schrftlcher und mündlcher Befragungsmethoden und hrer Egnung zur Evaluaton m nterkulturellen

Mehr

Die Ausgangssituation... 14 Das Beispiel-Szenario... 14

Die Ausgangssituation... 14 Das Beispiel-Szenario... 14 E/A Cockpt Für Se als Executve Starten Se E/A Cockpt........................................................... 2 Ihre E/A Cockpt Statusüberscht................................................... 2 Ändern

Mehr

MULTIVAC Kundenportal Ihr Zugang zur MULTIVAC Welt

MULTIVAC Kundenportal Ihr Zugang zur MULTIVAC Welt MULTIVAC Kundenportal Ihr Zugang zur MULTIVAC Welt Inhalt MULTIVAC Kundenportal Enletung Errechbarket rund um de Uhr Ihre ndvduellen Informatonen Enfach und ntutv Hlfrech und aktuell Ihre Vortele m Überblck

Mehr

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007 Lehrstuhl für Emprsche Wrtschaftsforschung und Ökonometre Dr Roland Füss Statstk II: Schleßende Statstk SS 007 5 Mehrdmensonale Zufallsvarablen Be velen Problemstellungen st ene solerte Betrachtung enzelnen

Mehr

3.2 Die Kennzeichnung von Partikeln 3.2.1 Partikelmerkmale

3.2 Die Kennzeichnung von Partikeln 3.2.1 Partikelmerkmale 3. De Kennzechnung von Patkeln 3..1 Patkelmekmale De Kennzechnung von Patkeln efolgt duch bestmmte, an dem Patkel mess bae und deses endeutg beschebende physka lsche Gößen (z.b. Masse, Volumen, chaaktestsche

Mehr

1 - Prüfungsvorbereitungsseminar

1 - Prüfungsvorbereitungsseminar 1 - Prüfungsvorberetungssemnar Kaptel 1 Grundlagen der Buchführung Inventur Inventar Blanz Inventur st de Tätgket des mengenmäßgen Erfassens und Bewertens aller Vermögenstele und Schulden zu enem bestmmten

Mehr

Einführung in die Finanzmathematik

Einführung in die Finanzmathematik 1 Themen Enführung n de Fnanzmathematk 1. Znsen- und Znsesznsrechnung 2. Rentenrechnung 3. Schuldentlgung 2 Defntonen Kaptal Betrag n ener bestmmten Währungsenhet, der zu enem gegebenen Zetpunkt fällg

Mehr

Standortplanung. Positionierung von einem Notfallhubschrauber in Südtirol. Feuerwehrhaus Zentrallagerpositionierung

Standortplanung. Positionierung von einem Notfallhubschrauber in Südtirol. Feuerwehrhaus Zentrallagerpositionierung Standortplanung Postonerung von enem Notfallhubschrauber n Südtrol Postonerung von enem Feuerwehrhaus Zentrallagerpostonerung 1 2 Postonerung von enem Notfallhubschrauber n Südtrol Zu bekannten Ensatzorten

Mehr

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)). 44 n n F F a) b) Abbldung 3.: Besetzungszahlen enes Fermgases m Grundzustand (a)) und für ene angeregte Konfguraton (b)). 3.3 Ferm Drac Statstk In desem Abschntt wollen wr de thermodynamschen Egenschaften

Mehr

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt Mathematsches Insttut der Unverstät München Wntersemester 3/4 Danel Rost Lukas-Faban Moser Grundlagen der Mathematk I Lösungsvorschlag zum. Tutorumsblatt Aufgabe. a De Formel besagt, daß de Summe der umrahmten

Mehr

Auswertung univariater Datenmengen - deskriptiv

Auswertung univariater Datenmengen - deskriptiv Auswertung unvarater Datenmengen - desrptv Bblografe Prof. Dr. Küc; Statst, Vorlesungssrpt Abschntt 6.. Bleymüller/Gehlert/Gülcher; Statst für Wrtschaftswssenschaftler Verlag Vahlen Bleymüller/Gehlert;

Mehr

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i Itemanalyse und Itemkennwerte De Methoden der Analyse der Itemegenschaften st ncht m engeren Snne Bestandtel der Klassschen Testtheore Im Rahmen ener auf der KTT baserenden Testkonstrukton und -revson

Mehr

Zinseszinsformel (Abschnitt 1.2) Begriffe und Symbole der Zinsrechnung. Die vier Fragestellungen der Zinseszinsrechnung 4. Investition & Finanzierung

Zinseszinsformel (Abschnitt 1.2) Begriffe und Symbole der Zinsrechnung. Die vier Fragestellungen der Zinseszinsrechnung 4. Investition & Finanzierung Znsesznsformel (Abschntt 1.2) 3 Investton & Fnanzerung 1. Fnanzmathematk Unv.-Prof. Dr. Dr. Andreas Löffler (AL@wacc.de) t Z t K t Znsesznsformel 0 1.000 K 0 1 100 1.100 K 1 = K 0 + K 0 = K 0 (1 + ) 2

Mehr

Spiele und Codes. Rafael Mechtel

Spiele und Codes. Rafael Mechtel Spele und Codes Rafael Mechtel Koderungstheore Worum es geht Über enen Kanal werden Informatonen Übertragen. De Informatonen werden dabe n Worte über enem Alphabet Q übertragen, d.h. als Tupel w = (w,,

Mehr

Datenträger löschen und einrichten

Datenträger löschen und einrichten Datenträger löschen und enrchten De Zentrale zum Enrchten, Löschen und Parttoneren von Festplatten st das Festplatten-Denstprogramm. Es beherrscht nun auch das Verklenern von Parttonen, ohne dass dabe

Mehr

Franzis Verlag, 85586 Poing ISBN 978-3-7723-4046-8 Autor des Buches: Leonhard Stiny

Franzis Verlag, 85586 Poing ISBN 978-3-7723-4046-8 Autor des Buches: Leonhard Stiny eseproben aus dem Buch "n mt en zur Elektrotechnk" Franzs Verlag, 85586 Pong ISBN 978--77-4046-8 Autor des Buches: eonhard Stny Autor deser eseprobe: eonhard Stny 005/08, alle echte vorbehalten. De Formaterung

Mehr

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07 Auswertung von Umfragen und Expermenten Umgang mt Statstken n Maturaarbeten Realserung der Auswertung mt Excel 07 3.Auflage Dese Broschüre hlft bem Verfassen und Betreuen von Maturaarbeten. De 3.Auflage

Mehr

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz): LÖSUNG AUFGABE 8 ZUR INDUSTRIEÖKONOMIK SEITE 1 VON 6 Aufgabe 8 (Gewnnmaxmerung be vollständger Konkurrenz): Betrachtet wrd en Unternehmen, das ausschleßlch das Gut x produzert. De m Unternehmen verwendete

Mehr

Definition des linearen Korrelationskoeffizienten

Definition des linearen Korrelationskoeffizienten Defnton des lnearen Korrelatonskoeffzenten r xy x y y r x xy y 1 x x y y x Der Korrelatonskoeffzent st en Indkator dafür, we gut de Punkte (X,Y) zu ener Geraden passen. Sen Wert legt zwschen -1 und +1.

Mehr

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2 ETH Arbetsgruppe Radocheme Radochemsches Praktkum P 06 Enführung n de Statstk INHALTSVERZEICHNIS Sete 1. Zählung von radoaktven Zerfällen und Statstk 2 2. Mttelwert und Varanz 2 3. Momente ener Vertelung

Mehr

1.1 Grundbegriffe und Grundgesetze 29

1.1 Grundbegriffe und Grundgesetze 29 1.1 Grundbegrffe und Grundgesetze 9 mt dem udrtschen Temperturkoeffzenten 0 (Enhet: K - ) T 1 d 0. (1.60) 0 dt T 93 K Betrchtet mn nun den elektrschen Wderstnd enes von enem homogenen elektrschen Feld

Mehr

Versicherungstechnischer Umgang mit Risiko

Versicherungstechnischer Umgang mit Risiko Verscherungstechnscher Umgang mt Rsko. Denstlestung Verscherung: Schadensdeckung von für de enzelne Person ncht tragbaren Schäden durch den fnanzellen Ausglech n der Zet und m Kollektv. Des st möglch über

Mehr

2 Zufallsvariable und Verteilungen

2 Zufallsvariable und Verteilungen Zufallsvarable und Vertelungen 7 Zufallsvarable und Vertelungen Wr wollen uns jetzt mt Zufallsexpermenten beschäftgen, deren Ausgänge durch (reelle) Zahlen beschreben werden können, oder be denen man jedem

Mehr

Wie eröffne ich als Bestandskunde ein Festgeld-Konto bei NIBC Direct?

Wie eröffne ich als Bestandskunde ein Festgeld-Konto bei NIBC Direct? We eröffne ch als Bestandskunde en Festgeld-Konto be NIBC Drect? Informatonen zum Festgeld-Konto: Be enem Festgeld-Konto handelt es sch um en Termnenlagenkonto, be dem de Bank enen festen Znssatz für de

Mehr

Wie eröffne ich als Bestandskunde ein Festgeld-Konto bei NIBC Direct?

Wie eröffne ich als Bestandskunde ein Festgeld-Konto bei NIBC Direct? We eröffne ch als Bestandskunde en Festgeld-Konto be NIBC Drect? Informatonen zum Festgeld-Konto: Be enem Festgeld-Konto handelt es sch um en Termnenlagenkonto, be dem de Bank enen festen Znssatz für de

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen Übungsklausur Wahrschenlchket und Regresson De Lösungen. Welche der folgenden Aussagen treffen auf en Zufallsexperment zu? a) En Zufallsexperment st en emprsches Phänomen, das n stochastschen Modellen

Mehr

3. Lineare Algebra (Teil 2)

3. Lineare Algebra (Teil 2) Mathematk I und II für Ingeneure (FB 8) Verson /704004 Lneare Algebra (Tel ) Parameterdarstellung ener Geraden Im folgenden betrachten wr Geraden m eukldschen Raum n, wobe uns hauptsächlch de Fälle n bzw

Mehr

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY) Bedngte Entrope Kaptel : Bedngte Entrope Das vorherge Theorem kann durch mehrfache Anwendung drekt verallgemenert werden H (... H ( = Ebenso kann de bedngt Entrope defnert werden Defnton: De bedngte Entrope

Mehr

tutorial N o 1a InDesign CS4 Layoutgestaltung Erste Schritte - Anlegen eines Dokumentes I a (Einfache Nutzung) Kompetenzstufe keine Voraussetzung

tutorial N o 1a InDesign CS4 Layoutgestaltung Erste Schritte - Anlegen eines Dokumentes I a (Einfache Nutzung) Kompetenzstufe keine Voraussetzung Software Oberkategore Unterkategore Kompetenzstufe Voraussetzung Kompetenzerwerb / Zele: InDesgn CS4 Layoutgestaltung Erste Schrtte - Anlegen enes Dokumentes I a (Enfache Nutzung) kene N o 1a Umgang mt

Mehr

Elemente der Mathematik - Sommer 2016

Elemente der Mathematik - Sommer 2016 Elemente der Mathematk - Sommer 2016 Prof Dr Matthas Lesch, Regula Krapf Lösungen Übungsblatt 3 Aufgabe 9 (10 Punkte) Das Horner-Schema st ene Methode zum Auswerten enes Polynoms n a0 x an der Stelle s

Mehr

Einführung in Origin 8 Pro

Einführung in Origin 8 Pro Orgn 8 Pro - Enführung 1 Enführung n Orgn 8 Pro Andreas Zwerger Orgn 8 Pro - Enführung 2 Überscht 1) Kurvenft, was st das nochmal? 2) Daten n Orgn mporteren 3) Daten darstellen / plotten 4) Kurven an Daten

Mehr

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1. Mathematk I / Komplexe Zahlen 9 Komplexe Zahlen 9. Zele Am Ende deses Kaptels hast Du ene Grundvorstellung was komplexe Zahlen snd. Du kannst se grafsch darstellen und enfache Berechnungen durchführen.

Mehr

VERGLEICH VON TESTVERFAHREN FÜR DIE DEFORMATIONSANALYSE

VERGLEICH VON TESTVERFAHREN FÜR DIE DEFORMATIONSANALYSE VERGLEICH VON TESTVERFAHREN FÜR DIE DEFORMATIONSANALYSE Karl Rudolf KOCH Knut RIESMEIER In: WELSCH, Walter (Hrsg.) [1983]: Deformatonsanalysen 83 Geometrsche Analyse und Interpretaton von Deformatonen

Mehr

Facility Location Games

Facility Location Games Faclty Locaton Games Semnar über Algorthmen SS 2006 Klaas Joeppen 1 Abstract Wr haben berets sehr häufg von Nash-Glechgewchten und vor allem von deren Exstenz gesprochen. Das Faclty Locaton Game betet

Mehr

1.1 Das Prinzip von No Arbitrage

1.1 Das Prinzip von No Arbitrage Fnanzmärkte H 2006 Tr V Dang Unverstät Mannhem. Das Prnzp von No Arbtrage..A..B..C..D..E..F..G..H Das Framework Bespele Das Fundamental Theorem of Fnance Interpretaton des Theorems und Zustandsprese No

Mehr

Quant oder das Verwelken der Wertpapiere. Die Geburt der Finanzkrise aus dem Geist der angewandten Mathematik

Quant oder das Verwelken der Wertpapiere. Die Geburt der Finanzkrise aus dem Geist der angewandten Mathematik Quant der das Verwelken der Wertpapere. De Geburt der Fnanzkrse aus dem Gest der angewandten Mathematk Dmensnen - de Welt der Wssenschaft Gestaltung: Armn Stadler Sendedatum: 7. Ma 2012 Länge: 24 Mnuten

Mehr

Ihr geschützter Bereich Organisation Einfachheit Leistung

Ihr geschützter Bereich Organisation Einfachheit Leistung Rev. 07/2012 Ihr geschützter Berech Organsaton Enfachhet Lestung www.vstos.t Ihr La geschützter tua area rservata Berech 1 MyVstos MyVstos st ene nformatsche Plattform für den Vstos Händler. Se ermöglcht

Mehr

Energiesäule mit drei Leereinheiten, Höhe 491 mm Energiesäule mit Lichtelement und drei Leereinheiten, Höhe 769 mm

Energiesäule mit drei Leereinheiten, Höhe 491 mm Energiesäule mit Lichtelement und drei Leereinheiten, Höhe 769 mm Montageanletung Energesäule mt dre Leerenheten, Höhe 491 mm 1345 26/27/28 Energesäule mt Lchtelement und dre Leerenheten, Höhe 769 mm 1349 26/27/28 Energesäule mt sechs Leerenheten, Höhe 769 mm, 1351 26/27/28

Mehr

Leitliniengerechte psychosoziale Versorgung aus der Sicht des Krankenhausmanagements

Leitliniengerechte psychosoziale Versorgung aus der Sicht des Krankenhausmanagements Unser Auftrag st de aktve Umsetzung der frohen Botschaft Jesu m Denst am Menschen. Ene Herausforderung, der wr täglch neu begegnen. Mt modernster Technk und Kompetenz. Und vor allem mt Menschlchket. Letlnengerechte

Mehr

Für wen ist dieses Buch? Was ist dieses Buch? Besonderheiten. Neu in dieser Auflage

Für wen ist dieses Buch? Was ist dieses Buch? Besonderheiten. Neu in dieser Auflage Für wen st deses Bch? Das Taschenbch der Elektrotechnk rchtet sch an Stdentnnen nd Stdenten an nverstäten nd Fachhochschlen n den Berechen Elektrotechnk Nachrchtentechnk Technsche Informatk allgemene Ingenerwssenschaften

Mehr

Bildverarbeitung Herbstsemester 2012. Bildspeicherung

Bildverarbeitung Herbstsemester 2012. Bildspeicherung Bldverarbetung Herbstsemester 2012 Bldspecherung 1 Inhalt Bldformate n der Überscht Coderung m Überblck Huffman-Coderung Datenredukton m Überblck Unterabtastung Skalare Quantserung 2 Lernzele De wchtgsten

Mehr

Finanzwirtschaft. Kapitel 3: Simultane Investitions- und Finanzplanung. Lehrstuhl für Finanzwirtschaft - Universität Bremen 1

Finanzwirtschaft. Kapitel 3: Simultane Investitions- und Finanzplanung. Lehrstuhl für Finanzwirtschaft - Universität Bremen 1 Fnanzwrtschaft Kaptel 3: Smultane Investtons- und Fnanzplanung Prof. Dr. Thorsten Poddg Lehrstuhl für Allgemene Betrebswrtschaftslehre, nsbes. Fnanzwrtschaft Unverstät Bremen Hochschulrng 4 / WW-Gebäude

Mehr

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1. Mathematk I / Komplexe Zahlen 9 Komplexe Zahlen 9. Zele Am Ende deses Kaptels hast Du ene Grundvorstellung was komplexe Zahlen snd. Du kannst se grafsch darstellen und enfache Berechnungen durchführen.

Mehr

SH SK S..LL. BPW ECO Disc Trailerscheibenbremsen TSB 3709 / 4309 / 4312. Servicemaßnahme BPW BERGISCHE ACHSEN. Trailerscheibenbremsen

SH SK S..LL. BPW ECO Disc Trailerscheibenbremsen TSB 3709 / 4309 / 4312. Servicemaßnahme BPW BERGISCHE ACHSEN. Trailerscheibenbremsen Servcemaßnahme BPW ECO Dsc Tralerschebenbremsen BPW BERGISCHE ACHSEN BPW ECO Dsc Tralerschebenbremsen TSB 3709 / 4309 / 4312 Servcemaßnahme SH SK S..LL BPW ECO Dsc Servcemaßnahme Inhalt BPW Servce-Kt BPW

Mehr

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel ultlneare Algebra und hre Anwendungen Nr. : Normalformen Verfasser: Yee Song Ko Adran Jenn Rebecca Huber Daman Hodel 9.5.7 - - ultlneare Algebra und hre Anwendungen Jordan sche Normalform Allgemene heore

Mehr

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ). Taylorentwcklung (Approxmaton durch Polynome). Problemstellung Se T( x ) de Tangente an den Graphen der Funkton f(x) m Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ). Dann kann man de

Mehr

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

Resultate / states of nature / mögliche Zustände / möglicheentwicklungen Pay-off-Matrzen und Entschedung unter Rsko Es stehen verschedene Alternatven (Strategen) zur Wahl. Jede Stratege führt zu bestmmten Resultaten (outcomes). Man schätzt dese Resultate für jede Stratege und

Mehr

Operations Research II (Netzplantechnik und Projektmanagement)

Operations Research II (Netzplantechnik und Projektmanagement) Operatons Research II (Netzplantechnk und Projektmanagement). Aprl Frank Köller,, Hans-Jörg von Mettenhem & Mchael H. Bretner.. # // ::: Gute Vorlesung:-) Danke! Feedback.. # Netzplantechnk: Überblck Wchtges

Mehr

Netzsicherheit I, WS 2008/2009 Übung 3. Prof. Dr. Jörg Schwenk 27.10.2008

Netzsicherheit I, WS 2008/2009 Übung 3. Prof. Dr. Jörg Schwenk 27.10.2008 Netzscherhet I, WS 2008/2009 Übung Prof. Dr. Jörg Schwenk 27.10.2008 1 Das GSM Protokoll ufgabe 1 In der Vorlesung haben Se gelernt, we sch de Moble Staton (MS) gegenüber dem Home Envroment (HE) mt Hlfe

Mehr

Wir betrachten in diesem Abschnitt Matrixspiele in der Maximierungsform, also endliche 2 Personen Nullsummenspiele der Gestalt

Wir betrachten in diesem Abschnitt Matrixspiele in der Maximierungsform, also endliche 2 Personen Nullsummenspiele der Gestalt Kaptel 3 Zwe Personen Spele 3.1 Matrxspele 3.2 Matrxspele n gemschten Strategen 3.3 B Matrxspele und quadratsche Programme 3.4 B Matrxspele und lneare Komplementartätsprobleme 3.1 Matrxspele Wr betrachten

Mehr

Portfoliothorie (Markowitz) Separationstheorem (Tobin) Kapitamarkttheorie (Sharpe

Portfoliothorie (Markowitz) Separationstheorem (Tobin) Kapitamarkttheorie (Sharpe Portfolothore (Markowtz) Separatonstheore (Tobn) Kaptaarkttheore (Sharpe Ene Enführung n das Werk von dre Nobelpresträgern zu ene Thea U3L-Vorlesung R.H. Schdt, 3.12.2015 Wozu braucht an Theoren oder Modelle?

Mehr

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

5. ZWEI ODER MEHRERE METRISCHE MERKMALE 5. ZWEI ODER MEHRERE METRISCHE MERKMALE wenn an ener Beobachtungsenhet zwe (oder mehr) metrsche Varablen erhoben wurden wesentlche Problemstellungen: Frage nach Zusammenhang: Bsp.: Duxbury Press (sehe

Mehr

Entscheidungsprobleme der Marktforschung (1)

Entscheidungsprobleme der Marktforschung (1) Prof. Dr. Danel Baer. Enführung 2. Informatonsbedarf 3. Datengewnnung 2. Informatonsbedarf Entschedungsprobleme der () Informatonsbedarf Art Qualtät Menge Informatonsbeschaffung Methodk Umfang Häufgket

Mehr

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung am Bespel enes Modells der chadenverscherung Für das Modell ener chadenverscherung se gegeben: s w s. n 4 chaden enes Verscherungsnehmers, wenn der chadenfall entrtt Wahrschenlchket dafür, dass der chadenfall

Mehr

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung)

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung) LÖSUNG KLAUSUR STATISTIK I Berufsbegletender Studengang Betrebswrtschaftslehre Sommersemester 016 Aufgabentel I: Theore (10 Punkte) Snd de nachfolgenden Aussagen rchtg oder falsch? (1 Punkt pro korrekter

Mehr

Konkave und Konvexe Funktionen

Konkave und Konvexe Funktionen Konkave und Konvexe Funktonen Auch wenn es n der Wrtschaftstheore mest ncht möglch st, de Form enes funktonalen Zusammenhangs explzt anzugeben, so kann man doch n velen Stuatonen de Klasse der n Frage

Mehr

13.Selbstinduktion; Induktivität

13.Selbstinduktion; Induktivität 13Sebstndukton; Induktvtät 131 Sebstndukton be En- und Ausschatvorgängen Versuch 1: Be geschossenem Schater S wrd der Wderstand R 1 so groß gewäht, dass de Gühämpchen G 1 und G 2 gech he euchten Somt snd

Mehr

Institut für Stochastik Prof. Dr. N. Bäuerle Dipl.-Math. S. Urban

Institut für Stochastik Prof. Dr. N. Bäuerle Dipl.-Math. S. Urban Insttut für Stochastk Prof Dr N Bäuerle Dpl-Math S Urban Lösungsvorschlag 6 Übungsblatt zur Vorlesung Fnanzatheatk I Aufgabe Put-Call-Party Wr snd nach Voraussetzung n ene arbtragefreen Markt, also exstert

Mehr