Moderne statistische Methoden als Basis als Basis für individualisierte für individualisierte Risikovorhersage Risikovorhersage Prof. Dr. Dr. Michael Feindt Feindt Inst. Institut für Exp. für Experimentelle Kernphysik Kernphysik Universität Karlsruhe Wissenschaftlicher Beirat Beirat der der Phi-T Physics Information Technologies GmbH GmbH 1
Moderne statistische Methoden als Basis für individualisierte Risikovorhersage Prof. Dr. Michael Feindt Inst. für Exp. Kernphysik Universität Karlsruhe Wissenschaftlicher Beirat der Phi-T Physics Information Technologies GmbH 2
Individuelle Wahrscheinlichkeiten Weil Sie eine gute Statistikabteilung haben, wissen Sie, wie sich die Dinge im Mittel entwickeln werden... Wahrscheinlichkeit Das wird durch eine Wahrscheinlichkeitsverteilung beschrieben. Auf dieser Basis können Sie kalkulieren. Kosten 3
Individuelle Wahrscheinlichkeiten Um wieviel besser könnten Sie kalkulieren, wenn Sie über einzelne Kunden wissen würden, wie deren individuelle Wahrscheinlichkeit aussieht? Wahrscheinlichkeit Kosten 4
Individuelle Wahrscheinlichkeiten Dieser Kunde wird voraussichtlich nur wenig Kosten verursachen... Wahrscheinlichkeit Kosten 5
Individuelle Wahrscheinlichkeiten Und dieser Kunde wird mit ziemlicher Sicherheit mehr Kosten verursachen als der Durchschnittskunde. Wahrscheinlichkeit Kosten 6
Die < phi-t > Idee > Jahrelange Erfahrung in schwierigsten statistischen Analysen in internationaler Spitzenforschung am DESY, CERN, Fermilab und an der Universität Karlsruhe. > Entwicklung vieler großer Software-Projekte mit modernsten neuronalen Methoden gegen starke Konkurrenz. VDurchführung von Vorlesungen und Seminaren über moderne statistische Methoden. > Entwicklung des NeuroBayes-Algorithmus zur Vorhersage bedingter Wahrscheinlichkeitsdichten. 7
Die < phi-t > Idee > Jahrelange Erfahrung in schwierigsten statistischen Analysen in internationaler Spitzenforschung am DESY, CERN, Fermilab und an der Universität Karlsruhe. > Entwicklung vieler großer Software-Projekte mit modernsten neuronalen Methoden gegen starke Konkurrenz. > Durchführung von Vorlesungen und Seminaren über moderne statistische Methoden. > Entwicklung des NeuroBayes-Algorithmus zur Vorhersage bedingter Wahrscheinlichkeitsdichten. 8
Die < phi-t > Idee > Jahrelange Erfahrung in schwierigsten statistischen Analysen in internationaler Spitzenforschung am DESY, CERN, Fermilab und an der Universität Karlsruhe. > Entwicklung vieler großer Software-Projekte mit modernsten neuronalen Methoden gegen starke Konkurrenz. > Durchführung von Vorlesungen und Seminaren über moderne statistische Methoden. > Entwicklung des NeuroBayes-Algorithmus zur Vorhersage bedingter Wahrscheinlichkeitsdichten. 9
Die < phi-t > Idee > Jahrelange Erfahrung in schwierigsten statistischen Analysen in internationaler Spitzenforschung am DESY, CERN, Fermilab und an der Universität Karlsruhe. > Entwicklung vieler großer Software-Projekte mit modernsten neuronalen Methoden gegen starke Konkurrenz. > Durchführung von Vorlesungen und Seminaren über moderne statistische Methoden. > Entwicklung des NeuroBayes-Algorithmus zur Vorhersage bedingter Wahrscheinlichkeitsdichten. 10
Die < phi-t > Idee > Jahrelange Erfahrung in schwierigsten statistischen Analysen in internationaler Spitzenforschung am DESY, CERN, Fermilab und an der Universität Karlsruhe. > Entwicklung vieler großer Software-Projekte mit modernsten neuronalen Methoden gegen starke Konkurrenz. > Durchführung von Vorlesungen und Seminaren über moderne statistische Methoden. > Entwicklung des NeuroBayes-Algorithmus zur Vorhersage bedingter Wahrscheinlichkeitsdichten. 11
Erkenntnis Diese Methoden sind nicht nur in der Physik anwendbar < phi-t >: Ausgründung aus der Universität Karlsruhe, gefördert durch das exist-seed-programm des Bundesministeriums für Bildung und Forschung 12
LEP / LHC Large Electron Positron Collider Größter Teilchenbeschleuniger der Welt am CERN/Genf 50000 Kollisionen pro Sekunde, Jede 10 Mio. Kollisionen ein interessantes Ereignis. Data Mining ist eine große Herausforderung 13
Das DELPHI- Experiment am LEP Delphi: Verschiedene Sensoren erzeugen >100 000 elektrische Signale, 50 000 mal pro Sekunde. >Riesige Datenmengen >Suche nach kleinsten Signalen: die Nadel im Heuhaufen >Statistische Methoden sind sehr weit entwickelt 14
< phi-t >NeuroBayes Neuronale Netzwerke: Selbstlernende Verfahren, der Natur nachempfunden Frontal Lobe Motor Cortex Parietal Cortex Temporal Lobe Brain Stem Occipital Lobe Cerebellum 15
Idee NeuroBayes Ziele f(t x) Beispiele Prinzip Funktion Konkurrenz < phi-t >NeuroBayes Die Information steckt in den Verbindungen zwischen den Nervenzellen Forschung Spiel A B Datenbank wkl Struktur des Verfahrens wlj 1. Datenbank 2. Input Vektoren 3. Mathematische Operation 4. Output Vektoren 5. Spline Fit = Dateninterpolation 6. Ausgabedaten inklusive individueller Wahrscheinlichkeiten 16
< phi-t >NeuroBayes > beruht auf neuronalen Algorithmen der 2. Generation, Bayes scher Regularisierung, optimiertem Preprocessing mit Transformation und Dekorrelation der Input-Variablen und linearer Korrelation zum Output. > lernt sehr schnell durch Methoden 2. Ordnung > ist extrem robust gegen Ausreißer > ist immun gegen Auswendiglernen statistischen Rauschens kann > binäre Entscheidungen treffen (klassifizieren) > Vorhersagen machen inklusive Unsicherheiten > komplette Wahrscheinlichkeitsdichten berechnen 17
< NeuroBayes > Klassifikationen Klassifikationen: Ja/nein-Entscheidungen. Ausgabewert ist die Wahrscheinlichkeit, dass die Entscheidung richtig ist. Beispiele: > Dies Elementarteilchen ist ein K-Meson. > Deutschland wird bei der WM 2006 Weltmeister. > Kunde Meier wird innerhalb des nächsten Jahres kündigen. > Kunde Schmidt wird innerhalb des nächsten Jahres einen Schaden melden. > Bei dieser Schadensmeldung liegt Betrug vor. 18
< NeuroBayes > Wahrscheinlichkeitsdichten Wahrscheinlichkeitsdichte: Für jeden möglichen Wert wird eine Wahrscheinlichkeit angegeben. Daraus können Mittelwert, Median, Modus, Standardabweichung, Percentile etc. abgeleitet werden. Beispiele: > Energie eines Elementarteilchens > Änderung des Preises einer Aktie oder Option > Unternehmensgewinn > Lebenserwartung > Schadenssumme eines bestimmten Versicherungsnehmers 19
< NeuroBayes > Prinzip < NeuroBayes > Teacher: Lernen aus bestehenden Datenbanken < NeuroBayes > Expert: Prognosen für unbekannte Daten 20
Funktionsweise: Training und Anwendung Historische Daten Datensatz a =... b =... c =...... t =! NeuroBayes Teacher Aktuelle Daten Expertensystem Expertise Wahrscheinlichkeit, dass Hypothese stimmt (bei Klassifikation) oder Wahrscheinlichkeitsdichte für die gesuchte Grösse t Datensatz a =... b =... c =...... t =? NeuroBayes Expert f t t 21
< NeuroBayes > > Verarbeitet kontinuierliche, diskrete und binäre Eingabedaten > Klassifizierungen und Clusterungen nach Eingabedaten nicht nötig Anwendungen > Grundlagenforschung > Industrielle Forschung > Banken und Versicherungen 22
Physikalische Forschung Klassifizierung: Identifizierung von Teilchenarten: Doppelte Signalstärke bei gleichem Untergrundlevel durch NeuroBayes- Auswertung grünes Verfahren: mehrere 10 Millionen CHF Aufwand NeuroBayes: Weitere Steigerung um Faktor 2 mit sehr geringem Mehraufwand 23
Physikalische Forschung Optimierte Rekonstruktion reellwertiger Größen: verallgemeinerte Regression erheblich bessere Rekonstruktion (schmaler Peak um +-0) durch NeuroBayes-Technologie gespart: nicht ausdrückbar ückbar, wäre ohne NeuroBayes gar nicht möglich 24
Physikalische Forschung Auflösung des rekonstruierten Azimuthalwinkels von B-Hadronen im DELPHI-Detektor Nach Selektionsschnitt auf Fehlerschätzung: Auflösung massiv verbessert und keine Ausläufer > zuverlässige Selektion von guten Ereignissen möglich NeuroBayes Phi-Richtung Bester klassischer chi**2-fit Keine Selektion: Verbesserte Auflösung 25
Anwendung für Banken Kreditrisikobemessung > Wie groß ist das Risiko, dass der Kreditnehmer zahlungsunfähig wird? >Basel II > Mit welcher Wahrscheinlichkeit ist die Kreditvergabe wie profitabel? Vorhersage von Aktienkursen und Wechselkursen > Vorhersage der Wertentwicklung von Derivaten, insb. Bestimmung von fairen Optionspreisen (besser als Black-Scholes) > Entwicklung von risikominimierten Tradingstrategien 26
Anwendung für Versicherungen Vorhersage des Risikos, dass von individuellen Kunden ein Schaden gemeldet wird. Vorhersage der Verteilung der Schadenhöhe im Fall einer Schadensmeldung für individuelle Kunden. Entwurf gerechterer und profitablerer Tarifsysteme. Vorhersage der Kündigungswahrscheinlichkeit individueller Kunden. Aufdeckung von Versicherungsbetrug. 27
Schadenwahrscheinlichkeit und -höhe Im Mittel( Durchschnittskunde ): kein Schaden: 60% mittlerer Schaden: 13260 >mittlere zu erwartende Kosten: 5304 Spezifischer Kunde Mustermann: Höhere Schadenfreiheitswahrscheinlichkeit: 70% höherer mittlerer Schaden: 16800 >mittlere zu erwartende Kosten: 5040 28
Mögliche Eingabedaten am Beispiel einer Kfz-Versicherung persönliche Daten: Alter, Geschlecht, Beruf, Wohnort, jährliche Kilometerleistung, Benutzungsbeschränkungen, Mitfahrer Fahrzeugdaten: Fahrzeugtyp, Motorleistung, Baujahr, Farbe, Garagenwagen,Tuning-Extras,... Versicherungsdaten: letzte Schadenssumme, Zeit seit letzter Schadensmeldung,Schadenfreiheitsrabatt, Art der letzten Versicherung (Haftpflicht, Kasko etc.) Vorhandene Expertenmodelle: Prämie nach bisherigem Modell, Prämie nach Alternativmodell 29
Aufdecken von Versicherungsbetrug Bsp. Kfz-Versicherung Wie wahrscheinlich ist es, dass mit dem vorliegenden Schadensfall etwas nicht stimmt? Kombination mehrer Informationen: > Individuelles Risiko des Fahrzeugführers (NeuroBayes) > Ist der Unfall typisch für den Fahrzeugführer und den Fahrzeugtyp bzw. die Fahrzeugmarke? >... > Individuelle Recherche ab bestimmter Schwelle 30
Customer Retention Welche Kunden sind kündigungsgefährdet? Eingabedaten: Momentane Prämie, gerechte Prämie, Änderungen des Familienstandes,... > Wahrscheinlichkeit, dass der Kunde kündigt. Welchen Kunden kann man weitere Versicherungen verkaufen? Eingabedaten: Andere Versicherungen/ -schäden, Einkommen, Wohnverhältnisse,... > Wahrscheinlichkeit, dass der Kunde eine bestimmte, zusätzliche Versicherung abschliesst. 31
Ergebnisse aus < phi-t > Pilotprojekten I: Stornovorhersage Stornowahrscheinlichkeit für Versicherungsverträge einer Individual-Unfallversicherung Problem und Zielsetzung: 1. Hohe Stornorate führt zu Umsatzrückgang und Verwaltungsaufwand. 2. Früherkennung von potenziellen Kündigern erlaubt gezielte Kundenbindungsmaßnahmen. 3. Vorhersage der individuellen Kündigungswahrscheinlichkeit für jeden Kunden aus allen bekannten Informationen ist mit unseren modernen Methoden erstaunlich gut möglich! 32
Vertrags - Storno Effizienz: Prozentsatz der selektierten an allen Kündigern Kosten: Prozentsatz der selektierten an allen Kunden 33
Vertrags - Storno Mit NeuroBayes können wir Kunden mit erhöhtem Kündigungspotenzial identifizieren 34
Vertrags - Storno Wir können10% aller Kündiger in 2,2% aller Kunden identifizieren! Oder 30% in 9%. Oder 50% in 19%. 35
Vertrags - Storno Und unsere Vorhersage trifft auch ein: Test auf dem Training unbekannten Daten eines anderen Jahrgangs 36
Ergebnisse aus <phi-t> Pilotprojekten II: Schadenvorhersage für junge Fahrer in der Kfz-Haftpflichtversicherung Schadenwahrscheinlichkeit NeuroBayes- Analyse zur Entwicklung eines neuen Tarifsystems für junge Fahrer für die Badischen Gemeinde- Versicherungen BGV Problem und Zielsetzung: Junge Fahrer verursachen überproportional viele Unfälle. Selbst die schlechte Schadenfreiheitsklassifizierung für Fahranfänger ist nicht ausreichend. Kann man sehr risikobereite Fahrer erkennen, um den Tarif gerechter zu gestalten? 37
Pilotprojekt II Kfz-Haftpflicht: Junge Fahrer Vollständige NeuroBayes Analyse der BGV-Datenbank. Anschauliche Erkenntnisse durch Analyse der NeuroBayes-Expertise. Mit <phi-t> Tools entwickelte,,einfache dem bisherigen Tarifmodell angelehnte Formel ist nicht viel schlechter als vollständiges NeuroBayes- Netzwerk. >Viele interessante Erkenntnisse! Hier keine Details. Ja, das Riskio ist weiter differenzierbar als in bisher üblichen Tarifen: Zum Teil erhebliche Änderungen möglich bzw. nötig. Die üblichen Kriterien wie Typklasse und Schadenfreiheitsrabatt allein reichen nicht aus. Global über alle Versicherungsnehmer: gute Größen. Aber nicht bei detaillierterer Betrachtung! 38
Die Ungerechtigkeit der Prämie: Verhältnis des mit NeuroBayes errechneten Risikos zur bisherigen Prämie (auf Mittelwert 1 normiert): Wahrscheinlichkeit Die Mehrheit der (vorsichtigen) Kunden zahlt zu viel. Weniger als die Hälfte der Kunden (die eher risikobereit sind) zahlen zu wenig, zum Teil viel zu wenig. Diese werden z.z. von den vorsichtigen,,subventioniert. Risiko/Prämie 39
Ergebnisse aus <phi-t> Pilotprojekten III Schadenvorhersage Unfallversicherung Schadenwahrscheinlichkeit Schadenhöhe Für Verträge einer Individualunfallversicherung. Bisher praktisch keine Korrelation des Risikos zur Prämie. Kann die Wahrscheinlichkeit eines Schadens individuell vorhergesagt werden? Und die Schadenhöhe? Kann man mit diesem Wissen individuell gerechte Prämien gestalten? > Ja! Auf unabhängigen Daten (nächster Jahrgang) getestet. 40
Test auf Schadenshöhe Wirkliche Schadenshöhe Ø-Wert Statistische Unsicherheit (+-1 sigma) Vorhergesagte Schadenshöhe 41
Nutzen des NeuroBayes-Wissens für das Management: Einführung eines neuen Prämiensystems kann: > Gerechtigkeit schaffen > Gute Kunden binden (teils viel niedrigere Prämien möglich) > Bei der Akquise von Neukunden sehr hilfreich sein > Riskante Kunden,,abschrecken > Das Kerngeschäft wieder profitabel machen 42
Notwendigkeit eines gerechten Prämiensystems: Deregularisierter und informierter (Internet etc.) Markt: > Annahme: Jeder Kunde geht langfristig zu der für ihn persönlich günstigsten Versicherung. > Bei nicht risikoadäquater Prämienpolitik:,,Raser bleiben,,,vorsichtige wechseln. > Risiko des Gesamtbestands steigt ==> Grundprämie muss erhöht werden. Dadurch noch unrentabler für,,vorsichtige. > Auch für,,raser verliert man dadurch langfristig an Attraktivität. > Optimum ist bei risikoadäquater Prämiengestaltung. Das wird der Trend im Markt werden! 43
Ist NeuroBayes eine,,black Box? Nein! NeuroBayes Expertise gibt eine optimale Beschreibung der Zusammenhänge. Es ist ein sehr gerechtes System machbar. Aber sie wissen: Tarifpolitik erfordert Kompromisse. Wir helfen Ihnen dabei, diese klein zu halten. Mit pragmatischen, einfacheren Modellen. Und plausibler Erklärung. > Analyse der Expertise ist möglich. > Viele der Hauptkorrelationen und Zusammenhänge sind durch diese Analyse erkennbar und führen zu echtem Erkenntnisgewinn. > Spezialtools zum Entwickeln von mathematisch einfachen, an die derzeitigen Tarifsysteme angelehnten Modelle sind,,fertig entwickelt. 44
Zusammenfassung < phi-t > bietet mit NeuroBayes wichtigen Technologietransfer aus Grundlagenforschung in die Wirtschaft, insbesondere Versicherungsund Finanzwesen. Pilotprojekte zu Stornoverhalten, Schadenwahrscheinlichkeit und Schadenhöhe sehr erfolgreich. Es wurden Spezial-Tools für diese Projekte entwickelt. Eine Fülle von verschiedenen Produkten kann angeboten werden:< phi-t >assurance, < phi-t >finance... Die Untersuchungsziele können gemeinsam mit und für den Kunden entwickelt werden. Kenntnisgewinn durch < phi-t > bietet solide Basis für fundierte und profitable Entscheidungen zur Geschäftspolitik. 45
Zusammenfassung NeuroBayes Zusammenhänge erkennen, die bisher nicht erkennbar waren. Vieles wird jetzt plausibel. Wissen ersetzt Vorurteile. NeuroBayes ermöglicht Vorhersagen für,,die Zukunft. Die Zukunft mit definierter bedingter Wahrscheinlichkeit für jeden Datensatz. Damit können Sie objektive Entscheidungen treffen bzw. Risiken erkennen und abwägen. 46
Zusammenfassung < phi-t > Komplettservice von Datenbeurteilung bis zur Datenübernahme Empfehlung zur Optimierung von Datenbanken Schulung in modernen Methoden der Datenanalyse Jährliches Expert-Updates, um Trends rechtzeitig zu erkennen Simulationen und Konsequenzanalyse < phi-t > Kernkompetenz: < NeuroBayes > und seine Anwendungen in den verschiedenen Bereichen 47
Die Produkte und Leistungen < phi-t > finance < phi-t > assurance < phi-t > pharmacy < phi-t > medicine < phi-t > science < phi-t > data management < phi-t > data consult < phi-t > statistics training www.phi-t.de 48
Kontakt und Impressum Phi-T Physics Information Fon +49 0721 93381-50 Technologies GmbH Fax +49 0721 93381-59 Karlsruher Straße 88 info @phi-t.de 76139 Karlsruhe www.phi-t.de Geschäftsführer: Dipl.-Phys. Jochen Bossert Dr.rer.nat. Dipl. Phys. Andreas Heiss Wissenschaftlicher Beirat: Prof. Dr. rer.nat. Michael Feindt HRB 10079 Karlsruhe 49
Kontakt und Impressum Phi-T Physics Information Fon +49 0721 93381-50 Technologies GmbH Fax +49 0721 93381-59 Karlsruher Straße 88 info @phi-t.de 76139 Karlsruhe www.phi-t.de Geschäftsführer: Dipl.-Phys. Jochen Bossert Dr.rer.nat. Dipl. Phys. Andreas Heiss Wissenschaftlicher Beirat: Prof. Dr. rer.nat. Michael Feindt HRB 10079 Karlsruhe 50
Kontakt und Impressum Phi-T Physics Information Fon +49 721 608-3418 Technologies GmbH Fax +49 721 607-262 76133 Karlsruhe info@phi-t.de Wolfgang-Gaede-Str. 1 www.phi-t.de Physikhochhaus 9/11 Geschäftsführer: Dipl. Phys. Jochen Bossert Dr.rer.nat. Dipl. Phys. Andreas Heiss Wissenschaftlicher Beirat: Prof. Dr. rer.nat. Michael Feindt HRB 10079 Karlsruhe 51
Konkurrenzprodukte Klassi- Regrission Wahrscheinlich- Bayes sche fizierung keitsdichte Regularisierung Intelligent Miner (IBM) Darwin (Oracle) S-PLUS (Insightful) Enterprise Miner (SAS) OLPARS (PAR) Mathematica ++ ++ ++ ++ ++ + + + + ++ + + Mine Set (SGI) Neuro Shell (Wardsystems) MatLab Clementine (SPSS) ++ ++ ++ ++ + ++ + ++ + + NeuroBayes (phi-t) ++ ++ ++ ++ 52