Künstliche Intelligenz Data Mining Approaches for Instrusion Detection Espen Jervidalo WS05/06 KI - WS05/06 - Espen Jervidalo 1
Overview Motivation Ziel IDS (Intrusion Detection System) HIDS NIDS Data Mining / RIPPER 2 Ansätze Aktuelle Entwicklungen KI - WS05/06 - Espen Jervidalo 2
Motivation Wachstum der Netzwerke Komplexität Wichtigkeit Probleme bei der Wartung KI - WS05/06 - Espen Jervidalo 3
Ziel Überblick verschaffen Begriffe erklären Einblick in die Anfänge von Data Mining in IDS 2 Ansätze vorstellen Aktuelle Entwicklungen KI - WS05/06 - Espen Jervidalo 4
Intrusion Detection Systems Strategien Misuse Detection Erkennung bekannter Lücken Nicht selbstlernend Anomaly Detection Musterabweichungen erkennen und richtig Klassifizieren Noch unbekannte Schwachstellen sollen gedeckt sein KI - WS05/06 - Espen Jervidalo 5
IDS Ansatz Host Based IDS Programmverhalten überwachen (z.b. Sendmail) Network Based IDS Kommunikation an zentraler Stelle als Ganzes überwachen (z.b. Tcpdump Daten eines Gateways) KI - WS05/06 - Espen Jervidalo 6
Data Mining - IDS Fragen Data Sources (Rohdaten) Preprocessing RIPPER Training Data Testing Data Aktionen Data Mining Prozess KI - WS05/06 - Espen Jervidalo 7
RIPPER A rule learning program Fast effective rule induction. W. W. Cohen, 1995 "People who buy diapers tend to buy beer." KI - WS05/06 - Espen Jervidalo 8
Ansatz I - HIDS Host Based Instrusion Detection System Sendmail System calls Als Grundlage dient die Konsistenz der Systemcalls im Normalbetrieb. Selbstdefinition des Normalbetriebes durch Systemcall Sequenz Basis für die Erkennung von Anomalitäten KI - WS05/06 - Espen Jervidalo 9
HIDS II Grundlage: Konsistenz der normalen SystemCalls KI - WS05/06 - Espen Jervidalo 10
HIDS III Trace 4 2 66 66 4 138 66...5 5 5 4 59 105 104... Attribute: p1 pn Ziel Vorhersage des n-ten / mittleren SystemCalls RIPPER Training Data: Testing Data: Output: 80 % der normalen sendmail Traces Restliche 20 % Alle Intrusion Traces If-then Regeln KI - WS05/06 - Espen Jervidalo 11
HIDS IV RIPPER Regeln (Output) Confidence value of a rule: matched example matched examples unmatched examples If a violation occures (the actual SystemCall is not the same as predicted by the rule) the score of the trace is incremented by 100 times the confidence of the violated rule. KI - WS05/06 - Espen Jervidalo 12
HIDS V The averaged score (by the total number of sequences) of the trace is then used to decide whether an intrusion has occured KI - WS05/06 - Espen Jervidalo 13
HIDS VI - Discussion The experiment showed that the normal behavior of a program can be established and used to detect its anomaly usage More predictive classification models are needed so that the anomaly detector has higher confidence in flagging intrusions. For example by adding more features, rather than just the system calls. Directories and names of the files touched by a program. As the number of features increases from 1 to 3, the classification error decreases dramatically. KI - WS05/06 - Espen Jervidalo 14
Ansatz II - NIDS Network Based Intrusion Detection System Gateway: NIDS KI - WS05/06 - Espen Jervidalo 15
NIDS II Rohdaten: 3 tcpdump Datensätze aus generierten Intrusions 1 tcpdump Datensatz ohne Intrusions In diesem Fall ist Preprocessing nötig KI - WS05/06 - Espen Jervidalo 16
NIDS III - Preprocessing 3-way Handshake statistics of the connection connection termination (both sides receive FINs) KI - WS05/06 - Espen Jervidalo 17
NIDS IV Connection record consists of class label: destination service (port) All the other conenction features are attributes Training Data (80% of normal) Testing Data (remaining data) Misclassification classifier predicts a destination service (according to connectionfeatures) that is different from from the actual. Should be very low for normal connection data and high for intrusion data. Intuition: when intrusions take place, the features of connections to certain services are different from the normal traffic patterns. KI - WS05/06 - Espen Jervidalo 18
NIDS V - Discussion Preprocessing braucht Zeit und ein fundiertes Fachwissen. Kann schlecht automatisiert werden. Viele Testläufe benötigt für eine geeignete Auswahl der Features. KI - WS05/06 - Espen Jervidalo 19
Aktuelle Entwicklungen IDS gehören schon zum Alltag in grösseren Netzwerken SNORT (http://www.snort.org) Defacto standard Opensource IDS Dragon One of the most powerful IDS available KI - WS05/06 - Espen Jervidalo 20
Zukunftsaussichten Honeypots KI - WS05/06 - Espen Jervidalo 21