Info zum Junk-Mail-Filter in Thunderbird:



Ähnliche Dokumente
1.Thunderbird Installation

Professionelle Seminare im Bereich MS-Office

Hilfe zur Urlaubsplanung und Zeiterfassung

Elexis-BlueEvidence-Connector

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

FuxMedia Programm im Netzwerk einrichten am Beispiel von Windows 7

iphone-kontakte zu Exchange übertragen

Quartalsabrechnung! " " " " " " " Stufe 1! Beheben von Abrechnungsfehlern" Stufe 2! Neue Abrechnung erstellen"

INTERNET UND MMS MIT DEM QTEK2020 MARCO 28. MÄRZ 04

Urlaubsregel in David

Einrichten eines POP-Mailkontos unter Thunderbird Mail DE:

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

SANDBOXIE konfigurieren

Ein Hinweis vorab: Mailkonfiguration am Beispiel von Thunderbird

Outlook 2000 Thema - Archivierung

BlueEvidence Services in Elexis

A. Ersetzung einer veralteten Govello-ID ( Absenderadresse )

Zeichen bei Zahlen entschlüsseln

Sich einen eigenen Blog anzulegen, ist gar nicht so schwer. Es gibt verschiedene Anbieter. ist einer davon.

Spam filtern mit dem Webmail-Interface

Updatehinweise für die Version forma 5.5.5

OutLook 2003 Konfiguration

Erstellen von x-y-diagrammen in OpenOffice.calc

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Beschreibung Regeln z.b. Abwesenheitsmeldung und Weiterleitung

Aktivieren des Anti-SPAM Filters

WordPress. Dokumentation

Artikel Schnittstelle über CSV

FORUM HANDREICHUNG (STAND: AUGUST 2013)

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

macs Support Ticket System

Live Update (Auto Update)

.procmailrc HOWTO. zur Mailfilterung und Verteilung. Stand:

Leichte-Sprache-Bilder

2.1 Briefkopf Klicken Sie im Menü Einstellungen auf den Button Briefkopf. Folgendes Formular öffnet sich:

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

DeltaVision Computer Software Programmierung Internet Beratung Schulung

! " # $ " % & Nicki Wruck worldwidewruck

[ FOXMAIL EINE ALTERNATIVE ZU OUTLOOK]

-Versand an Galileo Kundenstamm. Galileo / Outlook

Installation des Add-Ins für Lineare Algebra in Microsoft Excel

Stand: Adressnummern ändern Modulbeschreibung

Berechtigungen im Kalender Anleitung für die Rechtevergabe im Outlook Kalender FHNW, Services, ICT

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

Electronic Systems GmbH & Co. KG

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Dateien löschen und wiederherstellen

Mail/Verschlüsselung einrichten

Internet Explorer Version 6

Handbuch Groupware - Mailserver

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

ZIMT-Dokumentation für Studierende Webmail-Oberfläche (Roundcube)

Wie räume ich mein Profil unter Windows 7 auf?

1 Konto für HBCI/FinTS mit Chipkarte einrichten

Kleines Handbuch zur Fotogalerie der Pixel AG

VERWALTUNG. Postfächer, Autoresponder, Weiterleitungen, Aliases. Bachstraße 47, 3580 Mödring

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Einrichten von Mozilla Thunderbird für Medizin-Studierende

Computeria Solothurn

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

Arbeiten mit dem Outlook Add-In

P&P Software - Adressexport an Outlook 05/29/16 14:44:26

Mehrere PDF-Dokumente zu einem zusammenfügen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

etoken mit Thunderbird verwenden

Was meinen die Leute eigentlich mit: Grexit?

Erklärung zum Internet-Bestellschein

Wichtig ist die Originalsatzung. Nur was in der Originalsatzung steht, gilt. Denn nur die Originalsatzung wurde vom Gericht geprüft.

Das BANK-now Finanzierungsmodul.

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Anleitung Thunderbird Verschlu sselung

Anleitung So klappt der Downloadschnitt

Agentur für Werbung & Internet. Schritt für Schritt: Newsletter mit WebEdition versenden

Das Archivierungssystem - Dokumentation für Anwender und Administratoren

Einstellungen im Internet-Explorer (IE) (Stand 11/2013) für die Arbeit mit IOS2000 und DIALOG

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Einrichtung eines neuen -Kontos für s unter in Ihrem programm

Der Kalender im ipad

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Vorgehensweise bei Lastschriftverfahren

nessbase Projekte Über Projekte I

Angaben zu einem Kontakt...1 So können Sie einen Kontakt erfassen...4 Was Sie mit einem Kontakt tun können...7

Schritte 4. Lesetexte 13. Kosten für ein Girokonto vergleichen. 1. Was passt? Ordnen Sie zu.

ACHTUNG: Es können gpx-dateien und mit dem GP7 aufgezeichnete trc-dateien umgewandelt werden.

Lizenzen auschecken. Was ist zu tun?

Leitfaden: Versand für Lehrende im UNIVIS-Online

AutoCAD Dienstprogramm zur Lizenzübertragung

Anleitung ftp-zugang Horn Druck & Verlag GmbH Bruchsal

Über die Internetseite Hier werden unter Download/aktuelle Versionen die verschiedenen Module als zip-dateien bereitgestellt.

Tutorial Speichern. Jacqueline Roos - Riedstrasse 14, 8908 Hedingen, jroos@hispeed.ch -

Neue Schriftarten installieren

Multiplayer Anweisungen

Fax einrichten auf Windows XP-PC

AUF LETZTER SEITE DIESER ANLEITUNG!!!

(im Rahmen der Exchange-Server-Umstellung am )

Tutorial -

Einrichtung -Account

Anleitung zum Einspielen der Demodaten

Abwesenheitsnotiz im Exchangeserver 2010

Transkript:

Datenverarbeitungszentrale Datenverarbeitungszentrale dvz@fh-muenster.de www.fh-muenster.de/dvz Info zum Junk-Mail-Filter in Thunderbird: Der Grossteil der Benutzer verwendet zusätzlich zum zentralen Mail-Filter der DVZ auch den im Mail-Client Thunderbird enthaltenen Filter. Dabei kommt es immer wieder zu der Situation, dass reguläre Mail in den Papierkorb oder in den Junk-Ordner verschoben wird. Dieses Papier erläutert die Hintergründe zum SPAM-Filter in Thunderbird. Grundgedanke Der Junk-Filter beruht auf einem Verfahren, das naiver Bayesscher Filter genannt wird. Das Verfahren zählt die Worthäufigkeiten in den Mails und errechnet daraus eine Wahrscheinlichkeit, die widerspiegelt, ob eine Mail Junk ist oder nicht. Dabei muss der Filter am Anfang trainiert werden, lernt aber dann auf Wunsch stetig dazu. Es werden drei Arten von Mails unterschieden: a) reguläre Mail b) Junk-Mail c) nicht klassifizierte Mail Der Benutzer kann anhand des "Feuer-Symbols" in der Mail-Liste erkennen, ob eine Mail als Junk eingeordnet wurde (siehe unten). Ein Punkt an dieser Stelle bedeutet, dass die Mail regulär ist ODER dass sie unklassifiziert ist. Folgendes ist dabei der Fall: Für einen Mail-Typus, der nur WENIG oder GAR NICHT explizit (also manuell) als "KEIN-Junk" klassifiziert wurde, aber vielleicht das eine oder andere Mal als Junk, kann die errechnete Junk-Wahrscheinlichkeit unter Umständen hoch werden. Ab Wahrscheinlichkeit 0.9 stuft Thunderbird eine Mail als Junk ein. Hier an der Fachhochschule haben interne Mails zum Beispiel oft bestimmte Worte am Ende der Mail. Zum Beispiel University, applied, Corrensstr usw. Wenn diese Worte nicht oft genug in regulärer Mail vorkommen und auch trainiert werden, so kann es zur Fehlklassifikation kommen. Abhilfe: a) Mehr Mails manuell als "Kein Junk"/ Junk klassifizieren, so dass die Worthäufigkeitsstatistik aktualisiert wird und die errechneten Wahrscheinlichkeiten realistischer werden. b) Client von Grund auf neu trainieren.

How-To Der Benutzer hat nur relativ wenige Möglichkeiten den SPAM/Junk-Filter zu beeinflussen. 1.) Gezieltes manuelles Zusatztraining 2.) Alternativ kann der Filter auch von Grund auf neu trainiert werden. Zu unterscheiden sind aber die automatische Klassifikation einerseits und Trainieren/Lernen andererseits. Autom. Klassifikation von Mails erfolgt in folgenden Situationen: a) Neue Mail kommt herein b) Ungelesene Mail wird autom. klassifiziert, wenn der enthaltende Ordner geöffnet wird c) Punkt Filter Anwenden wird für einen Ordner gewählt. Autom. Klassifizierung erfolgt nicht: a) Alte Mail b) Der Absender steht auf der White List und ist somit vertrauenswürdig. c) SPAM/Junk-Ordner wird geöffnet d) Papierkorb wird geöffnet Die autom. Klassifikation entscheidet auch darüber, ob eine Mail verschoben wird (Junk-Ordner, Papierkorb). Training: Lernen erfolgt grundsätzlich nur, wenn der Benutzer Mails MANUELL klassifiziert. Es gibt keinen Lernautomatismus! 1) Eine einzelne Nachricht wird zum Beispiel durch den Button in der Symbolleiste als Junk/Kein Junk klassifiziert, 2) Es können auch mehrere Mails ausgewählt werden und dann im Kontextmenu Markieren -> Junk manuell als Junk klassifiziert werden. Dies ist gut zum Nachbessern der Trainingsdaten geeignet. Nochmals: die Option Junk-Filter anwenden ist NICHT trainingswirksam. 1) Um ein schon bestehendes Training weiterzuführen, markiert man in den Postfächern eine gewisse Menge MIT SICHERHEIT REGULÄRER Mails und setzt den Status manuell auf Kein-Junk. Ebenso markiert man in den Postfächern eine gewisse Menge echter! Junk-Mail und setzt deren Status auf Junk. Je mehr Mails auf diese Weise behandelt werden, desto besser sollte der Filter werden, weil schon bestehende Fehlklassifikationen weniger ins Gewicht fallen. Bei diesen Operationen wird in der Regel NICHTS verschoben. Dies geschieht erst bei der Anwendung des Filters. 2)Um von Grund auf neu zu trainieren wählt man den Dialog: Extras->Einstellungen->Datenschutz Und darin: Trainingsdaten löschen. Anschließend kann man wie unter 1) Verfahren. Eine gewisse Menge meint in diesem Fall 30-50 Mails (Angaben der Entwickler) Ggf. kann man - zum Zwecke der korrekten Einordnung der Mails in Ordner - dann noch einmal den Junk-Filter auf die verwendeten Ordner anwenden.

Welche relevanten Einstellungen gibt es? Unter Extras->Konten gibt es für jedes Konto die folgenden Einstellungen:

Extras->Einstellungen->Datenschutz

Wortstatistik und nicht klassifizierte Mail. Um genau sichtbar zu machen, wie Mail klassifiziert wurde, kann man das Add-on "mnenhy" installieren (http://mnenhy.mozdev.org/). Man sieht dann an einem Fragezeichen, welche Mail noch unklassifiziert ist: Außerdem kann man durch das Thunderbird Add-Onn Mnenhi die Statistik für die einzelnen Worte einsehen. (Menupunkt Extras ). Im Beispiel unten hat das Wort Chance eine besonders hohe Junk-Wahrscheinlichkeit, was mir auch plausibel zu sein scheint: Installation mnenhi -Add-on: Datei im File-System ablegen. Extras->Add-ons->Installieren Thunderbird 2 mal durchstarten.

- Hintergrund - Funktionsweise des Filters Funktionsweise des Filters (nach Graham www.paulgraham.com/spam.html ): Zunächst werden die Mails in positive und negative Mails aufgeteilt. Es wird der gesamte Text untersucht, also inklusive Headers und HTML-Tags. Es werden alphanumerische Zeichen, Striche, Apostrophe, Währungssymbole untersucht. Alles andere gilt als Trennzeichen. HTML-Kommentare und auschließlich aus Ziffern bestehende Teile werden ignoriert. Jedes Auftreten eines Wortes wird gezählt (Groß und Klein sind identisch). Es entstehen zwei Tabellen. Eine Positivliste für Worte die in Nicht-Junk-Mail auftreten und eine Negativliste für Worte die in Junk-Mail auftreten. Jede Tabelle bildet Worte auf ihre absolute Häufigkeit ab. Nun wird entsprechend des folgenden Ausdrucks eine dritte Tabelle berechnet, die für jedes Wort die Wahrscheinlichkeit angibt, dass eine Mail, die es enthält Junk ist. Formal stellt sich die Sache dar wie folgt: g = count( wort, positivliste) // Wie oft tritt Wort in allen manuell klassifizierten regulären Mails auf? b = count( wort, negativliste) // Wie oft tritt Wort in allen manuell klassifizierten Junk-Mails auf? p = g ngood b nbad + b nbad p: Junk-Wahrscheinlichkeit eines Wortes ngood: Anzahl der als regulär klassifizierten Mails. nbad: Anzahl der als Junk klassifizierten Mail anders gesagt: relative Häufigkeit des Wortes in Junk-Mails p:= ------------------------------------------------------------- relative Häufigkeit des Wortes in allen manuell klassifizierten Mails noch anders gesagt: p = Junk-Anteil am gesamten Auftreten des Wortes z.b. p=0.3 30 Prozent des Auftretens dieses Wortes deuten auf Junk (In der Praxis werden obere und untere Schranken benutzt. Siehe Original) Mit diesem Plug-In kann man auch die unklassifizierte Mail erkennen. http://mnenhy.mozdev.org/de/index.html

Der Originalalgorithmus von Paul Graham ist folgender: (Graham arbeitete mit der Sprache LISP) (let ((g (* 2 (or (gethash word good) 0))) (b (or (gethash word bad) 0))) (unless (< (+ g b) 5) (max.01 (min.99 (float (/ (min 1 (/ b nbad)) (+ (min 1 (/ g ngood)) (min 1 (/ b nbad))))))))) Es werden nur Worte betrachtet, die mehr als 5 mal Auftreten. Wenn eine neue Mail hereinkommt, werden die 15 interessantesten Worte benutzt, um die Gesamtwahrscheinlichkeit zu berechnen, dass es sich um Junk handelt. Interessant sind die 15 Worte, deren Wahrscheinlichkeit am weitesten von 0.5 entfernt ist, also quasi die extremsten Worte. Die Wahrscheinlichkeit für eine Mail, Junk zu sein, wird dann wie folgt berechnet: Junk -Wahrscheinlichkeit J: J = 15 i= 1 p i 15 + p i i= 1 15 i= 1 (1 p ) i In J Prozent von 100 Fällen tritt die Wortkombination auf In Lisp (original Paul Graham): (let ((prod (apply #'* probs))) (/ prod (+ prod (apply #'* (mapcar #'(lambda (x) (- 1 x)) probs))))) Worte, die neu sind, bekommen Wahrscheinlichkeit 0.4 zugewiesen. (Erfahrungswert) Mail, für die sich eine eine Wahrscheinlichkeit J von mehr als 0.9 ergibt, wird als Junk klassifiziert (Erfahrungswert)