Wie funktioniert unser Spamfilter?
Wir werden immer mal wieder darauf angesprochen, wie unser Spamfilter funktioniert und weshalb dieser so effektiv arbeitet. Ich möchte dies daher heute im Detail erläutern:
Das Geheimnis eines effektiven Spamfilters ist, dass sich dieser nicht nur auf einen Filtermechanismus beschränkt, sondern verschiedene Techniken miteinander kombiniert. Dadurch wird einerseits die Effizienz gesteigert, andererseits aber auch der Mailserver soweit entlastet, dass eine effiziente Erkennung von Spam anhand von inhaltlichen Mustern überhaupt möglich ist. Konkret setzen wir vier Stufen der Mailfilterung ein:
1. Stufe: Blacklisting
Um Spam versendende Server schnell ausfindig zu machen, gibt es überall auf der Welt verteilt sogenannte Spam-Traps, welche von verschiedenen Organisationen betrieben werden. Es handelt sich hierbei um E-Mail-Adressen, welche regulär nicht genutzt werden. Da diese E-Mail-Adressen von keinem Anwender genutzt werden, sollten hier keine E-Mails eintreffen. Falls doch E-Mails in diesen Postfächern eingehen, kann es sich in der Regel nur um unerwünschte Werbung, also Spam handeln. Die in diesen Spam-Traps eingehenden E-Mails werden daher ausgewertet und die IP-Adresse des einlieferndes Mailservers gespeichert. Insbesondere, wenn ein IP-Adresse dabei in verschiedenen Spam-Traps registriert wird, kann man sicher sein, dass der Absender in größeren Mengen Spam versendet. Diese IP-Adressen werden dann auf einer sogenannten Blacklist gespeichert.
Um auszuschließen, dass ein Mailserver, welcher nur kurzfristig und aus Versehen (z.B. nach einem erfolgreichen Hackerangriff) Spam versendet hat, ewig auf der Liste gebrandmarkt wird, werden Einträge auf der von uns genutzten Liste nach 12 Stunden automatisch gelöscht, vorausgesetzt, es treffen zwischenzeitlich nicht wieder neue Spam-Mails ein. Trotz dieser sehr kurzen Zeit, nach der IP-Adressen wieder von der Liste gelöscht werden, befinden sich im Schnitt ca. 100.000 verschiedene IP-Adressen auf der Liste. Dies liegt vor allem daran, dass Spam-Versender meist über lange Zeiträume und in sehr großen Mengen Spam versenden.
Wenn auf unseren Mailservern eine neue E-Mail eingeht wird daher zuerst überprüft, ob der einliefernde Mailserver bereits auf der Blacklist als bekannter Spamversender gelistet ist. Falls ja, wir die E-Mail gar nicht erst angenommen. Dieses Verfahren blockiert bereits ca. 95% aller Spam-Mails. Falls der Versender der E-Mail ausnahmsweise doch kein Spam-Versender war, erhält er eine Nachricht über den fehlgeschlagenen Versuch, die E-Mail bei uns zuzustellen.
2. Stufe: Überprüfung auf Sinnhaftigkeit
Im zweiten Schritt werden E-Mails vom System automatisch anhand verschiedener Kriterien daraufhin überprüft, ob es sich überhaupt um korrekte E-Mails handelt und ob die darin gemachten Angaben stimmig sind. Beispielsweise werden syntaktisch nicht korrekte E-Mails genauso abgelehnt wie solche, bei denen die Absenderadresse eindeutig gefälscht ist.
3. Stufe: Greylisting
Das Ziel eines Spam-Versenders ist im Allgemeinen, in möglichst kurzer Zeit besonders viele E-Mails versenden. Da die Ressourcen der eingesetzten Rechner (meistens PCs aus einem Bot-Netz, welche mit Hilfe eines trojanischen Pferdes gekapert wurden) sind jedoch begrenzt. Nimmt ein Mailserver eine E-Mail nicht gleich entgegen, wird eine Zustellung dieser E-Mail daher kein zweites mal probiert. Nach geltenden Internetstandards ist dies jedoch Pflicht und jeder normale Mailserver verhält sich entsprechend: kann eine E-Mail nicht gleich zugestellt werden und wird vom Empfänger kein permanenter Fehler-Code geliefert, so wird die Zustellung in regelmäßigen Abständen nochmals probiert, bis die Mail angenommen wird oder ein sehr langer Zeitraum (ca. sieben Tage) vergangen ist.
Diese Tatsache macht sich die von uns eingesetzte Technik, das sogenannte Greylisting zu nutzen. E-Mails von unbekannten Absendern werden von uns erst nach einer kurzen, 5-minütigen Wartezeit angenommen. Der sendende Mailserver muss die Zustellung der E-Mail also mehrfach probieren. Spam-Versender machen sich diese Mühe nicht, weshalb Spam-Mails gar nicht erst bei uns ankommen. Nachteil des Greylisting ist eine verzögerte Zustellung von E-Mails von meist fünf bis 15 Minuten. Um diese zu verhindern merken sich unsere Mailserver daher, von welchen Adressen sie bereits E-Mails erfolgreich entgegen genommen haben und akzeptieren alle weiteren E-Mails dann sofort. Dadurch wird nur die allererste E-Mail eines neuen, unbekannten Absenders um einige Minuten verzögert. Alle weiteren E-Mails kommen direkt beim Empfänger an.
Um die Verzögerung für Bekannte große Absender möglichst gering zu halten, haben wir diese auf einer globalen Whitelist vermerkt. E-Mails dieser Absender werden immer direkt und ohne Verzögerung von unseren Systemen entgegen genommen. Die Einschränkungen durch Greylisting sind dadurch in der Praxis äußerst gering und werden kaum wahrgenommen. Ein Großteil der nach den ersten beiden Filterstufen übrig gebliebenen Spam-Mails werden jedoch in diesem Verfahren endgültig aussortiert.
4. Stufe: Automatische Mustererkennung
Es gibt leider Spam-Versender, welchen die oben beschriebenen Techniken ebenfalls bekannt sind und die daher versuchen, diese geschickt zu umgehen, was in manchen Fällen auch gelingt. Diese E-Mails können von unseren Mailservern dann nicht anhand von formalen Kriterien oder den IP-Adressen blockiert werden und werden daher den Kunden zugestellt. Um auch an diesem Punkt noch reguläre Mails und Spam-Mails voneinander zu unterscheiden, ist eine Analyse des Inhaltes notwendig.
Spam wird nicht zum reinen Selbstzweck versendet, sondern meist, um damit Produkte zu verkaufen, wie z.B. Medikamente, Potenzmittel oder Versicherungen. Die verwendeten Begriffe und Satzmuster wiederholen sich in den E-Mails häufig und können von unserem Mailserver automatisch erkannt werden. Da Maschinen in der Regel die Bedeutung der Begriffe nicht verstehen und daher nicht von sich aus erkennen können, ob es sich bei dem in einer E-Mail angepriesenem Produkt um ein gewünschtes handelt oder nicht, gibt es in unserem Kundencenter die Möglichkeit, E-Mails manuell als Spam zu markieren. Eine genaue Anleitung dazu findet sich in unserem Handbuch. Der Mailserver untersucht markierte E-Mails auf die verwendeten Textmuster und lernt diese. Sobald er in weiteren Mails ähnliche Textmuster findet, werden diese E-Mails dann automatisch als Spam markiert und können von den Benutzern z.B. automatisiert in einen „Spam“-Ordner verschoben werden. Natürlich verlangt dieses System etwas Mitarbeit der Benutzer um den Filter zu trainieren. Ein gut trainierter Spamfilter erkennt jedoch nahezu jede verbleibende Spam-Mail und sorgt dadurch für einen Spam-freien Posteingang.