Bayes Spamfilter im Einsatz
Seit kurzem gibt es über Spartacus den “Spamschutz (Bayes)” für Serendipity zum Download.
Wer es gerne theoretisch mag, kann über den Bayesschesen Filter in der Wikipedia nachlesen.
Kurz und vereinfacht gesagt durchsucht der Filter jeden Kommentar bzw. jedes Trackback und bewertet ob die einzelnen Wörter eher einer Spam entsprechen oder nicht.
Aber nun zum neuen Plugin
Zur Entstehungsgeschichte findet sich ein entsprechender Thread im S9y Forum und die Erste Ankündigung im onli Blog.
Wie es sich für gute S9y Programmierer gehört ;) gibt es natürlich auch schon erste Verbesserungen.
Grundlage für das Plugin ist b8, ein auf PHP implementierter Bayesscher Spam-Filter.
Über das Plugin wird auch in den Kommentaren eines Beitrags von Dirk Deimeke diskutiert.
Im Moment ist das Plugin noch nicht in die Kommentaransicht der Verwaltungsoberfläche von S9y integriert. Das ist technisch, wie auch bedienungsmäßig nicht ganz einfach. Denn ein Kommentar, den ich auf “moderieren” schalte, muss nicht gleich auch Spam sein.
Im Moment ist das Bayes Spamfilter Plugin bei mir im Einsatz und hat auch ersten Spam abgefangen. Die meisten werden aufgrund meines Textfilters oder der automatischen Moderation von Kommentaren zu älteren Artikeln schon vorher abgefangen.
Allein ein Kommentar kam heute durch. Dieser sah auch unverdächtig aus. Allein der Link führte zu einer meiner Meinung nach bedenklichen Website. Aber das scheitert auch ein Bayes Filter.
Auf alle Fälle würde ich mich freuen, wenn das Plugin noch weiter entwickelt wird. Denn dann spart man sich auch das Filtern durch externe Services wie Akismet oder Typepad Antispam. Denn das weiterleiten von Kommentaren zur Begutachtung durch einen externen Service ist halt auch so eine fragliche Sache.
Sobald es Neues zu berichten gibt werde ich es hier gern tun.
Kommentare
Ansicht der Kommentare: Linear | Verschachtelt
onli :
Einzig die Integration in die Kommentaransicht, das steht jetzt auf meiner ToDo, ich habe ja aber schon beschrieben, dass das etwas Vorlauf erfordern würde (und für die Anpassungen will ich die Veröffentlichung der 1.5 abwarten) und du hast ja auch gut dargestellt, welche bedienungstechnischen Hürden es zu nehmen gilt.
Gruß
Robert Lender :
Eine bessere Integration wäre aber für die Usability sicherlich hilfreich. Aber warten wir mal S9y 1.5 ab und schauen dann weiter.
Auch hier nochmals geschrieben: Wenn du einen Betatester brauchst, hier ist einer :)
onli :
Robert Lender :
Schreibst du noch was drüber. Mich würde interessieren, was die Prozentzahlen aussagen.
Ich dachte zuerst den Grad der “Spamhaftigkeit”. Aber ich habe testhalber einen Kommentar mit “valid” gekennzeichnet und die Zahl ist trotzdem von 2 auf 4 Prozent gestiegen.
Ansonsten: Super, der Sprung auf Versionsnummer 0.2 ist mehr als gerechtfertigt und das Plugin hilft mir sehr mein Blog spamfrei zu halten. Danke für deine/eure Mühe.
onli :
Es ist tatsächlich der Grad der
“Spamhaftigkeit”. Der sollte durch valid nicht generell steigen, aber ich denke, das kann vorkommen, wenn neue Textbestandteile markiert werden und sich dadurch was verschiebt (“wichtiger” wird).
Kommentare werden als Spam erkannt, wenn der Faktor größer als 80% ist. Automatisches Lernen schlägt ab 90% an.
Freut mich, dass es weiterhin für dich funktioniert. Geb mir Bescheid, wenn etwas nicht mehr so tut wie es soll.
Robert Lender :
Bisher sind nur zwei, drei Spams durchgekommen. Wobei bei zwei eigentlich alles ok war – aber im Zusammenhang klar wurde, dass der Kommentator nur seinen Link plazieren wollte. So etwas kann wohl kein (Bayes)Spamfilter erkennen.