Zum Inhalt springen

Bayes Spamfilter im Einsatz

Seit kurzem gibt es über Spartacus den “Spamschutz (Bayes)” für Serendipity zum Download.

Wer es gerne theoretisch mag, kann über den Bayesschesen Filter in der Wikipedia nachlesen.

Kurz und vereinfacht gesagt durchsucht der Filter jeden Kommentar bzw. jedes Trackback und bewertet ob die einzelnen Wörter eher einer Spam entsprechen oder nicht.

Aber nun zum neuen Plugin

Zur Entstehungsgeschichte findet sich ein entsprechender Thread im S9y Forum und die Erste Ankündigung im onli Blog.

Wie es sich für gute S9y Programmierer gehört ;) gibt es natürlich auch schon erste Verbesserungen.

Grundlage für das Plugin ist b8, ein auf PHP implementierter Bayesscher Spam-Filter.

Über das Plugin wird auch in den Kommentaren eines Beitrags von Dirk Deimeke diskutiert.

Im Moment ist das Plugin noch nicht in die Kommentaransicht der Verwaltungsoberfläche von S9y integriert. Das ist technisch, wie auch bedienungsmäßig nicht ganz einfach. Denn ein Kommentar, den ich auf “moderieren” schalte, muss nicht gleich auch Spam sein.

Im Moment ist das Bayes Spamfilter Plugin bei mir im Einsatz und hat auch ersten Spam abgefangen. Die meisten werden aufgrund meines Textfilters oder der automatischen Moderation von Kommentaren zu älteren Artikeln schon vorher abgefangen.

Allein ein Kommentar kam heute durch. Dieser sah auch unverdächtig aus. Allein der Link führte zu einer meiner Meinung nach bedenklichen Website. Aber das scheitert auch ein Bayes Filter.

Auf alle Fälle würde ich mich freuen, wenn das Plugin noch weiter entwickelt wird. Denn dann spart man sich auch das Filtern durch externe Services wie Akismet oder Typepad Antispam. Denn das weiterleiten von Kommentaren zur Begutachtung durch einen externen Service ist halt auch so eine fragliche Sache.

Sobald es Neues zu berichten gibt werde ich es hier gern tun.

Trackbacks

Trackback-URL für diesen Eintrag

Nur ein Blog : Spamabwehr auf meinem Blog

"Spamabwehr auf meinem Blog" vollständig lesen
Mit Spams ist nicht zu spassen. Über Trackbacks und per Kommentar kommen täglich hundert und mehr nervige Nachrichten, die es gilt abzufangen. Nachfolgend ein paar Zeilen zu meiner jetzigen Strategie. Captchas Zuerst, was es auf meinem Blog nicht gib

Nur ein Blog : Bayes Filter für Serendipity verbessert

"Bayes Filter für Serendipity verbessert" vollständig lesen
Vor einem Monat berichtete ich über den neuen Bayes Spamfilter für Serendipity. Nunmehr gibt es ein Update auf die Version 0.2, wie onli blogging berichtet. Das größte Plus ist, dass der Filter ab nun in die Kommentarverwaltung vollständig integriert

Nur ein Blog : Bayes Filter für Serendipity verbessert

"Bayes Filter für Serendipity verbessert" vollständig lesen
Vor einem Monat berichtete ich über den neuen Bayes Spamfilter für Serendipity. Nunmehr gibt es ein Update auf die Version 0.2, wie onli blogging berichtet. Das größte Plus ist, dass der Filter ab nun in die Kommentarverwaltung vollständig integriert

Grischa : Bayes Spamschutz im Blog

"Bayes Spamschutz im Blog" vollständig lesen
Das Serendipity Bayes Plugin, das Kommentar- und Trackback Spam aus dem Blog entfernen kann, ist schon etwas älter. Schon 2009 berichteten Dirk, Robert und Matthias darüber. Bayessches Filter – WikipediaDas (auch: der) bayessche Filter (auch al

Nur ein Blog : Die unendliche Geschichte der Captchas

"Die unendliche Geschichte der Captchas" vollständig lesen
Wieder mal taucht im Dialog die Frage auf, ob man denn nicht doch Captchas verwenden kann. Immerhin gäbe es auch welche die nicht nur grafisch sondern auch auditiv sind und somit für blinde oder gehörlose Menschen funktionieren (sollten). Ich habe dahe

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

onli :

onliDanke für die Vorstellung. Es wird bestimmt weitergehen, derzeit ist aber scheinbar erstmal ein guter Zustand erreicht, sodass das Plugin wie gewünscht funktioniert.

Einzig die Integration in die Kommentaransicht, das steht jetzt auf meiner ToDo, ich habe ja aber schon beschrieben, dass das etwas Vorlauf erfordern würde (und für die Anpassungen will ich die Veröffentlichung der 1.5 abwarten) und du hast ja auch gut dargestellt, welche bedienungstechnischen Hürden es zu nehmen gilt.
Gruß

Robert Lender :

Robert LenderDanke auch für deine Bemühungen. Ich schaue mir auch mal an, wie gut der Filter läuft – denn das ist ja das wichtigste.
Eine bessere Integration wäre aber für die Usability sicherlich hilfreich. Aber warten wir mal S9y 1.5 ab und schauen dann weiter.
Auch hier nochmals geschrieben: Wenn du einen Betatester brauchst, hier ist einer :)

onli :

onliIch finde, das sollte ich hier erwähnen: Inzwischen sind die Kontrollen integriert.

Robert Lender :

Robert LenderJa, das sollst und und musst du hier erwähnen :) Habe es gerade über “Plugin Updates suchen” entdeckt und gleich getwittert.

Schreibst du noch was drüber. Mich würde interessieren, was die Prozentzahlen aussagen.
Ich dachte zuerst den Grad der “Spamhaftigkeit”. Aber ich habe testhalber einen Kommentar mit “valid” gekennzeichnet und die Zahl ist trotzdem von 2 auf 4 Prozent gestiegen.

Ansonsten: Super, der Sprung auf Versionsnummer 0.2 ist mehr als gerechtfertigt und das Plugin hilft mir sehr mein Blog spamfrei zu halten. Danke für deine/eure Mühe.

onli :

onliEine Vorstellung der Änderung steht schon in meinem Blog ;)

Es ist tatsächlich der Grad der
“Spamhaftigkeit”. Der sollte durch valid nicht generell steigen, aber ich denke, das kann vorkommen, wenn neue Textbestandteile markiert werden und sich dadurch was verschiebt (“wichtiger” wird).

Kommentare werden als Spam erkannt, wenn der Faktor größer als 80% ist. Automatisches Lernen schlägt ab 90% an.

Freut mich, dass es weiterhin für dich funktioniert. Geb mir Bescheid, wenn etwas nicht mehr so tut wie es soll.

Robert Lender :

Robert LenderDanke für die Erklärung. Auf den Eintrag werde ich gerne verweisen.

Bisher sind nur zwei, drei Spams durchgekommen. Wobei bei zwei eigentlich alles ok war – aber im Zusammenhang klar wurde, dass der Kommentator nur seinen Link plazieren wollte. So etwas kann wohl kein (Bayes)Spamfilter erkennen.

Kommentar schreiben

Twitter, Gravatar, Pavatar, Favatar, Identica Autoren-Bilder werden unterstützt.
Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.
Textile-Formatierung erlaubt
tweetbackcheck