<< Dernier article | < Article suivant | Article précédent > | Premier article >>

Splog (spam + blog), je te hais !


Le 03/06/2006 à 11:21:28
[Version imprimable]



Le Blog de Matt - Splog (spam + blog), je te hais ! Un petit article pour me plaindre parce que je commence à en avoir ras la casquette du splog (quelques solutions en bas d'article et vous êtes vivement encouragés à réagit sur cette page).

Oh, oh, un peu d'informations techniques avant de cracher mon venin, qu'est-ce que le splog ? Comme le dit le titre, c'est la contraction de spam et de blog. Le spam, je ne m'étends pas dessus, tout le monde en reçoit suffisamment et un blog, si vous êtes là, vous savez de quoi il s'agit, si non, ouvrez les yeux, vous êtes dessus.

Théoriquement, le splog est plus un problème qui concerne les moteurs de recherche que les humains, puisqu'il s'agit de spam qui passe par les blogs. Autrement dit, on utilise ce terme pour qualifier des faux blogs créés par des webmasters peu scrupuleux qui au lieu de fournir du vrai contenu, réalisent un site à la va vite, rempli de quelques informations peu pertinentes et des liens vers leurs propres sites. Google fonctionnant sur le principe que si un site A met un lien vers un site B, le site B doit être intéressant donc il le fait ressortir dans ses résultats en meilleure position. S'il y a par ailleurs 3000 sites A, alors le site B doit être vraiment très bien pour que tout le monde en parle. Sauf que si le site A est un faux blog, voilà qui a de quoi perturbé Google et surtout rendre ses résultats moins pertinents (un beau jour, on va apprendre que ces splogs ont été inventés par des créateurs de moteurs de recherche moins fameux bien décidés à faire de l'ombre au Dieu Google !). Pour ma part, je ne suis encore jamais tombé sur ce genre de blog, on a les skyblog pour le moment, c'est un autre genre de spam, en tout cas, l'intérêt est généralement le même (sauf cas rares), cela doit être sans doute plus fréquent aux USA (cf. cette image, tirée de Aixtal).

Tout ceci ne nous (me) concerne pas tellement, mais par extension, le splog possède un autre sens, on l'utilise pour qualifier tous les commentaires laissés sur un blog par un robot pour y faire de la pub pour un site que l'on ne connaît pas. Sommes-nous assez crétin pour aller cliquer sur le site de Steve, Kevin ou Marta qui vont laisser, sur un blog Français, un commentaire du genre « Nice Site ! http://www.je-vends-du-viagra.com, Thanks! » ? Que cela fonctionne sur les sites US, soit, avec la propagation de l'Internet dans une population de plus en plus vaste, la toile ne se limite plus à quelques érudits, fins connaisseurs ou étudiants binoclards, c'est monsieur tout le monde qui se voit proposer aujourd'hui des liens pour acheter des médicaments, agrandir la taille de son engin ou obtenir un MBA en restant les bras croisés chez lui. Certes, mais que ces robots fassent au moins au moins l'effort de s'adapter à la langue du site qu'ils sont en train de pourrir.

Enfin, on n'est pas là pour les encourager non plus...

Bref, le splog, on l'avait déjà connu à une époque sur le blog, mais c'était resté relativement minoritaire. Pour barrer la route à tous ces problèmes, j'avais mis deux filtres, le premier basé sur une série de mots-clés, en particulier des noms de médicaments qui reviennent souvent. Nix vous le dira, cette solution a ses limites, ne serait-ce que lorsqu'un nom de médicament se retrouve dans un nom commun (« spécialisés » contient le nom de médicament « cialis ») et, même si ça n'apparaît pas encore dans les commentaires, on sait tous qu'ils se servent d'un pseudo l337 dans les mails pour passer outre les filtres.

La seconde solution, c'est l'utilisation d'un code à rentrer par celui qui laisse un commentaire, une suite de 4 chiffres, pour faire la différence entre un humain et un robot. Le problème, encore une fois, c'est que la solution montre ses limites puisque lorsque le code est affiché en tant que caractères (comme c'est le cas en ce moment), les robots sont capables de recopier le code pour le passer dans la case correspondante (j'ai déjà fait des dizaines d'essai, ça ne peut pas être un bug qui laisserait passer les commentaires même si le code n'est pas présent, ce n'est pas possible), ou alors, même si le message est laissé automatiquement, il s'agirait d'un humain qui remplirait le commentaire à la main, mais là, l'intérêt est plus que limité. Je crois donc qu'il s'agit de la première solution et qu'ils sont capables de s'adapter à l'environnement (comme les Aliens dans Alien Resurrection !). Le spam, par ailleurs, c'est comme les virus. Les « méchants » (spammeurs/créateurs de virus) font leur petite affaire, et les « gentils » (moteurs de recherche/anti-virus) trouvent des solutions, mais les premiers s'adaptent et les secondes cherchent de nouvelles solutions, mais les autres s'adaptent encore et il faut encore et toujours lutter contre les problèmes. Il s'agit donc au final d'une perte de temps, d'argent et de ressources énormes dans les deux cas, car autant je veux bien comprendre le créateur de virus – et hackers en général, mais ce n'est pas le sujet – (le comprendre mais pas l'excuser) qui montre qu'avec son petit ordinateur relié au réseau, il est capable d'être plus fort que les grandes compagnies et peut bousiller ce qu'il veut comme il l'entend, il s'agit donc d'une démarche certes égoïste et quelques peu narcissique. Mais dans le cas du spam, il s'agit d'une action avant tout commerciale, et si l'envoi massif de spam coûte peu, est-il rentable eu égard aux ressources nécessaires pour le mettre en place ? Sans doute que oui, sinon, il ne se propagerait pas tant, mais j'ai du mal à en voir l'intérêt.

Mais je digresse...

Je reprends. Il semble donc qu'il ne reste plus qu'une solution, à savoir mettre le code sous forme d'image. Si j'ignorais comme le faire au début, j'en suis à présent capable. Le problème étant qu'Internet est bloqué en upload au boulot, voilà qui me limite beaucoup, il faudra donc que je le fasse chez moi.

Bref, cela restait un problème marginal tant qu'il ne s'agit que du blog. Je reçois un mail à chaque fois qu'un commentaire est bloqué, et il n'en arrive qu'un toutes les semaines au pire, voire toutes les deux ou trois semaines. Non, le problème commence à se poser avec MMM. Les spammeurs doivent avoir des listes d'URL dans leurs index qu'ils s'amusent à bombarder de temps en temps pour le plaisir. En effet, j'ai deux pages qui sont victimes régulièrement de leurs attaques. Ca avait commencé avec Maetel au rythme d'un splog par jour environ, puis ça s'est calmé. Maintenant, c'est la news suivante qui est victime d'attaques répétées, puisqu'on atteint facilement les 15 commentaires en l'espace de deux jours. Ca a commencé il y a 4 ou 5 jours. J'en ai profité que j'étais en week-end pour mettre en place le même filtre que sur le blog, à base du code à remplir. Car si effacé un commentaire non désiré par jour passe encore, quand il commence à y en avoir une petite dizaine chaque matin, c'est tout de suite moins agréable. J'ai crée un panneau de contrôle suffisamment simple pour qu'effacer ses spams ne soit pas trop compliqué, mais ça reste tout de même une perte de temps, ainsi qu'une perte de bande passante, bref, personne n'a rien à y gagner.

Il existe des systèmes anti-spams prêts à l'emploi, mais comme je suis un peu obstiné là-dessus, je préfère monter ma petite affaire tout seul comme un grand, à la force des poignets (dont le principale travail consiste à taper sur le clavier pour retoucher les pages) pour avoir la satisfaction de maîtriser mon oeuvre de A à Z (et pourquoi pas un jour mettre tout ça à disposition des autres ? oui, je sais, d'autres le font mieux que moi...).

Qui plus est, je n'ai pas d'exemples sous la main, j'ai fait le tri tout à l'heure, mais je ne peux même pas me servir d'un système de filtre par mots-clés, les expressions utilisés ne relèvent pas de l'industrie pharmaceutique, il s'agit de termes plus génériques et cela pourrait mélanger des commentaires « sains » à ceux qui sont bons pour la poubelle.

Bref, ma solution finale consiste à mettre le code sous forme d'images. Comme je le disais, ce n'est pas un problème en soit, il suffit juste de trouver le temps de le faire, mais voilà, je tenais juste à me plaindre un coup de tout ce splog à la ###.

En conclusion, des solutions existent. Comme je le dis au-dessus, j'aime bien tout faire par moi-même, donc je ne me suis pas trop intéressé à la question. En cherchant à droite à gauche sur Internet pour écrire cet article, je suis tombé sur quelques liens, mais je n'ai pas testé :

http://aixtal.blogspot.com/2005/09/splogs-systme-antisplognet.html
http://akismet.com/

Sinon, pour les débrouillards, il y a la solution filtre faits maison. Par ailleurs, je me dis que j'écrirai peut-être un papier dessus un de ces quatre !




Bookmark and Share

14 commentaires | Bas de page

Tetert @ www le 04/06/2006 à 11:52:52

Article interessant, mais il semble que de plus en plus de moteurs de spam integrent ce genre de choses. Ils arrivent meme a s'enregistrer sur des forums en phpbb (ayant un capcha active).

Il faudra garder une longueur d'avance en permanence...

J'ai un ami qui utilise Spamclear, et ca a l'air de plutot bien marcher : http://www.dotclear.net/forum/viewtopic.php?id=16270


Matt @ www le 04/06/2006 à 03:06:33

Voui, même si l'hôtel commence à se remplir (complet ce soir) et que si remplissage il y a, alors ça signifie plus de boulot, avec des clients qui rentrent de plus en plus tard. C'était mieux en hiver quand il y avait 3 clients et qu'en arrivant à 23h, ils étaient déjà tous couchés.

vivi @ www le 04/06/2006 à 02:55:40

héééééééééééééé oui

ça va sinon?

Matt @ www le 04/06/2006 à 02:52:51

Tout à fait. D'ailleurs, on doit avoir écrit pas loin de la moitié des comm :D (comme chez toi en fait...)

vivi @ www le 04/06/2006 à 02:50:44

ah bah, à nous deux, on pète les 100 comms si on veut hein

Matt @ www le 04/06/2006 à 02:37:03

Ah, y a plus de visites, je ne dis pas, mais encore, il n'y a pas grand chose comparé à certains sites et puis, même s'il y a plus de personne qui laissent des commentaires, ce ne sont pas tous des participants actifs et on a eu des périodes où il y avait plus de comm de laisser (même si ça ressemblait plus alors à un chat qu'à des comm ^^)

Cette phrase n'est pas bien écrite, mais tant pis.

vivi @ www le 04/06/2006 à 02:08:40

nan mais bon, tu vas pas me dire que tu as moins de succès que quand on était juste ceux du fo heeeeinnnn

Matt @ www le 04/06/2006 à 00:19:48

Réponses dans l'ordre :

@Vivi : 200 visites dont plus de 50 qui sont des robots, je n'appele pas ça le succès :/

@PKRG : c'est vrai que je ping un petit coup après avoir laissé un article/une news, et c'est vrai que ça ne rapporte pas beaucoup de visiteurs. A voir si les autres solutions ne fonctionnent pas.

@Skav : Faut que je vois Akismet, mais c'est un service en ligne apparement, donc ça ne m'interresse pas trop à priori. Après, faut voir si je peux m'en inspirer.

@Axel : Spamplemousse, c'est un nom que j'avais déjà croisé. Je vais jeter un oeil et il va falloir que j'édite mon article.

@Sha-ka : effectivement, il faudra que je rajoute un round, et que je revois un de ces quatre les notes vu que certaines sont supérieures à 10, il doit y avoir un problème quelque part -_-

Sha-ka @ www le 03/06/2006 à 20:18:19

Sinon, pour mmm, je te conseille de rajouter un petit round() pour ajuster les notes : "Note moyenne = 6.6666666666667
(3 notes enregistrées)" :)

Axel Terizaki @ www le 03/06/2006 à 15:50:33

Très bonne explication Matt, et bonne analyse aussi.
Néanmoins y'a un truc bien avec le système de mots-clés pour nous Français, c'est qu'on ne s'attend pas à trouver de commentaires anglais sur un blog Fr. En partant de ce constat, j'ai ajouté quelques mots anglais dans le filtre anti-spam de Dotclear (Spamplemousse) vu que je suis sûr que des français ne les utiliseraient pas.

Ceci dit je vais jeter un oeil aux URL que tu as postées, merci :)

Skav @ www le 03/06/2006 à 12:40:07

0 pb chez moi depuis que j'ai mis Akismet :o

Sha-ka @ www le 03/06/2006 à 12:14:28

eh eh, moi j'ai pas de problème vu que j'ai pas de blog (par contre niveau boite mail, c'est autre chose ;p)

PKRG @ www le 03/06/2006 à 11:57:37

Mouerf, quelle plaie le spam sur les blogs.

Le captcha semble être la meilleure solution à l'heure actuelle (même s'il est toujours possible de la contourner et qu'il est parfois pénible de se casser les yeux à déchiffrer un dessin tout bizarre)

Personnellement, je n'ai pas trop à me plaindre (la rançon de non succès ?), après des vagues de spam, j'ai desactivité l'option "pinger les moteurs de recherches après chaque message" et puis "pschiiit" plus rien (ou très peu).

J'ai l'impression que les spammeurs se servent de cette option pour cibler les blogs à polluer.

Bref, si tu as cette option Matt, je te conseille de la désactiver surtout que les moteurs de recherches blog (type technorati) rapportent zéro lecteur.

Bonne lutte anti spam !





vivi @ www le 03/06/2006 à 11:37:45

hééééé bin! c'est le prix à payer pour la gloire ma foi

merci de répondre à la question : êtes-vous un humain ou un robot ?
Je suis un
<< Dernier article | < Article suivant | Article précédent > | Premier article >>
Ma chaîne Youtube- Kouryu
About moi

J'aime les jeux vidéo, les mangas, les jeux vidéo, les animes, les jeux vidéo, la musique, les jeux vidéo et je collectionne tout ce qui a touche à Mario.
Accessoirement, je tiens ce blog de manière particulièrement aléatoire...
Derniers commentaires :