mastodon.xyz is one of the many independent Mastodon servers you can use to participate in the fediverse.
A Mastodon instance, open to everyone, but mainly English and French speaking.

Administered by:

Server stats:

874
active users

Imaginons que je veuille économiser le plus de ressources possibles à mon serveur qui héberge une dizaine de sites et que je constate que près de 50% des requêtes sont le fait de bots. Je fais comment pour mitiger tout ça ? Vraiment pas envie de voir mes ressources mangées pour nourrir des outils de marketeux à la c** comme semrush et consorts. Il existe une liste de user-agent crawlers d'outils SEO dans le genre par exemple ?

Julianoë

Et oui j'ai passé un bout de soirée à bidouiller sur fail2ban et autres joyeusetés.. Mais vraiment le regex c'est une invention de Satan. Dès que je dois passer par cette syntaxe je finis par m'arracher les cheveux. Je passerais bien par une IA pour m'aider sur ce genre de truc pour le coup... mais trop peur qu'elle me sorte un truc que je ne comprenne pas et que je ne puisse pas vérifier 😁

@Goffi yes je m'en sers quand je suis désespéré. Mais ça ne résout pas tout. Il me manque le module de 12h de cours pour vraiment y voir clair je crois 😅 merci pour la ref quand même.

@Nel @sebsauvage ça peut totalement aider. J'étais passé à côté de ce post. Peut-être même à ça que tu faisais référence @joachim ?

@Julianoe @Nel @sebsauvage Pas exactement mais ça a l’air nickel :)

@tk
J'imagine que la protection de CloudFlare est efficace, mais bon se retrouver avec un MITM pour se protéger des bots, je trouve ça très bof.
*soupir*
On a pas le cul sorti des ronces.

@joachim @Julianoe @Nel

@sebsauvage @joachim @Julianoe @Nel vu le niveau de cloudflare, y a de fortes chances pour que le Man-in-the-Middle devienne en réalité un Bot-in-the-Middle. y a un pattern.

@mariejulien ça a l'air top ça! merci, je me l'ajoute à mes outils d'aide à regex 😅

@Julianoe oui c'est @renchap qui m'a montré ça, j'en connaissais plein avant, mais le côté visuel de celui là est bien pratique pour débuguer vite fait, surtout si ça provient d'un LLM tu pigeras tout de suite ce que ça fait.

@Julianoe j’avais vu passer des réglages custom pour bloquer des bots IA au niveau du serveur web (il y avait des configs Apache, Nginx…), c’est au niveau de l’User Agent et peut-être aussi de l’IP ? Je sais plus.
Bref, tu avais le choix entre leur renvoyer une 403, accès interdit, une 100, reste encore un peu promis le contenu va arriver, ou les rediriger vers un fichier de 10 Go sans données. Il faut que je retrouve tout ça pour le mettre sur mes instances et mes sites