Imaginons que je veuille économiser le plus de ressources possibles à mon serveur qui héberge une dizaine de sites et que je constate que près de 50% des requêtes sont le fait de bots. Je fais comment pour mitiger tout ça ? Vraiment pas envie de voir mes ressources mangées pour nourrir des outils de marketeux à la c** comme semrush et consorts. Il existe une liste de user-agent crawlers d'outils SEO dans le genre par exemple ? #sysadmin
Et oui j'ai passé un bout de soirée à bidouiller sur fail2ban et autres joyeusetés.. Mais vraiment le regex c'est une invention de Satan. Dès que je dois passer par cette syntaxe je finis par m'arracher les cheveux. Je passerais bien par une IA pour m'aider sur ce genre de truc pour le coup... mais trop peur qu'elle me sorte un truc que je ne comprenne pas et que je ne puisse pas vérifier
Salut @Julianoe
@sebsauvage a sorti cette liste, il y a quelques jours. Si ça peut aider.
@Nel @sebsauvage ça peut totalement aider. J'étais passé à côté de ce post. Peut-être même à ça que tu faisais référence @joachim ?
@Julianoe @Nel @sebsauvage Pas exactement mais ça a l’air nickel :)
@Julianoe @Nel @sebsauvage Voilà un truc qui s’en approche : https://underlap.org/blocking-ai-web-crawlers
@joachim @Julianoe @Nel @sebsauvage il me semblait qu'il y avait des personnes qui avaient une sorte de micro-service qui importe automatiquement une liste de user agents.
edit : retrouvé https://darkvisitors.com/
@joachim @Julianoe @Nel @sebsauvage cloudflare propose aussi un service pour bloquer les requêtes des crawlers IA au niveau du CDN https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/
créant ainsi une nouvelle dépendance à un gros appareillage. bullshit web qui se mord la queue.
@sebsauvage @joachim @Julianoe @Nel vu le niveau de cloudflare, y a de fortes chances pour que le Man-in-the-Middle devienne en réalité un Bot-in-the-Middle. y a un pattern.