Imaginons que je veuille économiser le plus de ressources possibles à mon serveur qui héberge une dizaine de sites et que je constate que près de 50% des requêtes sont le fait de bots. Je fais comment pour mitiger tout ça ? Vraiment pas envie de voir mes ressources mangées pour nourrir des outils de marketeux à la c** comme semrush et consorts. Il existe une liste de user-agent crawlers d'outils SEO dans le genre par exemple ? #sysadmin
Et oui j'ai passé un bout de soirée à bidouiller sur fail2ban et autres joyeusetés.. Mais vraiment le regex c'est une invention de Satan. Dès que je dois passer par cette syntaxe je finis par m'arracher les cheveux. Je passerais bien par une IA pour m'aider sur ce genre de truc pour le coup... mais trop peur qu'elle me sorte un truc que je ne comprenne pas et que je ne puisse pas vérifier
On va ajouter le AmazonBot à la liste aussi tiens
https://developer.amazon.com/fr/amazonbot
@Julianoe Salut, tu connais https://regex101.com/ ? C'est pas mal pour aider sur les regex.
@Goffi yes je m'en sers quand je suis désespéré. Mais ça ne résout pas tout. Il me manque le module de 12h de cours pour vraiment y voir clair je crois
Salut @Julianoe
@sebsauvage a sorti cette liste, il y a quelques jours. Si ça peut aider.
@Nel @sebsauvage ça peut totalement aider. J'étais passé à côté de ce post. Peut-être même à ça que tu faisais référence @joachim ?
@Julianoe @Nel @sebsauvage Pas exactement mais ça a l’air nickel :)
@Julianoe @Nel @sebsauvage Voilà un truc qui s’en approche : https://underlap.org/blocking-ai-web-crawlers
@joachim @Julianoe @Nel @sebsauvage il me semblait qu'il y avait des personnes qui avaient une sorte de micro-service qui importe automatiquement une liste de user agents.
edit : retrouvé https://darkvisitors.com/
@joachim @Julianoe @Nel @sebsauvage cloudflare propose aussi un service pour bloquer les requêtes des crawlers IA au niveau du CDN https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/
créant ainsi une nouvelle dépendance à un gros appareillage. bullshit web qui se mord la queue.
@sebsauvage @joachim @Julianoe @Nel vu le niveau de cloudflare, y a de fortes chances pour que le Man-in-the-Middle devienne en réalité un Bot-in-the-Middle. y a un pattern.
@mariejulien ça a l'air top ça! merci, je me l'ajoute à mes outils d'aide à regex
@Julianoe j’avais vu passer des réglages custom pour bloquer des bots IA au niveau du serveur web (il y avait des configs Apache, Nginx…), c’est au niveau de l’User Agent et peut-être aussi de l’IP ? Je sais plus.
Bref, tu avais le choix entre leur renvoyer une 403, accès interdit, une 100, reste encore un peu promis le contenu va arriver, ou les rediriger vers un fichier de 10 Go sans données. Il faut que je retrouve tout ça pour le mettre sur mes instances et mes sites