Softwaroví vývojáři a open source komunita bojují proti agresivním webovým AI crawlerům, které značně zatěžují jejich infrastrukturu. To, co začalo jako snaha o sběr dat, totiž přerostlo v něco, co někteří popisují jako nekonečné DDoS útoky.
Jako příklad rostoucí frustrace magazín Ars Technica cituje vývojáře jménem Xe Iaso. Poté, co jeho Git repozitář opakovaně zahltily a destabilizovaly crawlery od Amazonu, a to i navzdory četným obranným mechanismům, přesunul svůj server za hradbu VPN a vytvořil vlastní systém s názvem Anubis, který nutí crawlery před přístupem na web řešit složité výpočetní hádanky.
Máme nové jméno
Po více než třech dekádách existence otvírá magazín Computerworld novou kapitolu. Tradiční průvodce světem IT, který si za 36 let existence vybudoval pověst jednoho z nejdůvěryhodnějších tuzemských zdrojů pro IT profesionály, se od nynějška jmenuje Computertrends.
Podle serveru LibreNews je problém natolik rozšířený a závažný, že některé projekty s otevřeným zdrojovým kódem zaznamenávají až 97 % svého provozu pocházejícího od botů s umělou inteligencí. Tento masivní nárůst dramaticky zvyšuje náklady na šířku pásma a je také příčinou nestability služeb.
Projekty jako třeba Fedora Pagure se už kvůli tomu uchýlily k blokování provozu z celých regionů, zatímco třeba GNOME GitLab zavedl jmenovaný systém Anubis, díky čemuž bylo potvrzeno, že jen malá část požadavků pochází od lidských uživatelů.
Finanční dopad je značný. Projekt Read the Docs oznámil, že blokování AI crawlerů snížilo jejich denní provoz z 800 GB na 200 GB, čímž ušetřili přibližně 1 500 dolarů měsíčně na nákladech na šířku pásma. Tyto crawlery nejenže spotřebovávají šířku pásma, ale zaměřují se také na koncové body, jako jsou git blame a logovací stránky, což představuje další zátěž pro omezené zdroje.
Zdá se, že procházení je motivováno sběrem dat pro rozsáhlé jazykové modely. Různé společnosti přitom vykazují různou míru agresivity – některé crawlery se vracejí každých šest hodin, aby shromáždily data; není to tedy tak, že by na stránku zamířily pouze jednou.
Vývojáři vypozorovali, že tito boti záměrně obcházejí standardní blokovací opatření, například ignorují směrnice robots.txt anebo mění IP adresy, aby se vyhnuli odhalení.
V reakci na to vývojáři vytvářejí inovativní obranné nástroje. Například společnost Cloudflare představila svůj AI Labyrinth, který botům servíruje falešný obsah, a vznikl třeba i projekt „ai.robots.txt“, nabízející zdroje, které tyto dotěrné boty pomáhají blokovat.
Situace poukazuje na rostoucí napětí mezi potřebami společností zabývajících se vývojem umělé inteligence v oblasti dat a udržitelností infrastruktury s otevřeným zdrojovým kódem.
Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.