AI crawlery zahlcují open source projekty

28. 3. 2025

Detektiv, který zkoumá lupou obsah generovaný AI

Nápor automatizovaných crawlerů zahlcujících open source komunitu probouzí odpor vývojářů.

Softwaroví vývojáři a open source komunita bojují proti agresivním webovým AI crawlerům, které značně zatěžují jejich infrastrukturu. To, co začalo jako snaha o sběr dat, totiž přerostlo v něco, co někteří popisují jako nekonečné DDoS útoky.

Jako příklad rostoucí frustrace magazín Ars Technica cituje vývojáře jménem Xe Iaso. Poté, co jeho Git repozitář opakovaně zahltily a destabilizovaly crawlery od Amazonu, a to i navzdory četným obranným mechanismům, přesunul svůj server za hradbu VPN a vytvořil vlastní systém s názvem Anubis, který nutí crawlery před přístupem na web řešit složité výpočetní hádanky.

Máme nové jméno

Po více než třech dekádách existence otvírá magazín Computerworld novou kapitolu. Tradiční průvodce světem IT, který si za 36 let existence vybudoval pověst jednoho z nejdůvěryhodnějších tuzemských zdrojů pro IT profesionály, se od nynějška jmenuje Computertrends.

Podle serveru LibreNews je problém natolik rozšířený a závažný, že některé projekty s otevřeným zdrojovým kódem zaznamenávají až 97 % svého provozu pocházejícího od botů s umělou inteligencí. Tento masivní nárůst dramaticky zvyšuje náklady na šířku pásma a je také příčinou nestability služeb.

Projekty jako třeba Fedora Pagure se už kvůli tomu uchýlily k blokování provozu z celých regionů, zatímco třeba GNOME GitLab zavedl jmenovaný systém Anubis, díky čemuž bylo potvrzeno, že jen malá část požadavků pochází od lidských uživatelů.

Finanční dopad je značný. Projekt Read the Docs oznámil, že blokování AI crawlerů snížilo jejich denní provoz z 800 GB na 200 GB, čímž ušetřili přibližně 1 500 dolarů měsíčně na nákladech na šířku pásma. Tyto crawlery nejenže spotřebovávají šířku pásma, ale zaměřují se také na koncové body, jako jsou git blame a logovací stránky, což představuje další zátěž pro omezené zdroje.

Video ke kávě

Máte čas na rychlé a informativní video?

Zdá se, že procházení je motivováno sběrem dat pro rozsáhlé jazykové modely. Různé společnosti přitom vykazují různou míru agresivity – některé crawlery se vracejí každých šest hodin, aby shromáždily data; není to tedy tak, že by na stránku zamířily pouze jednou.

Vývojáři vypozorovali, že tito boti záměrně obcházejí standardní blokovací opatření, například ignorují směrnice robots.txt anebo mění IP adresy, aby se vyhnuli odhalení.

V reakci na to vývojáři vytvářejí inovativní obranné nástroje. Například společnost Cloudflare představila svůj AI Labyrinth, který botům servíruje falešný obsah, a vznikl třeba i projekt „ai.robots.txt“, nabízející zdroje, které tyto dotěrné boty pomáhají blokovat.

Situace poukazuje na rostoucí napětí mezi potřebami společností zabývajících se vývojem umělé inteligence v oblasti dat a udržitelností infrastruktury s otevřeným zdrojovým kódem.

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Seriál: Vše, co potřebujete vědět o nasazení umělé inteligence (AI) v podnicích

Přečtěte si všechny díly seriálu Vše, co potřebujete vědět o nasazení umělé inteligence (AI) v podnicích nebo sledujte jeho RSS

Našli jste v článku chybu?

Sdílet

Máme nové jméno

Video ke kávě

Meta chce údajně koupit AI start-up za miliardy, půjde o jednu z největších investic historie

Nový prohlížeč Dia integruje AI přímo do adresního řádku

Nvidia jede na vlně AI. Do startupů sype miliardy

Autor článku

Václav Tesař

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už databáze NoSQL?

TIP NA VIDEO

AI už není hudbou budoucnosti – zásadně mění fungování firem už dnes. Podívejte se, jak v tom IBM nastavuje pravidla hry

SPECIÁLNÍ PROJEKTY

Vítězové posledního kola soutěže IT produkt roku 2025 jsou tady

Víme, kdo vyhrál druhé kolo soutěže IT produkt roku 2025

První kolo soutěže IT produkt roku 2025 má své vítěze

Předposlední letošní vydání CIOtrends je v prodeji. Co se dočtete?

Mzdy vývojářů a techniků rostou, investice do inovací zvyšují poptávku po specialistech

Obrazem: Slet celebrit na glam setkání AT Computers

Umělá inteligence ovlivňuje českou vědu: Akademie věd spouští program Strategie AV21 AI

Inflační tlaky trvají, průmysl mírně roste a stavební rally pokračuje

Česko bude mít první AI datové centrum, vznikne v Kanicích u Brna

Cloud není žádný freestyle, říká Jan Knyttl ze SoftwareOne

Kdo neinvestuje do kyberbezpečnosti, riskuje existenci. Audity a testy firmám šetří miliony

Michal Holovský posiluje channel development pro SOHO v TP-Linku

AI crawlery zahlcují open source projekty

Sdílet

Máme nové jméno

Video ke kávě

Meta chce údajně koupit AI start-up za miliardy, půjde o jednu z největších investic historie

Nový prohlížeč Dia integruje AI přímo do adresního řádku

Nvidia jede na vlně AI. Do startupů sype miliardy

Autor článku

Václav Tesař

Témata:

Mohlo by vás zajímat

Podzimní Computertrends 11/2025 právě vyšel. Co tam najdete?

Podcast: Kyberbezpečnost a zákony bez obalu

České firmy přicházejí na chuť umělé inteligenci. Adopce AI stoupá závratným tempem

Anketa

Využíváte už databáze NoSQL?

Kvíz týdne

TIP NA VIDEO

AI už není hudbou budoucnosti – zásadně mění fungování firem už dnes. Podívejte se, jak v tom IBM nastavuje pravidla hry

SPECIÁLNÍ PROJEKTY

Vítězové posledního kola soutěže IT produkt roku 2025 jsou tady

Víme, kdo vyhrál druhé kolo soutěže IT produkt roku 2025

První kolo soutěže IT produkt roku 2025 má své vítěze

Z našich webů

Předposlední letošní vydání CIOtrends je v prodeji. Co se dočtete?

Mzdy vývojářů a techniků rostou, investice do inovací zvyšují poptávku po specialistech

Obrazem: Slet celebrit na glam setkání AT Computers

Umělá inteligence ovlivňuje českou vědu: Akademie věd spouští program Strategie AV21 AI

Inflační tlaky trvají, průmysl mírně roste a stavební rally pokračuje

Česko bude mít první AI datové centrum, vznikne v Kanicích u Brna

Cloud není žádný freestyle, říká Jan Knyttl ze SoftwareOne

Kdo neinvestuje do kyberbezpečnosti, riskuje existenci. Audity a testy firmám šetří miliony

Michal Holovský posiluje channel development pro SOHO v TP-Linku

Dále u nás najdete

Iridium chce změnit svět GPS – vyvíjí bezpečnostní čip

Proletěli jsme se v legendárním letounu L-39 Albatros

Děti šíří chřipku více než dospělí. Ochránit je lze i vakcínou do nosu

Zdravotní a sociální pojištění 2026 u OSVČ: Opět výrazný růst záloh

Když velkoobchodní e-shop překonává běžné portály

Konecta a CrewAI spojují síly, aby přinesly revoluci v AI

AI už není hudbou budoucnosti – zásadně mění fungování firem

Vyzkoušejte recept na hraběnčiny řezy s jablky a ořechy

Vítězové posledního kola soutěže IT produkt roku 2025 jsou tady

Prusa má novou větší 3D tiskárnu a umí tisknout silikon

Babišova vláda plánuje návrat EET, dýška bez odvodů a nižší daně

Podzimní Computertrends 11/2025 právě vyšel. Co tam najdete?

Lidé e-maily skoro nečtou, většinu jich dnes otevírají boti

Nanoroboti z Ostravy mají letět do vesmíru

Zkontrolovali jsme, jak řetězce uvádějí složení pečiva

V ČR působí nejvíce OSVČ v historii. Může za to švarcsystém?

Jaký obsah v reklamě nejlépe funguje? Horst Fuchs by se divil

JMHZ spustí od příštího roku nové registry zaměstnanců

Mapa AI se překresluje, AWS a OpenAI uzavírají alianci

Amazon vs Perplexity – když za vás nakupuje AI