Z hlediska každodenního přírůstku dat platí, že stále větší podíl těchto dat je vytvářen stroji, nikoli lidmi. Stačí si uvědomit, jaké množství dat může vygenerovat jediná bezpečnostní kamera s vysokým rozlišením. Když k tomu připočteme všechna data vytvořená IT systémy kvůli požadavkům na bezpečnost, odolnost nebo z regulačních důvodů, mohou podniky snadno dojít k závěru, že vypořádat se s tímto množstvím dat představuje nepřekonatelný problém.
A přidáme-li navíc data generovaná umělou inteligencí, která mnohé organizace začínají zpracovávat teprve nyní, je jasné, že potřebujeme škálovatelnou a flexibilní strategii. Jen tak se lze s probíhající záplavou dat vypořádat. I když můžeme pochybovat o tom, že budoucí generace budou tyto informace kdovíjak fascinovat, obecně platí, že dat chceme uchovávat co nejvíce; stačí jediný problém a organizace litují, že určitý soubor dat smazaly.
Zajímavé v této souvislosti je rostoucí chápání, že data vytvořená člověkem se ukazují jako nezbytná pro trénování nových modelů umělé inteligence a pro zabránění takzvanému kolapsu modelu. Hodnota dat vytvořených člověkem je oproti těm strojově generovaným rozhodně vyšší.
Růst dat a jejich gravitace
Odhaduje se, že 90 % celosvětově dostupných dat bylo vytvořeno v posledních dvou letech. Z toho vyplývá, že data vygenerovaná v několika příštích letech svým objemem rychle přesáhnou celkový součet nyní dostupných dat. Tento exponenciální růst objemu dat současně znamená, že je velmi důležité zavést správné zásady týkající se jejich umístění, ochrany a uchovávání, protože související problémy se budou časem zvětšovat.
Gravitace dat znamená nejen to, že čím je soubor dat větší, tím hůře se přesouvá, ale také to, že bude mít tendenci přitahovat menší soubory dat na stejné místo, zejména proto, že spolu budou pravděpodobně propojeny na úrovni aplikací. Tím se problém ještě prohlubuje, více datových sad se seskupuje a aplikace pracující s většími soubory dat nebude možné snadno přesunout.
Jak se vypořádat s přívalem dat
Pro řešení výzev souvisejících s růstem objemu dat lze doporučit několik strategií.
- Hybridní umístění a mobilita: většina velkých organizací přistupuje ke cloudu hybridním způsobem; některé datové sady jsou umístěny v lokálním prostředí a jiné ve veřejném cloudu. V souvislosti s ukládáním dat je nicméně klíčové pochopit důsledky této situace z hlediska nákladů, bezpečnosti i odolnosti dat a dokázat dělat změny, jakmile se zjistí problém. S rostoucím objemem dat bude jejich přesun stále obtížnější. Člověk odpovídající za rozhodování by se měl vždy ptát: „Budou má rozhodnutí platná i v případě, že se tato datová sada zvětší desetkrát?“ Může to vypadat hodně, jenže 40% tempo růstu znamená desetinásobek za pouhých sedm let. Je také důležité, aby v případě nutnosti přesunu dat bylo možné operaci provést co nejsnadněji – bez nutnosti dalších změn v softwarovém a infrastrukturním zásobníku.
- Spotřeba na vyžádání pro nové požadavky: režim on-demand lokálních úložných systémů může pomoci vypořádat se nejen s neplánovanými požadavky, ale také pochopit aktuální potřeby a profil růstu nových aplikací a souvisejících datových sad. Zároveň se tak podpoří snadný přechod na technologické platformy vlastněné organizací, jakmile bude jasný profil růstu.
- Zabezpečení a rostoucí potřeba odolnosti dat: v souvislosti s nárůstem útoků ransomwaru a stále širšími regulačními požadavky se klade větší důraz na odolnost dat. To může mít za následek ještě větší nárůst objemu dat, protože větší odolnost obecně znamená více kopií dat a více systémů pro jejich sledování a správu. Hledejte proto řešení, která poskytují kybernetickou odolnost dat s nízkou režií z hlediska požadavků na úložiště, ale také s rychlou obnovou, protože požadavky na odolnost vyžadují stále častěji také nižší dobu obnovy (RTO) – obecně nad rámec toho, co mohou poskytnout tradiční zálohovací řešení.
- Udržitelnost: Je třeba zohlednit také náklady na udržitelnost. Tyto požadavky zahrnují sledování energetické účinnosti systémů pro ukládání dat a také jejich „uhlíkových nákladů“. Energetická účinnost by měla být hodnocena jako funkce kapacity na watt a výkonu na watt, zatímco uhlíkové náklady by měly zahrnovat celý životní cyklus zařízení včetně výroby, dopravy a vyřazení z provozu.
- Dlouhodobá archivace: při hodnocení řešení pro archivaci a dlouhodobé uchovávání dat (ať už lokálně, nebo v cloudu) mějte oči otevřené, protože profil nákladů se bude velmi lišit podle toho, zda jsou data přístupná (i zřídka) nebo pokud jsou zcela „chladná“. Vezměte v úvahu celkové náklady na základě realistického poměru zpřístupněných dat. To zahrnuje náklady na vyhledávání u cloudových objektových úložišť, ale také poplatky za off-site úložiště a fyzické vyhledávání, přepravu a dobu obnovy u médií, jako jsou pásky.
- Zvláštní případ videodat: video dnes celosvětově tvoří odhadem 50 % dat, takže má rozhodně smysl používat pro jeho zpracování speciální strategie. Pokroky v oblasti komprese dat, vzorkování a optimalizace obecně pomohly udržet požadavky na ukládání těchto dat na co nejnižší úrovni, nicméně změnily se i požadavky na přístup k datům. Tradičně bylo velké množství videodat archivního typu, ale pokrok v oblasti počítačového vidění u systémů umělé inteligence znamená, že lidé chtějí videodata analyzovat a porozumět jim. To znamená, že velké množství těchto dat nyní vyžaduje úložiště, které je navrženo tak, aby podporovalo ukládání dat a zároveň umožňovalo stále větší množství současných přístupů k datům. Vysokokapacitní úložiště založené na technologii Flash může zajistit jak nákladově efektivní požadavky na ukládání, tak i umožnit přístup k datům s požadovanou úrovní výkonu.