Veľké dáta majú nekonečný potenciál rozvoja. Poďme zistiť, čo sú veľké dáta a tri dôvody, prečo sa stali populárnymi až v roku 2010.


V určitom okamihu sme sa začali stretávať s neznámym slovom Big Data prostredníctvom rôznych médií. Je to len pár rokov, čo sa tieto slová začali používať. V poslednom čase je však médiami natoľko nadužívaný, že výrazy ako „marketing využívajúci veľké dáta“ sa nám teraz zdajú nudné. Čo je teda na veľkých dátach a dolovaní dát, čo ich robí tak populárnymi?

Veľké údaje doslova znamenajú obrovský súbor údajov. Akékoľvek údaje, ktoré je možné uložiť na pamäťové médium, od jednoduchých čísel až po zložité CCTV obrázky, sa môžu stať veľkými údajmi tým, že ich zhromaždia do súboru, bez ohľadu na formát. Inými slovami, z formálneho hľadiska nie je rozdiel medzi predchádzajúcimi údajmi a veľkými údajmi. Ak sú však veľké údaje jednoducho veľkými údajmi, mali by byť také populárne, ako sú teraz koncom 90. rokov a začiatkom 21. storočia, keď sa počítačová technológia rýchlo rozvíjala. Existujú však tri dôvody, prečo sa veľké dáta stali populárnymi až v roku 2010:

Po prvé, najväčšou príčinou je zmena paradigmy vo vývoji CPU. CPU (Central Processing Unit) je mozog počítača, ktorý vykonáva výpočtové úlohy. V minulosti bolo tempo vývoja také rýchle, že bol všeobecne akceptovaný Moorov zákon, ktorý hovorí, že výkon CPU sa zdvojnásobuje každých 18 mesiacov. V roku 2004 však vývoj CPU dosiahol hranicu nazývanú „4GHz stena“. Predtým smer vývoja CPU smeroval k zvýšeniu rýchlosti jednej procesorovej jednotky zvýšením počtu tranzistorov (výpočtových prvkov) vložených do jedného jadra (výpočtovej jednotky). Táto metóda však mala vážny problém s teplom, pretože so zvyšujúcou sa integráciou tranzistorov sa plocha rozptylu tepla pre každý tranzistor zmenšovala. Výrobcom CPU sa tento problém zahrievania nakoniec nepodarilo vyriešiť. Vďaka tomu integrácia tranzistora neprekročila určitú úroveň a prevádzková rýchlosť jedného jadra zostala okolo 4 GHz. Výrobcovia CPU však namiesto zvýšenia počtu tranzistorov v jadre našli iné spôsoby, ako sa s problémom tepla vysporiadať. Nový prielom bol nájdený vývojom viacjadrového CPU, ktoré zahŕňalo viacero jadier v CPU. Zatiaľ čo existujúce jednojadrové procesory spracovávajú viacero úloh v poradí po jednom jadre, viacjadrové procesory zvyšujú rýchlosť spracovania rozdelením a paralelizáciou viacerých úloh na viacero jadier a ich súčasným spracovaním. Tieto viacjadrové procesory sú čoraz populárnejšie a vyvinula sa technológia paralelných výpočtov, ktorá spracováva dáta súčasne. Výsledkom je, že teraz je možné rýchlejšie a jednoduchšie spracovať obrovské množstvo údajov, ktoré predtým nebolo možné spracovať kvôli obmedzeniam vo výpočtovej rýchlosti.

Veľkú úlohu pri otvorení éry veľkých dát zohrala nielen popularizácia viacjadrových CPU, ale aj vývoj pamäťových médií. V prípade pevných diskov, reprezentatívneho pamäťového média, sú dáta uložené na kovových platniach nazývaných platne. Boli vyvinuté technológie ako vylepšená integrácia magnetických záznamov a viacjadrové CPU na vkladanie viacerých platní na jeden pevný disk. Vďaka tomu sa kapacita úložiska explozívne zvýšila až do takej miery, že produkty s úložným priestorom 8 TB sa stali populárnymi v roku 2023, čo bolo v deväťdesiatych rokoch iba 1 GB. Na rozdiel od relatívne pomalého pevného disku sa tiež objavili nové pamäťové médiá s vysokou rýchlosťou, ako je SSD (Solid State Drive). Zjednodušilo sa využitie veľkého množstva údajov, ktoré predtým nebolo možné uložiť z dôvodu nedostatočného úložného priestoru alebo bolo ťažké ich spracovať z dôvodu nízkej rýchlosti čítania a zápisu, aj keď boli uložené.

Pokroky v CPU a pamäťových médiách umožnili využiť veľké množstvo dát, ktoré predtým nebolo možné vypočítať alebo uložiť. Zásadný rozdiel medzi dnešnými veľkými dátami a veľkými dátami v minulosti však spočíva v spôsobe, akým sa dáta zbierajú. Inteligentné zariadenia a SNS, ktoré sa rýchlo stali populárnymi v roku 2010, zmenili paradigmu zberu údajov. Inteligentné zariadenia priamo alebo nepriamo pripojené k sieti zhromažďujú používateľské údaje prostredníctvom rôznych senzorov, ako sú kamery, GPS (Global Positioning System) a NFC (Near Field Communication). A tieto údaje sa neustále nahrávajú do siete. Okrem toho používatelia SNS, ako sú Facebook a Twitter, neustále nahrávajú do siete svoje rôzne osobné informácie. V minulosti sa zber údajov robil s cieľom získať len špecifické cieľové údaje, ktoré subjekt zberu údajov považoval za dôležité. Súčasný zber údajov však bez rozdielu zhromažďuje obrovské množstvo údajov, ktoré prúdia cez sieť prostredníctvom inteligentných zariadení a SNS. Okrem toho, ako sa sieťová technológia postupne rozvíja, typy objektov pripojených k sieti pribúdajú. Inými slovami, s príchodom internetu vecí (IOT) sa oblasť zberu dát ďalej rozširuje.

Týmto spôsobom vznikol koncept veľkých dát prostredníctvom harmonickej kombinácie vývoja viacjadrových CPU, vývoja pamäťových médií a rozšírenia rozsahu zberu dát. V súčasnosti sa mnohé spoločnosti, vlády a ďalšie skupiny hrabú vo veľkých dátach, ktoré zhromaždili, aby našli poklad, a rôzne médiá zdôrazňujú dôležitosť veľkých dát. Pri veľkých dátach však musíme predovšetkým zvážiť, že súčasné veľké dáta sú len začiatkom. V budúcnosti sa budú vyvíjať viacjadrové CPU, aby boli schopné vykonávať rýchlejšie výpočty súčasne, a pamäťové médiá sa vyvinú tak, aby boli schopné rýchlejšie ukladať viac údajov. A stále viac vecí sa bude pripájať k sieti a posielať do siete dáta, ktoré nazbierali. Súčasné veľké dáta, ktoré momentálne vnímame ako veľké, nemusia byť v nadchádzajúcej ére veľkých dát vôbec veľké.