Martin Bosák: Big Data, aneb co už se nevejde do Excelu

Dovolím si krátké zamyšlení na téma Big Data.

Přijde mi, že tento termín (či spíše buzzword), se nejenom u nás stal velmi populární. Téměř každý o tom již slyšel, každý druhý to chce a každý cca čtvrtý to prý má. (Odhad používání ve Fortune 500).
V Čechách mi ale situace přijde trošku jiná – má to tu skoro každý – alespoň tak o tom mluví, protže jejich objem dat už je “velký”, a jejich Excel už to nezvládá!
Zatím jsem zde neviděl moc firem, které by opravdu potřebovali big data.
Ale není se co divit. Situace v oblasti big dat je hodně chaotická, a stále se v ní “něco” děje.
Postupem času vnímám cca. 3 pohledy na Big Data:

1) Máme “hodně” dat
Takový typický pro Čechy – aneb oblíbená definice:
Big Data = “Cokoliv co se nevejde do excelu”
Když vezmeme v potaz, že Excel má limit na cca 1 milion řádků, není to zrovna velký objem dat.

2) Obecná definice – 5v’s
Pro mne asi nejlepší pohled na dnešní chápání pojmu big data. Týká se vyhraničení dat z hlediska:

Volume – objemu
Velocity – rychlosti
Variety – různorodosti
Veracity – důvěryhodnost
Value – hodnoty

Jinými slovy, data jsou big, pokud splňují tyto podmínky. Velmi často se všichni upínají pouze k objemu.

3) Technologická definice
Velmi zjednodušeně big data = Hadoop. Nicméně neplatí to dnes už vždy. Jde především o to, že pokud potřebujete zpracovat big data, nejspíše si nevystačíte s jedním strojem – a potřebujete distribuovat tyto úlohy na více strojů. A to je přesně co Hadoop řeší: “reliable, scalable, distributed computing.”
Bohužel, je to stále nástroj spíše pro milovníky konzole. A to rozhodně business lidé nejsou. Trochu mi to připomíná starší doby, kdy počítače byli v začátku a nikdo pořádně nevěděl jak s nimi pracovat a k čemu to bude dobré, ale každý je chtěl. Vyižití však bylo spíše jen na specializované problémy.
Naštěstí už se ale i tato oblast začíná rozšiřovat a vznikají nejen nadstavby, ale i další použitelná řešení s více user-friendly přístupem.
Stále zde ale není takový tlak na jejich vyžívání – což se ale může velmi rychle změnit. Hodně lidí vidí jejich využití v oblasti IoT (Internet of Things) – a zde už opravdu o “velká” data půjde, i z hlediska 5v’s definice.

Comments

comments

Leave a Reply