Martin Bosák: Next Generation Data Transformation Tool (ETL)

Vítejte do roku 2017!
Na přelomu roku všichni všude zkoušejí hádat, co se tak může chystat v následujícím roce..

http://www.tableau.com/about/blog/2016/12/top-10-bi-trends-2017-63208
http://www.tableau.com/resource/top-10-big-data-trends-2017
http://www.gartner.com/smarterwithgartner/gartners-top-10-technology-trends-2017/

Každý se velmi často snaží prosadit svůj obor a tipuje, že právě jeho novinky v produktu budou to nejvíc trendy v příštím roce (proto je přeci dělají, že?). Také se o něco podobného pokusím. I když si nejsem moc jist, zda se to stane již v příštím roce, každopádně si myslím, že se to tímto směrem bude ubírat. Myšlenka na toto téma původně vznikla cestou na teambuilding spolu s Michalem a Lukášem (thank you!)

A teď už k tématu – ETL standard pro následující generaci BI analytických nástrojů. V poslední době BI analytické nástroje zaměřené na vizualizaci, grafy a reporting prošly poměrně zásadním rozvojem a změnami. Byl zde znát obrovský posun v odvětví od nástrojů typu Cognos, Microsoft Reporting Services nebo Oracle BI k self-service analytickým nástrojům typu Tableau, Qlikview / Qliksense nebo Microsoft Power BI.

V podstatě všechny tyto nové nástroje disponují především velmi jednoduchým a uživatelsky přívětivím (více či méně) rozhraním pro mnohem rychlejší tvorbu požadovaných reportů/analýz oproti předchozím obrům. Možná zde bude také vhodné zmínit, že zároveň s tím výrazně omezili možnost formátování výstupu – a často plně nepokrývají možnosti a složitost tvorby reportů v těch komplexnějších nástrojích (prostě neumí pixel-perfect :-)) A asi to podstatné – téměř všichni je máme raději! (každý samozřejmě ten svůj.) A všechny tyto self-service nástroje jsou již poměrně dospělé v tom co mají dělat.

A nyní další krok blíže k tématu… 🙂
Co téměř všem těmto novým analytickým nástrojům stále chybí je použitelné a flexibilní ETL. Všechny self-service analytické nástroje mají velmi širokou paletu datových zdrojů, ke kterým se umí připojit, ale co se týká třeba i základní transformace dat, tak zde narážejí (nebo to rozhodně nemají použitelně udělané – viz Qlikview scripty, případně to zdaleka neumí vše). Velmi často se tedy pak stávalo, že jste pro nakrmení těchto aplikací daty potřebovali další specializovaný nástroj – často se toto děje pomocí kombinace s Alteryxem / SSIS / Keboolou, či přímo SQL scripty. A zdá se, že jsou si toho vědomi. Rozvoj jejich funkcionalit v oblasti data preparation/transformation je patrný v jejich roadmapách a plánech pro příští verze. A některé základní transformace jsou již dostupné nyní – zatím však často jde “jen” o možnost si napsat vlastní SQL dotaz – či a to je podstatné, umožnit grafickou tvorbu tohoto dotazu – zatím v jednoduší variantě jen co se týká případných joinů, unionů a filtrů. Toto však nestačí.
Bude zajímavé kam až se tyto nástroje s možností tvorby ETL dostanou – přeci jen jsou určené především pro business uživatele, a nikoliv pro BI/Data specialisty.

Tak nějak na půli cesty mezi BI Specialisty a business uživateli stojí například Alteryx nebo SAS business analytics – nástroje, které pro mne poměrně zdárně dotáhli tvorbu ETL procesů v grafické podobě do použitelné podoby – to co kdysi bylo (a stále je) standardem a lidé znají z Microsoft SQL SSIS/BIDS (Business Intelligence Development Studio) dostalo formu, která funguje, ale především se upravuje mnohem jednodušeji a flexibilněji (já prostě miluji možnost v Alteryxu vytvořit si ETL process, aniž by bylo potřeba znát konkrétní dokončené datové struktury a možnost pracovat i s “Unknown Columns”). Druhou cestou se vydalo Power BI – resp. Power Query – místo vizuálního ztvárnění ETL jako procesu, jde spíše o formátování a upravování tabulky postupnými kroky.
Bude velmi zajímavé sledovat jakou cestou se vydá například Tableau nebo Qlik.

Myslím, že oblast klasických ETL nástrojů, jako například u nás poměrně hodně využívaná Informatica, bude muset také projít výraznými změnami – právě co se týká snadnosti tvorby transformací. A také bude zajímavé sledovat, který přístup nakonec zvítězí a bude kopírován i ostatními. V současné době mám tak trochu pocit, že oblast ETL by stála za to lehce standardizovat – tak jako je standardem SQL. A s tím, jak se v současné době rozšiřuje nutnost ovládat datovou analýzu a její nástroje, tak se tato znalost tvorby transformací stane jednou ze základních položek skill setu Business uživatelů – tak jako je jím v současné době znalost Excelu a už i ovládání reportů – a často i jejich tvorba. A právě jejich tvorba a často i transformace potřebné pro její tvorbu stále více přecházejí od IT k businessu.
No počkejme si. Těžko ale budeme moci očekávat, že business uživatelé se naučí něčemu ze základních jazyků dnešních Data Scientistů (SQL, R, Python). Potřebují něco jednoduššího a pochopitelnějšího.

Na úplný závěr přidám pár zdrojů:

Power BI Power Query
https://powerbi.microsoft.com/en-us/documentation/powerbi-desktop-query-overview/
Qliksense Qlik Sense 3.0 – Visual Data Preparation
https://community.qlik.com/docs/DOC-16830
Tableau cross-database joins
http://www.tableau.com/about/blog/2016/7/integrate-your-data-cross-database-joins-56724
Gartner Magic Quadrant for Business Intelligence and Analytics Platforms
https://www.gartner.com/doc/reprints?id=1-2XXET8P&ct=160204

Comments

comments

Leave a Reply