DWH v cloudovom prostredí

DWH v cloude je stále pomerne nová služba, ktorú minulý rok predstavil aj Microsoft vrámci jeho cloudového balíka. Riešenie spadá do oblasti PaaS, teda Platform as a Service, kde Azure už ponúka okrem iného množstvo riešení v oblastí (big) dát.

Azure SQL Data Warehouse kombinuje tradičné databázové riešenie od MS – SQL Server (je na ňom založené a využíva napríklad jazyk T-SQL)  s funkcionalitou cloudu – to znamená navyšovanie, znižovanie, prípadné úplné zastavenie zdrojov v takmer reálnom čase.  Výhodou je tiež takmer okamžité nasadenie v priebehu niekoľkých minút a vývoj je tiež možný v tradičnom prostredí SQL Server, takže nie je potrebné učenie sa nových neštandardných technológií. Táto služba dokáže pracovať so vstupmi takmer zo všetkých štandardných zdrojov – cloudové, či tradičné databáze, textové súbory a iné. Ako veľkú výhodu u Microsoftu vidím, že ponúka celý balík analytických riešení, ktoré je možné jednoducho integrovať a dochádza teda k synergií. SQL DWH je jednoduché prepojiť napríklad s reportingovým nástrojom Power BI alebo vytvárať prediktívne modely v cloudovom riešení Azure Machine Learning pre data science a objavovať tým nové a zaujimavé vzťahy v dátach.

Massively parallel processing architecture

Funkcionalitu, ktorú MS dáva dopopredia ako najväčšiu výhodu je MPP – Massively parallel processing. Jedná sa o architektúru, ktorá využíva niekoľko uzlov na spracovanie dát. Pri dotazovaní sa do dát teda pracuje niekoľko výpočetných jednotiek naraz, pričom o rozdelovaní úloh rozhoduje takzvaná kontrolná jednotka. Tá transformuje SQL dotaz do niekoľkých menších a odošle ich výpočetným jednotkam, ktoré pracujú paralelne. Výsledky sa potom pošlú späť do kontrolnej jednotky, ktorá ich agreguje a vráti finálny výstup. Výpočetné jednotky zapisujú a čítajú priamo z cloudového úložiska – Azure Blob Storage. Výpočetná sila a úložisko sa s touto technológiou stávajú oddelenými a je možné ich teda samostatne riadiť. Výhodou oproti on-premise riešeniam môže byť pokročilé zálohovanie a disaster-recovery, ktoré Azure ponúka.

Microsoft meria použité zdroje vo vlastných jednotkách – tzv. DWUs – Data Warehouse Units, ktoré berú do úvahy CPU, pamät a inputs/outputs operácie. Zvyšovaním DWU jednotiek dochádza k zvyšovaniu výkonu okamžite a naopak je možné sklad vypnúť v prípade, že ho nevyužívame – nepotrebujem sa dotazovať do skladu napr. cez víkendy. Najjednoduchším spôsobom ako zistiť koľko DWU spoločnosť potrebuje je jednoducho otestovať niekoľko variánt.

V nasledujúcom blogu sa zameriam na zvyšné princípy a benefity, ktoré SQL Data Warehouse prináša.

Comments

comments

Leave a Reply