Ako naštartovať kariéru v data science 2

V predchádajúcom článku sme si predstavili akým skillsetom by mal disponovať ideálny data scientist. Je potrebné povedať, že tieto skúsenosti sa môžu individuálne líšiť. Vo všeobecnosti však platia a preto je aktuálny článok venovaný platformám, kde je možné tieto skúsenosti nazbierať.

Pre nováčikov, ktorí začínajú v oblasti dát a chcú sa naučiť základy SQL je k dispozícií výborný web http://sqlzoo.net/, ktorý odporúčam stále, keď dostanem otázku, kde sa dá tento jazyk pre spracovanie dát naučiť. O pokročilých technikách a optimalizácií SQL už písal Martin Bosák v jednom z článkov .

Populárnym jazykom v oblasti data science je aktuálne Python, ktorý je vďaka jednoduchosti a zároveň rozsiahlej funkcionalite využívaný nie len na účely analýz a vizualizácií, ale využiť sa dá aj v oblasti predikcií a machine learningu. Python podporuje objektovo orientované, štruktúrované aj funkcionálne programovanie.  Niekoľko užitočných zdrojov pre začiatočníkov (aj pokročilých):

  • Príručka Think Python – je zdarma, písaná prakticky a zameraná na príklady, ale zároveň obsahuje nutnú teóriu.
  • DataCamp – kurz Python, ale aj R priamo v prehliadači, ktorý je interaktívny a myslím, že efektívny spôsob ako sa dané jazyky naučiť. Nevýhodou je, že je potrebné platiť subscription, avšak výhodou je certifikát po ukončení každého modulu.
  • DataQuest – rovnaký princíp ako DataCamp, odporúčam vyskúšať oba a vybrať si jeden. DataQuest obsahuje aj tréningy na machine learning.
  • Posledný a najviac pokročilý zdroj je Kaggle. Táto platforma združuje ľudí, ktorých zaujíma data science a prediktívna analytika a na druhej strane organizácie, ktoré poskytujú reálne a často veľmi zaujímavé datasety / projekty. Takýmto spôsobom je možné trénovať svoje schopnosti na reálnych projektoch, vybudovať si vlastné portfólio a možno aj prispieť k dobrej veci :).

Pre dátovú vizualizáciu je možné využiť niektoré z modulov programovacích jazykov R alebo Python:

  • ggplot2  pre R
  • Matplotlib Pre Python

Obe je možné trénovať na DataCamp.

prípadne pre finálnu vizualizáciu a komplexné a dynamické dashboardy využiť jeden z nástrojov ako Tableau, Qlikview alebo Power BI.

Jedným najdôležitejších predpokladov je na záver pochopiť techniky a algoritmy z oblasti AI & Machine Learning. Pre tento účel odporúčam online kurz zo Stanford University, ktorý má výborné hodnotenia a učiteľ zrozumiteľne začína od základných princípov a postupne príde až k pokročilým algoritmom. 

Comments

comments

Leave a Reply