Popis kurzu Machine Learning v Pythone
Sú data scientisti čarodejníci keď tvrdia, že dokážu predpovedať budúcnosť? To rozhodne nie. :) Jednoducho vidia vo svojom okolí “funkciu” a odhadnú ju pomocou prediktívneho modelu. Napríklad, zozbierajú dáta o počasí a pomocou nich predpovedajú koľko ľudí sa rozhodne kúpiť si zmrzlinu v nasledujúci deň.
V tomto kurze sa naučíte vytvárať prediktívne modely pomocou strojového učenia (machine learning)! Po absolvovaní kurzu budete vedieť všetko potrebné na vybratie vhodného prediktívneho modelu, jeho správne vytvorenie a vyhodnotenie jeho úspešnosti.
Vieme, že najlepšie sa človek naučí nové zručnosti ich praktizovaním, a preto je pre vás pripravených 15 praktických programovacích cvičení v Jupyter notebookoch s úlohami a vysvetleniami jednotlivých konceptov.
Čo sa v kurze Machine Learning v Pythone naučíte
Celkový obsah kurzu je 10 hodín. Prostredie, v ktorom budete počas kurzu programovať sa nazýva Jupyter notebooky s Pythonom. Nižšie je uvedený zoznam oblastí, ktorým sa v kurze venujeme:
-
“Prvotný (baseline) model”: Na začiatku si povieme, čo vás v kurze čaká a rovno začneme aj s učením! Ukážeme si základný baseline model, ktorým môžeme začať prediktívne modelovanie.
-
“Evaluácia modelu a kompozitný kód”: Vytvoríme si náš prvý prediktívny model a povieme si o rôznych metrikách, pomocou ktorých hodnotíme jeho predpovede. Taktiež sa naučíme písať profesionálny kód, ktorý sa používa v reálnom svete.
-
“Rozhodovacie stromy a tuning hyperparametrov”: V tejto časti sa naučíte o modeli s názvom “rozhodovací strom”, ktorý dokáže predpovedať medzi dvoma cieľovými kategóriami. Na zlepšenie výkonnosti modelu sa naučíme kontrolovať nastavenia, takzvané hyperparametre.
-
“Náhodný les a kNN algoritmus”: Keď sme sa už naučili ako funguje “rozhodovací strom”, môžeme na našich vedomostiach stavať a posunúť sa k modelu “náhodného lesa”, ktorý sa bežne používa v praxi. Taktiež si ukážeme model s názvom kNN, ktorý na vytvorenie predpovedí využíva algoritmus “najbližších susedov” a jeho brata - rNN model.
-
“Lineárna regresia”: Touto časťou prechádzame do oblasti lineárnych modelov. Naučíme sa o jednom z najdôležitejších modelov s názvom lineárna regresia, pomocou ktorej vytvoríme predpovede a budeme pozorovať aký efekt majú vstupné dáta na vytvorenú predpoveď.
-
“Regularizované modely”: V tejto časti sa naučíme o 3 regularizovaných modeloch, ktoré sú variáciami lineárnej regresie: Lasso, Ridge a Elastic Net. Tieto modely sú veľmi užitočné, napríklad, v regulovaných prostrediach ako je bankovníctvo alebo poisťovníctvo.
-
“Logistická regresia”: Ďalším z lineárnych modelov je logistická regresia, ktorá dokáže predpovedať dve alebo viac cieľových kategórií. Ukážeme si tiež ako použiť výstupy z tohto modelu. Zhrnieme si aj predpoklady lineárnych modelov, ktoré nám môžu pomôcť zlepšiť výkonnosť modelu.
-
“Clustering-zhlukovanie”: V tejto časti sa naučíme o modeloch kMeans a DBSCAN, ktoré fungujú na princípe “zhlukovania dát” s podobnými vlastnosťami a na základe týchto skupín vytvárajú predpovede.
-
“Redukcia dimenzionality a detekcia anomálií”: Vysvetlíme si ako fungujú algoritmy, ktoré redukujú dimenzionalitu vstupných dát. Taktiež si ukážeme ako nám machine learning pomáha pre detekovaní anomálií v dátach.
Pre koho je kurz Machine Learning v Pythone vhodný
Začnime pomyselným “strašiakom” - matematikou. Mnoho ľudí má z modelov strojového učenia a umelej inteligencie príliš veľký rešpekt. Majú pocit, že musia skvelo zvládať matematiku, aby tieto modely mohli pochopiť a používať. Túto obavu však vôbec nemusíte mať. :) Všetky metódy v kurze budú vysvetľované veľmi intuitívne a vizuálne. V kurze sa nachádza minimum rôznych matematických zápisov a rovníc. Počas kurzu nazrieme “pod kapotu” rôznych modelov a metód a pochopíme ako fungujú aj bez komplexných matematických zápisov. Zároveň si však povieme o všetkých dôležitých predpokladoch, ktoré musíme splniť, aby sa v našom modeli niečo nepokazilo.
Kurz je priamym pokračovaním nášho kurzu
Vytváranie atribútov pre Machine Learning v Pythone,
v ktorom učíme o správnej príprave dát pre machine learning modely. Odporúčame teda najprv absolvovať tento kurz, aby ste získali potrebné základy práce so scikit-learn knižnicou. Okrem toho sa, prosím, uistite, že spĺňate vstupné požiadavky popísané nižšie:
- zvládate prácu s Jupyter notebookmi,
- dokážete pracovať s knižnicou pandas a spracovávať v nej dáta,
- viete čo sú Numpy polia a zvládate základné operácie s nimi,
- máte základný konceptuálny prehľad o svete Data Science a prístupoch zmeny dát na hodnotné informácie (opis, objavovanie, inferencia, prediktívne modelovanie),
- zvládate stredoškolskú matematiku a základy deskriptívnej štatistiky (priemer, medián, modus, variabilita, atď.).
Čo po kurze dokážete a čo si odnesiete?
V posledných rokoch firmy ponúkajú mnoho pozícií s názvom “Data Scientist”. Zvyčajnou požiadavkou je schopnosť aplikovať prediktívne modelovanie v Pythone. Presne túto schopnosť získate v kurze. Absolventi tohto kurzu častokrát fungujú na pozícií “Junior Data Scientist”, prípadne sú v roli “experimentátorov”. Experimentujú s rôznymi dátami vo firmách a vytvárajú jednoduché prototypy modelov strojového učenia. Ak sa nejaký z týchto experimentov vydarí, začnú spolupracovať so skúsenejšími data scientistmi na vytvorení kompletného produktu dátovej vedy z ich skorého prototypu.
Z kurzu si odnesiete praktické skúsenosti s vytváraním modelov strojového učenia nad štrukturovanými dátami. Budete vedieť ako fungujú algoritmy prediktívnych modelov a ovládať rôzne evaluačné techniky na základe použitého modelu.
V prípade, že smerujete v budúcnosti do Data Science pozície, ktorá si vyžaduje aj prácu so spracovaním obrázkov a textu pomocou machine learning-u, môžete priamo pokračovať do ďalšieho kurzu s názvom “Neurónové siete, machine learning pre text a obrázky”.
Čo je potrebné na absolvovanie kurzu Machine Learning v Pythone
- Vlastný laptop. Firemný laptop môže spôsobovať problémy, napríklad, pri prístupoch na Google Drive prostredie alebo pri inštalácii knižníc.
- Základná znalosť angličtiny: Minimálne pasívna znalosť na úrovni čítania textu keďže pre knižnice, o ktorých sa budeme učiť sú vytvorené dokumentácie v anglickom jazyku. Všetky video tutoriály sú však v slovenskom jazyku.
- Stabilné internetové pripojenie. Pre sledovanie video lekcií či prácu na cvičeniach je internetové pripojenie neustále potrebné.
- Aktualizovaný internetový prehliadač Google Chrome, Microsoft Edge alebo Mozilla Firefox.
- (odporúčané) Google účet. S Jupyter notebookmi odporúčame pracovať v prostredí Google Colaboratory. V prípade, že Google účet nemáte a ani si ho nechcete zakladať, bude k dispozícii druhá alternatíva na lokálnu prácu s Jupyter notebookmi.
Čo všetko s kurzom Machine Learning v Pythone získate
- 15 Jupyter notebookov, v ktorých si nielen prakticky vyskúšate jednotlivé koncepty, ale môžete ich používať ako osobnú referenciu vo vašom (budúcom) zamestnaní,
- video tutoriály o Machine Learningu v Pythone,
- moderované diskusné fórum, v ktorom na vaše otázky odpovedá autor kurzu Róbert Barcík,
- certifikát o absolvovaní online kurzu Machine Learning v Pythone,
- garancia vrátenia peňazí do 14 dní v prípade nespokojnosti s kurzom.