Späť na blog
Vzdelávanie

Úvod do Data Science a Machine Learning

Miroslav Beka
18.04.2020
5 minút čítania
Úvod do Data Science a Machine Learning
Na začiatku, keď človek vstupuje do Data Science je veľmi dôležité pochopiť, čo sa skrýva za rôznymi označeniami. Ľudia si vedia niektoré pojmy mýliť a preto by som v tomto článku rád veľmi zrýchlene prešiel cez niektoré základné súčasti.

Data Science je proces

Za týmto výrazom sa skrýva celá postupnosť úloh, ktoré musí datascience inžinier vykonať.

Prvá fáza je silne prepojená s biznisom. Používajú sa tu preto rôzne biznis výrazy (Business Intelligence). Ako efektívne vieme využiť softvér na dosiahnutie cieľov firmy? Pracovať pre firmu ako data scientist si vyžaduje pochopenie potrieb biznisu. V tejto fáze je tiež veľmi dôležité odkomunikovať, aké sú možnosti Data Science a čo je možné reálne dosiahnuť a čo nie. Veľa manažérov totiž nerozumie technickej stránke veci a ty ako datascience inžinier si tam na to, aby si im to vysvetlil ľudskou rečou.

Druhá fáza je príprava dát. Nejaké dáta môže mať firma už nazbierané, iné treba kúpiť alebo nájsť nový spôsob ako zozbierať to, čo potrebuješ. Takže tu sa budeš hrabať v databázach, vyťahovať rôzne dáta, spájať všetko dokopy do nejakého zmyslupného celku. Taktiež musíš vedieť vizualizovať tieto dáta, aby si videl, čo máš na ruke. Treba si overiť, že dáta majú tú kvalitu, akú očakávaš. Často sa totiž stáva, že dáta sú chybné, nekvalitné, v iných jednotkách a podobne. Na to si musíš dávať veľký pozor.

V tretej fáze začneme pracovať na modeli. To, čo sme zistili v predchádzajúcich krokoch, musíme "preložiť" do reči machine learning. Aký model použiť (vzhľadom na to, aké máš dáta), aké informácie sa z modelu vieme dozvedieť a ako to súvisí s biznisom.

Štvrtá fáza by nám mala vypľuť hotový model pripravený na používanie. Tu všetky tie naše úvahy a predpoklady musíme pretaviť do kódu a natrénovať model na dátach. Znie to jednotucho, ale nie je to úplne easy. Hlavne to záleží od toho, aké kvalitné dáta máš k dispozícii. 

Piata fáza sa opäť dotýka silne biznisu. V prvom rade musíme vedieť zhodnotiť, či model skutočne rieši náš problém, ktorý sme chceli vyriešiť a či je v tom dobrý. Tu zvykneme vytiahnuť ďalšie dáta, ktoré model ešte nevidel (testovacie dáta) a otestovať úspešnosť modelu. Výstupom by mala byť krásna prezentácia so všakovakými grafmi a vysvetlivkami, aby to tí "z hora" pochopili a dali ti palec hore. 

Machine Learning

Machine Learning je súčasťou Data Science a venuje sa algoritmom, programovaniu a trénovaniu modelu. Tento výraz si ľudia zamieňajú s umelou inteligenciou. Aby sme v tom mali jasno, umelá inteligencia využíva techniky machine learning, aby napodobnila ľudskú inteligenciu vo všeobecnosti. Umelá inteligencia sa zaoberá aj tým, ako ľudia interagujú s inteligentným agentom a aby sa ľudia cítili pohodlne, keď interagujú so strojom. Čiže je tam toho zahrnutého oveľa viacej (napr. aj psychológia). Machine Learning je tu a teraz a dennodenne sa používa. Sú to pokročilé algoritmy a techniky, ktoré spracujú nejaké dáta a vypľujú výsledok. Sú úzko špecializované na jednu a jedinú úlohu. ML techník a algoritmov je mnoho a každý rieši určitý malinký podiel tej umelej inteligencie.

Slovník

Toto odvetvie sa len tak hemží rôznymi výrazmi. Tieto stránky obsahujú základné výrazy, na ktoré určite narazíš a je dobré vedieť, čo znamenaju:

Datasety

Existuje viacero stránok, ktoré ponúkajú svoje dáta verejne a zadarmo. Inak väčšinou treba za dáta tvrdo platiť a kopec firiem si na zhromažďovaní dát vytvorili biznis.
Googlenie určite pomôže nájsť mnohé stránky, ktoré ponúkajú svoje dáta. Tu je zoznam niekoľkých populárnych stránok:

Ak chceš vedieť viac o Data Science a Machine Learningu, prihlás sa do môjho online kurzu Python Data Science. Ak máš pripomienky alebo otázky k článku, smelo sa pýtaj v komentároch.

Miroslav Beka

Ahoj, volám sa Miro a som Pythonista. Programovať som začal na strednej. Vtedy frčal ešte turbo pascal. Potom prišiel matfyz, kadejaké zveriny ako Haskell, no najviac sa mi zapáčil Python.

Od vtedy v Pythone robím všetko. Okrem vlastných vecí čo si programujem pre radosť, som pracoval v ESETe ako automatizér testovania. Samozrejme, všetko v Pythone. Potom som skočil do inej firmy, tam taktiež Python na automatické testovanie aj DevOps. Viacej krát som účinkoval ako speaker na PyCon.sk, kde som odovzdával svoje skúsenosti.

Medzi moje obľúbené oblasti teda parí DevOps, Automatizovanie testovania a web development (hlavne backend).

Okrem programovania sa venujem hlavne hudbe 🤘

Mohlo by ťa zaujímať

Konštruktory v Jave
Vzdelávanie
03.04.2020
Skillmea

Konštruktory v Jave

V tomto článku sa pozrieme, čo je to konštruktor v Jave (constructor in java). Na čo sa používa? Čo je to?  Trieda slúži na opis a výrobu objektov. Skúsme teraz porozmýšľať nad reálnym objektom – napríklad auto. Ak chceme opísať auto do programu, tak na opis auta použijeme triedu.  Čo má auto? Aké vlastnosti? Má počet dverí, značku, EČV, objem kufra a ďalších xy vecí. Nie všetky budeme používať. V našom projekte si vytvoríme novú triedu:[Image] Pomenujeme ju Auto a napíšeme tam globálne premenné. public class Auto { int doorCount; String brand; String plateNumber; }Teraz si vytvoríme objekt typu Auto. Na výrobu objektov budeme používať konštruktor. Konštruktor ako názov naznačuje slúži na skonštruovanie nového objektu. Bez toho, aby si ty sám napísal nejaký konštruktor, tak máš jeden dostupný automaticky. Tento sa volá – bezparametrický konštruktor – je to akoby metóda, ktorá na vstupe nemá parametre. Preto je možné vyrobiť nový objekt pomocou new Auto(); public class Auto { int doorCount; String brand; String plateNumber; public static void main(String[] args) { Auto auto = new Auto(); } }V programe sme použili new Auto() aj keď nič takéto nemáme napísané. Čo môžeme spraviť, je napísať si takýto konštruktor sami. public class Auto { int doorCount; String brand; String plateNumber; public Auto() { } public static void main(String[] args) { Auto auto = new Auto(); } } Do vnútra tohto konštruktoru si môžeme teraz napísať ľubovoľný kód. Konštruktory sa najčastejšie využívajú popri výrobe nového objektu aj k nastaveniu dát. Napríklad, ak chcem vyrobiť auto, ktoré je značky Škoda, tak vyrobím nový – druhý konštruktor, ktorého vstupný parameter bude práve počet dverí. Volať chceme Auto auto = new Auto(“Škoda”); public Auto(String brand) { }Čo ale spravíme s touto premennou brand, ktorú máme ako parameter? Ak pouvažujeme, tak chceme nastaviť globálnu premennú brand pre tento nový objekt. Ale ako poviem, že globálna premenná brand nech sa rovná tomu, čo je v parametry metódy brand?  Spravím to pomocou kľúčového slova this. Slovo this sa odkazuje na práve tento nový objekt, ktorý konštruujeme. Teda this sa viaže na novo vyrobený objekt z triedy Auto. Po správnosti by som mal povedať, že this odkazuje na inštanciu (instance) objektu. Pomocou konštruktoru vyrobíme novú inštanciu triedy Auto. Ak vyrobím 5 objektov, tak som vyrobil 5 inštancií triedy Auto. Takže this.brand ukazuje kam? Slovo this ukazuje na danú inštanciu objektu a cez bodku pristupujem k veciam dostupným v danej inštancii auta. Čo je tam dostupné? Teraz sú dostupné globálne premenné. Tak spravím: public Auto(String brand) { this.brand = brand; }public static void main(String[] args) { Auto auto = new Auto("Škoda"); }Po zavolaní tohto konštruktoru mám v premennej auto odkaz na objekt Auto s nastevným brand na Škoda. Takto si teraz môžem vytvárať nové inštancie typu Auto. public static void main(String[] args) { Auto auto = new Auto("Škoda"); Auto auto2 = new Auto("Škoda"); } Sú tieto dve autá rovnaké? Nie, nie sú, aj keď majú taký istý brand. Prečo? Lebo ak voláme slovíčko new, tak sa vytvára vždy úplne nový objekt v pamäti. Ukážka konštruktoru, kde nastavujeme všetky globálne premenné. V IDEI stlač ALT+Insert a vyber konštruktor – následne označ všetky premenné. Tieto premenné sa inak nazývajú aj fieldy.[Image] public Auto(int doorCount, String brand, String plateNumber) { this.doorCount = doorCount; this.brand = brand; this.plateNumber = plateNumber; } public static void main(String[] args) { Auto auto = new Auto("Škoda"); Auto auto2 = new Auto("Škoda"); Auto auto3 = new Auto(4, "Opel", "CCdddDD"); }Nové objekty môžeš vytvárať kde chceš a kedy chceš. Teraz som to robil v metóde main priamo v triede Auto. To ale samozrejme väčšinou robiť nebudeš. Viac o konštruktoroch v Jave a Java programovaní sa dozvieš v našich online kurzoch Java a OOP pre začiatočníkov a Java pre pokročilých. Ak máš nejaké otázky k tomuto blogu, napíš ich do komentárov 👇
Kolekcie v Jave
Vzdelávanie
06.03.2020
Skillmea

Kolekcie v Jave

V tomto úvodnom článku do série pokročilá java sa pozrieme na zúbok kolekciám (collections in java). Kolekcie sú akoby kontajnery, ktoré v sebe držia ďalšie objekty. Inak môžeme kolekcie chápať aj ako zoznamy. Zoznam telefónnych čísel. Zoznam osôb. Zoznam áut. Zoznam súborov. Zoznam čísiel .... Pri kolekciách budeme hovoriť o Rozhraní, Implementácii a Algoritmoch.  Java collection framework – Java sama o sebe poskytuje niekoľko kolekcií. Poskytuje nám ich implementácie a aj algoritmy na vyhľadávanie, vkladanie, triedenie a podobne. Rozhrania kolekcií v tomto frameworku sú generické. Teda umožňujú do nich vkladať rôzne typy objektov. Pamätajte, že Java je striktne typový jazyk a do premennej typu String proste int nedáš, musí tam ísť iba String. Ku generikám sa ešte dostaneme v neskoršom článku. [Image] Zoznam rozhraní Java collection frameworkuCollection – top v hierarchii, používa sa na presun kolekcii, manipuláciu kde sa požaduje aby tam prišla akákoľvek kolekcia. Do Collection môžeš vložiť akýkoľvek typ kolekcie, ktorý rozširuje túto kolekciu.  Set – nemôže obsahovať duplicity  List – zoznam, môže obsahovať duplicity, poradie elementov je zachované pomocou indexov  Queue – FIFO – first in first out, čo príde prvé do tejto kolekcie tak z nej aj prvé odíde, niektoré implementácie majú výnimky  Deque – FIFO aj LIFO (last in first out) - elementy môžu byť vkladané aj vyberané z oboch koncov  Map – object ktorý mapuje objekty k ich kľúčom, nemôže obsahovať totožné kľúče  SortedSet a SortedMap – sú vlastne zoradené Map a Set Implementácie (najpoužívanejšie sú zvýraznené boldom): SetEnumSet, HashSet, LinkedHashSet, TreeSetListArrayList, LinkedList, Stack, VectorMapEnumMap, HashMap, LinkedHashMap, TreeMapSortedSet NavigableSetTreeSetSortedMap NavigableMapTreeMapQueueLinkedList, PriorityQueue  SetNeobsahuje duplicitné elementy – lepšie povedané nemôže obsahovať duplicitné elementy.  HashSet – neuchováva poradie v akom boli elementy vložené ale pracuje najrýchlejšie  LinkedHashSet – uchováva poradie elementov v akom boli vložené  TreeSet – poradie elementov je zoradené podľa ich hodnôt, je pomalší   Majme kolekciu, ktorá obsahuje elementy, ktoré sú duplicitné. Ako z nej najrýchlejšie získame kolekciu, ktorá nemá duplicity? Collection<Type> noDups = new HashSet<Type>(c);  Funguje to tak, že z kolekcie sa vytvorí Set. A Set už z definície nemôže obsahovať duplicity. Pridanie elementov do Setu: Set<String> set1 = new HashSet<>(); String s = "e"; set1.add("element1"); set1.add("element2"); set1.add("element3"); set1.add("element4"); set1.add(s);Je element v kolekcii?  System.out.println(set1.contains("e")); //true     Odstránenie elementu z kolekcie: set1.remove(s);Prechádzanie cez Set:  Iterator i = set1.iterator(); while (i.hasNext()){ System.out.println(i.next()); }for(String s : set1) { System.out.println(s); }Spýtam sa, či všetky elementy zo set1 sú aj v set2 set1.containsAll(set2)); Odstránim z set1 všetky zhodné elementy so set2 set1.removeAll(set2);Všetko zo set2 pridám do set1 set1.addAll(set2);ListUchováva poradie elementov. Elementy sú prístupné aj pomocou indexov. Je možné do už vytvoreného Listu pridať nové elementy aj na indexy ktoré sú obsadené – elementy sa posunú. Môžeme v nich vyhľadávať indexOf a lastIndexOf. Pri Listoch si musíme dávať veľký pozor na to, aby sme nezhodili program kvôli prístupu k neexistujúcim elementom – respektíve k neexistujúcim indexom v Liste. Napríklad, máš List so 4 elementami a chceš pristúpiť k 6-temu elementu.  Základné pomocné algoritmy, špecifické ku List:  • sort — zotriedi elementy v Liste  • shuffle — náhodne pomieša elementy v Liste.  • reverse — otočí poradie elementov v Liste  • rotate — otočí poradie všetkých elementov od špecifického indexu  • swap — prehodí elementy z Listu na špecifikovaných indexoch  • replaceAll — nahradí všetky výskyty špecifikovanej hodnoty za druhú špecifikovanú hodnotu  • fill — prepíše všetky elementy v Liste za špecifikovanú hodnotu  ArrayList – prispôsobuje svoju veľkosť, základné polia museli mať špecifikovanú dĺžku pri vytvorení, nemohli rásť alebo sa zmenšovať  LinkedList – iná implementácia, rozdielu sú v časových záťažiach s rôznymi operáciami nad Listami  Pridanie elementov do Listu: List<String> list = new ArrayList<>();          list.add("list1");          list.add("list2");          list.add("list3");          list.add("list4");          list.add("list5");  Výber elementu z listu na indexy 1:         list.get(1);  Je prázdny?         list.isEmpty();  Pridaj na pozíciu 2:         list.add(2,"list2b");  Odstráň element:         list.remove("list1");           list.remove(4);  Rôzne manipulácie:         Collections.sort(list);          Collections.shuffle(list);          Collections.reverse(list);          Collections.rotate(list,2);          Collections.swap(list, 0, 1);          Collections.replaceAll(list, "list4", "new list4");          Collections.fill(list,"Jaro");  MapMapa obsahuje hodnoty viazané na kľúč. Takže to máme po anglicky key – value hodnoty. Kľúče musia byť unikátne.  HashMap – nedrží si poradie, náhodné usporiadanie  LinkedHashMap – drží poradie  Vloženie do Mapy: Map<Integer,String> map = new HashMap<>();          map.put(10,"jaro");          map.put(1,"fero");          map.put(3,"duro");          map.put(4000,"karol");          map.put(4000,"peter"); // prepise predchádzajúci element  Získame a vypíšeme hodnotu elementu s kľúčom 1:         System.out.println(map.get(1));  Prechod cez elementy Mapy:         for(Map.Entry m : map.entrySet()){              System.out.printf("key %d, value %s %n",m.getKey(),m.getValue());          }          for(Integer k : map.keySet()){              map.get(k);                  }
Kotlin vs. Java - menej kódu
Vzdelávanie
06.01.2020
Skillmea

Kotlin vs. Java - menej kódu

Kotlin a Java sú kompatibilné programovacie jazyky. V tom zmysle, že ak skompilujeme Java kód, tak sa vytvorí bytecode v súbore .class. Ak skompilujem Kotlin kód, tak sa vytvorí bytecode v súbore .class. Teda, či pracuješ v Kotline alebo v Jave, tak nakoniec budeš mať kód, ktorý si bude rozumieť a ktorý dokáže bežať tam, kde dokáže bežať JVM – java virtual machine.  V tomto článku vám chcem ukázať to, prečo bol Kotlin vytvorený – aby nám čo najviac zjednodušil písanie kódu. Predstav si, že chceš napísať triedu Auto. Tá má fieldy názov a počet dverí. Tieto fieldy budú private a final – teda po prvom nastavení ich nemôžeš zmeniť. Prístup k týmto fieldom môžeš spraviť len cez public get metódu. Zároveň, vieš zostrojiť auto tak, že mu zadáš len názov. Ak bude zadaný len názov, tak počet dverí bude automaticky 4. Ak zadáš názov a počet dverí, tak sa fieldy nastavia tak, ako sme to zadali v konštruktore. Kód v JaveTakto bude vyzerať kód napísaný v Jave: public class Auto { private final String nazov; private final int pocetDveri; public Auto(String nazov) { this(nazov,4); } public Auto2(String nazov, int pocetDveri) { this.nazov = nazov; this.pocetDveri = pocetDveri; } public String getNazov() { return nazov; } public int getPocetDveri() { return pocetDveri; } }Najprv máme dva privátne final fieldy: private final String nazov; private final int pocetDveri;Potom konštruktor, ak chcem vytvoriť objekt auto len pomocou názvu: public Auto2(String nazov) { this(nazov,4); } Konštruktor, ak chcem vytvoriť auto a nastaviť názov a počet dverí: public Auto2(String nazov, int pocetDveri) { this.nazov = nazov; this.pocetDveri = pocetDveri; }A nakoniec get metódy, aby sme mali prístup k daným fieldom: public String getNazov() { return nazov; } public int getPocetDveri() { return pocetDveri; }Ako to spravím v Kotline?Potrebujem tento kód: class Auto (val nazov: String, val pocetDveri: Int = 4) { }To je všetko, tých 20 riadkov v Jave je jeden riadok kódu v Kotline. Za Auto sú zátvorky – to je primárny konštruktor, v ktorom sa nastavujú takzvané property.  Prvá property je nazov, ktorá je val – val znamená, že hodnota sa nemôže neskôr meniť. Druhá property má nastavené = 4, to znamená, že ak chcem vytvoriť auto len zadaním názvu, tak sa automaticky pocetDveri nastaví na 4. Takto vytvorím Auto zadaním oboch property a pod tým je prístup k property cez bodku: val skoda = Auto("Skoda", 5) skoda.nazov skoda.pocetDveriVytvorenie auta len s názvom: val auticko = Auto("Skoda")Záver Páči sa ti tento prístup? Chceš vedieť viac o programovacom jazyku Kotlin? Sleduj Learn2Code a verím, že nájdeš čo hľadáš. Pripravovaný kurz o Kotline zverejníme už čoskoro.

Nezmeškaj info o nových kurzoch a špeciálnych ponukách