Data Science

Prowadzący

Czas Trwania Warsztatów

25 godzin lekcyjnych (5 dni po 5 godzin lekcyjnych)

Data Science

Praktyczna analiza danych i uczenie maszynowe

Warsztat ma na celu zdobycie przez uczestników praktycznych umiejętności pozwalających na analizę danych przy wykorzystaniu najnowszych narzędzi. Analizą danych nazywamy  w tym przypadku badanie zależności, uczenie się ich. Zależności to na przykład cena mieszkania w zależności od jego stanu, rodzaj grzyba w zależności od jego cech, czy to kto ma większą szansę na przeżycie katastrofy Titanica. Jak widać nabyte umiejętności są wyjątkowo uniwersalne.

Do kogo kierowany jest ten warsztat?

Warsztat kierowany jest do uczniów, których ciekawi otaczający ich świat, którzy chcą związać swoją przyszłość z inżynierią danych, informatyką, matematyką lub fizyką oraz chcieliby posiąść podstawowe umiejętności analizy danych i uczenia maszynowego -  umiejętności, które pozwolą na wyciągnięcie wniosków z zebranych danych.

Od uczestników warsztatów wymagana jest znajomość matematyki na poziomie gimnazjum. W szczególności umiejętność dokonywania przekształceń algebraicznych. Dodatkowo należy umieć programować. Najlepiej w językach skryptowych typu Python, ale jeżeli znasz C++/Javę to też jest dobrze. Ten warsztat nie uczy programowania tylko uczy jego wykorzystania.

Niezbędny sprzęt i oprogramowanie

Do uczestnictwa w kursie wymagany jest własny laptop z zainstalowanym środowiskiem Anaconda, do pobrania za darmo z https://www.anaconda.com/download/. Anaconda jest dostępna pod dowolny z systemów Linux, Windows, Mac.

Dlaczego warto wziąć udział w tym warsztacie?

Uczestnicy warsztatu:

  • poznają pythonowe pakiety numpy, pandas, sklearn, seaborn;
  • nauczą się prezentować dane w odpowiedni sposób - robić dobre wykresy;
  • dowiedzą się jak z suchych danych wyciągnąć interesujące informacje;
  • rozwiną swoje zainteresowania i umiejętności z obszaru matematyki i informatyki.

Program warsztatu

Dzień pierwszy

Czym jest Data Science i przypomnienie pythona

Pierwszego dnia warsztatów dowiemy się czym jest nowoczesne Data Science. Poznamy środowisko jupyter-lab będące podstawą środowiska programistycznego analityka danych pracującego w pythonie. Po szybkim przypomnieniu sobie podstaw pythona, przejdziemy do rzeczy bardziej zaawansowanych, informatyczno-matematycznych, które przećwiczymy w serii zadań.

Dzień drugi

Numpy

Numpy to podstawowa biblioteka python’owa wykorzystywana w naukowych/inżynierskich obliczeniach. Nikt nie wymyśla koła na nowo. Poznanie filozofii stojącej za Numpy’em pozwoli nam na znaczne przyspieszenie obliczeń oraz szybsze programowanie. Poznamy ją i przećwiczymy w serii zdań, poznając przy okazji takie techniki jak obliczenia wektorowe i metody Monte Carlo.

Dzień trzeci

Pandas

Pakiet pandas to standard w uczeniu maszynowym w pythonie. Dzięki niemu praca z danymi jest o niebo łatwiejsza i przyjemniejsza. Wykonanie skomplikowanych zapytań SQLowo podobnych okaże się bardzo proste. Oczywiście sam wykład to nie wszystko. Wszystkie umiejętności zostaną przećwiczone w zadaniach.

Dzień czwarty

Algorytmy uczące się i sklearn

Wstępny wykład zaprezentuje między innymi następujące metody uczenia maszynowego:

  • K-najbliższych sąsiadów
  • Drzewa decyzyjne
  • K-średnich

Implementując pierwszy z nich, z jednej strony przekonamy się, jak proste idee stoją za wieloma z algorytmów, a z drugiej zobaczymy, na jak wiele małych detali należy zwrócić uwagę przy pisaniu dobrego kodu. Pamiętając, że nie należy odkrywać koła na nowo, poznamy pakiet scikit-learn. Służy on do tworzenia systemów uczenia maszynowego, posiada zaimplementowane bardzo wiele metod. Ucząc się go, poznamy dobre praktyki i będziemy przygotowani na ostatni dzień warsztatu.

Dzień piąty

Exploratory Data Analysis czyli dzień z życia data scientist’a

Wykorzystamy nabyte przez cztery dni umiejętności do poradzenia sobie z rzeczywistymi problemami. Zobaczymy jak naprawdę wygląda praca analityka danych, dlaczego jest ciekawa, wymaga dużo myślenia i ma tak świetlaną przyszłość. Porównamy różne metody klasyfikacji i regresji oraz sprawdzimy, czy istnieje rozwiązanie idealne, zawsze działające.

Człowiek stworzony jest na to, by szukać prawdy, a nie by ją posiadać.

Blaise Pascal