Przetwarzanie danych ustrukturyzowanych

Course: [ all modules ]

Wersja do wydruku
Kod przedmiotu: 
1120-DS000-ISP-0124
ECTS: 
5
Program rozpoczęty w roku: 
2020-2021
Prowadzący: 
dr hab. inż. Marek Gągolewski, prof. PW
Koordynator przedmiotu: 
dr hab. inż. Marek Gągolewski, prof. PW
Jednostka: 
Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych
Status przedmiotu: 
obowiązkowy
Poziom: 
podstawowy
Język wykładowy: 
polski
Rodzaj studiów: 
inżynierskie
Kierunek studiów: 
Matematyka
Kierunek studiów: 
Matematyka i Analiza Danych
Kierunek studiów: 
Inżynieria i Analiza Danych
Semestr (stopień 1): 
2
Tryb studiów: 
stacjonarne
Specjalność: 
--
Sposób zaliczenia: 
zaliczenie
Liczba godzin w semestrze: 
75
Wykład: 
2
Ćwiczenia: 
0
Laboratoria: 
2
Projekt: 
1
Wymagania wstępne: 

Podstawy programowania i przetwarzania danych

Algebra liniowa z geometrią analityczną

 

Celem przedmiotu jest przegląd najczęściej stosowanych w praktyce metod przetwarzania danych i przygotowywania ich do analizy. Szczególny nacisk położony jest na omówienie i ćwiczenie technik filtrowania, przekształcania i agregacji zmiennych lub całych zbiorów danych, także w podgrupach. Uczestnicy kursu poznają najbardziej podstawowe metody czyszczenia danych, ich wizualizacji i podsumowywania, a także imputacji braków danych. Ponadto nabywają umiejętność przetwarzania danych w postaci tekstowej, m.in. z różnego rodzaju API i innych zasobów internetowych. Do osiągnięcia powyższych celów używany jest przede wszystkim język R wraz z bogatym zbiorem pakietów dla tego środowiska. Szczególnie jednak eksponowane są techniki i funkcje obecne w innych środowiskach, m.in. Python 3.

 

 

Zawartość przedmiotu: 

1. Podstawowe atomowe typy danych w R: Wektory i NULL

2. Zwektoryzowane operacje na wektorach atomowych. Przekształcanie i filtrowanie zmiennych. Agregacja zmiennych

3. Przetwarzanie danych tekstowych. Wyrażenia regularne

4. Listy. Funkcje

5. Instrukcja sterująca i pętle

6. Atrybuty obiektów. Programowanie obiektowe w stylu S3

7. Typy złożone: obiekty reprezentujące czas, czynniki, szeregi czasowe, macierze i ramki danych oraz podstawowe operacje na nich

8. Niestandardowa ewaluacja. Formuły

9. Filtrowanie, przekształcanie i czyszczenie ramek danych. Imputacja braków danych

10. Agregacja i inne operacje na danych w podgrupach. Scalanie ramek danych

11. Przetwarzanie danych tekstowych. Wyrażenia regularne

12. Operacje na plikach i katalogach. Pobieranie danych z API. Wydobywanie informacji ze stron WWW

13. Tworzenie wykresów

14. Python 3: numpy, scipy, pandas

 

Efekty kształcenia: 

1.  Efekty kształcenia i ich odniesienie do charakterystyk drugiego stopnia Polskiej Ramy Kwalifikacji oraz efektów uczenia się kierunkach Inżynieria i Analiza Danych, Matematyka i Analiza Danych 

Efekty uczenia się dla modułu

OPIS EFEKTÓW UCZENIA SIĘ

Absolwent studiów pierwszego stopnia na kierunkach Inżynieria i Analiza Danych oraz Matematyka i Analiza Danych

Odniesienie do charakterystyk drugiego stopnia Polskiej Ramy Kwalifikacji (P6S_)

Odniesienie do efektów uczenia się dla kierunku

WIEDZA

W01

Zna podstawy programowania w języku R i jego najważniejsze typy danych (w tym wektory atomowe, listy, funkcje, czynniki, szeregi czasowe, macierze oraz ramki danych)

P6S_WG

DS_W14,

MAD_W13,

MAD_W14

W02

Zna podstawowe metody i algorytmy wykorzystywane w przetwarzaniu i eksploracji danych oraz przygotowywaniu ich do analizy

P6S_WG

DS_W08, DS_W09,

MAD_W13,

MAD_W14

UMIEJĘTNOŚCI

U01

Umie przeprowadzić wstępną analizę danych, m.in. podsumować wartości zmiennych oraz przedstawić je w postaci graficznej

P6S_UW, P6S_UK

DS_U03, DS_U04, DS_U15,

MAD_U15,

MAD_U18

U02

Umie zaimplementować proste metody przetwarzania i analizy danych oraz ocenić ich złożoność pamięciową i czasową

P6S_UW

DS_U11, DS_U13, DS_U14,

MAD_U12,

MAD_U13

U03

Potrafi pozyskiwać dane ze źródeł tekstowych i zasobów w internecie, wyczyścić je i przygotować do analizy

P6S_UW

DS_U22,

 

KOMPETENCJE SPOŁECZNE

K01

Zna potrzebę uczenia się przez całe życie i podnoszenia kompetencji zawodowych oraz potrafi myśleć i działać w sposób przedsiębiorczy

P6S_KK

DS_K01,

MAD_K05

2.  Formy prowadzenia zajęć i sposób weryfikacji efektów uczenia się

Zamierzone efekty

Forma zajęć

Sposób weryfikacji

W01, W02, U01 – U03, K01

wykład, laboratoria, projekt

ocena prac domowych oraz projektów

 

Regulamin zaliczenia: 

Na zaliczenie składają się oceny zdobyte za rozwiązania 3-5 prac domowych oraz zadań projektowych.

Do zdobycia maks. 100 p. Ocena końcowa wynika z sumy punktów; ≤50 p. - 2,0; (50,60] – 3,0; (60,70] – 3,5; (70,80] – 4,0; (80,90] – 4,5; >90 – 5,0.

Szczegółowy regulamin zaliczenia podawany jest na początku semestru.

 

Literatura i oprogramowanie: 

1. Gągolewski M., Programowanie w języku R. Analiza danych, obliczenia, symulacje, Wydawnictwo Naukowe PWN, wydanie II, 2016

2. Wickham H., Grolemund G., R for Data Science, O'Reilly, 2016

3. Chambers J.M., Programming with Data, Springer, 1998

4. Chambers J.M., Software for Data Analysis. Programming with R, Springer, 2008

5. Matloff N.S., The Art of R Programming: A Tour of Statistical Software Design, No Starch Press, 2011

6. Venables W.N., Ripley B.D., S Programming, Springer, 2000

7. Wickham H., Advanced R, Chapmah & Hall/CRC, 2014

8. Gagolewski M., Bartoszuk M., Cena A., Przetwarzanie i analiza danych w języku Python, Wydawnictwo Naukowe PWN, Warszawa, 2016

9. McKinney W., Python for Data Analysis. Data Wrangling with Pandas, NumPy, and IPython, O'Reilly Media, 2012

10. Richert W., Coelho L.P., Building Machine Learning Systems with Python, Packt Publishing, 2013