Popis předmětu - B0M33BDT
B0M33BDT | Technologie pro velká data | ||
---|---|---|---|
Role: | Rozsah výuky: | 2P+1C | |
Katedra: | 13136 | Jazyk výuky: | CS |
Garanti: | Hučín J., Paščenko P., Sušický M. | Zakončení: | Z,ZK |
Přednášející: | Filas P., Hučín J., Oharek M., Paščenko P., Sušický M. | Kreditů: | 4 |
Cvičící: | Osob je mnoho | Semestr: | Z |
Webová stránka:
https://cw.fel.cvut.cz/wiki/courses/B0M33BDTAnotace:
Předmět se zaměřuje na architekturu a aplikace systémů pro správu velkých dat. Studenti si osvojí celistvý pohled na ekosystém technologií od výběru hardware infrastruktury, procesu extrakce, transformace a načítání dat přes jejich uložení, správu a analýzu až po pokročilé metody datové vědy a strojového učení pro zpracování dat a následné aplikace výsledků v byznysu.Cíle studia:
Cílem tohoto předmětu je seznámit studenty s novými trendy a technologiemi pro uchovávání, správu a zpracování velmi rozsáhlých dat (big data).Osnovy přednášek:
1. | Úvod, organizace, motivace, přehled, aplikace | |
2. | Architektura clusteru - Hadoop (hw, distribuce, hdfs, yarn) | |
3. | Storage (formáty ukládání a komprese dat, HIVE, Impala) | |
4. | Map+reduce - paradigma a implementace (fáze výpočtu, schémata algoritmů) | |
5. | Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming) | |
6. | Big Data Science (page rank, kolaborativní filtrování, SNA) | |
7. | Datové Architektury (typické architektury Big Data řešení, dwh, data lake) |
Osnovy cvičení:
1. | První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy) | |
2. | Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy) | |
3. | Map Reduce (java úlohy na základní map reduce programování) | |
4. | Spark (map reduce ve sparku, práce s RDD a DF) | |
5. | Spark (větší úloha a příprava na zápočtový test) | |
6. | Rezerva (Spark ML a GraphiX) |
Literatura:
Hadoop: The Definitive Guide, 4th Edition, by Tom WhitePožadavky:
Cvičení budou probíhat standardním způsobem předpokládáme, že studenti si přinesou vlastní počítače pro editování skriptů. Vlastní výpočty plánujeme v počítačovém klastru se vzdáleným přístupem. Pro praktická cvičení budou studenti používat předistalovanou databázi textů. Náplní cvičení bude praktické uplatnění přednášených technologií na konkrétních příkladech. V průběhu semestru jsou plánovány dva krátké testy z dosud probrané látky.Klíčová slova:
Big Data, Hadoop, Machine learningPředmět je zahrnut do těchto studijních plánů:
Plán | Obor | Role | Dop. semestr |
Stránka vytvořena 19.3.2025 17:50:54, semestry: Z/2025-6, L/2024-5, L/2025-6, Z/2024-5, připomínky k informační náplni zasílejte správci studijních plánů | Návrh a realizace: I. Halaška (K336), J. Novák (K336) |