Popis předmětu - A4M33BDT
A4M33BDT | Technologie pro velká data | ||
---|---|---|---|
Role: | Rozsah výuky: | 1P+1C | |
Katedra: | 13136 | Jazyk výuky: | CS |
Garanti: | Zakončení: | KZ | |
Přednášející: | Kreditů: | 3 | |
Cvičící: | Semestr: | L |
Webová stránka:
https://sites.google.com/a/via.felk.cvut.cz/bigdata/Anotace:
Předmět se zaměřuje na architekturu a aplikace systémů pro správu velkých dat. Studenti si osvojí celistvý pohled na ekosystém technologií od výběru hardware infrastruktury, procesu extrakce, transformace a načítání dat přes jejich uložení, správu a analýzu až po pokročilé metody datové vědy a strojového učení pro zpracování dat a následné aplikace výsledků v byznysu.Cíle studia:
Cílem tohoto předmětu je seznámit studenty s novými trendy a technologiemi pro uchovávání, správu a zpracování velmi rozsáhlých dat (big data).Osnovy přednášek:
1. | Úvod, organizace, motivace, přehled, aplikace | |
2. | Architektura clusteru - Hadoop (hw, distribuce, hdfs, yarn) | |
3. | Storage (formáty ukládání a komprese dat, HIVE, Impala) | |
4. | Map+reduce - paradigma a implementace (fáze výpočtu, schémata algoritmů) | |
5. | Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming) | |
6. | Big Data Science (page rank, kolaborativní filtrování, SNA) | |
7. | Datové Architektury (typické architektury Big Data řešení, dwh, data lake) |
Osnovy cvičení:
1. | První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy) | |
2. | Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy) | |
3. | Map Reduce (java úlohy na základní map reduce programování) | |
4. | Spark (map reduce ve sparku, práce s RDD a DF) | |
5. | Spark (větší úloha a příprava na zápočtový test) | |
6. | Rezerva (Spark ML a GraphiX) |
Literatura:
Hadoop: The Definitive Guide, 4th Edition, by Tom WhitePožadavky:
Cvičení budou probíhat standardním způsobem předpokládáme, že studenti si přinesou vlastní počítače pro editování skriptů. Vlastní výpočty plánujeme v počítačovém klastru se vzdáleným přístupem. Pro praktická cvičení budou studenti používat předistalovanou databázi textů. Náplní cvičení bude praktické uplatnění přednášených technologií na konkrétních příkladech. V průběhu semestru jsou plánovány dva krátké testy z dosud probrané látky.Klíčová slova:
Big Data, Hadoop, Machine learningPředmět je zahrnut do těchto studijních plánů:
Plán | Obor | Role | Dop. semestr |
Stránka vytvořena 15.9.2024 12:51:11, semestry: Z/2025-6, Z,L/2024-5, Z,L/2023-4, připomínky k informační náplni zasílejte správci studijních plánů | Návrh a realizace: I. Halaška (K336), J. Novák (K336) |