https://academy.stepik.org/big-data
Click House AirFlow PySpark SparkML Hadoop
Исследование данных.
II - Data Engineering
Обработка данных посредством PySpark (parquet-файлы) и подготовка их к обучению моделей в виде PySpark-задачи (PySparkJob.py).
III - ML Engineering
Cоздание распределённой модели в PySparkML для предсказания CTR в виде двух PySpark задач:
PySparkMLFit.py- задача, которая должна тренировать модель, подбирать оптимальные гиперпараметры на входящих данных, сохранять ее и производить оценку качества модели, используя RegressionEvaluator и выводя в консоль RMSE модели на основе test датасета.PySparkMLPredict.py- задача, которая должна загружать модель и строить предсказание над переданными ей данными.
-
Введение в Big Data для Data Science
- Зачем DS знать Big Data?
- Хранение данных
- Обработка данных
- SQL и ClickHouse
-
Hadoop
- Архитектура Hadoop
- HDFS
- MapReduce
- Hive
- Hbase
-
Spark
- Архитектура spark
- Spark Core
- Потоковая обработка данных
-
Workflow
- Управление данными ETL/ELT
- Архитектура хранилищ Data Warehouse vs Data Lake
- Облачные решения
- Apache Airflow
-
SparkML
- Распределенные модели машинного обучения
- Spark ML компоненты и модели
- Поставка моделей
-
BI Tools
- Работа с данными в Superset
- Аналитические агрегаты
-
Проект
В проекте вы будете представлять себя рекламным аналитиком: сначала вы должны исследовать и выкачать данные (ClickHouse), потом обработать их и обучить модель с этими данными (PySpark), а в конце визуализировать выводы и создать отчеты (Superset).