[Stepik] Big Data for Data Science. 2021 (Александр Савченко, Ольга Силютина)
[Stepik] Big Data for Data Science. 2021 (Александр Савченко, Ольга Силютина)
?
Этот курс — программа проекта Stepik Academy. Перед покупкой посмотрите, пожалуйста, информацию и программу на сайте проекта.
В повседневной жизни мы пользуемся самыми разнообразными цифровыми устройствами, и каждый из нас генерирует огромные объемы информации за свою жизнь. И для хранения и обработки такого объема информации созданы специальные технологии которые любят называть таинственным словом Big Data.
Специалистам в сфере науки о данных так или иначе приходится работать со специальными хранилищами и технологиями, используемыми для хранения и обработки больших данных.
В данном курсе мы познакомимся с технологиями из мира больших данных, рассмотрим, как их можно применять для обработки данных и в машинном обучении. Рассмотрим и изучим процессы параллельной и распределенной обработки больших объемов данных.
Разберемся, как работают системы для хранения больших данных, рассмотрим основные принципы обработки таких объемов данных.
Познакомимся с фреймворками Hadoop, Spark, Airflow, специальными хранилищами данных HDFS, ClickHouse, а так же с BI инструментом SuperSet.
Изучим работу распределенного машинного обучения и его применение с использованием модуля SparkML.
Мы будем решать практические задания на языках Python и SQL, поэтому вам потребуется навыки программирования на базовом уровне.
Для кого этот курс
Специалисты Data Science и все те кто хочет познакомится с Big Data, а также узнать как применяются эти технологии для хранения, обработки данных и в машинном обучении.
Начальные требования
Базовые знания языка Python и SQL.