[ITtensive] Mашинное обучение: из грязи в Kaggle-князи
Машинное обучение: из грязи в Kaggle-князи
Регрессия, классификация, нейросети, ансамбли, обучение с подкреплением, понижение размерности
Описание
Большой практический курс по всем аспектам машинного обучения на Python в решении задач соревнования Kaggle. Курс состоит из 3 больших частей:
Регрессия и предсказание данных
Рассмотрим все практические аспекты применения линейной регрессии для предсказания числовых показателей энергопотребления ASHRAE.
- Особенности процесса анализа данных (ETL): загрузка, очистка, объединение наборов данных с pandas.
- Проведение исследовательского анализа данных для поиска зависимостей: EDA.
- Использование sklearn для линейной регрессии.
- Интерполяция и экстраполяция данных.
- Расчет метрики качества RMSLE для моделей линейной регрессии.
- Оптимизация линейной регрессии: выбор наилучших параметров и гиперпараметров.
- Оптимизация потребления памяти при работе с большими данными.
- Запасные модели линейной регрессии.
- Ансамбли линейной регрессии для уточнения предсказания.
- Экспорт и импорт данных, включая промежуточные.
Кластеризация и классификация
Отработаем прикладные подходы к кластеризации и классификации данных с помощью машинного обучения для страхового скоринга Prudential.
- Метрики классификации: точность, полнота, F1, квадратичная каппа и матрица неточностей.
- Очистка данных и оптимизация потребления памяти.
- Кластеризация данных и метод ближайших соседей.
- Простая и иерархическая логистическая регрессия.
- Метод ближайших соседей и поиск оптимальной модели.
- Метод опорных векторов: SVM.
- Дерево принятия решения и случайный лес (бэггинг).
- XGBosot и градиентный бустинг.
- LightGBM и CatBoost
- Ансамбль стекинга для голосования и выбора лучшего результата.
Разберем сегментацию и классификацию изображений облаков с помощью сверточных, пирамидальных, остаточных и полносвязных нейронных сетей.
- Метрики точности: оценка F1 и коэффициент Дайса.
- Очистка данных и обработка изображений.
- Загрузка и сохранение моделей и данных в HDF5.
- Двухслойный и многослойный перцептрон.
- Нейросети со сверточными слоями и слоями подвыборки.
- Функции активации, инициализация и оптимизаторы нейросетей.
- Преобразование и дополнение (аугментация) бинарных данных.
- LeNet, AlexNet, GoogLeNet.
- VGG, Inception, ResNet, DenseNet.
- Сегментация изображений с MobileNet, Unet, PSPNet и FPN.
- Ансамбль нейросетей.
- Аналитики Python, изучающие машинное обучение
- Программисты больших данных
- Исследователи больших данных