Построение систем машинного обучения на языке Python (Луис Педро Коэльо, Вилли Ричарт)
Автор: Ричарт В., Коэльо П.Л.
Дата выхода: 30 сентября 2015 года
Формат: 148 * 210 мм
Бумага: офсетная
Обложка: Мягкая обложка
Объем, стр.: 302
ISBN: 978-5-97060-330-7
Вес, гр.: 500
Применение машинного обучения для лучшего понимания природы данных – умение, необходимое любому современному разработчику программ или аналитику. Python – замечательный язык для создания приложений машинного обучения. Благодаря своей динамичности он позволяет быстро производить разведочный анализ данных и экспериментировать с ними. Обладая первоклассным набором библиотек машинного обучения с открытым исходным кодом, Python дает возможность сосредоточиться на решаемой задаче и в то же время опробовать различные идеи.
Книга начинается с краткого введения в предмет машинного обучения и знакомства с библиотеками NumPy, SciPy, scikit-learn. Но довольно быстро авторы переходят к более серьезным проектам с реальными наборами данных, в частности, тематическому моделированию, анализу корзины покупок, облачным вычислениям и др.
Издание рассчитано на программистов, пишущих на Python и желающих узнать о построении систем машинного обучения и научиться извлекать из данных ценную информацию, необходимую для решения различных задач.
В главе 1 «Введение в машинное обучение на языке Python» читатель знакомится с основной идеей машинного обучения на очень простом примере. Но, несмотря на простоту, в этом примере имеет место опасность переобучения.
В главе 2 «Классификация в реальной жизни» мы используем реальные данные, чтобы продемонстрировать классификацию и научить компьютер различать различные классы цветов.
В главе 3 «Кластеризация – поиск взаимосвязанных сообщений» мы узнаем об эффективности модели набора слов, с помощью которой сумеем найти похожие сообщения, не «понимая» их смысла.
В главе 4 «Тематическое моделирование» мы не станем ограничиваться отнесением сообщения только к одному кластеру, а свяжем с ним несколько тем, поскольку политематичность характерна для реальных текстов.
В главе 5 «Классификация – выявление плохих ответов» мы узнаем, как применить дилемму смещения-дисперсии к отладке моделей машинного обучения, хотя эта глава посвящена в основном использованию логистической регрессии для оценки того, хорош или плох ответ пользователя на заданный вопрос.
В главе 6 «Классификация II – анализ эмоциональной окраски» объясняется принцип работы наивного байесовского классификатора и описывается, как с его помощью узнать, несет ли твит положительный или отрицательный эмоциональный заряд.
В главе 7 «Регрессия» объясняется, как использовать классический, но не утративший актуальности метод – регрессию – при обработке данных. Вы узнаете и о более сложных методах регрессии, в частности Lasso и эластичных сетях.
В главе 8 «Рекомендование» мы построим систему рекомендования на основе выставленных потребителями оценок. Мы также узнаем, как формировать рекомендации, имея только данные о покупках, безо всяких оценок (которые пользователи выставляют далеко не всегда).
В главе 9 «Классификация по музыкальным жанрам» мы предположим, что кто-то сознательно внес хаос в нашу огромную коллекцию музыкальных произведений, и единственная надежда навести порядок – поручить машине их классификацию. Как выяснится, иногда лучше довериться чужому опыту, чем создавать признаки самостоятельно.
В главе 10 « Машинное зрение» мы применим методы классификации к обработке изображений, выделяя признаки из данных. Мы также увидим, как с помощью этих методов можно находить похожие изображения в наборе.
Из главы 11 «Понижение размерности» мы узнаем о методах, позволяющих уменьшить объем данных, чтобы алгоритмы машинного обучения могли с ними справиться.
В главе 12 «Когда данных больше» мы рассмотрим некоторые подходы, позволяющие успешно обрабатывать большие наборы данных, задействуя несколько ядер или вычислительные кластеры. Мы также познакомимся с основами облачных вычислений (на примере служб Amazon Web Services).