Как и откуда выбирают модели в Data Science

Как и откуда выбирают модели в Data Science

В прошлой статье мы познакомились с тремя базовыми, утилитарными моделями-алгоритмами:
· Дерево решений (Decision tree)
· Случайный лес (Random forest)
· Логистическая регрессия (Logistic regression)

Как же выбрать наиболее оптимальное решение даже из перечисленных трех моделей спросите Вы. Чтобы выявить «то самое», нужно обучить модель: построить логистическую регрессию, случайный лес или подобрать решающее дерево, которое больше всего подойдёт нашей обучающей выборке. За это отвечают алгоритмы обучения и их настраиваемые гипер-параметры моделей. При этом очень важно подготовить используемые выборки для работы нашей модели.

После того как обучение закончено соответствующая модель в состоянии предсказывать: принимать на вход новые объекты (признаки) и формулировать ответы (целевой признак). Таким образом процедуру машинного обучения можно поделить на два этапа: обучение модели и работа такой модели.

Одновременно работать с тремя моделями не нужно. У каждой — свои достоинства и недостатки. Оценим модели по качеству (accuracy) и скорости работы:

1. Качество (accuracy). Это самый важный критерий для бизнеса: чем выше качество, тем больше прибыли приносит продукт. Формула расчета относительно простая: количество правильных ответов на количество итого ответов.

2. Скорость работы. Не менее значимый критерий: если сервис работает медленно, оттока пользователей не избежать.

3. В реальной жизни существуют отдельные сложные математические алгоритмы для проверки эффективности моделей, которые, по сути, строятся на качестве, точности и полноте прогнозирования. Для такой проверки используются соответствующие алгоритмы из библиотеки Python sklearn.

Исходный код в алгоритмах обучения как правило устроен гораздо сложнее, нежели код в используемой модели. В алгоритмах обучения разработчиками написаны сложные комплексные математические функции, которые позволяют Нам этот алгоритм применять для решения определенных задач. Специалисту по Data Science самое главное понимать, какой именно алгоритм подходит под конкретные задачи, уметь его настроить и уметь работать с тем, что он выдаст.

В библиотеках Python в настоящее время доступными являются многие алгоритмы для машинного обучения. Основной и самой известной библиотекой является scikit-learn, или sklearn. В ней содержится значительное количество инструментов, поэтому они структурированы по разделам. Например, в разделе tree располагается решающее дерево. Алгоритмы проверки качества моделей и указанные выше три алгоритма так же содержатся в данной библиотеке.

Я продолжаю публиковать статьи про развитие бизнеса в т.ч. в сфере цифровых и информационных технологий, а также продолжаю заниматься бизнес-консалтингом. Если Вам интересны статьи на данную тему, то подписывайтесь на мой Телеграм канал: https://t.me/biz_in. Если же у Вас имеется потребность в консультационной поддержке бизнеса, то жду Вас на своем сайте: https://akonnov.ru

Новости и статьи

Новости и статьи