Статьи

Принципы работы с моделями в Data Science

Сегодня инструменты Data Science становятся востребованными как никогда, ведь они представляют аналитикам огромные возможности по моделированию и классификации реального мира. Как мы помним, чем более закрытой является система с наличием условно-постоянных переменных и их взаимосвязей, тем лучше работают такая модель. В мире хаоса, где существенно меняются переменные и их взаимосвязи такие модели конечно работать не будут.

Обучение моделей проводят аналогично обучению эксперта. Необходимо собрать набор релевантных данных, сделать его классификацию, проанализировать взаимосвязи и получить соответствующий опыт. Для целей решения задачи методами машинного обучения, необходимо подать достаточный объем данных на вход, при помощи которого мы научим компьютер. Это называется обучающий (тренировочный) набор данных или обучающая выборка.

Для того, чтобы давать предсказания, необходимо выявить взаимосвязи признаков исходных данных и ответов (искомое значение). Специалист по Data Science начинает с того, что выдвигает предположение, как именно устроены эти взаимосвязи. Далее на основании такого предположения делает предсказания. Если они соответствуют реальности это означает, что предположение верное. Такой подход получил название «моделирование», а непосредственно предположения и способы предсказания получили название: «модели машинного обучения».

Сегодня познакомимся с базовыми утилитарными моделями, которые можно использовать для прогнозирования и классификации, это:
·        Дерево решений (Decision tree)
·        Случайный лес (Random forest)
·        Логистическая регрессия (Logistic regression)

Дерево решений служит для описания процесса принятия решения практически в любой задаче. На базе значений признаков даются конкретные ответы, после формируется дерево с ответами «Да»/«Нет» и разными вариантами решений или действий.

Случайный лес — это такой алгоритм обучение, когда строится некоторое количество независимых друг от друга деревьев, далее алгоритм принимает решение какое из них лучше на основе голосования. В отдельных случаях случайный лес повышает качество предсказания и помогает избежать переобучения.

Логистическая регрессия — это алгоритм классификации и прогнозирования вероятности некоторого события в сравнении с полученной логистической кривой. В логистической регрессии количество параметров как правило ограничено. Таким образом алгоритм затруднительно максимально подстроиться к признакам в формуле, поэтому и вероятность переобучения может быть понижена.

В следующей статье мы подробнее рассмотрим как сравнивать модели между собой и оценивать их качество. Я продолжаю публиковать статьи про развитие бизнеса в т.ч. в сфере цифровых и информационных технологий, а также продолжаю заниматься бизнес-консалтингом. Если Вам интересны статьи на данную тему, то подписывайтесь на мой Телеграм канал: https://t.me/biz_in. Если же у Вас имеется потребность в консультационной поддержке бизнеса, то жду Вас на своем сайте: https://akonnov.ru/.

Anton Konnov

2022-01-17 15:22 Бизнес