DataScience(Наука о данных) (далее DS) берет свое начало из статистики, которая в свою очередь берет свое начало с великих трудов математиков, начиная с работ арабских ученых в 8 веке н.э., продолжая трудами ученых эпохи ренессанса и позднего ренессанса (Исаак Ньютон, Джон Граунт, Блез Паскаль, Пьер де Ферма и др.) и заканчивая 19 - 20 веком (Рональд Фишер, Эгон Пирсон и др.)
В чем же основное отличие совранной DS от статистики? Основное отличие заключается в двух вещах:
1) Исторически статистика была ограничена вычислительными мощностями, поэтому она базировалась на использовании выборок из данных. Из-за этого ученые были вынуждены строить свои выводы на базе некоторой генеральной совокупности. Современная DataScienceпрактически не имеет ограничений в вычислительных мощностях, поэтому мы можем отказаться от необходимости осуществлять статистическую выборку и можем анализировать и строить выводы на базе всего объема данных.
2) До появления современных высокопроизводительных вычислительных машин и соответствующего применения алгоритмов ИИ и машинного обучения учёные были вынуждены сначала выдвигать некоторую гипотезу и проводить наблюдения в соответствии с ней. Таким образом ученым приходилось проводить значительную работу для выявления зависимостей и подтверждений выдвинутой гипотезы, которые с учетом существенных ограничений в вычислительных мощностях не всегда оказывались верными. В современном мире специалист по DSможет использовать соответствующие алгоритмы и модели для выявления зависимостей программным путем. Кардинальным отличием современной DSявляется то, что практически любую рутинную работу человек может доверить машине. В то время как от специалиста по DS требуется разбираться в основным алгоритмах, моделях, библиотеках и возможностях информационных систем.
А именно с современным вычислительными мощностями и передовыми алгоритмами мы можем:
Таким образом в настоящее время появились неограниченные ресурсы по обработке и работе с любыми данными. Современные же компании, институты и другие крупные образования в настоящее время научились копить и хранить большие объемы данных, правда не всегда в структурированном виде. В результате мы наблюдаем огромный потенциал по работе с данными с получением эффективных моделей, которые позволяют достигать значительного количество целей.
А именно с современным вычислением и передовыми алгоритмами мы можем:
А) обнаружить скрытые тенденции в больших наборах данных
Б) выявить возможности для достижения целей путем группировки и кластеризации данных
В) воспользоваться тенденциями для прогнозирования
Г) вычислить вероятность любого возможно исхода
Д) получить точные результаты быстро и с минимумом затрат человеческого времени
В следующей статье рассмотрим основные подходы в работе с информацией на базе DS.
Если Вы заинтересованы в развёртывании Центра компетенций по DS в Вашей компанией, то я с удовольствием помогу в реализации таких проектов. Прошу обращаться ко мне через мой сайт: http://akonnov.ru/ или через мой Телеграм канал: https://t.me/biz_in