«Мы то, что нас окружает. Человек создает вещи – а затем они начинают создавать его.» Маршалл Маклюэн.
В отчете за август 2018 года «Linkedin Workforse Report» сказано, что в Соединенных Штатах существует нехватка более 150 тысяч специалистов в области data science.
Все мы знаем обозначение термина статистика, однако не всем однозначно понятен термин Data Science, при этом сходство этих двух терминов является очень сильным. Data science фактически является набором продвинутых инструментов по работе с большими статистическими данными (Big Data). При этом Data Science может не ограничиваться как объемами, так и источниками информации. Т.е. инструментарий позволяет использовать всеобъемлющую неструктурированную информацию, структурируя и обрабатывая ее наиболее эффективным образом с применением производительных современных ПК.
Методы Data Science, например активно используются в метеорологии, машинном обучении, прогнозирования авто трафика, анализе поведения пользователей в сети.
Что представляет из себя пошаговая деятельность Data Science 1. Сбор данных 2. Обработка и подготовка данных 3. Составление краткого перечня соответствующих исследованию алгоритмов 4. Настройка и донастройка параметров алгоритмов 5. Построение моделей и выбор наиболее подходящей
Data Science позволяет: 1. Обнаружить скрытые тенденции в больших выборках данных. 2. Воспользоваться этими тенденциями в прогнозировании. 3. Вычислить вероятность любого возможного исхода. 4. Получить точные результаты максимально быстро.
В чем же отличие бизнес аналитика от специалиста по Data Science? Специалист по Data Science — это инженер, который решает задачу бизнеса как техническую. Бизнес-аналитик больше погружается в бизнес-составляющую задачи. Он изучает потребности, анализирует данные, тестирует гипотезы и визуализирует результат.
Конечно, успешность и эффективность работы Data Science будет зависеть от качества исходных данных и качества процесса сбора данных. Частично процесс автоматизированного сбора данных изложен у меня в отдельной статье по Data Mining. Всем очень рекомендую с ней ознакомиться.
Для тех, кто заинтересован в более подробном изучении данных тем, рекомендую ознакомиться с книгами: Д.Шпигельхалтер «Искусство статистики», А.Ын, К.Су «Теоретический минимум Big Data».
Так же УЦ Специалист при МГТУ им. Баумана предлагает замечательный курс по Data Science: https://www.specialist.ru/dictionary/definition/data_science