B процессе анализа данных (Data Mining) используются алгоритмы машинного обучения, позволяющие прогнозировать развитие ситуации, выявлять закономерности, оценивать значимость факторов и т.п.
Подобных алгоритмов разработано множество, но даже самые мощные из них не способны гарантировать качественный результат. Алгоритмы машинного обучения могут найти закономерности в данных, только если сведения корректно собраны. На практике чаще всего именно проблемы с данными являются причиной неудач.
Ниже описаны этапы сбора информации, следуя которым, можно подготовить качественные данные в нужном для анализа объеме. В предлагаемой методике все достаточно просто и логично, но, несмотря на это, неопытные аналитики почти всегда допускают одни и те же тривиальные ошибки. Следование описанным правилам повысит вероятность получения качественного результата. Данные методика — не жесткий набор инструкций, а, скорее, список рекомендаций, которых желательно придерживаться.
Общая схема применения алгоритмов Data Mining состоит из следующих шагов (подробнее в статье «Методика анализа данных»):
- Выдвижение гипотез
- Сбор информации и систематизация данных
- Подбор модели, объясняющей собранные данные
- Тестирование и интерпретация результатов
- Использование модели
При этом на любом из этапов возможен возврат на один или несколько шагов назад.
Данная последовательность действий не зависит от предметной области, поэтому ее можно использовать для любой сферы деятельности