Сбор данных
Наличие в организации хранилища данных делает анализ проще и эффективней, его использование, с точки зрения вложений, обходится дешевле, чем использование отдельных баз данных или витрин данных. Однако далеко не все предприятия оснащены хранилищами данных. В этом случае источником для исходных данных являются оперативные, справочные и архивные БД, т.е. данные из существующих информационных систем.
Также для Data Mining может потребоваться информация из информационных систем руководителей, внешних источников, бумажных носителей, а также знания экспертов или результаты опросов.
Следует помнить, что в процессе подготовки данных аналитики и разработчики не должны привязываться к показателям, которые есть в наличии, и описать максимальное количество факторов и признаков, влияющих на анализируемый процесс.
На этом этапе осуществляется кодирование некоторых данных. Допустим, одним из атрибутов клиента является уровень дохода, который должен быть представлен в системе одним из значений: очень низким, низким, средним, высоким, очень высоким. Необходимо определить градации уровня дохода, в этом процессе потребуется сотрудничество аналитика с экспертом в предметной области. Возможно, для таких преобразований данных потребуется написание специальных процедур.