Data Mining



         

Инструменты очистки данных - часть 8


Определение качественной программы очистки данных, по словам Рича Олшефски, состоит из четырех элементов. Программа должна:

  • не затрагивать правильные данные;
  • исправлять неверные;
  • создавать небольшой по объему отчет о подозрительных записях;
  • требовать минимальных затрат на установку, обслуживание и ручные проверки.

Именно такая программа будет "золотой серединой" между ошибками Типа 1 и 2.

Каким же образом можно достичь такого равновесия?

Каждая программа очистки данных имеет некую базу знаний, используемую для поиска и исправления ошибок. Чем она больше и разнообразнее по составу информации, тем лучше результаты очистки.

Рич Олшефски предлагает советы по выбору программного обеспечения, поддерживающего равновесие между двумя возможными перегибами в процессе очистки данных.

  • Самым важным является объем базы знаний. Отметьте для себя размер базы знаний и различные виды хранящейся в ней информации. Обратите внимание на количество подтверждений, использующихся при принятии решений по элементам данных. Потребуйте от поставщика продемонстрировать вам примеры работы программы с различными неоднозначными данными.
  • Проведите небольшой опыт. Попросите вашего потенциального поставщика описать, как его решение обрабатывает ошибки Типов 1 и 2. Если он не понимает, о чем речь, даже после того как вы объяснили ему терминологию, вы явно обращаетесь не по адресу - либо это не специалист, либо вообще не тот поставщик, что вам нужен.
  • Следует тщательно оценить возможности решений. Готовые демо-версии, изображающие решение всех ваших проблем с помощью продукта конкретного поставщика, всегда чрезвычайно подозрительны. Понятно, что демо-версии предназначены для отражения наиболее сильных сторон решений, однако вам следует проявить дотошность. Хорошая демо-версия берет данные "с лету", в идеале - просто ваши собственные.
  • Необходимо удостовериться, что вы владеете полной информацией о продукте. Убедитесь, что вы ясно представляете себе стоимость установки, обслуживания и объем организационной работы.


    Содержание  Назад  Вперед