Data Mining



         

Глава 3. Предварительная обработка данных - часть 3


Описаны различные типы грязных данных, среди них выделены следующие группы:

  • грязные данные, которые могут быть автоматически обнаружены и очищены;
  • данные, появление которых может быть предотвращено;
  • данные, которые непригодны для автоматического обнаружения и очистки;
  • данные, появление которых невозможно предотвратить.

Поэтому важно понимать, что специальные средства очистки могут справиться не со всеми видами грязных данных.

Рассмотрим наиболее распространенные виды грязных данных:

  • пропущенные значения;
  • дубликаты данных;
  • шумы и выбросы.

Пропущенные значения (Missing Values).

Некоторые значения данных могут быть пропущены в связи с тем, что:

  • данные вообще не были собраны (например, при анкетировании скрыт возраст);
  • некоторые атрибуты могут быть неприменимы для некоторых объектов (например, атрибут "годовой доход" неприменим к ребенку).

Как мы можем поступить с пропущенными данными?

  • Исключить объекты с пропущенными значениями из обработки.
  • Рассчитать новые значения для пропущенных данных.
  • Игнорировать пропущенные значения в процессе анализа.
  • Заменить пропущенные значения на возможные значения.

Дублирование данных (Duplicate Data).

Набор данных может включать продублированные данные, т.е. дубликаты.

Дубликатами называются записи с одинаковыми значениями всех атрибутов.

Наличие дубликатов в наборе данных может являться способом повышения значимости некоторых записей. Такая необходимость иногда возникает для особого выделения определенных записей из набора данных. Однако в большинстве случаев, продублированные данные являются результатом ошибок при подготовке данных.

Как мы можем поступить с продублированными данными?

Существует два варианта обработки дубликатов. При первом варианте удаляется вся группа записей, содержащая дубликаты. Этот вариант используется в том случае, если наличие дубликатов вызывает недоверие к информации, полностью ее обесценивает.

Второй вариант состоит в замене группы дубликатов на одну уникальную запись.

Шумы и выбросы.

Выбросы - резко отличающиеся объекты или наблюдения в наборе данных.




Содержание  Назад  Вперед