Проектирование систем искусственного интеллекта



         

Стандартизация


Непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений. Поэтому применяются следующие виды стандартизации:

  • Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.
  • Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.
  • Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.
  • Максимум 1. Значения переменных делятся на их максимум.
  • Среднее 1. Значения переменных делятся на их среднее.
  • Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.
  • Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

Таким образом, работа с кластерным анализом может превратиться в увлекательную игру, связанную с подбором метода агрегирования, расстояния и стандартизации переменных с целью получения наиболее интерпретируемого результата. Желательно только, чтобы это не стало самоцелью и исследователь получил действительно необходимые содержательные сведения о структуре данных.

Процесс агрегирования данных может быть представлен графически деревом объединения кластеров (Dendrogramm) либо "сосульковой" диаграммой (Icicle).

Дендрограмма классификации

Рис. 5.2.  Дендрограмма классификации

Но подробнее о процессе кластеризации можно узнать по протоколу объединения кластеров (Schedule).

Пример иерархического кластерного анализа. Проведем кластерный анализ по полученным нами ранее факторам на агрегированном файле Курильского опроса:

Классификация городов

Рис. 5.3.  Классификация городов

CLUSTER fac1_1 fac2_1 /METHOD BAVERAGE /MEASURE= SEUCLID /ID=name /PRINT SCHEDULE CLUSTER(3,5) /PLOT DENDROGRAM .

В команде указаны переменные fac1_1 fac2_1 для кластеризации. По умолчанию расстояние между кластерами определяется по среднему расстоянию между объектами (METHOD BAVERAGE), а расстояние между объектами — как квадрат евклидова (MEASURE= SEUCLID).


Содержание  Назад  Вперед