Пример иерархического кластерного анализа
Порядок агломерации (протокол объединения кластеров) представленных ранее данных приведен в таблице 13.2. В протоколе указаны такие позиции:
- Stage - стадии объединения (шаг);
- Cluster Combined - объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров);
- Coefficients - коэффициенты.
1 | 9 | 10 | ,000 |
2 | 2 | 14 | 1,461E-02 |
3 | 3 | 9 | 1,461E-02 |
4 | 5 | 8 | 1,461E-02 |
5 | 6 | 7 | 1,461E-02 |
6 | 3 | 13 | 3,490E-02 |
7 | 2 | 11 | 3,651E-02 |
8 | 4 | 5 | 4,144E-02 |
9 | 2 | 6 | 5,118E-02 |
10 | 4 | 12 | ,105 |
11 | 1 | 3 | ,120 |
12 | 1 | 4 | 1,217 |
13 | 1 | 2 | 7,516 |
Так, в колонке Cluster Combined можно увидеть порядок объединения в кластеры: на первом шаге были объединены наблюдения 9 и 10, они образовывают кластер под номером 9, кластер 10 в обзорной таблице больше не появляется. На следующем шаге происходит объединение кластеров 2 и 14, далее 3 и 9, и т.д.
В колонке Coefficients приведено количество кластеров, которое следовало бы считать оптимальным; под значением этого показателя подразумевается расстояние между двумя кластерами, определенное на основании выбранной меры расстояния. В нашем случае это квадрат евклидова расстояния, определенный с использованием стандартизированных значений. Процедура стандартизации используется для исключения вероятности того, что классификацию будут определять переменные, имеющие наибольший разброс значений. В SPSS применяются следующие виды стандартизации:
- Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.
- Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.
- Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.
- Максимум 1. Значения переменных делятся на их максимум.
- Среднее 1. Значения переменных делятся на их среднее.
- Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.
Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.