Проектирование систем искусственного интеллекта



         

Иерархический кластерный анализ - часть 2


У нас нет возможности сделать полный обзор всех коэффициентов, поэтому остановимся лишь на характерных расстояниях и мерах близости для определенных видов данных.

Меры близости отличаются от расстояний тем, что они тем больше, чем более похожи объекты.

Пусть имеются два объекта X=(X1,…,Xm) и Y=(Y1,…,Ym). Применяя эту запись для объектов, определить основные виды расстояний, используемых процедуре CLUSTER:

  • Евклидово расстояние
    d(X,Y)=\sqrt{\sum\limits_{i=1}^{m} (X_i-Y_i)^2}
    (Euclidian distance).
  • Квадрат евклидова расстояния
    d(X,Y)=\sum\limits_{i=1}^{m} (X_i-Y_i)^2
    (Squared Euclidian distance)

Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.

  • Мера близости — коэффициент корреляции
    S(X,Y)=(\sum\limits_{i=1}^{m} Z_{X_i}Z_{Y_i})/(m-1)
    , где
    Z_{X_i}
    и
    Z_{Y_i}
    — компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов.
  • Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y , которые, предположительно, являются Таблица 5.1. Таблица для пары объектов — строк частот
    X X1 ... Xm X.
    Y Y1 ... Ym Y.
    X+Y X1+Y1 ... Xm+Ym X.+Y.
    векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E(Xi)=X.*(Xi+Yi)/(X.+Y.) и E(Yi)=Y.*(Xi+Yi)/(X.+Y.), а расстояние хи-квадрат имеет вид корня из соответствующего показателя
    d(X,Y)=\sqrt{\sum\limits_{i=1}^{m}\frac{(X_i-E(X_i))^2}{E(X_i)}+\sum\limits_{i=1}^{m}\frac{(Y_i-E(Y_i))^2}{E(Y_i)}}
    .
  • Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным "число объектов" в таблице сопряженности, представляемой строками X и Y, т.е. на корень квадратный из N=X.+Y..
  • В иерархичесом кластерном анализе в SPSS также имеется несколько видов расстояний для бинарных данных (векторы X и Y состоят из нулей и единиц, обозначающих наличие или отсутствие определенных свойств объектов). Наиболее естественными из них, по видимому, являются евклидово расстояние и его квадрат.



Содержание  Назад  Вперед