Проектирование систем искусственного интеллекта


         

У нас нет возможности сделать


У нас нет возможности сделать полный обзор всех коэффициентов, поэтому остановимся лишь на характерных расстояниях и мерах близости для определенных видов данных.

Меры близости отличаются от расстояний тем, что они тем больше, чем более похожи объекты.

Пусть имеются два объекта X=(X1,…,Xm) и Y=(Y1,…,Ym). Применяя эту запись для объектов, определить основные виды расстояний, используемых процедуре CLUSTER:

  • Евклидово расстояние
    (Euclidian distance).
  • Квадрат евклидова расстояния
    (Squared Euclidian distance)
Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.

  • Мера близости — коэффициент корреляции
    , где
    и
    — компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов.
  • Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y , которые, предположительно, являются Таблица 5.1. Таблица для пары объектов — строк частот
    X X1 ... Xm X.
    Y Y1 ... Ym Y.
    X+Y X1+Y1 ... Xm+Ym X.+Y.
    векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E(Xi)=X.*(Xi+Yi)/(X.+Y.) и E(Yi)=Y.*(Xi+Yi)/(X.+Y.), а расстояние хи-квадрат имеет вид корня из соответствующего показателя
    .
  • Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным "число объектов" в таблице сопряженности, представляемой строками X и Y, т.е. на корень квадратный из N=X.+Y..
  • В иерархичесом кластерном анализе в SPSS также имеется несколько видов расстояний для бинарных данных (векторы X и Y состоят из нулей и единиц, обозначающих наличие или отсутствие определенных свойств объектов). Наиболее естественными из них, по видимому, являются евклидово расстояние и его квадрат.


Содержание  Назад  Вперед