Data Mining

       

Программное обеспечение для решения задач кластеризации и сегментации


Коммерческие инструменты:

  • ClustanGraphics3, (http://www.clustan.com/) иерархический кластерный анализ "сверху вниз", поддерживаются мощные графические возможности, www.clustan.com;
  • CViz Cluster Visualization, (http://www.alphaworks.ibm.com/tech/cviz)-продукт для анализа наборов данных с большой размерностью, обеспечивает визуализацию наполнения кластеров объектами;
  • IBM Intelligent Miner for Data, (http://www-4.ibm.com/software/data/iminer/), включает два кластерных алгоритма;
  • Neusciences aXi.Kohonen, (http://www.neusciences.com/), ActiveX Control для кластеризации алгоритмом Кохонена, включает Delphi-интерфейс;
  • PolyAnalyst, (http://www.megaputer.com/), предлагает кластеризацию, основанную на алгоритме локализации аномалий (Localization of Anomalies, LA);
  • StarProbe, (http://www.roselladb.com/starprobe.htm) основан на Web кросс-платформенной системе, включает методы кластеризации, нейронные сети, деревья решений, визуализацию и т.д.;
  • Visipoint (http://www.visipoint.fi/). Кластеризация методом Самоорганизующихся Карт Кохонена (Self-Organizing Map clustering) и визуализация.

Свободно распространяемые инструменты:

  • Autoclass C (http://ic.arc.nasa.gov/projects/bayes-group/autoclass/autoclass-c-program.html, http://ic.arc.nasa.gov), "обучение без учителя" при помощи Байесовских сетей от NASA, работает из-под операционных систем Unix и Windows;
  • CLUTO (http://www.cs.umn.edu/~karypis/cluto, http://www.cs.umn.edu/~karypis/cluto). В инструменте реализован набор алгоритмов кластеризации, основанных на разделении данных;
  • Databionic ESOM Tools (http://databionic-esom.sourceforge.net/). Инструмент представлен набором программ для кластеризации, визуализации и классификации, реализован алгоритм ESOM - выходящие самоорганизующиеся карты;
  • MCLUST/EMCLUST (http://www.stat.washington.edu/fraley/mclust_home.html). В инструменте реализовано создание кластеров при помощи модельного подхода (model-based) и дискриминантного анализа, иерархическая кластеризация. Программная реализация инструмента - на Фортране с интерфейсом к S-PLUS;
  • PermutMatrix (http://www.lirmm.fr/).

    Существует множество инструментов для решения задач классификации. Инструменты этой группы строят модели, которые делят исходный набор данных на 2 или более дискретных класса. Инструменты классификации, в соответствии с используемыми методами, делятся на следующие категории: правила, деревья решений, нейронные сети, Байовские сети, метод опорных векторов и другие. Этот список практически соответствует тому набору методов классификации, который был рассмотрен во втором разделе курса лекций.




    Программное обеспечение для кластерного анализа, с хорошими графическими возможностями, здесь реализовано несколько методов иерархического кластерного анализа;
  • PROXIMUS (http://www.cs.purdue.edu/homes/koyuturk/proximus/). Инструмент для сжатия размерности, кластеризации и обнаружения образцов в дискретных наборах данных;
  • ReCkless (http://cde.iiit.net/RNNs/) является набором кластерных алгоритмов, основанных на концепции k-ближайших соседей. Инструмент перед проведением кластеризации выполняет поиск и идентификацию шумов и выбросов для уменьшения их влияния на результаты кластеризации;
  • Snob (http://www.csse.monash.edu.au/), программа кластеризации на основе MML (Minimum Message Length - Минимальная Длина Сообщения);
  • SOM in Excel (http://www.geocities.com/adotsaha/NN/SOMinExcel.html), реализация метода самоорганизующихся карт Кохонена в Microsoft Excel от Angshuman Saha.
Как видим из описания, многие программные продукты совмещают в себе реализацию нескольких методов, в частности, очень часто вместе с кластерными методами также реализованы и методы визуализации. Некоторые инструменты ориентированы на работу только с дискретными данными. Это следует учитывать при выборе программного обеспечения.


Содержание раздела