Data Mining

       

Классификация инструментов Data Mining


Рынок инструментов Data Mining определяется широтой этой технологии и вследствие этого - огромным многообразием программного обеспечения. Приведем классификацию инструментов Data Mining согласно KDnuggets: инструменты общего и специфического назначения; бесплатные и коммерческие инструменты.

Наиболее популярная группа инструментов содержит следующие категории:

  • наборы инструментов;
  • классификация данных;
  • кластеризация и сегментация;
  • инструменты статистического анализа;
  • анализ текстов (Text Mining), извлечение отклонений (Information Retrieval (IR));
  • инструменты визуализации.

Наборы инструментов. К этой категории относятся универсальные инструменты, которые включают методы классификации, кластеризации и предварительной подготовки данных. К этой группе относятся такие известные коммерческие инструменты как:

  • Clementine (http://www.spss.com/clementine). Data Mining с использованием Clementine является бизнес-процессом, разработанным для минимизации времени решения задач. Clementine поддерживает процесс Data Mining: доступ к данным, преобразования, моделирование, оценивание и внедрение. При помощи Clementine Data Mining выполняется с методологией CRISP-DM.
  • DBMiner 2.0 Enterprise (http://www.dbminer.com), мощный инструмент для исследования больших баз данных; использует Microsoft Сервер SQL 7.0 Plato.
  • IBM Intelligent Miner for Data (http://www.ibm.com/software/data/iminer/fordata/). Инструмент предлагает последние Data Mining-методы, поддерживает полный Data Mining процесс: от подготовки данных до презентации результатов. Поддержка языков XML и PMML.
  • KXEN (Knowledge eXtraction ENgines). Инструмент, работающий на основе теории Вапника (Vapnik) SVM. Решает задачи подготовки данных, сегментации, временных рядов и SVM-классификации.
  • Oracle Data Mining (ODM) (http://otn.oracle.com/products/bi/9idmining.html). Инструмент обеспечивает GUI, PL/SQL-интерфейсы, Java-интерфейс. Используемые методы: байесовская классификация, алгоритмы поиска ассоциативных правил, кластерные методы, SVM и другие.
  • Polyanalyst (http://www.megaputer.com/).
    Набор, обеспечивающий всесторонний Data Mining. Сейчас, помимо методов прежних версий, также включает анализ текстов, лес решений, анализ связей. Поддерживает OLE DB for Data Mining и DCOM-технологию.
  • SAS Enterprise Miner (http://www.sas.com/). Интегрированный набор, который обеспечивает дружественный GUI. Поддерживается методология SEMMA.
  • SPSS (http://www.spss.com/clementine/). Один из наиболее популярных инструментов, поддерживается множество методов Data Mining.
  • Statistica Data Miner (http://www.StatSoft.com/). Инструмент обеспечивает всесторонний, интегрированный статистический анализ данных, имеет мощные графические возможности, управление базами данных, а также приложение разработки систем.
Примером российской разработки инструментального набора, кроме Polyanalyst, является пакет Deductor, при помощи которого в предыдущих лекциях были решены некоторые задачи. Deductor будет подробно рассмотрен в одной из последующих лекций.

Наиболее известный представитель свободно распространяемого набора инструментов - пакет Weka (http://www.cs.waikato.ac.nz/ml/weka/index.html). Weka представляет собой набор алгоритмов машинного обучения для решения реальных Data Mining-проблем. Weka написана на Java и запускается практически со всех платформ.

Вторая группа задач представлена инструментами, реализующими следующие решения:

  • инструментарий для поиска ассоциативных правил;
  • агенты;
  • оценивание, регрессии и прогнозирование;
  • анализ связей;
  • последовательные шаблоны и временные ряды;
  • инструменты BI (Business Intelligence), Database and OLAP software;
  • инструменты преобразования и очистки данных;
  • библиотеки, компоненты и инструментальные наборы для разработчиков создания встроенных приложений Data Mining;
  • Web Mining: анализ поведения сайтов, XML mining;
  • поиск на Web;
  • Audio and Video Mining.
Некоторые из этих групп инструментов будут более детально рассмотрены далее.

Среди поставщиков Data Mining можно выделить ряд компаний, основная цель которых - консультирование по применению Data Mining.Одна из наиболее известных среди них - компания Two Crows.


Содержание раздела