Data Mining



         

Основные характеристики пакета SAS Enterprise Miner 5.1 - часть 3


Графики и таблицы интерактивно связаны между собой и поддерживают выполнение таких операций как очистка и связывание.

Удобное копирование данных и графиков в другие приложения, а также возможность их сохранения в виде файлов GIF или TIF.

Кластеризация

  • По выбору пользователя или автоматический - выбор k лучших кластеров.
  • Различные стратегии кодирования классовых переменных в процессе анализа.
  • Управление недостающими данными.
  • Графики профилей переменных сегментов, отражающие распределение исходных данных и других факторов в рамках каждого кластера.
  • Профиль дерева решений, использующий исходные данные для составления прогноза о принадлежности кластеру.
  • Оценочный код PMML.

Анализ рыночной корзины

Выявление ассоциаций и причинно-следственных связей:

  • Сетевой график правил, упорядоченный по степени достоверности.
  • Статистические графики подъема, достоверности, прогноза достоверности и поддержки правил.
  • Статистическая гистограмма частотных показателей в заданных границах поддержки и достоверности.
  • График зависимости разброса достоверности от прогнозируемой достоверности.
  • Таблица описания правил.
  • Сетевой график правил.

Органичная интеграция правил с другими исходными данными обеспечивает расширенное прогностическое моделирование.

Удобный вывод правил обеспечивает кластеризацию клиентов по их покупательным и поведенческим характеристикам.

Оценочный код PMML.

Анализ Web-активности

  • Масштабируемое и эффективное выявление наиболее популярных Интернет-маршрутов на основе анализа данных об Интернет-активности пользователей.
  • Выявление наиболее частых последовательностей в последовательных данных любого типа.

Уменьшение размерности

Выбор переменных:

  • Удаление переменных, не связанных с целевыми признаками, на основе критериев отбора хи-квадрат или R2.
  • Удаление переменных из иерархий.
  • Удаление переменных со многими недостающими значениями.
  • Сокращение числа классовых переменных с большим количеством уровней.
  • Группировка непрерывных исходных данных для выявления нелинейных взаимосвязей.
  • Выявление взаимодействий.

Главные компоненты:




Содержание  Назад  Вперед