Data Mining



         

Основные характеристики пакета SAS Enterprise Miner 5.1


Интерфейсы

Простой графический интерфейс, создающий диаграммы процессов обработки данных:

  • Быстрое создание большого числа качественных моделей.
  • Возможность доступа через Web-интерфейс.
  • Доступ к среде программирования SAS.
  • Возможность обмена диаграммами в формате XML.
  • Возможность повторного использования диаграмм в качестве шаблонов для других проектов и пользователей.

Пакетная обработка:

  • Включает в себя все те же возможности, что и графический интерфейс.
  • Основана на языке SAS macro.

Экспериментальный интерфейс Java API.

Репозитарий моделей с Web-интерфейсом:

  • Управление большими портфелями моделей.
  • Поиск моделей по заданному алгоритму, целевой переменной и т.п.
  • Публикация результатов в виде ступенчатых диаграмм, деревьев и скоринг-кодов, удобных для специалистов в области бизнеса и анализа данных.

Масштабируемая обработка

  • Серверная обработка - обучение модели в асинхронном режиме. Аккуратная остановка обработки (по заданным критериям).
  • Параллельная обработка - одновременный запуск нескольких диаграмм или инструментов.
  • Многопоточные прогностические алгоритмы.
  • Все хранение и обработка данных - на серверах.

Доступ к данным

Доступ более чем к 50 различным файловым структурам.

Интеграция с пакетом SAS ETL Studio посредством SAS Metadata Server:

  • SAS ETL Studio можно использовать для определения исходных, обучающих таблиц для пакета Enterprise Miner.
  • SAS ETL Studio можно использовать для извлечения и развертывания скоринг-кода пакета Enterprise Miner.

Выборки

  • Простая случайная.
  • Стратифицированная.
  • Взвешенная.
  • Кластерная.
  • Систематическая.
  • Первые N наблюдений.
  • Выборка редких событий.

Разбивка данных

  • Создание обучающих, проверочных и тестовых наборов данных.
  • Обеспечение качественного обобщения моделей на основании контрольных данных.
  • Стандартная стратификация по целевому классу.
  • Сбалансированная разбивка по любой классовой переменной.

Преобразования

  • Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное.
  • Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.
  • Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.

Фильтрация недостоверных данных




Содержание  Назад  Вперед