Data Mining

       

Общесистемные характеристики PolyAnalyst


Типы данных

PolyAnalyst работает с разными типами данных. Это: числа, булевы переменные (yes/no), категориальные переменные, текстовые строки, даты, а также свободный английский текст.

Доступ к данным

PolyAnalyst может получать исходные данные из различных источников. Это: текстовые файлы с разделителем "запятая" (.csv), файлы Microsoft Excel 97/2000, любая ODBC- совместимая СУБД, SAS data files, Oracle Express, IBM Visual Warehouse.

Поддержка OLE DB for Data Mining

Версия 4.6 PolyAnalyst поддерживает спецификацию Microsoft OLE DB for Data Mining (Version 1.0). При выполнении исследований для большинства математических модулей (LR, FD, CL, FC, DT, DF, FL,PN, BA, TB) можно создавать так называемые "Mining Models" (MM). После завершения анализа эти модели можно применять к внешним данным через стандартные интерфейсы OLE DB или ADO из других программ или скриптов, поддерживающих создание ADO или COM-объектов. Применение модели осуществляется при помощи выполнения SQL-команд (Расширение SQL for DM). Mining Models можно также экспортировать в PMML. В планах развития программы намечается обеспечить интеграцию "PolyAnalyst DataMining Provider" с Microsoft Analysis Services(в составе SQL Server 2000).

In-place Data Mining

PolyAnalyst поддерживает запуск исследований на внешних данных через OLE DB интерфейсы при без загрузки этих данных в проект PA. При выполнении исследования PolyAnalyst получает данные порциями через исполнение SQL-запросов к внешним источникам данных. Это позволяет преодолеть ограничения памяти при исследовании больших массивов данных. Данный процесс продемонстрирован на рис. 24.4.


Рис. 24.4.  In-place Data Mining

PolyAnalyst Scheduler - режим пакетной обработки

В PolyAnalyst предусмотрена возможность пакетного режима анализа данных. Для этого имеется специальный скриптовый язык, на котором программируется все аналитические действия и временная последовательность их выполнения, а также определяются наборы данных. Скрипт сохраняется в файле и автоматически инициализирует исследование в указанный момент времени на определенных данных.
Для реализации функции Scheduler в электронной лицензии должна быть включена соответствующая опция.

В таблице 24.1 описано семейство продуктов PolyAnalyst6: продукты и соответствующие конфигурации системы.

Таблица 24.1. Семейство продуктов PolyAnalystПродуктКонфигурация системыЛокальные продуктыСетевые продуктыСредства разработки
PolyAnalyst 4.6, однопользовательская версияМатематические модули: FL, FD, PN, FC, BA, ТВ, MB, CL, DS, DT, DF, LR, LA, TA, TC, LT, SS. Пакетная обработка, поддержка OLE DB. Платформа - MS Windows NT/2000/XP
PolyAnalyst 3.5 Professional (русс.)Математические модули: FL, FD, PN, FC, CL, DS, LR, SS. Платформа - MS Windows NT/2000/XP
PolyAnalyst 3.5 Power (русс.)Математические модули: FD, PN, FC, CL, DS, LR, SS. Платформа - MS Windows 98/NT/2000/XP
PolyAnalyst 3.5 Lite - студенческая версия (русс.)Математические модули: FD, FC, CL, DS, LR, SS. Платформа - MS Windows 98/NT/2000/XP
PolyAnalyst Knowledge Server 4.6, сетевая версияМатематические модули: FL, FD, PN, FC, BA, ТВ, MB, CL, DS, DT, DF, LR, LA, TA, TC, LT, SS. Пакетная обработка, поддержка OLE DB, In-Place Data Mining. Серверная часть - MS Windows NT/2000/XP server, клиентская часть - MS Windows 98/NT/2000/XP. Клиент/серверная версия системы
PolyAnalyst COM - SDK для создания собственных приложений для Data MiningНабор COM-объектов, библиотеки, документация для разработчиков


Содержание раздела