Data Mining



         

Предпосылки создания KXEN - часть 2


В предыдущих лекциях мы установили, что одна из ключевых проблем в предсказательном анализе - приведение данных в соответствие с используемыми алгоритмами. Одни алгоритмы воспринимают только символы, другие - только числа. Очень часто эксперту приходится тратить много времени на предварительную подготовку данных и их кодирование (обработка пропусков в данных, обработка выбросов, кодирование данных в зависимости от выбранного алгоритма для анализа и т.д.) Также предполагается, что в распоряжении аналитика есть алгоритмы, которые позволяют получить хорошие и состоятельные результаты.

Каким же образом KXEN решает эту проблему? Разработчики KXEN интегрировали способы автоматической обработки отсутствующих и нетипичных значений и технологию предварительного кодирования. Подготовка данных в KXEN разделена на два этапа. На первом этапе, который называется "преобразование данных" (Data Manipulation), специалисты в предметной области выбирают в базе данных или самостоятельно создают атрибуты (переменные, столбцы), которые могут представлять интерес для их задачи. Например, ни одна автоматическая система не скажет, что последняя пятница месяца является хорошим индикатором для прогнозирования денежных потоков между банками. Второй этап подготовки данных включает в себя оптимальное кодирование указанных атрибутов для их наилучшего анализа в рамках выбранных алгоритмов. Задача KXEN заключается в том, чтобы, как только бизнес-пользователь проведет описание задачи, обеспечить автоматическое кодирование соответствующих данных и извлечь максимум сведений по поставленному вопросу.

Другим ключевым моментом является интерпретируемость результатов. Все компоненты KXEN сконструированы таким образом, чтобы представлять конечным пользователям содержательные результаты, т.е. содержательное наполнение, которое отображается в виде графиков, например, понятие вклада переменных, важности категорий, индикаторов качества и надежности.

Сами по себе методы описательного и предсказательного анализа бесполезны.


Содержание  Назад  Вперед