Человеческие факторы. Роли в Data Mining
Человеческий фактор при внедрении Data Mining - это наличие и квалификационное соответствие специалистов, готовых работать с Data Mining.
Специалисты компании, вовлеченные в процесс Data Mining, исполняют одну из ролей, которые показаны на рис. 21.1: специалист предметной области, администратор баз данных, специалист по добыче данных.
Рис. 21.1. Роли в Data Mining
Роли между специалистами распределены следующим образом.
Специалист предметной области (Domain experts) - специалист, имеющий знания о окружении бизнеса, процессах, заказчиках, клиентах, потребителях, конкурентах, т.е. о предметной области.
Знания о предметной области включают факты, которые к данной области относятся, закономерности, характерные для нее, гипотезы о возможных связях между явлениями, процессами и фактами в ней, процедуры для решения типовых задач. Экспертные знания - это те знания, которыми располагает специалист в некоторой предметной области.
Администратор баз данных (Database administrator) - специалист, имеющий знания о том, где и каким образом хранятся данные, как получить к ним доступ и как связать между собой эти данные.
Администратор базы данных отвечает за выработку требований к базе данных, за ее проектирование, реализацию, эффективное использование и сопровождение.
Другими обязанностями администратора баз данных могут быть: определение статуса информации и статуса пользователей; модификация данных; обеспечение целостности данных; загрузка данных и ведение БД; защита данных; обеспечение восстановления баз данных; сбор и статистическая обработка обращений к БД; анализ эффективности функционирования базы данных.
Специалист по добыче данных (Mining specialists) - специалист по анализу данных, который имеет, как минимум, основы статистических знаний.
Этот специалист должен быть способен применять технологии Data Mining и интерпретировать полученные результаты. Он должен уметь устанавливать связи со специалистом по предметной области для управления полученными результатами и с администратором БД для получения доступа к данным в запрос на свои действия.
Специалист по добыче данных ответственен за получение необходимых для Data Mining сведений из различных источников, а также за получение информации от специалистов в данной предметной области. Специалист по добыче данных должен быть также своего рода постановщиком задач. Он должен уметь получать необходимую информацию и входные данные для Data Mining-системы у специалистов по предметной области, задавать вопросы с целью уточнения сведений и т.д.
Первые две роли из описанных выше в том или ином виде присутствуют в любой компании. Третья роль в первое время внедрения Data Mining может исполняться консультантом другой компании. После приобретения соответствующих знаний, это место может занять человек из Вашей компании, например - маркетинговый аналитик.
Одной из основных трудностей при выборе специалистов либо внутри Вашей организации, либо сторонних консультантов является разнообразие областей, которые должны быть объединены в одном процессе. Процесс Data Mining требует наличия связей между бизнесом, анализом и информационными технологиями, чтобы обеспечить непрерывный двунаправленный поток информации (данные - информация - решения), который был рассмотрен в одной из начальных лекций курса.
Три роли, рассмотренные выше, являются основными, и без них процесс Data Mining не может быть осуществлен. Часто в процесс также вовлечены другие специалисты по информационным технологиям и менеджеры проектов.
Среди них могут быть:
- менеджер проектов (Project Manager);
- специалист по IT Архитектуре (IT Architect);
- специалист по Архитектуре Решений (Solution Architect);
- специалист по Архитектуре Данных (Data Architect);
- специалист по Моделированию данных (Data Modeler);
- эксперт Data Mining (Data Mining Expert);
- деловой Аналитик (Business Analyst).
О других преимуществах аутсорсинга для Data Mining будет рассказано в следующем разделе курса.
Роли Data Mining, в зависимости от конечной цели работ, распределяются следующим образом:
- исследователи (написание исследовательских докладов и статей);
- практикующие аналитики (решение реальных и практических задач анализа данных);
- разработчики программного обеспечения (написание Data Mining- программного обеспечения);
- студенты (в настоящее время обучающиеся в учебных заведениях);
- бизнес-аналитики (главным образом, оценивающие результаты использования data mining);
- менеджеры (управляют одним или большим количеством проектов);
- другие.
Теперь мы рассмотрим процесс Data Mining в разрезе работ, выполняемых описанными выше специалистами, коснемся распределения их обязанностей, укажем, где эти работы пересекаются в процессе достижения бизнес-цели.
Напомним, что процесс Data Mining практически никогда не является линейным, в большинстве случаев это итеративный циклический процесс. Именно итеративность гарантируют процессу Data Mining такой результат, который будет адаптирован под решение конкретной задачи.
Процесс Data Mining, с точки зрения человеческого фактора, является постоянным взаимодействием трех основных специалистов.
Взаимодействие специалиста по добыче данных и специалиста по предметной области осуществляется в двух точках соприкосновения (не забываем при этом, что Data Mining - итеративный процесс).
Первая точка - анализ предметной области, где определяются задачи и требования к будущей системе. Специалист по добыче данных должен вникнуть в предметную область, изучить ее базовые термины, другими словами, он должен провести анализ предметной области. На основании знаний методов и инструментов Data Mining специалист по добыче данных предлагает вариант решения проблемы.
Второй точкой соприкосновения указанных выше специалистов является интерпретация результатов, полученных в результате Data Mining.
Взаимодействие специалиста по добыче данных и администратора баз данных осуществляется на этапах анализа требований к данным и сбора данных. Непосредственно подготовка данных для Data Mining может осуществляться специалистом по добыче данных самостоятельно либо во взаимодействии с администратором баз данных.
Взаимодействие трех специалистов осуществляется на завершающих этапах Data Mining при проверке работоспособности системы, например, при сравнении прогнозных результатов с реальными. При необходимости процесс Data Mining возвращается на один из предыдущих этапов.
От того, насколько консолидированы будут действия специалистов из разных областей, зависит длительность проекта и качество полученных результатов.
Если в проекте Data Mining присутствует роль руководителя, на него возлагается координация и контроль работ, проводимых описанными выше специалистами.