Форматы хранения данных
Одна из основных особенностей данных современного мира состоит в том, что их становится очень много. Возможны четыре аспекта работы с данными: определение данных, вычисление, манипулирование и обработка (сбор, передача и др.).
При манипулировании данными используется структура данных типа "файл". Файлы могут иметь различные форматы.
Как уже было отмечено ранее, большинство инструментов Data Mining позволяют импортировать данные из различных источников, а также экспортировать результирующие данные в различные форматы.
Данные для экспериментов удобно хранить в каком-то одном формате.
В некоторых инструментах Data Mining эти процедуры называются импорт/экспорт данных, другие позволяют напрямую открывать различные источники данных и сохранять результаты Data Mining в одном из предложенных форматов.
Наиболее распространенные форматы, согласно опросу "Форматы хранения данных", представлены на рис. 2.5.
Рис. 2.5. Наиболее распространенные форматы хранения данных
Наибольшее число опрошенных (23%) предпочитают хранить данные в формате той базы данных, которую они используют. В формате Text, CSV - 18%, по 14% опрошенных хранят данные в формате Text, space or tab separated и SAS; в формате Excel - 9%, SPSS - 8%, S-Plus/R - 4%, Weka ARFF - 6%, в других форматах инструментов Data Mining - 2%.
Как видим из результатов опроса, наиболее распространенным форматом хранения данных для Data Mining выступают базы данных.