Data Mining

       

Форматы хранения данных


Одна из основных особенностей данных современного мира состоит в том, что их становится очень много. Возможны четыре аспекта работы с данными: определение данных, вычисление, манипулирование и обработка (сбор, передача и др.).

При манипулировании данными используется структура данных типа "файл". Файлы могут иметь различные форматы.

Как уже было отмечено ранее, большинство инструментов Data Mining позволяют импортировать данные из различных источников, а также экспортировать результирующие данные в различные форматы.

Данные для экспериментов удобно хранить в каком-то одном формате.

В некоторых инструментах Data Mining эти процедуры называются импорт/экспорт данных, другие позволяют напрямую открывать различные источники данных и сохранять результаты Data Mining в одном из предложенных форматов.

Наиболее распространенные форматы, согласно опросу "Форматы хранения данных", представлены на рис. 2.5.


Рис. 2.5.  Наиболее распространенные форматы хранения данных

Наибольшее число опрошенных (23%) предпочитают хранить данные в формате той базы данных, которую они используют. В формате Text, CSV - 18%, по 14% опрошенных хранят данные в формате Text, space or tab separated и SAS; в формате Excel - 9%, SPSS - 8%, S-Plus/R - 4%, Weka ARFF - 6%, в других форматах инструментов Data Mining - 2%.

Как видим из результатов опроса, наиболее распространенным форматом хранения данных для Data Mining выступают базы данных.



Содержание раздела