Предварительная обработка данныхПредварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные[1]. НеобходимостьМетоды сбора данных часто плохо контролируются. Это приводит к появлению недопустимых значений (к примеру: доход, равный −100), комбинаций данных, которые невозможны (к примеру: «мужской пол при наличии беременности»), отсутствию значений и прочее. В результате анализа данных, которые не защищены от такого рода проблем, можно прийти к неверным выводам. Качество данных является первостепенной задачей при проведении анализа [2]. Часто, предварительная обработка данных становится важной фазой проекта обучения машины. Это особенно касается процессов вычислительной биологии[3]. Во время тренировки машины, при большом количестве лишней информации, «зашумлённых» и недостоверных данных, извлечение знаний становится затруднительным. Этап подготовки и фильтрации данных может занять много времени. Предварительная подготовка данных включает в себя:
и прочие манипуляции с данными. Результатом предварительной обработки данных является конечный тренировочный набор[англ.]. МетодыНиже приведено краткое описание методов, которые применяются на этапе предварительной обработки данных.
См. также
Примечания
Литература
Ссылки
|
Portal di Ensiklopedia Dunia