原标题:中科易研说数据挖掘的过程以及方法
从上世纪80年代开始,伴随着数据库技术的发展和新应用的提出,数据挖掘技术应运而生。数据挖掘是一种能从海量的、随机的、不完整的、复杂的数据中提取出对人们可能潜在和有用的信息和知识的过程,其中涉及到许多技术的处理。通过数据挖掘技术来处理大量的数据内容极大地提高人们处理的信息的效率,从中获取大量有价值的信息和知识来帮助人们进行决策工作。该文章讲述了数据挖掘的七个过程,以及5种数据挖掘方法。
数据挖掘过程
数据挖掘过程分为7个部分:
1)定义挖掘目标
清晰明确的挖掘目标是进行数据挖掘的前提,同时也是能够最大限度地发挥数据挖掘作用的关键。
2)数据取样
针对数据挖掘目标如何选取样本。在选取样本时有三大原则,即时效性、可靠性和相关性。必须保证选择的样本数据是最新的、真实可靠并且与挖掘目标是高度相关的。同时选择数据的简明性,精选数据。
3)数据探索
进一步对数据进行分析探究,为了保证预测质量需要对选取的样本数据进行探索、审核和必要的加工处理是必要的。
数据探索主要有:相关分析、异常分析、周期性分析、缺失值分析和样本交叉验证。
4)数据预处理
由于样本数据量一般较为庞大,数据结构较为复杂,样本数据维度过高,有缺失值,重复记录,不一致等等。对样本进行预处理也是必要的。
5)模式发现
从上世纪80年代开始,伴随着数据库技术的发展和新应用的提出,数据挖掘技术应运而生。数据挖掘是一种能从海量的、随机的、不完整的、复杂的数据中提取出对人们可能潜在和有用的信息和知识的过程,其中涉及到许多技术的处理。通过数据挖掘技术来处理大量的数据内容极大地提高人们处理的信息的效率,从中获取大量有价值的信息和知识来帮助人们进行决策工作。该文章讲述了数据挖掘的七个过程,以及5种数据挖掘方法。
数据挖掘过程
数据挖掘过程分为7个部分:
1)定义挖掘目标
清晰明确的挖掘目标是进行数据挖掘的前提,同时也是能够最大限度地发挥数据挖掘作用的关键。
2)数据取样
针对数据挖掘目标如何选取样本。在选取样本时有三大原则,即时效性、可靠性和相关性。必须保证选择的样本数据是最新的、真实可靠并且与挖掘目标是高度相关的。同时选择数据的简明性,精选数据。
3)数据探索
进一步对数据进行分析探究,为了保证预测质量需要对选取的样本数据进行探索、审核和必要的加工处理是必要的。
数据探索主要有:相关分析、异常分析、周期性分析、缺失值分析和样本交叉验证。
4)数据预处理
由于样本数据量一般较为庞大,数据结构较为复杂,样本数据维度过高,有缺失值,重复记录,不一致等等。对样本进行预处理也是必要的。
责任编辑: