数据挖掘过程是一种揭示大量数据中具有统计意义的模式的工具,它通常包括五个主要步骤,包括准备、数据探索、模型构建、部署和审核。每个步骤都涉及不同的技术,但大多数情况下使用某种形式的统计分析。 使用数据挖掘工具...
数据挖掘过程是一种揭示大量数据中具有统计意义的模式的工具,它通常包括五个主要步骤,包括准备、数据探索、模型构建、部署和审核。每个步骤都涉及不同的技术,但大多数情况下使用某种形式的统计分析。

使用数据挖掘工具的目的是发现信息中隐藏的模式。
挖掘过程可以开始,研究人员通常会设定研究目标。这个准备步骤通常决定需要研究哪些类型的数据、应该使用哪些数据挖掘技术以及结果将以何种形式出现。这个过程中的初始步骤对于收集有用的信息至关重要。

数据挖掘是使用模式识别逻辑来识别样本数据集中的趋势,并根据更大的数据池推断这些信息,而数据仓库是提取和存储数据以便于报告的过程。
数据挖掘过程的下一步是探索。这一步通常涉及从信息仓库或收集实体收集所需的数据。然后,挖掘专家通常会准备原始数据集用于分析。这一步通常包括收集、清理、组织和检查所有数据是否存在错误。
这些准备好的数据通常会进入数据挖掘过程的第三步,即模型构建。为了完成这一步,研究人员通常会取小的数据测试样本,并将各种数据挖掘技术应用于他们建模步骤通常用于确定获得所需结果所需的最佳统计分析方法。
在数据挖掘过程中可应用四种主要技术。第一种是分类,它将数据排列成预定义的组或类别。在第二种技术中,称为聚类,研究人员允许计算机根据自己的选择将数据组织成组。第三种数据挖掘技术寻找变量之间的关联。第四种数据挖掘技术通常在数据中寻找可用于预测未来趋势的序列模式。
数据挖掘过程的最后一步是部署。为此,技术在模型中选择的应用于更大的数据集,并对结果进行分析。来自此步骤的报告通常显示整个过程中发现的模式,包括数据集中存在的任何分类、簇、关联或顺序模式。
审阅通常是重要的最后一步。此阶段在这一过程中,通常需要使用新的数据集重复挖掘模型,以确保主数据集能够代表整个数据群体。如果数据样本不能准确地表示数据,则结果无法预测更大群体中的趋势。