关联聚类是在数据库和其他大型数据源上进行的,将相似的数据集组合在一起,同时也提醒用户不同的数据集。这可以在某些图形中完美地完成,另一些则会遇到错误,因为很难区分相似和不相似的数据。在后者的情况下,相关聚类有助于...
关联聚类是在数据库和其他大型数据源上进行的,将相似的数据集组合在一起,同时也提醒用户不同的数据集。这可以在某些图形中完美地完成,另一些则会遇到错误,因为很难区分相似和不相似的数据。在后者的情况下,相关聚类有助于自动减少错误。这通常用于数据挖掘,或搜索笨拙的数据以寻找相似性。不相似的数据通常会被删除,数据挖掘是在特定信息块中检测模式的过程当使用相关聚类函数时,它会根据用户的指令搜索数据,用户会告诉程序要搜索什么,当找到时,将数据放在哪里。这通常适用于非常大的数据源,当手动搜索数据不可能或花费太多时间时。可以是完美的聚类,也可以是不完美的聚类完美的集群是理想的场景,这意味着只有两种类型的数据,一种是用户正在寻找的,而另一种是不需要的。所有正的或需要的数据都放在一个集群中,而另一个数据则被删除或移动。在这种情况下,没有混乱,一切都很完美大多数复杂的图不允许完美的聚类,而是不完美的。例如,一个图有三个变量:X,Y和Z。X,Y是相似的,X,Z是相似的,而Y,Z是不同的。然而,这三个变量的聚类非常相似,这是不可能有完美的相关聚类。程序将努力使正相关的数量最大化,但这仍然需要用户手动搜索。在数据挖掘中,尤其是在处理大数据集时,相关聚类是用来将相似的数据与相似的数据进行分组,例如,如果一个企业为一个大型网站或数据库挖掘数据,只想知道某一个方面,那么就需要花费很长的时间来搜索该方面的所有数据。通过使用聚类公式,将数据将被留作适当的分析。不同的信息仅根据用户的指示进行处理。用户可以选择将不同的数据发送到不同的群集,因为这些信息可能对其他项目有用,如果不需要这些数据,只是在浪费内存,那么就会抛出不同的信息。在不完全的聚类中,有些不相似的信息可能不会被抛出,因为它与用户要查找的数据非常相似
-
发表于 2020-07-30 20:25
- 阅读 ( 1732 )
- 分类:电脑网络