什么是相关聚类(Correlation Clustering)？

关联聚类是在数据库和其他大型数据源上进行的，将相似的数据集组合在一起，同时也提醒用户不同的数据集。这可以在某些图形中完美地完成，另一些则会遇到错误，因为很难区分相似和不相似的数据。在后者的情况下，相关聚类有助于...

关联聚类是在数据库和其他大型数据源上进行的，将相似的数据集组合在一起，同时也提醒用户不同的数据集。这可以在某些图形中完美地完成，另一些则会遇到错误，因为很难区分相似和不相似的数据。在后者的情况下，相关聚类有助于自动减少错误。这通常用于数据挖掘，或搜索笨拙的数据以寻找相似性。不相似的数据通常会被删除，数据挖掘是在特定信息块中检测模式的过程当使用相关聚类函数时，它会根据用户的指令搜索数据，用户会告诉程序要搜索什么，当找到时，将数据放在哪里。这通常适用于非常大的数据源，当手动搜索数据不可能或花费太多时间时。可以是完美的聚类，也可以是不完美的聚类完美的集群是理想的场景，这意味着只有两种类型的数据，一种是用户正在寻找的，而另一种是不需要的。所有正的或需要的数据都放在一个集群中，而另一个数据则被删除或移动。在这种情况下，没有混乱，一切都很完美大多数复杂的图不允许完美的聚类，而是不完美的。例如，一个图有三个变量：X，Y和Z。X，Y是相似的，X，Z是相似的，而Y，Z是不同的。然而，这三个变量的聚类非常相似，这是不可能有完美的相关聚类。程序将努力使正相关的数量最大化，但这仍然需要用户手动搜索。在数据挖掘中，尤其是在处理大数据集时，相关聚类是用来将相似的数据与相似的数据进行分组，例如，如果一个企业为一个大型网站或数据库挖掘数据，只想知道某一个方面，那么就需要花费很长的时间来搜索该方面的所有数据。通过使用聚类公式，将数据将被留作适当的分析。不同的信息仅根据用户的指示进行处理。用户可以选择将不同的数据发送到不同的群集，因为这些信息可能对其他项目有用，如果不需要这些数据，只是在浪费内存，那么就会抛出不同的信息。在不完全的聚类中，有些不相似的信息可能不会被抛出，因为它与用户要查找的数据非常相似

发表于 2020-07-30 20:25
阅读 ( 1896 )
分类：电脑网络

什么是相关聚类(Correlation Clustering)？

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »

推荐文章