一个做倒立的女人当使用基于规则的分类时,用户对文档分类拥有最大控制权的计算机。上下文、类别,在文档检索过程中,所有的内容都是按照用户指定的规则进行分类的。在监督的方法中,也必须指定类别。但是,实际写出规则的步骤是搜索系统应该遵循的步骤,自动完成。使用文档聚类,也称为无监督分类,分组和分类都是自动完成的,无需手动输入规则,这一过程既有利也有弊,因为不需要编写规则,而且经常会发现最初认为不相似的类似文档,从而节省了时间缺点是文档可能会出现在一起,而这些文档原本并不打算属于同一类别。自动化程度更高的方法也会对计算机系统造成更大的负担。为了在这两种不同的方法之间找到平衡,计算机专家们设计了半监督文档分类的方法。手动分类的文档与未标记的文档集相结合。可以将两者中的信息关联起来的程序使用这些数据来了解每个文档是如何分类的。通过对分类过程。如果可以使用短语对文档进行聚类,例如使用后缀树聚类,特别是对于在线存储的文档。信息科学已经探索了各种方法来提高数据挖掘的效率。大多数企业都连接到互联网上,因此,Web挖掘需要尽可能少的时间来找到相关的文档。计算机科学家还创建了几种不同的算法,以分层的方式组织文档。每种算法都以其自己的方式有效,文档分类继续由不同的软件研究和定义程序和定制公司方法。
0 篇文章
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!