正如Web浏览器需要组织数据以便用户可以搜索结果一样,文档分类允许组织简化查找重要信息的过程。文档分类的执行方式与使用搜索引擎算法的方式不同,因为特定的关键字可能具有不同的含义。这种方法必须能够衡量特定业务...
正如Web浏览器需要组织数据以便用户可以搜索结果一样,文档分类允许组织简化查找重要信息的过程。文档分类的执行方式与使用搜索引擎算法的方式不同,因为特定的关键字可能具有不同的含义。这种方法必须能够衡量特定业务文档的上下文。使用受监督的文档分类,用户标记一组文档,自动系统可以将其用作模型。在无监督的方法中,这些文档是基于相似的单词和短语进行数学组织的。

一个做倒立的女人当使用基于规则的分类时,用户对文档分类拥有最大控制权的计算机。上下文、类别,在文档检索过程中,所有的内容都是按照用户指定的规则进行分类的。在监督的方法中,也必须指定类别。但是,实际写出规则的步骤是搜索系统应该遵循的步骤,自动完成。使用文档聚类,也称为无监督分类,分组和分类都是自动完成的,无需手动输入规则,这一过程既有利也有弊,因为不需要编写规则,而且经常会发现最初认为不相似的类似文档,从而节省了时间缺点是文档可能会出现在一起,而这些文档原本并不打算属于同一类别。自动化程度更高的方法也会对计算机系统造成更大的负担。为了在这两种不同的方法之间找到平衡,计算机专家们设计了半监督文档分类的方法。手动分类的文档与未标记的文档集相结合。可以将两者中的信息关联起来的程序使用这些数据来了解每个文档是如何分类的。通过对分类过程。如果可以使用短语对文档进行聚类,例如使用后缀树聚类,特别是对于在线存储的文档。信息科学已经探索了各种方法来提高数据挖掘的效率。大多数企业都连接到互联网上,因此,Web挖掘需要尽可能少的时间来找到相关的文档。计算机科学家还创建了几种不同的算法,以分层的方式组织文档。每种算法都以其自己的方式有效,文档分类继续由不同的软件研究和定义程序和定制公司方法。