受控词汇表是计算机科学和计算机程序设计中的一个概念,在构建关系数据库时只使用先前商定或认可的术语,可搜索的元数据或其他系统,其中使用人类可读的单词来标记信息以备日后检索。使用受控词汇表对信息进行分类的方法与...
受控词汇表是计算机科学和计算机程序设计中的一个概念,在构建关系数据库时只使用先前商定或认可的术语,可搜索的元数据或其他系统,其中使用人类可读的单词来标记信息以备日后检索。使用受控词汇表对信息进行分类的方法与自然语言词汇的概念形成了直接的对比,其中没有约定的术语,所有使用的单词都是通过加权关系连接起来的。除了在受控词汇表中使用的顶级词汇外,可以使用支持词,这样与顶级词汇有强烈关联的同义词或其他词汇可以触发顶级词汇的使用。自然语言系统和受控词汇系统之间衡量的主要差异是使用这些词的查询结果的相关性,返回的信息量,以及系统的整体可用性。在许多情况下,用一组词或词来使任意的、不断变化的或无序的信息更容易被用户访问。因特网搜索引擎中的搜索词,公司信息数据库,甚至数字研究图书馆都是应用程序的例子,通过这些应用程序,信息可以用元数据术语进行分类,而不是严格的层次结构。在这种情况下,用于描述对象的单词可以为更大的信息池建立一种可搜索的索引。例如,使用在考虑一个公司的归档系统时,可以看到词汇表。文件必须以一种便于和可预测的方式进行分类。如果一个文件涉及汽车,则可以将其归入“汽车”类别如果另一个人也有一个关于汽车的档案,而没有一个受控词汇,这个档案可能会被放在“汽车”的标题下,这使得通过一次搜索很难找到这两个档案。当类别被控制时,所有关于汽车的档案都将被放在一个商定的标题下。这样做的好处是使用受控词汇表是指信息是以可预测的方式被严格描述的。这意味着任何了解该词汇表的人都能够有效、准确地搜索信息。然而,词汇表的一个复杂之处在于,如果不是不可能的话,搜索词会更加困难,自动生成,通常需要一些人工干预,这使得将现有数据库转换为使用受控词汇表是一项艰巨的任务。如果词汇量不够大,那么一个单一的查询也有可能带来如此大的信息量,因此不使用它进行排序就变得不切实际了另一个查询方法
-
发表于 2020-08-07 07:56
- 阅读 ( 2689 )
- 分类:电脑网络