在计算机和在线应用程序中,停止词是在处理某种类型的文本时被过滤掉的单词,例如在启动在线搜索的过程中。这种类型的过滤被称为自然语言处理或NLP的一个组成部分,其思想是通过省略请求。相反,搜索引擎使用一个简单的标记...
在计算机和在线应用程序中,停止词是在处理某种类型的文本时被过滤掉的单词,例如在启动在线搜索的过程中。这种类型的过滤被称为自然语言处理或NLP的一个组成部分,其思想是通过省略请求。相反,搜索引擎使用一个简单的标记来记录文本字符串中单词的存在,但并不阻止该标记将该页面包含在搜索结果中。手持计算机的人了解停止词如何使搜索引擎的功能复杂化的一种方法是考虑到在进行搜索时,该引擎将考虑用户提交的搜索请求中包含的每个单词。作为该考虑的一部分,引擎将查找包含每个单词的页面。这意味着,如果搜索请求包含三个单词,则引擎将在Internet上进行三次扫描,最终将包含所有三个单词的页面作为优先级例如,搜索“山上的房子”需要引擎搜索序列中的每个单词,有些人甚至在停止词“the”上运行两次搜索。这会占用时间和资源,而这些时间和资源可能会被转移到其他最终用户正在进行的其他关键字搜索中。在搜索过程中使用标记替换“the”和“on”,引擎可以投入较少的资源,但仍然返回很可能满足最终用户要求的结果。虽然停止字有时也被称为毒词,在用于搜索的文本中包含词条确实没有什么特别的错误。在搜索请求中使用一个或多个停止词可能会使搜索引擎在检索符合搜索条件的数据时的索引过程复杂化不过,最终用户不太可能在最终返回的信息提取上看到太大的差异。没有一个所有搜索引擎都普遍使用的硬而快速的停止词列表。事实上,有些搜索引擎根本不使用任何类型的停止词列表作为自然语言处理任务的一部分,而另一些搜索引擎则会充分利用停止词列表来更有效地分配资源,同时仍然返回准确的搜索引擎结果,并且可能非常适合任何使用特定引擎的人提交的搜索请求
-
发表于 2020-08-07 08:57
- 阅读 ( 1360 )
- 分类:电脑网络