统计上不太可能的短语(SIPs)是由Amazon.com开发的一种搜索技术,用于搜索书籍内容中可能是唯一的或经常出现的短语。这是亚马逊的专利搜索的一部分!®技术程序。本质上,Search Inside®允许Amazon访问书籍的部分或完整文本,...
统计上不太可能的短语(SIPs)是由Amazon.com开发的一种搜索技术,用于搜索书籍内容中可能是唯一的或经常出现的短语。这是亚马逊的专利搜索的一部分!®技术程序。本质上,Search Inside®允许Amazon访问书籍的部分或完整文本,因此,如果在搜索中使用了统计上不太可能的短语,则可以使用某些短语来识别该书。手持计算机的人对这项技术的名称有点困惑。当您执行搜索时,您希望您要搜索的内容紧密匹配。通过在一本书中标识一个唯一的短语,如果您使用该短语进行搜索,则您的搜索不太可能列出您不想要的内容。如果您正在查找一本特定的书,但记不住书名,但可以记住其中的引用,则可以使用该引用进行搜索书。或者,你可能想在一个更大的主题中搜索一个特定的主题。例如,如果你想搜索一本有职业建议的书,但你真正想读的是如何在网络上寻找工作,你可以搜索“人际网络”而不是“职业建议”。马上,一些最相关的搜索出现在亚马逊的搜索结果页面上,其中包括《在口渴之前挖好你的井:你需要的唯一一本网络书》。如果你用这些统计上不太可能的短语进行搜索,你可能会注意到你会得到不完全匹配的结果。例如,网络的第一个搜索结果不是针对职业网络,而是针对计算机和技术网络信息。你可以通过更具体的方式,使统计上不太可能出现的短语变得更好。例如,通过在“职业网络”或“工作网络”下搜索,可以获得更好的结果统计上不太可能的词组实际上是可能的词组,因为它很可能是内部搜索所特有的词组!®book将在您搜索的内容列表中居首。例如,从莎士比亚十四行诗中输入一行莎士比亚的话来引出关于莎士比亚的书。这并不总是有效的,因为很多其他书都用一些非常著名的引语作为标题。如果你搜索“生存或不存在”,你就找不到哈姆雷特,也找不到麦克白用统计上不太可能的短语,比如“Out!“该死的斑点。”事实上,在后一个术语下,你会找到的第一本书是关于污点去除的书。使用统计上不太可能的短语也是搜索网页内容的一种方式,而网络爬虫可能会使用类似的技术,以便人们能够最有效地、特别地搜索某些独特的行。这不是一种完美的技术因为网络爬虫不一定要评估内容,它可能会寻找关键字重复,这样人们就可以找到重复次数更高的文章。并不是亚马逊上所有的书都有搜索功能!®技术,但这似乎是一种趋势。最终,即使系统稍有不足,也可以缩短搜索时间
-
发表于 2020-08-07 12:09
- 阅读 ( 705 )
- 分类:电脑网络