搜索引擎是一种计算机程序,它可以根据用户定义的特定标准从数据库中检索信息。现代搜索引擎搜索的数据库中包含大量数据,这些数据来自万维网、新闻组, 现代搜索引擎梳理了包含大量数据的数据库,这些数据来自万维网、新闻...
搜索引擎是一种计算机程序,它可以根据用户定义的特定标准从数据库中检索信息。现代搜索引擎搜索的数据库中包含大量数据,这些数据来自万维网、新闻组,

现代搜索引擎梳理了包含大量数据的数据库,这些数据来自万维网、新闻组,在万维网出现之前,但在互联网的出现和随后在大学校园里的普及之后,第一个搜索引擎诞生了。在历史上的这个时候,在20世纪80年代末和90年代初,互联网上使用的主要协议之一就是文件传输协议(FTP)FTP服务器遍布世界各地,通常在大学校园、研究机构,蒙特利尔麦吉尔大学(McGill University)的一些学生认为,在各种流行的FTP服务器上建立一个集中的文件数据库将有助于节省时间,并为其他人提供优质的服务。这就是Archie搜索引擎的起源。
Archie,它是archive的缩写,是一个定期登录到其列表中的FTP服务器的程序,并对服务器上的文件进行索引。由于处理器时间和带宽仍然是一个相当有价值的商品,所以Archie大约每个月才检查更新。起初,Archie构建的索引是要使用Unix命令
grep,但是一个更好的用户界面很快被开发出来,以便于索引的搜索。继Archie之后,出现了一些搜索引擎来搜索类似的Gopher协议,其中最著名的两个是Jughead和Veronica随着万维网和随后的搜索引擎的出现,Archie变得相对过时,但Archie服务器仍然存在。
1993年,在创建万维网后不久,Matthew Grey开发了万维网漫游器,这是第一个网络机器人。万维网漫游者索引了所有它存在于互联网上,但并不跟踪网站的任何实际内容。与漫游者相关的索引是早期的搜索引擎,被称为Wandex。
在流浪者之后,其他一些小项目也随之发展起来,它开始接近现代搜索引擎,包括万维网蠕虫、基于知识库的软件工程(RBSE)蜘蛛和JumpStation。这三家公司都使用网络机器人收集的数据将信息返回给用户。不过,大部分信息都是未经过滤的返回,尽管RBSE确实试图对网页的价值进行排名。
1993年,斯坦福大学的一些学生创办了一家名为Excite的公司,该公司发布了可以说是第一个真正整合了页面内容分析功能的搜索引擎。然而,这项首次发布的目的是在一个网站内进行搜索,不搜索整个网络。
不过,1994年,搜索引擎的世界有了重大突破。一家名为WebCrawler的公司推出了一款搜索引擎,不仅能捕捉到互联网上页面的标题和页眉,还可以抓取所有内容。WebCrawler取得了巨大成功,以至于很多时候它甚至不能被利用,因为它的系统资源都被利用了。
就在那年晚些时候,Lycos发布了,包括许多与WebCrawler相同的功能,并以此为基础。Lycos根据相关性对结果进行了排名,并允许用户调整一些设置以获得更适合的结果Lycos也很庞大——在这一年里,它有超过100万个网站被归档,两年内就达到了6000万个。