screen scraper是一种从另一个程序的显示输出中收集基于字符的数据的计算机程序。screen scraper可以提取他们正在寻找的数据,并以更丰富的格式呈现出来,比如用图形或表格,或者简单地索引数据以便存储。screen scraper还...
screen scraper是一种从另一个程序的显示输出中收集基于字符的数据的计算机程序。screen scraper可以提取他们正在寻找的数据,并以更丰富的格式呈现出来,比如用图形或表格,或者简单地索引数据以便存储。screen scraper还有很多其他的名称,包括网站刮板、内容挖掘器、网站开膛器、网页提取器、自动数据采集器和HTML刮板。

人工控制计算机screen scraper将搜索网站的代码,并过滤掉多余的代码,这些代码将为最终浏览器提供一个漂亮的外观。这样的代码对于以预期的布局查看整个页面是必要的,但是铲运机只是在寻找有用的数据。这些数据被收集并作为一个简单的数据库呈现,没有了原来提供的HTML代码,一个很好的例子就是使用搜索引擎蜘蛛,这些蜘蛛访问成千上万的网站,这些网站每一个网站都包含大量的网页,这些网站的关键词数据被收集并编入索引,最终作为搜索引擎的结果呈现给最终用户。大多数屏幕抓取器会搜索网站的HTML编码来获取信息,但他们也可以搜索其他脚本语言,如JavaScript或PHP挖掘出来的数据可以显示为HTML本身,这样用户就可以用他们的web浏览器访问它,或者存储为用户可以离线访问的文本数据关键字相关网站,以便生成图表、电子表格和比较数据,以便在报告和演示文稿中使用。屏幕刮板节省了大量时间,因为执行相同任务的员工必须搜索相关网站,单击链接,并单独浏览每个网站,以查找和记录当信息存储在由于与新的硬件或软件的兼容性问题而无法访问的系统中时,也可以使用屏幕刮板。屏幕刮板可以是福也是祸对于网站所有者和网络冲浪者。虽然他们绝对为企业、搜索引擎和其他人提供功能性服务,但屏幕刮板也可用于非利他目的。例如,使用垃圾邮件作为广告手段的公司或个人可以使用屏幕刮板从网站中挖掘电子邮件地址虽然screen scraper可以是一个方便的工具,但是web社区在使用它们时存在一些关于法律和道德的争论。当screen scraper提取某人的辛苦工作并以另一种格式呈现时,版权问题就变得模糊了另一个网站,以及那些依靠广告来创收的网站,当他们的广告被屏幕刮片机丢弃时,就会出现问题因此,一些网站所有者已经开始实施一些工具,以防止他们的网站被刮掉。