互联网时代,我们可以从网上获取各类各样的信息,那么若是我们想要抓取这些信息为我所用,如何才能高效、敏捷的抓取呢?
本人之前抓取网页上的数据,都是httpwebrequest方式获取网页的html,经由过程浏览器的调试功能,找到对应元素的关头词。然后按照获取的内容去解析里面的本身需要的数据。
因为本身比力懒,一向没有去学正则表达式,所以解析只能用字符串处置的方式来做。用indexOf、replace、trim、substring、split等方式来对html进行处置,最终获得本身想要的内容。
可是如许做的话,很是花时候,并且很轻易犯错。于是,本人就在网上找了一种可以快速抓取数据的方式,那就是利用HtmlAgilityPack开源项目。
具体利用方式如下:
起首,从NuGet中搜刮HtmlAgilityPack,并将其安装到项目中。
然后将dll引入到项目之中。
鄙人面这段代码中,我们用简单的几句就实现了从某个网页获取html,而且获取这个页面中的所有样式为lists_bigimg_right的div,然后经由过程遍历lists_bigimg_right,轻松获得了此中的名称、链接地址和申明三项内容。具体挪用代码如下:
在利用HtmlAgilityPack之前,我们需要先领会它利用的语法,它利用的是xpath的语法,在浏览器搜刮就可以获得相关的资料。利用HtmlAgilityPack可以年夜年夜提高抓取数据的精确性和抓代替码的编写速度。
0 篇文章
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!