本文以ASP.NET平台的东西为例,为您介绍若何爬取动态网页内容,本家儿要利用RestSharp + NSoup两个dll组件
经由过程NuGet或者其他体例,将RestSharp 和 NSoup两个组件引入到您的项目中
RestSharp:用于倡议http请求,从网页中获取html内容
NSoup:用于像Jquery一样的获取拜候到的html内容,不再需要各类复杂的正则匹配了
实例化一个RestClient,参数为要拜候的页面url地址
初始化一个RestRequest,撑持9种请求模式,按照现实页面需要自行选择
若是页面需要参数,就利用AddParameter方式将参数添加到RestRequest实例中,撑持7种参数类型
Client和Request都初始化完当作后,就可以挪用client.Execute(request).Content获得页面拜候返回的含html标签的完整字符串
接下来就是解析返回的html字符串内容了。利用NSoup.NSoupClient.Parse(htmlResult)就可以将返回的html字符串,转换为NSoup的文档内容
转换为NSoup的文档内容之后,就可以利用GetElementsByClass、GetElementById等等体例获取具体内容的值了
0 篇文章
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!