爬虫凡是是伪造一个http请求,然后收到返回的html代码字符串,然后从中解析出需要的数据。那么,在返回的html中,要若何才能更便利的筛选出需要的信息呢?作为.NET、C#中的一条目优异东西NSoup,就可以把html字符串当做页面,像JQuery一样的经由过程ID、class、标签等等过滤数据
建立ASP.NET MVC项目作为演示NSoup若何像JQuery一样操作html字符串。此处不再胪陈若何建立MVC项目,拜见下面的链接
3实例建立项目
在刚建立的项目MVCNSoup上面,点击鼠标右键,选择【办理 NuGet 法式包】,在弹出的界面点击【浏览】-> 输入【NSoup】-> 选择第一个,然后点击右侧的【安装】,就可以将NSoup添加到项目中来
在HomeController的Index方式中,添加一段Html字符串,用于模拟爬取到的网页内容
在HomeController中添加对NSoup的引用,然后在Index方式中添加经由过程指心猿意马ID获取标签值的代码(GetElementById)
在VS中设置断点,按F5调试模式运行,可以看到已经按照预期的从html字符串中获取到了标签的值
获取指定标签的所有节点 利用 GetElementsByTag,在调试模式下执行结果如图所示
经由过程CSS查询过滤器的格局获取标签值,调试运行结果如下
0 篇文章
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!