C#版爬虫工具 NSoup使用 像JQuery一样操作字符

爬虫凡是是伪造一个http请求,然后收到返回的html代码字符串,然后从中解析出需要的数据。那么,在返回的html中,要若何才能更便利的筛选出需要的信息呢?作为.NET、C#中的一条目优异东西NSoup,就可以把html字符串当做页面,像JQuery一样的经由过程ID、class、标签等等过滤数据

方式/步调

  1. 1

    建立ASP.NET MVC项目作为演示NSoup若何像JQuery一样操作html字符串。此处不再胪陈若何建立MVC项目,拜见下面的链接

    3实例建立项目

  2. 2

    在刚建立的项目MVCNSoup上面,点击鼠标右键,选择【办理 NuGet 法式包】,在弹出的界面点击【浏览】-> 输入【NSoup】-> 选择第一个,然后点击右侧的【安装】,就可以将NSoup添加到项目中来

  3. 3

    在HomeController的Index方式中,添加一段Html字符串,用于模拟爬取到的网页内容

  4. 4

    在HomeController中添加对NSoup的引用,然后在Index方式中添加经由过程指心猿意马ID获取标签值的代码(GetElementById)

  5. 5

    在VS中设置断点,按F5调试模式运行,可以看到已经按照预期的从html字符串中获取到了标签的值

  6. 6

    获取指定标签的所有节点 利用 GetElementsByTag,在调试模式下执行结果如图所示

  7. 7

    经由过程CSS查询过滤器的格局获取标签值,调试运行结果如下

  • 发表于 2018-12-08 00:00
  • 阅读 ( 664 )
  • 分类:其他类型

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
联系我们:uytrv@hotmail.com 问答工具