不用写代码webscraper30秒抓取任意公众号文章

常常看到本身喜好的公家号,是不是想把它所有的文章从头到从头至尾看一遍呢?但手机上看的时辰,点击一篇文章看完后,一不小心或者要处置其它信息,往往要重头起头看的,就会跳回最前面,若是你是想看更早前的文章,是不长短常不便利,而且若是当天看不完,第二天又要找很久,是不是很懊恼呢?那么此刻就来解决大师这样的懊恼!在win7/win10系统上,不消写代码,安装下面这些后,30秒抓取肆意公家号文章题目日期是不是梦!下面是我本身的实操经验分享给大师

东西/原料

  • Chrome浏览器
  • webscraper插件
  • win7/win10系统

方式/步调

  1. 1

    Chrome浏览器就是谷歌浏览器,大师本身百度搜刮下载即可。下载好之后,直接打开网页是打不开的,大师再百度搜刮下“谷歌浏览器账号助手”,这是一个扩展程序,添加进去,就可以和其它浏览器一样,正常利用了。

  2. 2

    webscraper是谷歌官方的一个插件,操纵这个插件,我们不需要写代码,就可以实现主动抓取肆意公家号文章题目日期!那怎么安装呢,其实很简单,直接在谷歌应用商铺里,搜刮“webscraper”,然后添加进扩展就可以了。扩展显示蜘蛛网的图标就是了。

  3. 3

    微信要利用老版本的:微信测试版2.6.7。新版本是无法在浏览器上打开微信链接的。这个大师本身百度一下,应该可以找获得的。

  4. 4

    打开 微信,进入某个公家号,点开汗青文章页面,点击 全数动静,然后点击右上角的三个点,分享,点击发送给伴侣,这里可以选择本身的伴侣发,也可以选择文件传输助手,然后回到发微信聊天页面,打开刚分享的链接就会主动在谷歌浏览器上打开了。

  5. 5

    接下来,我们来演示一下,抓取如图公家号文章。

    第一步,就是鼠标右键点击,呈现菜单栏,点击最下面的,查抄。就会呈现查抄的代码页面。

  6. 6

    最右边的那个,就是webscraper。

  7. 7

    点击下面的 create new sitemap,右边的倒三角,点击出来的选项,第二个“import sitemap”。

  8. 8

    如图1,第一个风雅框,填写抓取的用的代码{如图2}。下面是定名,这个随意写个就可以了。

    抓取公家号题目、时候、内容链接(以下就是代码,大师直接复制利用即可)

    {"_id":"gongzhonghao","startUrl":["https://mp.weixin.qq.com/s/YkQyrnDt6e_Sn7oj2JaHyA"],"selectors":[{"id":"total","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div.weui_msg_card:nth-of-type(n+2)","multiple":true,"delay":"1000"},{"id":"title","type":"SelectorText","parentSelectors":["total"],"selector":"h4.weui_media_title","multiple":false,"regex":"","delay":0},{"id":"date","type":"SelectorText","parentSelectors":["total"],"selector":"p.weui_media_extra_info","multiple":false,"regex":"","delay":0},{"id":"link","type":"SelectorElementAttribute","parentSelectors":["total"],"selector":"h4.weui_media_title","multiple":false,"extractAttribute":"hrefs","delay":0}]}

  9. 9

    1.粘贴代码。

    2.定名。

    3.点击最下面的“import sitemap”

  10. 10

    此时呈现下图中的这个页面,点击中心那项右边的倒三角,点击 edit metadata.

  11. 11

    出来的这个页面里,start URL是要抓取的链接。这里我就去复制方才打开的公家号页面的链接,然后粘贴进来,最后,点击下面的”save sitemap“即可。

  12. 12

    接着出来的页面里,仍是选择中心那项,点击右边的倒三角,点击”scraper"。

  13. 13

    出来的这个页面,点击最下面的按钮“start scraping”。

  14. 14

    这时就会跳出,主动抓取的页面,并主动抓取。

  15. 15

    期待抓取完毕后,会出来这个页面:点击  蓝色的“refresh"。

  16. 16

    就会出来抓取的数据预览页面了。

  17. 17

    这里,仍是选择中心那项,点击右边的倒三角,点击最后一项”export data as  csv",就会出来一个 download now,点击就可以将数据下载到电脑里面了。

  18. 18

    打开电脑里面的表格文件,就可以看到抓取到的内容了。到此为止,根基上算完当作了。

  19. 19

    可是,下载下来的排序是错乱的。这里,需要本身手动去筛选排序即可。

    很是简单:将题目栏进行筛选,第一个题目栏里面的数字就有巨细挨次的,大师按升序或者降序排序就可以了。若是不大白的,可以多看几遍,我也是实操了良多次,才会谙练的。祝大师当作功!

注重事项

  • 焦点点,谷歌浏览器和插件安装,还有老版本微信安装好,操作就很是简单了!
  • 全程不需要本身写代码,插件是谷歌官方的,而且是免费利用!有不大白的可以留言看到会解答!
  • 发表于 2019-04-26 22:38
  • 阅读 ( 1198 )
  • 分类:其他类型

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
联系我们:uytrv@hotmail.com 问答工具