爬虫如何防止数据重复爬取

本文介绍爬虫若何防止数据反复爬取数据

方式/步调

  1. 1

    我们在做爬虫程序的时辰,若是是爬取内容相对固心猿意马的内容,比力轻易避免内容的反复爬取。

  2. 2

    可是,若是爬取的内容是一向转变的,如某个内容的页码是及时转变的,那么我们就需要做反复查抄。

  3. 3

    那么怎么做反复查抄?

    起首,我们需要将每项爬取的内容设置一个独一标示。如题目、链接地址等。

  4. 4

    然后,我们在爬取的时辰,将这些内容都记实到数据库中。

  5. 5

    在每爬取一条数据时,和数据库内容进行比力,若是该key值已经呈现过,那么就申明该记实已经爬取,就不该该再反复爬取。

  6. 6

    可是,这样还会有一个问题,就是高并发环境下,仍是有可能会反复爬取,那么我们可以采纳在插入的sql语句中增添校验。利用Insert Select Not Exist语句在进行插入,避免数据插入反复。

  • 发表于 2019-03-04 22:04
  • 阅读 ( 1350 )
  • 分类:其他类型

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
admin
admin

0 篇文章

作家榜 »

  1. xiaonan123 189 文章
  2. 汤依妹儿 97 文章
  3. luogf229 46 文章
  4. jy02406749 45 文章
  5. 小凡 34 文章
  6. Daisy萌 32 文章
  7. 我的QQ3117863681 24 文章
  8. 华志健 23 文章

联系我们:uytrv@hotmail.com 问答工具