本文介绍爬虫若何防止数据反复爬取数据
我们在做爬虫程序的时辰,若是是爬取内容相对固心猿意马的内容,比力轻易避免内容的反复爬取。
可是,若是爬取的内容是一向转变的,如某个内容的页码是及时转变的,那么我们就需要做反复查抄。
那么怎么做反复查抄?
起首,我们需要将每项爬取的内容设置一个独一标示。如题目、链接地址等。
然后,我们在爬取的时辰,将这些内容都记实到数据库中。
在每爬取一条数据时,和数据库内容进行比力,若是该key值已经呈现过,那么就申明该记实已经爬取,就不该该再反复爬取。
可是,这样还会有一个问题,就是高并发环境下,仍是有可能会反复爬取,那么我们可以采纳在插入的sql语句中增添校验。利用Insert Select Not Exist语句在进行插入,避免数据插入反复。
0 篇文章
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!