如何爬取网站数据——前嗅ForeSpider使用教程

前嗅forespider数据采集软件的利用教程,可视化的软件,简单的操作,壮大的功能,帮忙不会爬虫的人采集数据。

东西/原料

  • ForeSpider

方式/步调

  1. 1

    简介:我们想要从网上获取本身想要的数据,凡是有几种常见的体例,体例一,手动复制粘贴,适合收集少量数据;二,本身编写爬虫剧本,获取本身想要获得的数据,能收集大量数据,但需要本身有编码能力;三,利用数据采集软件,既不需要本身编写爬虫剧本,又能收集本身想要的数据。

           作为一个日常工作中需要采集大量数据来阐发用户需求与行为的人,又不会编写剧本,一个好用的数据采集软件当作为我工作中必不成少的东西,这几天我利用了几种数据采集软件,发现最好用的就是前嗅的ForeSpider数据采集软件。可视化的操作界面,很高级,功能周全,我需要采集的网站都能知足。下面我给大师分享一下比来的利用心得,但愿能帮忙到有需要的人。

           我采集的网站是美团网,想要获得美团上所有冒菜商家的地址和德律风。

  2. 2

    第一步:新建使命

    打开前嗅ForeSpider采集系统今后

    ①点击左上角“加号”新建使命

    ②在弹窗里填写采集地址,使命名称

    ③点击下一步,选择进行数据抽取仍是链接抽取,起首当前检索成果列表链接,所以点击抽取链接,选择链接抽取

    ④完当作后模板抽取设置装备摆设列表有两个个模板,默认模板和新建模板,模板一的默认链接抽取已与模板二联系关系

  3. 3

    第二步:经由过程地址过滤,获得所需的链接。

    ①点击采集预览,在采集预览中有于方针链接相似的其他链接,可经由过程地址过滤获得列表链接。找到所需要的列表链接,右击复制链接,“https://www.meituan.com/meishi/+数字+/”

    ②勾选地址过滤,过滤法则选择包含,将复制的方针地址粘入,利用过滤串“\d”获得列表链接,

    过滤串法则申明:\d 暗示一串(个)数字

    ③点击采集预览确认链接是否过滤完全

  4. 4

    第三步:填写模板二示例地址并新建数据抽取

    ①将模板一过滤获得的肆意一条链接,作为模板二的示例地址。如:https://www.meituan.com/meishi/137562207/

    ②新建数据抽取

    方式一:经由过程点击“下一步”后勾选抽取数据,再次点击“下一步”获得数据抽取。

    方式二:直接点击模板二,点击上面“新建数据抽取”按钮,获得数据抽取

  5. 5

    第四步:建立/选择表单

    在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以经由过程表单ID来进行查找并联系关系数据表单。此处利用的方式三。

    方式一:经由过程下拉菜单或表单ID选择已有表单

    方式二:点击建立表单进入快速建表页面,新建表单。

    方式三:点击“采集设置装备摆设”-“数据建表”,点击采“采集表单”

  6. 6

    第五步:设置装备摆设表单

    按照所需内容,设置装备摆设表单字段(即表头),此处设置装备摆设了网页本家儿键、题目、联系体例、联系地址共4个字段,表单如图

  7. 7

    第六步:字段取值

    ① 先联系关系表单

    ② 字段取值是在数据模板位置写剧本,来给对应字段赋值,如图13所示。

    代码如下:

    var str=DOM.GetSource().ToStr().Middle("\"detailInfo\":",",\"photos\""); //获取网页源码包含数据部门内容

    jScript js;

    var obj=js.RunJson(str); //生当作json对象

    record re;

    re.id=MD5(URL.urlname);//给本家儿键字段生当作独一标识

    re.tit=obj.name; //题目名称

    re.addr=obj.address; //店肆地址

    re.tel=obj.phone; //店肆德律风

    RESULT.AddRec(re,TMPL.fstdoc.schemaid); //将所有的字段放入成果集

  8. 8

    第七步:模板预览

    ①鼠标右键点击“数据抽取”,然后点击“模板预览”

    ②预览成果

  9. 9

    第八步:采集预览

    ①点击右上角采集预览

    ②双击肆意一条链接,看看是否可以获得和网页对应的规整的数据,如图17所示。

  10. 10

    这样就把美团网冒菜的商家地址和德律风采集出来了,大师也可以按照本身的需要设置进行采集。

    今天的分享就就到这里了,我也是初学者可能用的不是出格好,但愿能帮忙到有需要的人,这个软件确实对我的工作很有帮忙,祝大师利用兴奋!

  • 发表于 2019-05-12 20:54
  • 阅读 ( 1677 )
  • 分类:其他类型

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
admin
admin

0 篇文章

作家榜 »

  1. xiaonan123 189 文章
  2. 汤依妹儿 97 文章
  3. luogf229 46 文章
  4. jy02406749 45 文章
  5. 小凡 34 文章
  6. Daisy萌 32 文章
  7. 我的QQ3117863681 24 文章
  8. 华志健 23 文章

联系我们:uytrv@hotmail.com 问答工具