前嗅forespider数据采集软件的利用教程,可视化的软件,简单的操作,壮大的功能,帮忙不会爬虫的人采集数据。
简介:我们想要从网上获取本身想要的数据,凡是有几种常见的体例,体例一,手动复制粘贴,适合收集少量数据;二,本身编写爬虫剧本,获取本身想要获得的数据,能收集大量数据,但需要本身有编码能力;三,利用数据采集软件,既不需要本身编写爬虫剧本,又能收集本身想要的数据。
作为一个日常工作中需要采集大量数据来阐发用户需求与行为的人,又不会编写剧本,一个好用的数据采集软件当作为我工作中必不成少的东西,这几天我利用了几种数据采集软件,发现最好用的就是前嗅的ForeSpider数据采集软件。可视化的操作界面,很高级,功能周全,我需要采集的网站都能知足。下面我给大师分享一下比来的利用心得,但愿能帮忙到有需要的人。
我采集的网站是美团网,想要获得美团上所有冒菜商家的地址和德律风。
第一步:新建使命
打开前嗅ForeSpider采集系统今后
①点击左上角“加号”新建使命
②在弹窗里填写采集地址,使命名称
③点击下一步,选择进行数据抽取仍是链接抽取,起首当前检索成果列表链接,所以点击抽取链接,选择链接抽取
④完当作后模板抽取设置装备摆设列表有两个个模板,默认模板和新建模板,模板一的默认链接抽取已与模板二联系关系
第二步:经由过程地址过滤,获得所需的链接。
①点击采集预览,在采集预览中有于方针链接相似的其他链接,可经由过程地址过滤获得列表链接。找到所需要的列表链接,右击复制链接,“https://www.meituan.com/meishi/+数字+/”
②勾选地址过滤,过滤法则选择包含,将复制的方针地址粘入,利用过滤串“\d”获得列表链接,
过滤串法则申明:\d 暗示一串(个)数字
③点击采集预览确认链接是否过滤完全
第三步:填写模板二示例地址并新建数据抽取
①将模板一过滤获得的肆意一条链接,作为模板二的示例地址。如:https://www.meituan.com/meishi/137562207/
②新建数据抽取
方式一:经由过程点击“下一步”后勾选抽取数据,再次点击“下一步”获得数据抽取。
方式二:直接点击模板二,点击上面“新建数据抽取”按钮,获得数据抽取
第四步:建立/选择表单
在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以经由过程表单ID来进行查找并联系关系数据表单。此处利用的方式三。
方式一:经由过程下拉菜单或表单ID选择已有表单
方式二:点击建立表单进入快速建表页面,新建表单。
方式三:点击“采集设置装备摆设”-“数据建表”,点击采“采集表单”
第五步:设置装备摆设表单
按照所需内容,设置装备摆设表单字段(即表头),此处设置装备摆设了网页本家儿键、题目、联系体例、联系地址共4个字段,表单如图
第六步:字段取值
① 先联系关系表单
② 字段取值是在数据模板位置写剧本,来给对应字段赋值,如图13所示。
代码如下:
var str=DOM.GetSource().ToStr().Middle("\"detailInfo\":",",\"photos\""); //获取网页源码包含数据部门内容
jScript js;
var obj=js.RunJson(str); //生当作json对象
record re;
re.id=MD5(URL.urlname);//给本家儿键字段生当作独一标识
re.tit=obj.name; //题目名称
re.addr=obj.address; //店肆地址
re.tel=obj.phone; //店肆德律风
RESULT.AddRec(re,TMPL.fstdoc.schemaid); //将所有的字段放入成果集
第七步:模板预览
①鼠标右键点击“数据抽取”,然后点击“模板预览”
②预览成果
第八步:采集预览
①点击右上角采集预览
②双击肆意一条链接,看看是否可以获得和网页对应的规整的数据,如图17所示。
这样就把美团网冒菜的商家地址和德律风采集出来了,大师也可以按照本身的需要设置进行采集。
今天的分享就就到这里了,我也是初学者可能用的不是出格好,但愿能帮忙到有需要的人,这个软件确实对我的工作很有帮忙,祝大师利用兴奋!
0 篇文章
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!