如何使用八爪鱼采集新浪新闻文章 - IIIFF互动问答平台

如何使用八爪鱼采集新浪新闻文章

本文介绍如何使用采集器采集新浪新闻文章的方法。

采集的内容包括：新闻标题，新闻正文

工具/原料

使用功能点：  列表及详细信息采集  Ajax点击加载  Xpath修改  自定义数据字段

方法/步骤

1
步骤1：创建新浪新闻采集任务
1）进入主界面，选择“自定义采集”
2
2）将要采集的网址URL复制粘贴到网站输入框中，点击“保存网址”
3
步骤2：创建列表循环
1）打开网页之后，鼠标选中第一个新闻列表的标题，系统会自动识别出其他相似的链接，然后在右面的提示框中选择“选中全部”
4
2）接着选择“采集以下链接文本”
5
然后选择“点击该链接”。
6
步骤3：提取详细信息
1）进入列表详情页面，鼠标选中文章内容第一段，系统会自动识别出其他相似的链接，然后在右面的提示框中选择“选中全部”，
7
之后选择“采集以下元素文本”
8
2）选完需要的数据以后，可以打开右上角的流程按钮，对字段进行修改。
9
3）选中提取数据的步骤，鼠标点击“自定义数据字段”
10
之后选择“自定义数据合并方式
11
勾选第二个选项，同一字段合并为同一行
12
步骤4：修改Xpath及高级选项设置
1）选中整个“循环步骤”，打开“高级选项”，可以看到，八爪鱼默认生成的元素列表的Xpath并不能定位到所有的文章，所以需要修改
13
2）在火狐浏览器中打开要采集的网页并观察源码。观察网页源码，修改此条Xpath为：“//p”, 将修改后的Xpath，复制粘贴到八爪鱼中所示位置，然后点击“确定”。
14
由于网站涉及到Ajax
15
步骤5：新浪新闻数据采集及导出
1）点击左上角的“保存”，然后点击“开始采集”，选择“启动本地采集”
16
2）采集完成后，会跳出提示，选择“导出数据”，选择“合适的导出方式”，将采集好的数据导出, 一份完好的新浪新闻数据就导出来了，这里我们选择excel作为导出为格式，数据导出后如下图

发表于 2018-01-29 00:00
阅读 ( 1127 )
分类：其他类型

作家榜 »

xiaonan123 189 文章
汤依妹儿 97 文章
luogf229 46 文章
jy02406749 45 文章
小凡 34 文章
Daisy萌 32 文章
我的QQ3117863681 24 文章
华志健 23 文章

联系我们:uytrv@hotmail.com 问答工具