如何使用八爪鱼采集新浪新闻文章

本文介绍如何使用采集器采集新浪新闻文章的方法。

 

采集的内容包括:新闻标题,新闻正文

工具/原料

  • 使用功能点:  列表及详细信息采集  Ajax点击加载  Xpath修改  自定义数据字段

方法/步骤

  1. 1

    步骤1:创建新浪新闻采集任务

    1)进入主界面,选择“自定义采集”

  2. 2

    2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”

  3. 3

    步骤2:创建列表循环

    1)打开网页之后,鼠标选中第一个新闻列表的标题,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”

  4. 4

    2)接着选择“采集以下链接文本”

  5. 5

    然后选择“点击该链接”。

  6. 6

    步骤3:提取详细信息

    1)进入列表详情页面,鼠标选中文章内容第一段,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”,

  7. 7

     之后选择“采集以下元素文本”

  8. 8

     2)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。

  9. 9

    3)选中提取数据的步骤,鼠标点击“自定义数据字段”

  10. 10

    之后选择“自定义数据合并方式

  11. 11

    勾选第二个选项,同一字段合并为同一行

  12. 12

    步骤4:修改Xpath及高级选项设置

    1)选中整个“循环步骤”,打开“高级选项”,可以看到,八爪鱼默认生成的元素列表的Xpath并不能定位到所有的文章,所以需要修改

  13. 13

    2)在火狐浏览器中打开要采集的网页并观察源码。观察网页源码,修改此条Xpath为:“//p”, 将修改后的Xpath,复制粘贴到八爪鱼中所示位置,然后点击“确定”。

  14. 14

     由于网站涉及到Ajax

  15. 15

    步骤5:新浪新闻数据采集及导出

    1)点击左上角的“保存”,然后点击“开始采集”,选择“启动本地采集”

  16. 16

    2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 一份完好的新浪新闻数据就导出来了,这里我们选择excel作为导出为格式,数据导出后如下图

  • 发表于 2018-01-29 00:00
  • 阅读 ( 1090 )
  • 分类:其他类型

0 条评论

请先 登录 后评论
admin
admin

0 篇文章

作家榜 »

  1. xiaonan123 189 文章
  2. 汤依妹儿 97 文章
  3. luogf229 46 文章
  4. jy02406749 45 文章
  5. 小凡 34 文章
  6. Daisy萌 32 文章
  7. 我的QQ3117863681 24 文章
  8. 华志健 23 文章

联系我们:uytrv@hotmail.com 问答工具