首页 > 网站建设 > 数据采集 > 关于火车采集js调用文章资讯的方法
2014
12-16

关于火车采集js调用文章资讯的方法

一、需要准备的工具软件:

火车头采集

抓包软件(我使用的是fiddler)

二、首先以淘宝密儿为例说明如何对js调用的网页进行抓包

整体思路:利用网页cookie进行数据抓包处理。

1、安装运行抓包软件:

关于火车采集js调用文章资讯的方法 - 第1张  | 心岛博客

2、打开淘宝密儿网页并将网页滚动至网页底部,滚动过程中,你会发现大约一张页面会有5次js加载,然后点击状态栏的抓包软件,所有的抓包数据一目了然:

关于火车采集js调用文章资讯的方法 - 第2张  | 心岛博客

三、根据抓包数据设置采集规则

1、打开火车采集软件,新建一采集任务,然后点击采集网址选项卡的添加按钮,添加采集网址:

关于火车采集js调用文章资讯的方法 - 第3张  | 心岛博客

2、提取js页面的下层页面网址和该栏目的文章总数:

关于找网址的方法如下图所示:

关于火车采集js调用文章资讯的方法 - 第4张  | 心岛博客

利用文本工具打开代码后的对应关系如下(注意:复制的是项目的值,不要连标题都复制过去):

关于火车采集js调用文章资讯的方法 - 第5张  | 心岛博客

这样完成后会采集到列表页面网址,但是我们还需要通过代码分析的方法将下层的网址也要提取出来:

关于火车采集js调用文章资讯的方法 - 第6张  | 心岛博客

关于火车采集js调用文章资讯的方法 - 第7张  | 心岛博客

注意:上图中需要将cookie复制到上图中的对应位置,然后开始查看:

关于火车采集js调用文章资讯的方法 - 第8张  | 心岛博客

如上图所示,这样就是已经成功执行了,注意红框中的总页数,如果大家最后采集到的页面总数可以和此处对比!

3、提取内容页的脚本规则:

利用上一步中我们查看到的代码来分析

关于火车采集js调用文章资讯的方法 - 第9张  | 心岛博客

关于火车采集js调用文章资讯的方法 - 第10张  | 心岛博客

关于火车采集js调用文章资讯的方法 - 第11张  | 心岛博客

至此,通过抓包软件获取js页面文章地址的方法就讲述完毕了,如果大家有任何问题,请在心岛博客中留言,我讲尽快协助解决问题!

最后编辑:
作者:xindao
这个作者貌似有点懒,什么都没有留下。

留下一个回复

你的email不会被公开。