首页 > 网站建设 > 数据采集 > 利用fiddler查找文章隐藏的真实地址
2014
10-31

利用fiddler查找文章隐藏的真实地址

这个教程讲解下如何用fddler ,找到页面的真是地址同样也是可以找到页面隐藏的内容,

两者原理是一样的,在页面能看到的信息,页面源代码却看不到,也就是这样的信息其实并不在这个页面上,

而是通过一些方法调用来显示在这个页面的,要采集都是要找到真实地址。所以首先需要知道fiddler的使用。

正如大家所知,采集器是根据页面源代码采集的,但是有的时候,在浏览器明明可以看到的,却在页面源代码找不到信息呢,如这个新浪的滚动新闻:

http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1,

假如你要采集这个怎么办,打开看下页面源代码里面找不到新闻内容的地址,这样的情况的话,

大部分情况我们看到的都不是我们要采集的真是地址,我们要用fiddler去找下,这些新闻地址的页面到底在那个页面。


第一步我们把fiidler软件打开,下图我会把fiddler重要的一个地方用红色标志出来,你们就按照图上的设置下fiddler。


没有抓到任何数据的fiddler工具界面如下图:


利用fiddler查找文章隐藏的真实地址 - 第1张  | 心岛博客  

第二步,抓包,就是刷新下我们要抓包的页面地址

第三步,停止抓包为了防止抓到很多无用的东西我们可以让fiddler 暂停抓包按钮在左下方如下图: 
利用fiddler查找文章隐藏的真实地址 - 第2张  | 心岛博客 

点击下上图的位置就可以了,就是在fiddler左下角,点击下那个单词并消失,就停止抓包了,再点击此处空白处就会又出现,就会从新抓包。 

第四步,查找页面真是地址


现在是我们知道内容地址来查找他在那个页面,我们在列表页那里顺便访问一个内容地址找到他的地址是什么如下图: 
利用fiddler查找文章隐藏的真实地址 - 第3张  | 心岛博客


这个地址是http://tech.sina.com.cn/t/2013-04-01/16548201408.shtml 这个是吧,然后我们选择地址种的一部分到fiddler里面去查找,

"ctrl+f"弹出查找的界面,一般选择数字或者英文,所以我们选择一些特殊的字符去查找,我们就选择后面的数字 “16548201408”

利用fiddler查找文章隐藏的真实地址 - 第4张  | 心岛博客  
上图黄色是我们我们找到包含“16548201408”字符的地址了,这里就可以想到这个地址就是我们要找到的真实地址了,下面就需要验证下

在fiddler里查看页面信息,看下是否是我们在页面看到的文章,如下图:

利用fiddler查找文章隐藏的真实地址 - 第5张  | 心岛博客


那么fiddler抓到的这个地址,就是滚动新闻列表页地址:http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1&r=0.46109949907658204

最后编辑:
作者:xindao
这个作者貌似有点懒,什么都没有留下。

留下一个回复

你的email不会被公开。