一个困惑了很久的爬虫问题

http://app1.sfda.gov.cn/datasearch/face3/content.jsp?tableId=41&tableName=TABLE41&tableView=%E8%8D%AF%E5%93%81%E7%BB%8F%E8%90%A5%E4%BC%81%E4%B8%9A&Id=4

 这个网址,浏览器能正常访问,但是使用代码(jsoup、crawler4j、phantomjs都试过了)去访问,就只能拿到js。拿不到想要的数据,是什么原因呢?

经过不断摸索,发现是cookie过期时间很短,很快就失效了,求解决办法。

贴个jsoup代码吧

https://img3.mukewang.com/5b78dbf90001f71a07430492.jpg

浮云间
浏览 676回答 1
1回答

缥缈止盈

它的页面会重新生成cookie,你要分析js,你清除该网站所有cookie,会发现第一次请求的时候有一个返回302的请求.那个是返回加密过的js代码,直接看代码看不懂,要调试才能知道一些,而且这个是给window处理的.我试过浏览器模拟,可以获取数据.代码获取较麻烦,需要处理几乎每个页面都重新生成的FSSBBIl1UgzbN7N80T,暂时还未解决,如果你有进展麻烦回复,谢谢.
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Java