简单的机器人来获取真实的网址和真实的内容

每次在浏览器中打开URL时,我都有一个重定向到其他域名的URL。Im重定向到的每个域的内容仅在Im从该主URL重定向时才显示。
换句话说:如果我直接在新的浏览器窗口中打开所有重定向的网址之一,它将为我显示空白页面。

我试图创建一个可以处理以下两个主要任务的小型漫游器:
1)获取要重新提取URL的域名;
2)获取这些重定向域名的真实内容;

我正在尝试使用cURL使其包括:

curl_setopt($ ch,CURLOPT_COOKIE,'tmpfile.tmp');
curl_setopt($ ch,CURLOPT_COOKIEJAR,'tmpfile.tmp');
curl_setopt($ ch,CURLOPT_COOKIEFILE,'tmpfile.tmp');

但我所能获得的只是主URL的以下源代码:

HTTP / 1.1 200 OK
日期:2019年4月20日星期六22:38:21 GMT
内容类型:text / html; charset = utf-8
传输编码:分块
连接:keep-alive
X-Powered-By:PHP / 5.4.16
Alt-Svc:h2 =“:443”; ma = 60
服务器:cloudflare
CF-RAY:4caa9baab8cdbd98-AMS



<\ title>正在加载,请稍候... <\ title>

window.name = String(Math.floor(Math.random()* 101)+100);
如果(window.opener){window.opener = null; }
window.location.replace(“ / cgi-bin / out.cgi?l = null”);

加载请稍候...


请帮助我制作一个足以使自己成为常规网站访问者并能够收集该数据的脚本。

这个项目是非常好的事业,任何帮助将不胜感激!


ABOUTYOU
浏览 104回答 1
1回答

慕容3067478

我直接在新的浏览器窗口中打开所有重定向的网址之一,它将显示空白页面。那么您就不应该重复使用Cookie,因为网站会通过这种方式检查是否是使用新浏览器窗口或全新浏览器的同一用户,但是您的代码似乎正在尝试重复使用Cookie(它使用的是从外观上看,它是静态硬编码的Coookie文件,如果您需要一个临时文件,请使用tmpfile()或将cookie保留在ram中)并且该页面看起来很奇怪,并且是残破的javascript-redirector页面,或者您没有显示主url的完整html,或者主url没有将任何人重定向到任何地方,也没有将重定向的javascript放在<script>标记中,因此浏览器将不会使用它来重定向任何地方。
打开App,查看更多内容
随时随地看视频慕课网APP