我有这个网页。当我尝试使用这样的requests模块获取其 html 时:
import requests
link = "https://www.worldmarktheclub.com/resorts/7m/"
f = requests.get(link)
print(f.text)
我得到这样的结果:
<!DOCTYPE html>
<html><head>
<meta http-equiv="Pragma" content="no-cache"/>
<meta http-equiv="Expires" content="-1"/>
<meta http-equiv="CacheControl" content="no-cache"/>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<link rel="shortcut icon" href="data:;base64,iVBORw0KGgo="/>
<script>
(function(){
var securemsg;
var dosl7_common;
// seemingly garbage like [Z.li]+Z._j+Z.LO+Z.SJ+"(/.{"+Z.i+","+Z.Ii+"}
</script>
<script type="text/javascript" src="/TSPD/08e841a5c5ab20007f02433a700e2faba779c2e847ad5d441605ef3d4bbde75cd229bcdb30078f66?type=9"></script>
<noscript>Please enable JavaScript to view the page content.</noscript>
</head><body>
</body></html>
结果只显示了一部分。但是当我在浏览器中检查网页时,我可以看到正确的 html。我想页面的编码可能有问题,但无法弄清楚。使用urllib.request+read()给出了同样的错误结果。我该如何纠正这一点。提前致谢。
正如@DeepSpace 所建议的,脚本中的垃圾问题是由于缩小了 JS 代码。但是为什么我没有正确获取 html?
收到一只叮咚
梵蒂冈之花
相关分类