如何获取网页中的编码数字?

我想在网页中获取红色数字,但我得到了编码字符串。


这是我的代码:


import requests

from bs4 import BeautifulSoup

res = requests.get('https://m.3fang.com/3f/land/zpg/detail/fc8e0948-2a63-449b-886b-2a54269b1498/b/370724.html', headers={'user-agent':'abc'})

soup = BeautifulSoup(res.text, 'lxml')

print(soup.find('p',{'class':'imp-num'}).text)

而不是2491.00,我得到了'\U000de4f7\U000da5fb\U000d4dfa\U000d1fae.\U000d7c4e\U000d7c4e㎡\n            '。


如何得到正确的数字?


摇曳的蔷薇
浏览 63回答 1
1回答

UYOU

您正在从页面中提取正确的数据,但由于缺少字体系列,问题出在数据呈现上。抓取的数据有一些 Unicode 字符,这些字符在大多数常见字体系列中并不常见。因此,您可以通过安装与该网站使用的字体相同的字体来正确查看这些数据。从 chrome 开发人员工具中,您可以轻松识别该站点正在使用以下两个 URL 链接字体:https://industrydown1.fang.com/node-3fang-wap/1.2.6/font/my_default_c.580b51a2.ttfhttps://industrydown1.fang.com/node-3fang-wap/1.2.6/font/my_default_a.6ce68cf0.ttf只需下载这些字体并将它们安装在您想要可视化此数据的系统上,如果您打算在网页上使用它,您需要在样式表中链接这些字体。为了在我的 arch Linux 上安装这些字体,我下载了这些文件并将它们复制到~/.local/share/fonts/. 然后我执行fc-cache命令更新我系统上的字体缓存。安装这些字体后,我将该字体添加为 Visual Studio Code 编辑器上的后备字体,之后我能够看到正确呈现的这些字符。附上截图供参考:对于 PyCharm,导航到File> Settings。在那里搜索Console Font或导航到Editor> Color Scheme> Console Font。在那里设置my_default_c为您的后备字体并勾选选项Enable font ligatures。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python