这是我的代码的要点。它试图从旧网站获取一些文本。这不是我的,所以我不能改变来源。
from bs4 import BeautifulSoup
import requests
response = requests.get("https://mattgemmell.com/network-link-conditioner-in-lion/")
data = response.text
soup = BeautifulSoup(data, 'lxml')
article = soup.find_all('article')[0]
text = article.find_all('p')[1].text
print(text)
给出了这个:
“如果你——x80\x99 是使用网络的 Mac 或 iOS 应用程序的开发人员,那么——x80\x99s Mac OS X 10.7 的开发人员工具中的一项新功能——x80\x9cLion——x80\x9d(阅读我对它在卫报)这对你有用。这篇简短的文章描述了它是如何工作的。
我可以用它来转换像 â\x80\x99 这样的部分:
converted_text = bytes(text, 'latin-1').decode('utf-8')
实际上有效。
但是如果你得到文本的不同部分:
text = article.find_all('p')[8].text
给我:
'\n← 在 Lion 上的文本中查找模式\n在 OS X Lion 上使用 Spaces →\n'
使用bytes(text, 'latin-1')给了我:
'latin-1' 编解码器无法在位置 1 中对字符 '\u2190' 进行编码:序号不在范围内 (256)
我猜是箭头?我怎样才能让它自动忽略和丢弃所有非拉丁字符。
任何想法都会最有帮助!
慕桂英546537
qq_笑_17
相关分类