我正在使用BeautifulSoup用Python编写爬虫,直到我遇到这个站点,一切都进行得很顺利:
http://www.elnorte.ec/
我正在请求库中获取内容:
r = requests.get('http://www.elnorte.ec/')
content = r.content
如果我在那时打印内容变量,则所有西班牙语特殊字符似乎都可以正常工作。但是,一旦我尝试将content变量提供给BeautifulSoup,它就会变得一团糟:
soup = BeautifulSoup(content)
print(soup)
...
<a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&month=08&day=27&modid=203" title="1009 artÃculos en este dÃa">
...
显然是在塞满所有西班牙特殊字符(重音和诸如此类)。我尝试做content.decode('utf-8'),content.decode('latin-1'),也尝试将fromEncoding参数设置为BeautifulSoup,将其设置为fromEncoding ='utf-8'和fromEncoding =“ latin-1”,但仍然没有骰子。
任何指针将不胜感激。
ibeautiful
相关分类