提取电影脚本时,BeautifulSoup 吓坏了

我正在尝试从该网站获取电影剧本作为文本。直到某一点,文本变成这样:


5   .   


   /   b   >   




                   T   H   E       W   A   L   L   S       C   O   M   E       A   L   I   V   E   !       A       s   e   e   m   i   n   g   l   y       i   n   f   i   n   i   t   e       s   w   a   r   m       o   f       F   I   R   E   


                   D   E   M   O   N   S       r   a   l   l   y       t   o       S   u   r   t   u   r   '   s       a   i   d   .   

这是我的代码


import requests

from bs4 import BeautifulSoup


website_url = requests.get("https://www.imsdb.com/scripts/Thor-Ragnarok.html").text

soup = BeautifulSoup(website_url, "lxml")

text = soup.pre

打印出来时text,它会显示预期的输出,直到第 5 节。然后我看到上面的文字很烦人...


关于为什么会发生这种情况以及如何解决它的任何想法?


紫衣仙女
浏览 134回答 2
2回答

慕斯709654

奇怪...我在我的机器上尝试了你的原始代码,但我无法重现你描述的间距问题。我有 lxml-4.3.0、bs4 版本 4.7.1 和 python 3.7.1。你有哪些版本?
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python