我正在尝试从该网站获取电影剧本作为文本。直到某一点,文本变成这样:
5 .
/ b >
T H E W A L L S C O M E A L I V E ! A s e e m i n g l y i n f i n i t e s w a r m o f F I R E
D E M O N S r a l l y t o S u r t u r ' s a i d .
这是我的代码
import requests
from bs4 import BeautifulSoup
website_url = requests.get("https://www.imsdb.com/scripts/Thor-Ragnarok.html").text
soup = BeautifulSoup(website_url, "lxml")
text = soup.pre
打印出来时text,它会显示预期的输出,直到第 5 节。然后我看到上面的文字很烦人...
关于为什么会发生这种情况以及如何解决它的任何想法?
慕斯709654
相关分类