我创建了一个基本的文本浏览器/抓取器,可以满足我的需要。然而,当收到来自站点的文本时,会有大量额外的空行。有没有一种方法可以删除多余的空白行,但在段落之间至少保留一个空白行?
这是我的代码......
import urllib.request
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = input('Enter a URL starting with https or http: ')
host = url
webUrl = urllib.request.urlopen(host)
print('result code: ' + str(webUrl.getcode()))
data = webUrl.read()
soup = BeautifulSoup(data, features="html.parser")
for script in soup(["script", "style"]):
script.extract()
text = soup.get_text()
print (text)
input('Scroll Up or Press ENTER to Exit')
翻过高山走不出你
相关分类