PYTHON 基本文本浏览器/爬虫。如何删除空行但在段落之间至少保留一个空行

我创建了一个基本的文本浏览器/抓取器，可以满足我的需要。然而，当收到来自站点的文本时，会有大量额外的空行。有没有一种方法可以删除多余的空白行，但在段落之间至少保留一个空白行？

这是我的代码......

import urllib.request

from urllib.request import urlopen

from bs4 import BeautifulSoup

url = input('Enter a URL starting with https or http: ')

host = url

webUrl = urllib.request.urlopen(host)

print('result code: ' + str(webUrl.getcode()))

data = webUrl.read()

soup = BeautifulSoup(data, features="html.parser")

for script in soup(["script", "style"]):

script.extract()

text = soup.get_text()

print (text)

input('Scroll Up or Press ENTER to Exit')

狐的传说

浏览 397回答 1

翻过高山走不出你

用于re.sub用单个换行符替换多个换行符，换行符之间和之前有可选的空格：import re text = re.sub(r"\s*\n", "\n", text)

随时随地看视频慕课网APP