PYTHON 基本文本浏览器/爬虫。如何删除空行但在段落之间至少保留一个空行

我创建了一个基本的文本浏览器/抓取器,可以满足我的需要。然而,当收到来自站点的文本时,会有大量额外的空行。有没有一种方法可以删除多余的空白行,但在段落之间至少保留一个空白行?


这是我的代码......


import urllib.request

from urllib.request import urlopen

from bs4 import BeautifulSoup

url = input('Enter a URL starting with https or http: ')

host = url

webUrl = urllib.request.urlopen(host)

print('result code: ' + str(webUrl.getcode()))

data = webUrl.read()

soup = BeautifulSoup(data, features="html.parser")

for script in soup(["script", "style"]):

    script.extract()

text = soup.get_text()

print (text)

input('Scroll Up or Press ENTER to Exit')


狐的传说
浏览 45回答 1
1回答

翻过高山走不出你

用于re.sub用单个换行符替换多个换行符,换行符之间和之前有可选的空格:import re text = re.sub(r"\s*\n", "\n", text)
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python