从文本文件中提取URL-Python

我正在尝试从包含网站源代码的文本文件中提取URL。我想获取href内的网站链接,并写了一些我从stackoverflow借来的代码,但无法正常工作。


with open(sourcecode.txt) as f:

    urls = f.readlines()


urls = ([s.strip('\n') for s in urls ]) 


print(url)


慕的地8271018
浏览 1246回答 2
2回答

小唯快跑啊

使用正则表达式,您可以从文本文件中提取所有网址,而无需逐行循环:import rewith open('/home/username/Downloads/Stack_Overflow.html') as f:    urls = f.read()    links = re.findall('"((http)s?://.*?)"', urls)for url in links:    print(url[0])

MMTTMM

您可以为此使用正则表达式。import rewith open('sourcecode.txt') as f:    text = f.read()href_regex = r'href=[\'"]?([^\'" >]+)'urls = re.findall(href_regex, text)print(urls)您可能会收到类似的错误'sourcecode' is not defined;这是因为您传递给的参数open()必须是字符串(请参见上文)
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python