正则表达式:删除彼此相邻的重复行

我已经从 Youtube 中提取了一些 cc,但我被下面的值困住了,我不知道如何处理它。我擅长替换字符串和其他东西,但是当事情变得严重时我真的很糟糕:(


这个


 we

 all

 have

 a

 unique

 perspective

 on

 the

 we all have a unique perspective on the


 we all have a unique perspective on the

 world

 around

 us

 and

 believe

 it

 or

 not

 world around us and believe it or not


 world around us and believe it or not

应替换为:


we all have a unique perspective on the

world around us and believe it or not


回首忆惘然
浏览 370回答 1
1回答

慕侠2389804

使用这个正则表达式,你可以去掉所有只有一个单词的行,如果有多个单词的行并且完全重复,它们将被替换为单行,\w+\s*\n|([\w ]+)\n*(\1\n+)*这里交替\w+\s*\n中的第一部分匹配单个字行并用空字符串替换,第二次交替([\w ]+)\n*(\1\n+)*捕获 group1 中的一行,然后(\1\n+)*消耗任何重复的行,最后由 group2 替换,group2 是同一行重复多次。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python