对于一个类,我需要提取元素之间的所有内容<seg>......</seg>我正在尝试通过 Python 来执行此操作,而不是浪费时间手动执行此操作(它超过 400 行)。我现在的代码方式是这样的(我在网上找到的一个代码并做了一些更改,以便它不打印行号):
import re
err_occur = []
pattern = re.compile(r"<seg>(.*)</seg>")
try:
with open ('corpus.txt', 'rt') as in_file:
for linenum, line in enumerate(in_file):
if pattern.search(line) != None:
err_occur.append((linenum, line.rstrip('\n')))
for linenum, line in err_occur:
print(line, sep='')
except FileNotFoundError:
print("Input file not found.")
我遇到的唯一问题是它会在结果中打印<seg>和</seg>,这是我不希望发生的。我尝试创建组(您可以在我使用模式变量中的括号中看到),但我不知道如何操作代码以仅返回组 1(我尝试了许多不同的方法)。
哆啦的时光机
相关分类