我有一个带有POS标签的并行语料库文本文件,在该文件中我想对单词进行重新排序,以便“可分离的短语动词粒子”出现在短语动词的“动词”旁边(“组成计划”而不是'制定计划')。用于统计机器翻译系统中的预处理。以下是带有POS标签的文本文件中的一些示例行:
you_PRP意思是_VBP we_PRP应该_MD kick_VB他们_PRP out_RP ._。
don_VB't_NNP take_VB it_PRP off_RP直到_IN I_PRP say_VBP so_RB ._。
please_VB help_VB the_DT man_NN out_RP ._。
shut_VBZ it_PRP down_RP!_。
我想将所有质点(在示例中:out_RP,off_RP,out_RP,down_RP)移到最接近的前一个动词(即与质点组合在一起的动词组成短语动词)的旁边。更改单词顺序后,各行的外观应如下所示:
you_PRP意思是_VBP we_PRP应该_MD kick_VB out_RP他们_PRP ._。
don_VB't_NNP take_VB off_RP it_PRP直到_IN I_PRP say_VBP so_RB ._。
please_VB help_VB out_RP the_DT man_NN ._。
shut_VBZ down_RP it_PRP!_。
到目前为止,我已经尝试使用python和正则表达式通过使用re.findall对问题进行排序:
import re
file=open('first100k.txt').read()
matchline3='\w*_VB.?\s\w*_DT\s\w*_NN\s\w*_RP'
wordorder1=re.findall(matchline3,file)
print wordorder1
这将找到单词顺序为1的所有短语动词(请参见下文),但这是我所能做到的,因为我无法弄清楚如何将质点移到动词旁边。任何想法如何正确解决此问题(不一定使用python和regex)?我希望能够搜索所有短语动词,并按以下单词顺序移动质点:
(使用的标记来自Penn Treebank标记集(http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html))(x表示可选字符,以便包含所有动词形式,并且*表示通配符))
* _VBx + * _ DT + * _ NN + * _ RP
* _VBx + * _ DT + * _ NNS + * _ RP
* _ VBx + * _DT + * _。JJ + * _ NN + * _ RP
* _ VBx + * _DT + * _。JJ + * _ NNS + * _ RP
* _VBx + * _ PRP $ + * _ NN + * _ RP
* _VBx + * _ PRP $ + * _ NNS + * _ RP
* _ VBx + * _PRP $ + * _。JJ + * _ NN + * _ RP
* _ VBx + * _PRP $ + * _。JJ + * _ NNS + * _ RP
* _VBx + * _ NNP + * _ RP
* _VBx + * _ JJ + * _ NNP + * _ RP
* _VBx + * _ NNPS + * _ RP
* _VBx + * _ PRP + * _ RP
预先感谢您的帮助!
弑天下
相关分类