近来在尝试用传统机器学习方法来做一个中文问答系统,传统机器学习方法建模其实主要的工作在于模型的特征工程,本文主要受哈工大的《中文语义角色标注的特征工程》及其参考文献的启发,分析及总结了在中文的自然语言处理任务的特征工程中可能用到的特征,以及特征提取的方法。
其实在《基于最大熵的中文阅读理解模型》中我们分析了词层面和句法层面的特征及提取,对于词层面的特征提取,通常需要进行分词、词性标注以及命名实体(NE)识别。在《你需要知道的几个好用的中文词法分析工具》中调研了几个常用的中文自然语言处理工具,通过调用接口、jar包等方式,我们可以很方便地使用这些工具来完成分词、词性标注以及命名实体标注等基本功能。
1、在对句子进行分词、词性标注和命名实体标注后,我们可以统计句子中词频,各类型词性个数以及句子中命名实体的种类和数量,并将其转化为特征;
2、中心词及其词性特征及提取:中心词是指在句子中具有重要意义的成分,中心词可以挖掘动词与施事者、受事者之间的关系。通过分析实验的语料库并统计中心词的词频,提取适合当前任务的中心词词典,图1展示了《Shallow Semantic Parsing of Chinese》中前20个中心词。
图1 《Shallow Semantic Parsing of Chinese》中前20个中心词
3、句法分析树:在《你需要知道的几个好用的中文词法分析工具》中我们也介绍了一些句法分析树构造工具,将句子转化成如图2所示的句法分析树,以此提取句法分析树特征。句法分析树特征可包含:
- 句法分析树中左、右兄弟句法成分的短语类型;
- 由谓语动词的父节点、谓语动词本身以及谓语动词子节点构成子类框架(如图2中的“通过”的子类框架为:
VP-VV-(NP-OBJ)
); - 句法分析树中当前句法成分到谓语动词的句法路径(“委员会”的句法路径为:
(NP-SBJ)-IP-VP-VP-VV
); - 部分路径,当前句法成分到它和当前谓语动词的最近共同父节点的句法路径(“委员会”的部分路径为:
(NP-SBJ)-IP-VP
); - 位置特征,句法成分在谓语动词的前面还是后面;
- 句法框架特征,包含句子的谓语动词和围绕谓语动词的名词短语。
图2 句法分析树
4、谓语动词的类别信息
5、语义角色类型:IO(简接宾语)、OBJ(直接宾语)、SBJ(主语)等,这些功能标记暗示着语义角色类型。Chinese Proposition Bank(CPB)语料库手工标记了语义角色类型。通过语义角色类型,我们可以进一步分析不同句法成分之间的关系,包含主谓关系,动宾关系等。图3展示了《基于句法模式识别的中文关系抽取方法研究与实现》中论元和关系词抽取流程。图 4 展示了句法成分的依存关系。
图 3 论元和关系词抽取流程
图4 句法成分的依存关系
6、句子包含的子句数
7、句法成分与谓语动词的相对位置:
- 是否有兄弟节点关系;
- 是否有相同动词短语的子节点;
- 是否属于相同子句或短语的子节点。
参考文献
- 刘怀军, 车万翔, 刘挺. 中文语义角色标注的特征工程[J]. 中文信息学报, 2007, 21(1):79-84.
- Sun H, Jurafsky D. Shallow Semantic Parsing of Chinese[J].
Proceedings of Naacl, 2004. - 郝博. 基于句法模式识别的中文关系抽取方法研究与实现[D].电子科技大学,2017.
- 潘苏. 中文语义角色标注研究及系统实现[D].苏州大学,2017