如何将斯坦福NLP 工具(POSTagger 和 Parser)与已标记化的文件一起使用?

我有一个标记化文件,我想使用斯坦福自然语言处理(StanfordNLP)用 POS 和依赖解析标签来注释它。我正在使用具有以下配置的 Python 脚本:


config = {

'processors': 'pos,lemma,depparse',

'lang': 'de',

'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',

'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',

'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',

'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',

'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'

nlp = stanfordnlp.Pipeline(**config)


doc = nlp(text)


但是,我收到以下消息:


缺失:{'tokenize'} 为此管道提供的处理器列表无效。请确保每个处理器都满足所有先决条件。

是否可以使用 Python 脚本跳过标记化步骤?


提前致谢!


富国沪深
浏览 106回答 1
1回答

函数式编程

您需要包含处理器并包含设置为 的tokenize属性。这将假设文本在空格上被标记,并且句子被换行符分割。您还可以传递字符串列表的列表,每个列表代表一个句子,条目是标记。tokenize_pretokenizedTrue
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python