如何将斯坦福NLP 工具（POSTagger 和 Parser）与已标记化的文件一起使用？

首页课程实战体系课手记专栏慕课教程

我有一个标记化文件，我想使用斯坦福自然语言处理（StanfordNLP）用 POS 和依赖解析标签来注释它。我正在使用具有以下配置的 Python 脚本：

config = {

'processors': 'pos,lemma,depparse',

'lang': 'de',

'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',

'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',

'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',

'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',

'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'

nlp = stanfordnlp.Pipeline(**config)

doc = nlp(text)

但是，我收到以下消息：

缺失：{'tokenize'} 为此管道提供的处理器列表无效。请确保每个处理器都满足所有先决条件。

是否可以使用 Python 脚本跳过标记化步骤？

提前致谢！

富国沪深

浏览 123回答 1

函数式编程

您需要包含处理器并包含设置为的tokenize属性。这将假设文本在空格上被标记，并且句子被换行符分割。您还可以传递字符串列表的列表，每个列表代表一个句子，条目是标记。tokenize_pretokenizedTrue

0 0

随时随地看视频慕课网APP