我有一个标记化文件,我想使用斯坦福自然语言处理(StanfordNLP)用 POS 和依赖解析标签来注释它。我正在使用具有以下配置的 Python 脚本:
config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'
nlp = stanfordnlp.Pipeline(**config)
doc = nlp(text)
但是,我收到以下消息:
缺失:{'tokenize'} 为此管道提供的处理器列表无效。请确保每个处理器都满足所有先决条件。
是否可以使用 Python 脚本跳过标记化步骤?
提前致谢!
函数式编程
相关分类