猿问

我该如何词干或词法去除?

我已经尝试过PorterStemmer和Snowball,但都无法使用所有单词,缺少一些非常常见的单词。

我的测试词是:“ 猫跑了仙人掌仙人掌社区仙人掌 ”,并且两人都获得了不到一半的权利。


撒科打诨
浏览 476回答 3
3回答

湖上湖

我使用斯坦福大学nlp进行词条还原。最近几天,我一直在遇到类似的问题。感谢stackoverflow帮助我解决问题。import java.util.*; import edu.stanford.nlp.pipeline.*;import edu.stanford.nlp.ling.*; import edu.stanford.nlp.ling.CoreAnnotations.*;  public class example{    public static void main(String[] args)    {        Properties props = new Properties();         props.put("annotators", "tokenize, ssplit, pos, lemma");         pipeline = new StanfordCoreNLP(props, false);        String text = /* the string you want */;         Annotation document = pipeline.process(text);          for(CoreMap sentence: document.get(SentencesAnnotation.class))        {                for(CoreLabel token: sentence.get(TokensAnnotation.class))            {                       String word = token.get(TextAnnotation.class);                      String lemma = token.get(LemmaAnnotation.class);                 System.out.println("lemmatized version :" + lemma);            }        }    }}如果停用词稍后在分类器中使用,则最好使用停用词来最小化输出引理。请看一下John Conwell编写的coreNlp扩展。

慕姐4208626

我在这个雪球演示网站上尝试了您的术语列表,结果看起来还不错。...猫->猫运行->运行跑->跑仙人掌->仙人掌仙人掌->仙人掌社区->社区社区->社区词干被认为可以将词的变形形式转化为某些共同的词根。使该词根成为“适当的”字典词并不是真正的工作。为此,您需要查看形态/正交分析仪。我认为这个问题或多或少是同一件事,而Kaarel对这个问题的回答是我从第二个链接中获得的。
随时随地看视频慕课网APP
我要回答