Stemmers vs Lemmatizers

Q1：“[..]英语词干器今天有用吗？因为我们有大量的英语词法化工具”是。Stemmers比lemmatizers更简单，更小，通常更快，对于许多应用，它们的结果足够好。使用lemmatizer是浪费资源。例如，考虑信息检索中的维数减少。您可以在搜索到的文档和查询中通过driv替换所有驱动器/驱动器。你不介意它是驱动器或DRIV或x17a $只要聚类inflectionally相关词放在一起。Q2：“[..]我们应该如何继续构建强大的引理器，这些引理器可以采用名词化，verbify，adjectify和adverbify preprocesses？什么是你的一个引理的定义，它包括推导（驱动 - 驱动程序）或只拐点（驱动器 - 驱动器 - 开）？它是否考虑了语义？如果你想包括派生（大多数人会说包括修改名词等），那么请记住，派生比变形更不规则。有很多特质，差距等等。你真的想要改变（改变火车）和改变（作为硬币）以获得相同的引理吗？如果没有，你在哪里绘制边界？如何神经 - 失去勇气，地球 - 坟 - 世人，......这真的取决于应用程序。如果你考虑到语义（根据具体情况，银行会被标记为银行货币或银行河流），你有多深（你是否将银行机构与银行建设区分开来）？有些应用程序可能根本不关心这个问题，有些应用程序可能想要区分基本语义，有些可能希望它被罚款。问题3：“如何将词形还原任务轻松扩展到与英语具有相似形态结构的其他语言？”“与英语相似的形态结构”是什么意思？英语的屈折形态非常少。对于其他形态类型的语言（真正的屈折，凝聚，模板......），有很好的词形推理器。除了粘合语言之外，我认为查找表（比如压缩的trie）是最好的解决方案。（可能有一些未知单词的备份规则，如专有名称）。查找之后是某种消歧（范围从微不足道 - 采取第一个，或采取与POS标签一致的第一个，更复杂）。更复杂的消歧通常是监督的随机算法（例如TreeTagger或更快），尽管机器学习和手动创建的规则的组合也已经完成（参见例如此）。显然，对于大多数语言，您不希望手动创建查找表，而是根据该语言的形态描述生成查找表。对于屈折语言，你可以采用捷克语的Hajic或俄语的Mikheev的工程方式，或者，如果你大胆，你可以使用两级形态学。或者您可以在两者之间做一些事情，例如Hana（我自己）（请注意，这些都是包含词形还原的完整形态分析器）。或者你可以用无人监督的方式学习变形器 a yarowsky和Wicentowski，可能需要手动后处理，纠正最频繁的单词。有太多的选择，它实际上取决于你想要对结果做什么。

Stemmers vs Lemmatizers

3回答