如何计算两个文本文档之间的相似度?

如何计算两个文本文档之间的相似度?

我正在寻找一个NLP项目,使用任何编程语言(虽然Python将是我的偏好)。

我想拿两份文件,确定它们有多相似。


largeQ
浏览 1335回答 3
3回答

茅侃侃

这是一个老问题,但我发现这可以通过Spacy轻松完成。一旦读取文档,similarity就可以使用简单的api 来找到文档向量之间的余弦相似度。import spacynlp = spacy.load('en')doc1 = nlp(u'Hello hi there!')doc2 = nlp(u'Hello hi there!')doc3 = nlp(u'Hey whatsup?')print doc1.similarity(doc2) # 0.999999954642print doc2.similarity(doc3) # 0.699032527716print doc1.similarity(doc3) # 0.699032527716
打开App,查看更多内容
随时随地看视频慕课网APP