我有一个Sqlite数据库,其中包含以下类型的架构:
termcount(doc_num, term , count)
该表包含术语及其在文档中的各自计数。喜欢
(doc1 , term1 ,12)
(doc1, term 22, 2)
.
.
(docn,term1 , 10)
该矩阵可以视为稀疏矩阵,因为每个文档都包含很少的具有非零值的项。
我将如何使用numpy从稀疏矩阵创建密集矩阵,因为我必须使用余弦相似度来计算文档之间的相似度。
这个密集的矩阵看起来像一个表格,第一列为docid,所有术语将列为第一行,其余单元格将包含计数。
沧海一幻觉
小怪兽爱吃肉
相关分类