怎么对词库中的词语进行高效的编码?

自己现在有两种方案,一种是直接用数进行增长

// let weight=//     {//         '美国': 10,//         '军区': 5,//         '雇员': 7,//         '灰色': 4,//         '外星人': 7,//         'ufo': 3,//     }

另一种是将字符用utf8的方式进行解析出来。

let str='国'function hash(str){    let strcode=0
    for (const iterator of str) 
    {
        strcode += iterator.codePointAt(0).toString(2)
    }    return strcode
}console.log(hash(str))//0101011011111101

但是两者的的编码仍然不能缩小数据量。
计算这个是为了后面能够进行,文本相似度的计算。谢谢。


慕丝7291255
浏览 660回答 2
2回答

湖上湖

编码当然不能缩小数据量,压缩才可以减小数据量。

HUX布斯

计算相似度前的向量化文本除了词袋模型还可以使用TF-IDF, LSI等模型
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Node.js