如何从大数据中找出两条相同的信息

有50亿条商品名称信息,每条信息最长是50个字符,给定限制内存是4G,如何从这50亿条商品信息中查找出任意两条相同商品名称信息。给出思路以及算法思路。
守候你守候我
浏览 448回答 2
2回答

冉冉说

把商品名称分词,再对分词进行向量运算。然后就把这个问题转换成了向量比较问题,夹角越小则越被认为是同一个商品。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

JavaScript