我正在建立一个 Elasticsearch 集群来搜索与一个 id 关联的向量。
例如,
鉴于此数据:
Parent id / Object id / vectors
P1 / BD / 123, 125, 235 ... 10304, 50305
P1 / DF / 125, 235, 240 ... 10305, 10306
P1 / ED / 123, 235, 350 ... 10010, 10344
...
P2 / AB / 125, 535, 740 ... 9315, 10306
P2 / VC / 133, 435, 350 ... 3010, 20344
P2 / RF / 113, 353, 390 ... 10110, 30344
...
There are millions of parents
hundreds of objects in a parent
1000 vectors in an object
所以基本上我想
索引所有向量
给定输入 P999,通过找到最多的相似对象来从集群中搜索相似的父对象。(相似对象:至少 50 个向量匹配)
这是我期望的示例结果
Input:
P999 / HH / xxx, xxx ...
P999 / YH / xxx, xxx ...
P999 / GJ / xxx, xxx ...
...
Output:
[result sorted desc]
P20 has 60 similar objects
P4 has 45 similar objects
P501 has 41 similar objects
...
similar objects: at least 50 vector matches
为了实现这一点,我需要
好的架构
存储向量的查询
按降序搜索相似对象列表的查询
我需要这三个方面的帮助。
饮歌长啸
相关分类