多线程中elasticsearch插入时如何保证唯一性?

我们有一些elasticsearch的文档。文档的唯一性是由一些字段共同决定的,java多线程判断是否存在和插入时如何保证唯一性。


之前不知道有什么好的方法,所以就写了一个方法:我猜是否存在,如果不存在我就插入,这个方法是通过syncronized来修改的。但我发现这是一种非常低效的做法。


/**

 * @param document

 */

synchronized void selectAndInsert(Map<String, Object> document){

    //Determine if it exists, insert it if it does not exist

}

我的映射如下: {"properties":{"pt_number":{ "type":"keyword" }, "pt_name":{"type":"keyword" },"pt_longitude":{ "type":"文本"},"pt_latitude":{"type":"text" },"rd_code":{ "type":"text" }, "rd_name":{ "type":"keyword"}, "area_code": {“类型”:“关键字”} ...等等 }}


唯一性由area_code、pt_longitude 和pt_latitude 确定。插入文档时我会根据area_code、pt-longitude、pt_latitude判断是否存在,不存在则插入。java多线程运行时如何保证文档的唯一性?


这个问题困扰了我一段时间。谁能帮助我,我将非常感激。


繁星淼淼
浏览 215回答 3
3回答

千万里不及你

仅通过索引中的属性无法以任何方式保证不存在此类文档。即使您检查它是否存在于索引中但没有看到它,从发出该操作的响应到 ES 接受您的索引请求之间也存在一段时间。所以基本上你只有两种方法:保证索引操作的单次执行(漫长且不那么简单的方法,因为我们没有一次性系统)将文档唯一属性转换为文档 ID,因此即使索引操作重叠,它们也只会将相同的值写入同一文档(或者第二个及后续操作将失败,具体取决于请求选项)。后一个非常简单,您有一些开箱即用的选项:按确定的顺序获取所有唯一属性并连接它们的字符串表示形式(丑陋)按确定的顺序获取所有唯一属性,连接它们的字节值并使用 Base64 进行编码(不太难看)按确定的顺序获取所有唯一属性,将它们传递给散列函数(md5、sha-X 系列,无论您喜欢什么)并使用结果的字符串表示形式。

九州编程

常见的情况可能是您以某种方式发送了文档(例如 kafka)并希望确保没有重复项。据我所知,ElasticSearch 中没有这样的方法,尽管你可以在这里尝试一个技巧:ElasticSearch 允许指定自定义文档 ID文档ID的长度被限制为512字节,不能用于正常的“处理”您可能希望根据您的字段(如数据库中的主键)创建一个 ID。如果使用 _create ,那么仅当您的文档尚不存在时才会创建它。但还有一些问题需要解决:如何生成ID?简单的串联可以工作,但前提是您确定总长度不会超过 512B。否则可以使用校验和 - 但冲突的可能性很小。如果收到几乎相同的文档该怎么办(您的密钥相同,但存在其他一些差异)。Elastic 只允许“替换”或“不替换”。您需要处理其他场景。

繁花不似锦

如果您检测到插入,为什么不在插入完成后(和索引刷新...)检查是否没有重复项。第二种解决方案是使用批量插入更新数据包写入每个 X(= 将新文档存储在共享区域的列表中,因此您可以检查您的文档是否尚未存在,并每 10 秒写入此列表例子)。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Java