我正在尝试在 Python 中创建一个 API 以从 ES 中提取数据并将其提供给数据仓库。数据是实时的并且每秒都会被填充,所以我将创建一个近乎实时的管道。
当前的 URL 格式是{{url}}/{{index}}/_search,我发送的测试负载是:
{
"from" : 0,
"size" : 5
}
在下一次刷新时,它将使用有效负载进行拉取:
{
"from" : 6,
"size" : 5
}
以此类推,直到达到记录总数。PROD 环境有大约 250M 行,我将大小设置为每次提取 10K。
我很担心,因为我不知道这些记录是否在 ES 中被重新排序。目前,有一个使用用户生成的时间戳的插件,但它存在缺陷,因为有时由于 json 可用于在 ES 中提取的延迟以及时间的生成方式可能导致文档被跳过。
有谁知道使用提取数据时的默认排序是什么/_search?
有只小跳蛙
ITMISS
相关分类