PyMongo 游标batch

Pymongo 为Cursor类提供了一些生活质量助手，因此它会自动为您进行批处理，并将结果以文档形式返回给您。该batch_size设定完成，但这个想法是，你只需要设置它的find()方法，而不必做手工低水平电话或通过批次迭代。例如，如果我的集合中有 100 个文档：> db.test.count()100然后我设置分析级别以记录所有查询：> db.setProfilingLevel(0,-1){  "was": 0,  "slowms": 100,  "sampleRate": 1,  "ok": 1,...然后我使用 pymongo 指定batch_size10：import pymongoimport bsonconn = pymongo.MongoClient()cur = conn.test.test.find({}, {'txt':0}, batch_size=10)print(list(cur))运行该查询，我在 MongoDB 日志中看到：2019-02-22T15:03:54.522+1100 I COMMAND  [conn702] command test.test command: find { find: "test", filter: {} ....2019-02-22T15:03:54.523+1100 I COMMAND  [conn702] command test.test command: getMore { getMore: 266777378048, collection: "test", batchSize: 10, .... (getMore repeated 9 more times)所以查询是以指定的批次从服务器获取的。它只是通过Cursor课程对您隐藏。编辑如果真的需要批量获取文档，find_raw_batches()Collection下面有一个功能（doc link）。此方法的工作方式find()与此类似，并接受相同的参数。但是请注意，它将返回需要由应用程序在单独的步骤中解码的原始 BSON。值得注意的是，此方法不支持session。话虽如此，如果目标是降低应用程序的内存使用量，则值得考虑修改查询，使其使用范围。例如：find({'$gte': <some criteria>, '$lte': <some other criteria>})范围查询更容易优化，可以使用索引，并且（在我看来）更容易调试和更容易在查询中断时重新启动。这在使用批处理时不太灵活，您必须从头开始重新启动查询，如果它被中断，则再次检查所有批处理。

PyMongo 游标batch_size

2回答