使 Boto3 上传调用阻塞（单线程）

我认为，由于这个问题的答案和另一个类似问题的答案似乎直接冲突，所以最好直接使用pdb.概括boto3 默认情况下使用多个线程 (10)但是，它不是异步的，因为它在返回之前等待（加入）这些线程，而不是使用“即发即弃”技术因此，以这种方式，如果您尝试与来自多个客户端的 s3 存储桶通信，则读/写线程安全性就位。细节我在这里努力解决的一个方面是多个（子线程）并不意味着顶级方法本身是非阻塞的：如果调用线程开始上传到多个子线程，然后等待这些线程完成并返回，我敢说这仍然是一个阻塞电话。反过来asyncio说，如果方法调用是一个“即发即弃”的调用。使用threading，这实际上归结为是否x.join()曾经被调用过。这是取自 Victor Val 的初始代码，用于启动调试器：import ioimport pdbimport boto3# From dd if=/dev/zero of=100mb.txt  bs=50M  count=1buf = io.BytesIO(open('100mb.txt', 'rb').read())bucket = boto3.resource('s3').Bucket('test-threads')pdb.run("bucket.upload_fileobj(buf, '100mb')")此堆栈帧来自 Boto 1.9.134。现在跳入pdb：.upload_fileobj() 首先调用一个嵌套方法——还没有太多可看的。(Pdb) s--Call--> /home/ubuntu/envs/py372/lib/python3.7/site-packages/boto3/s3/inject.py(542)bucket_upload_fileobj()-> def bucket_upload_fileobj(self, Fileobj, Key, ExtraArgs=None,(Pdb) s(Pdb) l574     575         :type Config: boto3.s3.transfer.TransferConfig576         :param Config: The transfer configuration to be used when performing the577             upload.578         """579  ->     return self.meta.client.upload_fileobj(580             Fileobj=Fileobj, Bucket=self.name, Key=Key, ExtraArgs=ExtraArgs,581             Callback=Callback, Config=Config)582     583     584  所以顶级方法确实返回了一些东西，但目前还不清楚那个东西最终会变成什么None。所以我们进入了那个。现在，.upload_fileobj()确实有一个config参数，默认情况下是 None ：(Pdb) l 531526     527         subscribers = None528         if Callback is not None:529             subscribers = [ProgressCallbackInvoker(Callback)]530     531         config = Config532         if config is None:533             config = TransferConfig()534     535         with create_transfer_manager(self, config) as manager:536             future = manager.upload(这意味着config成为默认值TransferConfig()：use_threads-- 如果为 True，则执行 S3 传输时将使用线程。如果为 False，则不会使用线程来执行传输：所有逻辑都将在主线程中运行。max_concurrency-- 请求执行传输的最大线程数。如果 use_threads 设置为 False，则忽略提供的值，因为传输只会使用主线程。哇啦，他们在这里：(Pdb) unt 534> /home/ubuntu/envs/py372/lib/python3.7/site-packages/boto3/s3/inject.py(535)upload_fileobj()-> with create_transfer_manager(self, config) as manager:(Pdb) config<boto3.s3.transfer.TransferConfig object at 0x7f1790dc0cc0>(Pdb) config.use_threadsTrue(Pdb) config.max_concurrency10现在我们在调用堆栈中下降一个级别以使用TransferManager（上下文管理器）。此时，max_concurrency已被用作类似名称的参数max_request_concurrency：# https://github.com/boto/s3transfer/blob/2aead638c8385d8ae0b1756b2de17e8fad45fffa/s3transfer/manager.py#L223    # The executor responsible for making S3 API transfer requests    self._request_executor = BoundedExecutor(        max_size=self._config.max_request_queue_size,        max_num_threads=self._config.max_request_concurrency,        tag_semaphores={            IN_MEMORY_UPLOAD_TAG: TaskSemaphore(                self._config.max_in_memory_upload_chunks),            IN_MEMORY_DOWNLOAD_TAG: SlidingWindowSemaphore(                self._config.max_in_memory_download_chunks)        },        executor_cls=executor_cls    )至少在这个 boto3 版本中，该类来自单独的库s3transfer。(Pdb) n> /home/ubuntu/envs/py372/lib/python3.7/site-packages/boto3/s3/inject.py(536)upload_fileobj()-> future = manager.upload((Pdb) manager<s3transfer.manager.TransferManager object at 0x7f178db437f0>(Pdb) manager._config<boto3.s3.transfer.TransferConfig object at 0x7f1790dc0cc0>(Pdb) manager._config.use_threadsTrue(Pdb) manager._config.max_concurrency10接下来，让我们进入manager.upload(). 这是该方法的全文：(Pdb) l 290, 303290  ->         if extra_args is None:291                 extra_args = {}292             if subscribers is None:293                 subscribers = []294             self._validate_all_known_args(extra_args, self.ALLOWED_UPLOAD_ARGS)295             call_args = CallArgs(296                 fileobj=fileobj, bucket=bucket, key=key, extra_args=extra_args,297                 subscribers=subscribers298             )299             extra_main_kwargs = {}300             if self._bandwidth_limiter:301                 extra_main_kwargs['bandwidth_limiter'] = self._bandwidth_limiter302             return self._submit_transfer(303                 call_args, UploadSubmissionTask, extra_main_kwargs)(Pdb) unt 301> /home/ubuntu/envs/py372/lib/python3.7/site-packages/s3transfer/manager.py(302)upload()-> return self._submit_transfer((Pdb) extra_main_kwargs{}(Pdb) UploadSubmissionTask<class 's3transfer.upload.UploadSubmissionTask'>(Pdb) call_args<s3transfer.utils.CallArgs object at 0x7f178db5a5f8>(Pdb) l 300, 5300             if self._bandwidth_limiter:301                 extra_main_kwargs['bandwidth_limiter'] = self._bandwidth_limiter302  ->         return self._submit_transfer(303                 call_args, UploadSubmissionTask, extra_main_kwargs)304     305         def download(self, bucket, key, fileobj, extra_args=None,啊，太可爱了——所以我们至少需要再往下一层才能看到实际的底层上传。(Pdb) s> /home/ubuntu/envs/py372/lib/python3.7/site-packages/s3transfer/manager.py(303)upload()-> call_args, UploadSubmissionTask, extra_main_kwargs)(Pdb) s--Call--> /home/ubuntu/envs/py372/lib/python3.7/site-packages/s3transfer/manager.py(438)_submit_transfer()-> def _submit_transfer(self, call_args, submission_task_cls,(Pdb) s> /home/ubuntu/envs/py372/lib/python3.7/site-packages/s3transfer/manager.py(440)_submit_transfer()-> if not extra_main_kwargs:(Pdb) l 440, 10440  ->         if not extra_main_kwargs:441                 extra_main_kwargs = {}442     443             # Create a TransferFuture to return back to the user444             transfer_future, components = self._get_future_with_components(445                 call_args)446     447             # Add any provided done callbacks to the created transfer future448             # to be invoked on the transfer future being complete.449             for callback in get_callbacks(transfer_future, 'done'):450                 components['coordinator'].add_done_callback(callback)好的，所以现在我们有一个TransferFuture, 定义在没有明确的证据表明线程已经被启动了，但是当涉及到期货s3transfer/futures.py 时，它肯定听起来像这样。(Pdb) l444             transfer_future, components = self._get_future_with_components(445                 call_args)446     447             # Add any provided done callbacks to the created transfer future448             # to be invoked on the transfer future being complete.449  ->         for callback in get_callbacks(transfer_future, 'done'):450                 components['coordinator'].add_done_callback(callback)451     452             # Get the main kwargs needed to instantiate the submission task453             main_kwargs = self._get_submission_task_main_kwargs(454                 transfer_future, extra_main_kwargs)(Pdb) transfer_future<s3transfer.futures.TransferFuture object at 0x7f178db5a780>下面的最后一行来自TransferCoordinator课堂，乍一看似乎很重要：class TransferCoordinator(object):    """A helper class for managing TransferFuture"""    def __init__(self, transfer_id=None):        self.transfer_id = transfer_id        self._status = 'not-started'        self._result = None        self._exception = None        self._associated_futures = set()        self._failure_cleanups = []        self._done_callbacks = []        self._done_event = threading.Event()  # < ------ !!!!!!您通常会看到threading.Event 一个线程用于发出事件状态的信号，而其他线程可以等待该事件发生。TransferCoordinator是由 .使用的TransferFuture.result()。好的，从上面循环回来，我们现在在s3transfer.futures.BoundedExecutor它的max_num_threads属性：class BoundedExecutor(object):    EXECUTOR_CLS = futures.ThreadPoolExecutor    # ...    def __init__(self, max_size, max_num_threads, tag_semaphores=None,                 executor_cls=None):    self._max_num_threads = max_num_threads    if executor_cls is None:        executor_cls = self.EXECUTOR_CLS    self._executor = executor_cls(max_workers=self._max_num_threads)这基本上相当于：from concurrent import futures_executor = futures.ThreadPoolExecutor(max_workers=10)但是仍然存在一个问题：这是一种“即发即弃”，还是调用实际上是在等待线程完成并返回？似乎是后者。 .result()来电self._done_event.wait(MAXINT)。# https://github.com/boto/s3transfer/blob/2aead638c8385d8ae0b1756b2de17e8fad45fffa/s3transfer/futures.py#L249def result(self):    self._done_event.wait(MAXINT)    # Once done waiting, raise an exception if present or return the    # final result.    if self._exception:        raise self._exception    return self._result最后，重新运行 Victor Val 的测试，这似乎证实了上述内容：>>> import boto3>>> import time>>> import io>>> >>> buf = io.BytesIO(open('100mb.txt', 'rb').read())>>> >>> bucket = boto3.resource('s3').Bucket('test-threads')>>> start = time.time()>>> print("starting to upload...")starting to upload...>>> bucket.upload_fileobj(buf, '100mb')>>> print("finished uploading")finished uploading>>> end = time.time()>>> print("time: {}".format(end-start))time: 2.6030001640319824（此示例在网络优化实例上运行时，此执行时间可能更短。但 2.5 秒仍然是一个明显的大块时间，并且根本不表示线程被启动并且没有等待。）最后，这是一个Callbackfor的示例.upload_fileobj()。它遵循文档中的示例。首先，一个小帮手可以有效地获取缓冲区的大小：def get_bufsize(buf, chunk=1024) -> int:    start = buf.tell()    try:        size = 0         while True:             out = buf.read(chunk)             if out:                 size += chunk             else:                 break        return size    finally:        buf.seek(start)类本身：import osimport sysimport threadingimport timeclass ProgressPercentage(object):    def __init__(self, filename, buf):        self._filename = filename        self._size = float(get_bufsize(buf))        self._seen_so_far = 0        self._lock = threading.Lock()        self.start = None    def __call__(self, bytes_amount):        with self._lock:            if not self.start:                self.start = time.monotonic()            self._seen_so_far += bytes_amount            percentage = (self._seen_so_far / self._size) * 100            sys.stdout.write(                "\r%s  %s of %s  (%.2f%% done, %.2fs elapsed\n" % (                    self._filename, self._seen_so_far, self._size,                    percentage, time.monotonic() - self.start))            # Use sys.stdout.flush() to update on one line            # sys.stdout.flush()例子：In [19]: import io     ...:      ...: from boto3.session import Session     ...:      ...: s3 = Session().resource("s3")     ...: bucket = s3.Bucket("test-threads")     ...: buf = io.BytesIO(open('100mb.txt', 'rb').read())     ...:      ...: bucket.upload_fileobj(buf, 'mykey', Callback=ProgressPercentage("mykey", buf))                                                                                                                                                                      mykey  262144 of 104857600.0  (0.25% done, 0.00s elapsedmykey  524288 of 104857600.0  (0.50% done, 0.00s elapsedmykey  786432 of 104857600.0  (0.75% done, 0.01s elapsedmykey  1048576 of 104857600.0  (1.00% done, 0.01s elapsedmykey  1310720 of 104857600.0  (1.25% done, 0.01s elapsedmykey  1572864 of 104857600.0  (1.50% done, 0.02s elapsed

使 Boto3 上传调用阻塞（单线程）

3回答