如何在列表的“大数据”字典上进行并行计算？

python线程不会真正帮助你并行处理，因为它们是在同一个“真正的CPU线程”上执行的，python线程在你处理异步HTTP调用时很有帮助。关于来自文档：ProcessPoolExecutorconcurrent.futures.ProcessPoolExecutor（）ProcessPoolExecutor 类是一个执行器子类，它使用进程池异步执行调用。ProcessPoolExecutor使用多处理模块，这允许它避开全局解释器锁，但也意味着只能执行和返回可拾取的对象。如果您需要高CPU处理，它可以为您提供帮助，您可以使用：import concurrentdef manipulate_values(k_v):    k, v = k_v    return_values = []    for i in v :        new_value = i ** 2 - 13        return_values.append(new_value)    return k, return_valueswith concurrent.futures.ProcessPoolExecutor() as executor:        example_dict = dict(executor.map(manipulate_values, example_dict1.items()))这是一个简单的基准测试，使用一个简单的循环来处理你的数据，而不是使用，我的场景假设对于要处理的每个项目，你需要大约50ms的CPU时间：forProcessPoolExecutor您可以看到如果要处理的每个项目的CPU时间高的真正好处ProcessPoolExecutorfrom simple_benchmark import BenchmarkBuilderimport timeimport concurrentb = BenchmarkBuilder()def manipulate_values1(k_v):    k, v = k_v    time.sleep(0.05)    return k, vdef manipulate_values2(v):    time.sleep(0.05)    return v@b.add_function()def test_with_process_pool_executor(d):    with concurrent.futures.ProcessPoolExecutor() as executor:            return dict(executor.map(manipulate_values1, d.items()))@b.add_function()       def test_simple_for_loop(d):    for key, value in d.items():        d[key] = manipulate_values2((key, value))@b.add_arguments('Number of keys in dict')def argument_provider():    for exp in range(2, 10):        size = 2**exp        yield size, {i: [i] * 10_000 for i in range(size)}r = b.run()r.plot()如果您没有为 ProcessPoolExecutor 设置工作线程数，则默认的工作线程数将等于计算机上的处理器数（对于基准测试，我使用的是一台 CPU 为 8 的电脑）。但在您的情况下，根据问题中提供的数据，处理1个项目将需要约3 μs：%timeit manipulate_values([367, 30, 847, 482, 887, 654, 347, 504, 413, 821])2.32 µs ± 25.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)在这种情况下，基准测试将如下所示：因此，如果要处理的一个项目的 CPU 时间较短，则最好使用简单的 for 循环。@user3666197提出的一个很好的观点是，当你有巨大的项目/列表时，我使用列表中的随机数对这两种方法进行了基准测试：1_000_000_000如您所见，在这种情况下更适合使用ProcessPoolExecutorfrom simple_benchmark import BenchmarkBuilderimport timeimport concurrentfrom random import choiceb = BenchmarkBuilder()def manipulate_values1(k_v):    k, v = k_v    return_values = []    for i in v:        new_value = i ** 2 - 13        return_values.append(new_value)    return k, return_valuesdef manipulate_values2(v):    return_values = []    for i in v:        new_value = i ** 2 - 13        return_values.append(new_value)    return return_values@b.add_function()def test_with_process_pool_executor(d):    with concurrent.futures.ProcessPoolExecutor() as executor:            return dict(executor.map(manipulate_values1, d.items()))@b.add_function()       def test_simple_for_loop(d):    for key, value in d.items():        d[key] = manipulate_values2(value)@b.add_arguments('Number of keys in dict')def argument_provider():    for exp in range(2, 5):        size = 2**exp        yield size, {i: [choice(range(1000)) for _ in range(1_000_000)] for i in range(size)}r = b.run()r.plot()预期，因为处理一个项目需要大约209ms：l = [367] * 1_000_000%timeit manipulate_values2(l)# 209 ms ± 1.45 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)不过，最快的选择是将numpy.arrays与循环解决方案一起使用：forfrom simple_benchmark import BenchmarkBuilderimport timeimport concurrentimport numpy as npb = BenchmarkBuilder()def manipulate_values1(k_v):    k, v = k_v    return k,  v ** 2 - 13def manipulate_values2(v):    return v ** 2 - 13@b.add_function()def test_with_process_pool_executor(d):    with concurrent.futures.ProcessPoolExecutor() as executor:            return dict(executor.map(manipulate_values1, d.items()))@b.add_function()       def test_simple_for_loop(d):    for key, value in d.items():        d[key] = manipulate_values2(value)@b.add_arguments('Number of keys in dict')def argument_provider():    for exp in range(2, 7):        size = 2**exp        yield size, {i: np.random.randint(0, 1000, size=1_000_000) for i in range(size)}r = b.run()r.plot()预计简单循环会更快，因为处理一个numpy.array需要<1ms：fordef manipulate_value2( input_list ):    return input_list ** 2 - 13l = np.random.randint(0, 1000, size=1_000_000)%timeit manipulate_values2(l)# 951 µs ± 5.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

如何在列表的“大数据”字典上进行并行计算？

2回答