使用 goroutine 进行矩阵乘法会降低性能

执行 8x8 矩阵乘法是相对较小的工作。Goroutines（虽然可能是轻量级的）确实有开销。如果他们所做的工作是“小”的，那么启动、同步和丢弃它们的开销可能会超过利用多核/线程的性能增益，并且总体而言，您可能无法通过并发执行此类小任务来获得性能（见鬼，您可能甚至比不使用 goroutines 更糟糕）。措施。如果我们将矩阵大小增加到 80x80，运行基准测试，我们已经看到在以下情况下有一些性能提升ParalMultNaivePerRow：BenchmarkMatrixDotNaive/A.MultNaive-4 2000 1054775 ns/op BenchmarkMatrixDotNaive/A.ParalMultNaivePerRow-4 2000 709367 ns/op BenchmarkMatrixDotNaive/A.ParalMultNaivePerElem-4 100 10224927 ns/op（正如您在结果中看到的，我有 4 个 CPU 内核，在您的 8 核机器上运行它可能会显示出更多的性能提升。）当行很小时，您正在使用 goroutines 来完成最少的工作，您可以通过在 goroutines 完成“微小”工作后不“丢弃”它们来提高性能，但您可以“重用”它们。

使用 goroutine 进行矩阵乘法会降低性能

1回答