火炬就地操作以节省内存（softmax）

到目前为止，PyTorch 是不可能的。您可以尝试推出自己的GPU 内核，但我看到前面有麻烦（如果不是墙的话），这可能是此操作最初不可用的原因。除了归一化需要减少之外，Softmax 可以很容易地并行应用。减少是非常重要的，它们可以是就地或并行的（请记住，原子的使用相当于并发但不是并行的操作）。这意味着您的就地操作无论如何都必须在幕后分配，这违背了目的，或者运行得非常慢。请考虑我的回答有点推测性，我不是 GPGPU 的专家，但我的观点是，廉价、快速和正确地解决至少是一个困难的问题。话虽如此，如果您只关心 softmax，在我看来，您似乎在进行推理。也许对于您的应用程序来说，将 logits 移动到 CPU 并在那里运行 softmax 是一个可行的选择，而您的 GPU 已经在处理下一批？

火炬就地操作以节省内存（softmax）

2回答