Transformer中的正弦位置嵌入详解@慕课网原创_慕课网

在扩散模型中，噪声会在前向过程中加入，随时间推移在反向过程中被消除。因此，时间步长信息非常重要，必须被纳入网络中。

所以我们怎么才能把时间信息加到网络里呢？一个简单的方法是在输入特征中添加时间步长 T ，例如 [inputFeature , T]（如 [输入特征, 时间步T]）。我用这个方法弄了一个简单的扩散模型。我已经用这种方法实现了个简单的扩散模型。

然而，这种方法也有一些缺点。如果在训练和推理时时间步不同，它就不太能适应不同的情况了。例如，如果一个模型是在时间步为50时训练的，那么在推理时时间步为10000时，模型的准确性可能就不太好了。

所以要不我们试试将时间步长的范围规范化？例如，如果我们把范围设为0到1，所有的时间步长都将落在0到1的范围内。然而，如果时间步长的数量不同，这将无法保持每一步的一致含义。

最好是不同时间步之间的关系最好保持一致，并且每个时间步的意义也应保持一致。另外，每个时间步还应有不同的表现形式。

这篇扩散模型的论文使用了 Transformer 正弦位置编码 来保留时间步信息。Transformer 正弦位置编码是一种可以解决这些问题的方法，这种方法在注意力机制的论文中提出。

参数在时间维度上是共享的，这是通过Transformer模型中的正弦位置嵌入来实现的。

位置编码（PE）的公式如下。

下面是一个用 Python 实现的例子，其中 pos 表示位置，i 表示维度。

    class SinusoidalPositionalEmbedding(nn.Module):  
        def __init__(self, embedding_dim):  
            super().__init__()  
            self.embedding_dim = embedding_dim  

        def forward(self, timesteps):  
            positions = np.arange(timesteps)[:, np.newaxis]  # 形状：(timesteps, 1)  
            dimensions = np.arange(self.embedding_dim)[  
                np.newaxis, :  
            ]  # 形状：(1, embedding_dim)  

            # 使用正弦函数来计算偶数索引的角度，使用余弦函数来计算奇数索引的角度  
            angle_rates = 1 / np.power(10000, (2 * (dimensions // 2)) / self.embedding_dim)  
            angle_rads = positions * angle_rates  

            # 创建一个与angle_rads相同形状的全零数组  
            pos_encoding = np.zeros_like(angle_rads)  
            pos_encoding[:, 0::2] = np.sin(angle_rads[:, 0::2])  
            pos_encoding[:, 1::2] = np.cos(angle_rads[:, 1::2])  
            return pos_encoding

你可以试试通过运行这段代码来体验位置编码（PE）。

可以看出，通过使用_sin_和cos，可以在连续的时间点之间保持连续性。这使得模型可以轻松地学习到连续性。

此外，更重要的是，即使改变时间步长，也能保持信息的一致性，因此即使在推理时出现了一些训练时未提供的时间步长信息，模型也能很好地应对。

下面的 GIF 显示了时间步从 100 改为 500 时 PE 的情况。你可以看到位置信息保持一致。

最后，PE在三角函数里为什么用数字10000？
论文中没有详细解释这一点，但也许10000只是一个合适的数值，虽然也可以选择其他数字。

下面这张图片是我将数值从10000改为了100以进行测试时拍下的。你看，波长变长了。

参考资料