本版的自注意力机制

发表于10-24 14:56 收藏举报回帖2

10-24 14:56

自注意力机制（Self-Attention）在Transformer模型中处于核心地位。它允许模型在处理序列的每个元素时，同时考虑序列中的所有元素，从而捕捉它们之间的关系。自注意力机制的核心是通过一组查询、键和值来计算注意力权重，这些权重随后用于生成加权的值组合，作为下一处理步骤的输入。
自注意力的计算公式可以表示为：查询向量乘以键向量除以维度，再做个softmax的非线性变换，目的是使梯度稳定性更好。最终权重是一种概率分布，表示每个键对应的值在输出中的重要性。最后，这些权重与值矩阵V相乘，得到最终的输出，它是输入序列中所有元素的加权表示。
本班板油互动过程可以看作一个训练模型过程，其中上述自注意力机制起着核心作用。长期相处后关系趋向稳定，也就是权重是一个恒定值，而对所有人的权重和为一。相对权重最大的人是你最喜欢的。讨厌的人让你不快，你不会去看他帖子，权重为零。

回复编辑 ⇧顶 ⇩沉

由旧到新由新到旧

MRSA 10-24 17:31

以前k统计过
很有意思

回复 ⇧顶 ⇩沉

s111111 10-24 18:18

大王荣耀归来，还是辣么帅辣么睿智棒棒哒～

回复 ⇧顶 ⇩沉

说两句