水木小镜 登录

本版的自注意力机制

发表于10-24 14:56  收藏  举报  回帖2
[图]
10-24 14:56
自注意力机制(Self-Attention)在Transformer模型中处于核心地位。它允许模型在处理序列的每个元素时,同时考虑序列中的所有元素,从而捕捉它们之间的关系。自注意力机制的核心是通过一组查询、键和值来计算注意力权重,这些权重随后用于生成加权的值组合,作为下一处理步骤的输入。
自注意力的计算公式可以表示为:查询向量乘以键向量除以维度,再做个softmax的非线性变换,目的是使梯度稳定性更好。最终权重是一种概率分布,表示每个键对应的值在输出中的重要性。最后,这些权重与值矩阵V相乘,得到最终的输出,它是输入序列中所有元素的加权表示。
本班板油互动过程可以看作一个训练模型过程,其中上述自注意力机制起着核心作用。长期相处后关系趋向稳定,也就是权重是一个恒定值,而对所有人的权重和为一。相对权重最大的人是你最喜欢的。讨厌的人让你不快,你不会去看他帖子,权重为零。
回复   编辑   ⇧顶   ⇩沉
[图] MRSA   10-24 17:31
以前k统计过
很有意思
[图] s111111   10-24 18:18
大王荣耀归来,还是辣么帅 辣么睿智 棒棒哒~
说两句