参数总数应该 7000293376 吧?
#16
by
J22
- opened
64000x4096 + 32 (4096x12288 + 4096x4096 + 4096x11008 + 11008x4096 + 4096x11008) + 4096x64000 = 7000293376
decoder
中还有 input_layernorm
和 post_attention_layernorm
,以及在LM_head
前的norm
层 7000293376 + 32 * (1 * 4096 * 2) + 1 * 4096= 7000559616
明白了,谢谢
12288 是把 $W_q$, $W_k$, $W_v$ 打包到一起的 W_pack。每个的大小都 4096 * 4096.
谢谢
J22
changed discussion status to
closed