之後會有從頭開始預訓練的模型嗎?

#1
by win10 - opened

也許以聯發科的體量能研發從頭開始預訓練的大模型

也有非transformer的模型架構
例如:mamba、RWKV等
不一定要直接使用已完成的架構訓練,團隊應該先改編架構後訓練,rwkv的官方實作都不是最新的v6。
RWKV: https://github.com/RWKV/RWKV-infctx-trainer
https://github.com/BlinkDL/RWKV-LM
mamba: https://github.com/state-spaces/mamba

MediaTek Research org

您好,

謝謝您的建議。

Jeff

Sign up or log in to comment