TRM-textV3.6 (Full SFT Optimized)
summerMC/TRM-textv3.5 に250Mトークンの継続事前学習と、databricks-dolly-15k-ja 全量を用いたフルSFTを施した最終評価版です。
評価結果 (0-shot SFT後)
| Task |
Metric |
Value |
| ARC-Easy |
acc_norm |
0.3300 |
| HellaSwag |
acc_norm |
0.2638 |
| PIQA |
acc_norm |
0.5539 |
※15kサンプルのフルSFTにより、プロンプト形式への適応を最大化しています。