GUIAgent
/

MagicGUI_RFT

Safetensors

English

qwen2_vl

Model card Files Files and versions

xet

Community

GUIAgent commited on Sep 1, 2025

Commit

765fb0e

verified ·

1 Parent(s): 2cdd03d

Delete trainer_state.json

Browse files

Files changed (1) hide show

trainer_state.json +0 -1409

trainer_state.json DELETED Viewed

@@ -1,1409 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.9882571793977445,
-  "eval_steps": 500,
-  "global_step": 8500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5546875,
-      "epoch": 0.0001162655505173817,
-      "grad_norm": 4.281470286839314,
-      "kl": 0.0,
-      "learning_rate": 1.1494252873563218e-08,
-      "loss": 0.024247150868177414,
-      "memory(GiB)": 38.7,
-      "response_clip_ratio": 0.0,
-      "reward": 1.191904902458191,
-      "reward_std": 0.2820184826850891,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.191904902458191,
-      "step": 1,
-      "train_speed(iter/s)": 0.026594
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.550307765151516,
-      "epoch": 0.01162655505173817,
-      "grad_norm": 3.349521431788205,
-      "kl": 0.042687281213625514,
-      "learning_rate": 9.99994247477391e-07,
-      "loss": 0.006692861065720067,
-      "memory(GiB)": 49.8,
-      "response_clip_ratio": 0.0,
-      "reward": 1.103371890506359,
-      "reward_std": 0.4002408231749679,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.103371890506359,
-      "step": 100,
-      "train_speed(iter/s)": 0.093985
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4905078125,
-      "epoch": 0.02325311010347634,
-      "grad_norm": 6.366169338883484,
-      "kl": 0.09955322265625,
-      "learning_rate": 9.995654233098478e-07,
-      "loss": 0.0052225708961486815,
-      "memory(GiB)": 49.84,
-      "response_clip_ratio": 0.0,
-      "reward": 1.2144100672006608,
-      "reward_std": 0.26068811796605584,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.2144100672006608,
-      "step": 200,
-      "train_speed(iter/s)": 0.09568
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5164453125,
-      "epoch": 0.03487966515521451,
-      "grad_norm": 8.965565147378136,
-      "kl": 0.123232421875,
-      "learning_rate": 9.98456494798275e-07,
-      "loss": 0.005987527966499329,
-      "memory(GiB)": 49.84,
-      "response_clip_ratio": 0.0,
-      "reward": 1.268085294365883,
-      "reward_std": 0.2155047995969653,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.268085294365883,
-      "step": 300,
-      "train_speed(iter/s)": 0.095899
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.3789453125,
-      "epoch": 0.04650622020695268,
-      "grad_norm": 5.398711016783826,
-      "kl": 0.1314990234375,
-      "learning_rate": 9.966689716290176e-07,
-      "loss": 0.006581841707229614,
-      "memory(GiB)": 49.84,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3075979512929916,
-      "reward_std": 0.1733351560495794,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3075979512929916,
-      "step": 400,
-      "train_speed(iter/s)": 0.095915
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.464140625,
-      "epoch": 0.05813277525869085,
-      "grad_norm": 11.929118986441576,
-      "kl": 0.13150390625,
-      "learning_rate": 9.942052873217221e-07,
-      "loss": 0.004319159388542175,
-      "memory(GiB)": 49.84,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3076169914007187,
-      "reward_std": 0.16386293478310107,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3076169914007187,
-      "step": 500,
-      "train_speed(iter/s)": 0.095747
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.3632421875,
-      "epoch": 0.06975933031042902,
-      "grad_norm": 9.252344124235806,
-      "kl": 0.1381982421875,
-      "learning_rate": 9.910687959163634e-07,
-      "loss": 0.0042449763417243954,
-      "memory(GiB)": 49.84,
-      "response_clip_ratio": 0.0,
-      "reward": 1.304671415090561,
-      "reward_std": 0.1764876712858677,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.304671415090561,
-      "step": 600,
-      "train_speed(iter/s)": 0.094624
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.49859375,
-      "epoch": 0.08138588536216719,
-      "grad_norm": 10.5649786127299,
-      "kl": 0.14923828125,
-      "learning_rate": 9.872637674070805e-07,
-      "loss": 0.005914233922958374,
-      "memory(GiB)": 49.84,
-      "response_clip_ratio": 0.0,
-      "reward": 1.34539220392704,
-      "reward_std": 0.14272778324782848,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.34539220392704,
-      "step": 700,
-      "train_speed(iter/s)": 0.094626
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.431015625,
-      "epoch": 0.09301244041390536,
-      "grad_norm": 13.958988545352236,
-      "kl": 0.1456884765625,
-      "learning_rate": 9.827953819290425e-07,
-      "loss": 0.00618122935295105,
-      "memory(GiB)": 49.86,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3057015722990035,
-      "reward_std": 0.15137971622869373,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3057015722990035,
-      "step": 800,
-      "train_speed(iter/s)": 0.09467
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5357421875,
-      "epoch": 0.10463899546564354,
-      "grad_norm": 8.423788144030903,
-      "kl": 0.14693359375,
-      "learning_rate": 9.776697227062527e-07,
-      "loss": 0.004831492304801941,
-      "memory(GiB)": 49.86,
-      "response_clip_ratio": 0.0,
-      "reward": 1.347001107931137,
-      "reward_std": 0.14807809382677078,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.347001107931137,
-      "step": 900,
-      "train_speed(iter/s)": 0.094728
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.3253515625,
-      "epoch": 0.1162655505173817,
-      "grad_norm": 6.695960097747582,
-      "kl": 0.1556298828125,
-      "learning_rate": 9.718937677698976e-07,
-      "loss": 0.006615055799484253,
-      "memory(GiB)": 49.86,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3540274119377136,
-      "reward_std": 0.12457055719569325,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3540274119377136,
-      "step": 1000,
-      "train_speed(iter/s)": 0.094744
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.465390625,
-      "epoch": 0.12789210556911987,
-      "grad_norm": 10.285617962993532,
-      "kl": 0.16072265625,
-      "learning_rate": 9.654753804585103e-07,
-      "loss": 0.005601688623428345,
-      "memory(GiB)": 49.86,
-      "response_clip_ratio": 0.0,
-      "reward": 1.2828907597064971,
-      "reward_std": 0.14970409277826546,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.2828907597064971,
-      "step": 1100,
-      "train_speed(iter/s)": 0.094415
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.42546875,
-      "epoch": 0.13951866062085805,
-      "grad_norm": 10.836784655966541,
-      "kl": 0.158349609375,
-      "learning_rate": 9.584232987128862e-07,
-      "loss": 0.005478205680847168,
-      "memory(GiB)": 49.86,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3187702250480653,
-      "reward_std": 0.1322044050693512,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3187702250480653,
-      "step": 1200,
-      "train_speed(iter/s)": 0.094452
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5623828125,
-      "epoch": 0.1511452156725962,
-      "grad_norm": 11.103606735921945,
-      "kl": 0.1616162109375,
-      "learning_rate": 9.507471231803197e-07,
-      "loss": 0.00721156120300293,
-      "memory(GiB)": 49.86,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3138669067621231,
-      "reward_std": 0.14569927806034685,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3138669067621231,
-      "step": 1300,
-      "train_speed(iter/s)": 0.094427
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.3422265625,
-      "epoch": 0.16277177072433438,
-      "grad_norm": 13.981767782488324,
-      "kl": 0.154521484375,
-      "learning_rate": 9.424573041443602e-07,
-      "loss": 0.0046518009901046755,
-      "memory(GiB)": 49.88,
-      "response_clip_ratio": 0.0,
-      "reward": 1.355497771501541,
-      "reward_std": 0.1318685195595026,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.355497771501541,
-      "step": 1400,
-      "train_speed(iter/s)": 0.094456
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.40296875,
-      "epoch": 0.17439832577607256,
-      "grad_norm": 15.113419365506667,
-      "kl": 0.1561474609375,
-      "learning_rate": 9.335651272978812e-07,
-      "loss": 0.007406370639801025,
-      "memory(GiB)": 49.88,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3447466862201691,
-      "reward_std": 0.11326077262870968,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3447466862201691,
-      "step": 1500,
-      "train_speed(iter/s)": 0.094463
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.2856640625,
-      "epoch": 0.1860248808278107,
-      "grad_norm": 9.743718453316509,
-      "kl": 0.1603076171875,
-      "learning_rate": 9.240826983788282e-07,
-      "loss": 0.005493613481521606,
-      "memory(GiB)": 49.88,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3119167065620423,
-      "reward_std": 0.12479189267382025,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3119167065620423,
-      "step": 1600,
-      "train_speed(iter/s)": 0.094167
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5353515625,
-      "epoch": 0.1976514358795489,
-      "grad_norm": 13.264394110416175,
-      "kl": 0.1698193359375,
-      "learning_rate": 9.140229266895642e-07,
-      "loss": 0.006227902770042419,
-      "memory(GiB)": 49.88,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3038281148672104,
-      "reward_std": 0.11284614092670381,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3038281148672104,
-      "step": 1700,
-      "train_speed(iter/s)": 0.094188
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4226171875,
-      "epoch": 0.20927799093128707,
-      "grad_norm": 9.544011725041532,
-      "kl": 0.16232421875,
-      "learning_rate": 9.033995075222507e-07,
-      "loss": 0.005826195478439331,
-      "memory(GiB)": 49.88,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3212931084632873,
-      "reward_std": 0.11722485709935426,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3212931084632873,
-      "step": 1800,
-      "train_speed(iter/s)": 0.094171
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4878125,
-      "epoch": 0.22090454598302522,
-      "grad_norm": 10.343651509670643,
-      "kl": 0.17587890625,
-      "learning_rate": 8.922269035141858e-07,
-      "loss": 0.006521174311637878,
-      "memory(GiB)": 49.88,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3666004729270935,
-      "reward_std": 0.11584680547006428,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3666004729270935,
-      "step": 1900,
-      "train_speed(iter/s)": 0.094172
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4062109375,
-      "epoch": 0.2325311010347634,
-      "grad_norm": 14.015908728784089,
-      "kl": 0.1614306640625,
-      "learning_rate": 8.805203249584874e-07,
-      "loss": 0.005633658170700074,
-      "memory(GiB)": 49.88,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3424965512752534,
-      "reward_std": 0.11278555382974446,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3424965512752534,
-      "step": 2000,
-      "train_speed(iter/s)": 0.094185
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5082421875,
-      "epoch": 0.24415765608650156,
-      "grad_norm": 18.652060056142428,
-      "kl": 0.16919921875,
-      "learning_rate": 8.682957090969219e-07,
-      "loss": 0.005501749515533447,
-      "memory(GiB)": 49.96,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3379686850309371,
-      "reward_std": 0.11816087782382965,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3379686850309371,
-      "step": 2100,
-      "train_speed(iter/s)": 0.094031
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.449453125,
-      "epoch": 0.25578421113823974,
-      "grad_norm": 13.30826804477268,
-      "kl": 0.1685107421875,
-      "learning_rate": 8.555696984230717e-07,
-      "loss": 0.006635627746582031,
-      "memory(GiB)": 49.96,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3248258876800536,
-      "reward_std": 0.12071031459607184,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3248258876800536,
-      "step": 2200,
-      "train_speed(iter/s)": 0.094031
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.582734375,
-      "epoch": 0.2674107661899779,
-      "grad_norm": 14.474933819131337,
-      "kl": 0.1704052734375,
-      "learning_rate": 8.423596180253791e-07,
-      "loss": 0.005957164168357849,
-      "memory(GiB)": 49.96,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3814373064041137,
-      "reward_std": 0.1127387316338718,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3814373064041137,
-      "step": 2300,
-      "train_speed(iter/s)": 0.094051
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.45703125,
-      "epoch": 0.2790373212417161,
-      "grad_norm": 9.422596375579234,
-      "kl": 0.167822265625,
-      "learning_rate": 8.286834520009099e-07,
-      "loss": 0.0051918733119964595,
-      "memory(GiB)": 49.96,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3118427366018295,
-      "reward_std": 0.12126734969206154,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3118427366018295,
-      "step": 2400,
-      "train_speed(iter/s)": 0.09409
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4315234375,
-      "epoch": 0.29066387629345425,
-      "grad_norm": 9.38274122340621,
-      "kl": 0.1697900390625,
-      "learning_rate": 8.145598189719482e-07,
-      "loss": 0.005171371102333069,
-      "memory(GiB)": 49.96,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3867295610904693,
-      "reward_std": 0.11929248780943454,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3867295610904693,
-      "step": 2500,
-      "train_speed(iter/s)": 0.094103
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.479296875,
-      "epoch": 0.3022904313451924,
-      "grad_norm": 13.737979351496811,
-      "kl": 0.176787109375,
-      "learning_rate": 8.000079467387547e-07,
-      "loss": 0.007171725034713745,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3833684372901915,
-      "reward_std": 0.1071634407620877,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3833684372901915,
-      "step": 2600,
-      "train_speed(iter/s)": 0.093982
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4278515625,
-      "epoch": 0.3139169863969306,
-      "grad_norm": 15.580608222516146,
-      "kl": 0.171650390625,
-      "learning_rate": 7.850476461029935e-07,
-      "loss": 0.004804742336273193,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3642382991313935,
-      "reward_std": 0.10643348384648561,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3642382991313935,
-      "step": 2700,
-      "train_speed(iter/s)": 0.094
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5507421875,
-      "epoch": 0.32554354144866876,
-      "grad_norm": 11.114845313442226,
-      "kl": 0.1594287109375,
-      "learning_rate": 7.696992838974672e-07,
-      "loss": 0.0048704689741134646,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3298124277591705,
-      "reward_std": 0.11607776273973286,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3298124277591705,
-      "step": 2800,
-      "train_speed(iter/s)": 0.093983
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.53078125,
-      "epoch": 0.3371700965004069,
-      "grad_norm": 12.360373764757135,
-      "kl": 0.174365234375,
-      "learning_rate": 7.53983755258874e-07,
-      "loss": 0.005847660303115845,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3589847725629807,
-      "reward_std": 0.10737374008633196,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3589847725629807,
-      "step": 2900,
-      "train_speed(iter/s)": 0.093989
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5336328125,
-      "epoch": 0.3487966515521451,
-      "grad_norm": 10.064735245824536,
-      "kl": 0.1720654296875,
-      "learning_rate": 7.379224551813364e-07,
-      "loss": 0.005320903062820435,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3229967230558395,
-      "reward_std": 0.11362701586447656,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3229967230558395,
-      "step": 3000,
-      "train_speed(iter/s)": 0.094004
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.531796875,
-      "epoch": 0.3604232066038833,
-      "grad_norm": 9.746163845034996,
-      "kl": 0.1750537109375,
-      "learning_rate": 7.215372493894305e-07,
-      "loss": 0.005580630302429199,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.394041805267334,
-      "reward_std": 0.10719707342796028,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.394041805267334,
-      "step": 3100,
-      "train_speed(iter/s)": 0.093906
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.569140625,
-      "epoch": 0.3720497616556214,
-      "grad_norm": 10.075852679167767,
-      "kl": 0.164130859375,
-      "learning_rate": 7.048504445703623e-07,
-      "loss": 0.00647194504737854,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3294458091259003,
-      "reward_std": 0.10014143475331366,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3294458091259003,
-      "step": 3200,
-      "train_speed(iter/s)": 0.093919
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.46984375,
-      "epoch": 0.38367631670735963,
-      "grad_norm": 9.861222956771822,
-      "kl": 0.16787109375,
-      "learning_rate": 6.87884758005825e-07,
-      "loss": 0.005488141775131226,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3671020436286927,
-      "reward_std": 0.10204395545646548,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3671020436286927,
-      "step": 3300,
-      "train_speed(iter/s)": 0.093924
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4744921875,
-      "epoch": 0.3953028717590978,
-      "grad_norm": 10.703294199835678,
-      "kl": 0.1692626953125,
-      "learning_rate": 6.706632866448739e-07,
-      "loss": 0.005845343470573425,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3646071863174438,
-      "reward_std": 0.10554393734782934,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3646071863174438,
-      "step": 3400,
-      "train_speed(iter/s)": 0.093949
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5876953125,
-      "epoch": 0.40692942681083594,
-      "grad_norm": 12.156014006973646,
-      "kl": 0.164482421875,
-      "learning_rate": 6.53209475659926e-07,
-      "loss": 0.005560991764068604,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3740809667110443,
-      "reward_std": 0.10303839593194425,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3740809667110443,
-      "step": 3500,
-      "train_speed(iter/s)": 0.093941
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4395703125,
-      "epoch": 0.41855598186257414,
-      "grad_norm": 10.579136209736488,
-      "kl": 0.167001953125,
-      "learning_rate": 6.355470865286917e-07,
-      "loss": 0.0047145700454711914,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3503324526548386,
-      "reward_std": 0.09954373368062079,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3503324526548386,
-      "step": 3600,
-      "train_speed(iter/s)": 0.09383
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5458984375,
-      "epoch": 0.4301825369143123,
-      "grad_norm": 12.621743422766063,
-      "kl": 0.1657080078125,
-      "learning_rate": 6.177001646854896e-07,
-      "loss": 0.006506719589233398,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 3.90625e-05,
-      "reward": 1.3525580525398255,
-      "reward_std": 0.09826488124206662,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3525580525398255,
-      "step": 3700,
-      "train_speed(iter/s)": 0.093795
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4311328125,
-      "epoch": 0.44180909196605045,
-      "grad_norm": 9.354617068193154,
-      "kl": 0.173662109375,
-      "learning_rate": 5.996930067859863e-07,
-      "loss": 0.005135659575462342,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3989291822910308,
-      "reward_std": 0.09648296672850848,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3989291822910308,
-      "step": 3800,
-      "train_speed(iter/s)": 0.093833
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.49171875,
-      "epoch": 0.45343564701778866,
-      "grad_norm": 14.90852834265166,
-      "kl": 0.16689453125,
-      "learning_rate": 5.815501276299251e-07,
-      "loss": 0.0054639244079589845,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3303378784656525,
-      "reward_std": 0.1025526038557291,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3303378784656525,
-      "step": 3900,
-      "train_speed(iter/s)": 0.093865
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.45296875,
-      "epoch": 0.4650622020695268,
-      "grad_norm": 9.790046480640859,
-      "kl": 0.171201171875,
-      "learning_rate": 5.632962267868746e-07,
-      "loss": 0.005732476711273193,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3618503904342651,
-      "reward_std": 0.09345575381070376,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3618503904342651,
-      "step": 4000,
-      "train_speed(iter/s)": 0.093884
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4981640625,
-      "epoch": 0.47668875712126496,
-      "grad_norm": 16.23171809625287,
-      "kl": 0.1683154296875,
-      "learning_rate": 5.449561549704347e-07,
-      "loss": 0.006350870132446289,
-      "memory(GiB)": 49.97,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3815095353126525,
-      "reward_std": 0.10499328017234802,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3815095353126525,
-      "step": 4100,
-      "train_speed(iter/s)": 0.093808
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4899609375,
-      "epoch": 0.4883153121730031,
-      "grad_norm": 10.028625827275622,
-      "kl": 0.172294921875,
-      "learning_rate": 5.265548802066736e-07,
-      "loss": 0.005829288959503174,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3365002036094666,
-      "reward_std": 0.09621842056512833,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3365002036094666,
-      "step": 4200,
-      "train_speed(iter/s)": 0.093821
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.44015625,
-      "epoch": 0.4999418672247413,
-      "grad_norm": 10.282442330807516,
-      "kl": 0.1719873046875,
-      "learning_rate": 5.081174538428596e-07,
-      "loss": 0.006229421496391297,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3299858927726746,
-      "reward_std": 0.09780080110765993,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3299858927726746,
-      "step": 4300,
-      "train_speed(iter/s)": 0.093842
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4265234375,
-      "epoch": 0.5115684222764795,
-      "grad_norm": 10.479527710442367,
-      "kl": 0.171787109375,
-      "learning_rate": 4.89668976442758e-07,
-      "loss": 0.004759013652801514,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4068960046768189,
-      "reward_std": 0.09772759121842682,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4068960046768189,
-      "step": 4400,
-      "train_speed(iter/s)": 0.093846
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.43875,
-      "epoch": 0.5231949773282176,
-      "grad_norm": 17.529468974754778,
-      "kl": 0.1623486328125,
-      "learning_rate": 4.7123456361492607e-07,
-      "loss": 0.004565647840499878,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3555949538946153,
-      "reward_std": 0.09924329521134495,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3555949538946153,
-      "step": 4500,
-      "train_speed(iter/s)": 0.093871
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5710546875,
-      "epoch": 0.5348215323799558,
-      "grad_norm": 13.65773402603584,
-      "kl": 0.16982421875,
-      "learning_rate": 4.528393118205257e-07,
-      "loss": 0.005337421298027039,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3599874556064606,
-      "reward_std": 0.10061670660972595,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3599874556064606,
-      "step": 4600,
-      "train_speed(iter/s)": 0.093805
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.53828125,
-      "epoch": 0.546448087431694,
-      "grad_norm": 8.826143181240491,
-      "kl": 0.177373046875,
-      "learning_rate": 4.3450826420720283e-07,
-      "loss": 0.0059269857406616215,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 3.90625e-05,
-      "reward": 1.3456268101930617,
-      "reward_std": 0.0843733003223315,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3456268101930617,
-      "step": 4700,
-      "train_speed(iter/s)": 0.093771
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.7103125,
-      "epoch": 0.5580746424834322,
-      "grad_norm": 10.962918399547704,
-      "kl": 0.178984375,
-      "learning_rate": 4.1626637651554855e-07,
-      "loss": 0.005514188408851623,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3955884772539138,
-      "reward_std": 0.0897440404444933,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3955884772539138,
-      "step": 4800,
-      "train_speed(iter/s)": 0.093778
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.421328125,
-      "epoch": 0.5697011975351703,
-      "grad_norm": 13.288533082686738,
-      "kl": 0.1740966796875,
-      "learning_rate": 3.9813848310455493e-07,
-      "loss": 0.004496717453002929,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3486594069004059,
-      "reward_std": 0.09252091265749186,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3486594069004059,
-      "step": 4900,
-      "train_speed(iter/s)": 0.093792
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.6050390625,
-      "epoch": 0.5813277525869085,
-      "grad_norm": 13.576182979053868,
-      "kl": 0.16875,
-      "learning_rate": 3.801492631423183e-07,
-      "loss": 0.006311448216438293,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3385675930976868,
-      "reward_std": 0.08789137057960034,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3385675930976868,
-      "step": 5000,
-      "train_speed(iter/s)": 0.093819
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4701953125,
-      "epoch": 0.5929543076386466,
-      "grad_norm": 10.883793005621234,
-      "kl": 0.1636376953125,
-      "learning_rate": 3.6232320700801824e-07,
-      "loss": 0.005545246005058288,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3905673331022264,
-      "reward_std": 0.08755960265174507,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3905673331022264,
-      "step": 5100,
-      "train_speed(iter/s)": 0.093749
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4654296875,
-      "epoch": 0.6045808626903848,
-      "grad_norm": 10.540876662145202,
-      "kl": 0.1647607421875,
-      "learning_rate": 3.446845829509133e-07,
-      "loss": 0.004752608835697174,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.428147051334381,
-      "reward_std": 0.08269149933941662,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.428147051334381,
-      "step": 5200,
-      "train_speed(iter/s)": 0.093767
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4448046875,
-      "epoch": 0.616207417742123,
-      "grad_norm": 13.475346015876513,
-      "kl": 0.16580078125,
-      "learning_rate": 3.2725740405174216e-07,
-      "loss": 0.0050477349758148195,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.404239798784256,
-      "reward_std": 0.0858971696998924,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.404239798784256,
-      "step": 5300,
-      "train_speed(iter/s)": 0.093778
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4316796875,
-      "epoch": 0.6278339727938612,
-      "grad_norm": 12.403978855236371,
-      "kl": 0.1601806640625,
-      "learning_rate": 3.1006539553150724e-07,
-      "loss": 0.005034840106964112,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3801133859157562,
-      "reward_std": 0.0971566170360893,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3801133859157562,
-      "step": 5400,
-      "train_speed(iter/s)": 0.093788
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.47546875,
-      "epoch": 0.6394605278455994,
-      "grad_norm": 13.196174592922217,
-      "kl": 0.1671484375,
-      "learning_rate": 2.931319624521521e-07,
-      "loss": 0.00633289098739624,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3824928963184357,
-      "reward_std": 0.09388638647273183,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3824928963184357,
-      "step": 5500,
-      "train_speed(iter/s)": 0.093796
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5144921875,
-      "epoch": 0.6510870828973375,
-      "grad_norm": 10.532572334095438,
-      "kl": 0.17203125,
-      "learning_rate": 2.7648015785309695e-07,
-      "loss": 0.004889653325080872,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4016336119174957,
-      "reward_std": 0.09526587199419737,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4016336119174957,
-      "step": 5600,
-      "train_speed(iter/s)": 0.09374
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5614453125,
-      "epoch": 0.6627136379490757,
-      "grad_norm": 12.720205008880969,
-      "kl": 0.16912109375,
-      "learning_rate": 2.60132651367017e-07,
-      "loss": 0.00633256196975708,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3703772777318954,
-      "reward_std": 0.09573625258170068,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3703772777318954,
-      "step": 5700,
-      "train_speed(iter/s)": 0.093756
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.571796875,
-      "epoch": 0.6743401930008138,
-      "grad_norm": 6.872908071660086,
-      "kl": 0.177060546875,
-      "learning_rate": 2.441116983575876e-07,
-      "loss": 0.004491334557533264,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3781077253818512,
-      "reward_std": 0.0949486710689962,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3781077253818512,
-      "step": 5800,
-      "train_speed(iter/s)": 0.093772
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.511953125,
-      "epoch": 0.685966748052552,
-      "grad_norm": 10.828437072129354,
-      "kl": 0.1688671875,
-      "learning_rate": 2.2843910962121028e-07,
-      "loss": 0.004997452199459076,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3701044476032258,
-      "reward_std": 0.08872982957400381,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3701044476032258,
-      "step": 5900,
-      "train_speed(iter/s)": 0.0938
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5623046875,
-      "epoch": 0.6975933031042902,
-      "grad_norm": 8.65544047927268,
-      "kl": 0.1734130859375,
-      "learning_rate": 2.1313622169397133e-07,
-      "loss": 0.005034286975860596,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.376991518139839,
-      "reward_std": 0.08544575774110853,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.376991518139839,
-      "step": 6000,
-      "train_speed(iter/s)": 0.09382
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5916796875,
-      "epoch": 0.7092198581560284,
-      "grad_norm": 10.832177815406336,
-      "kl": 0.1687158203125,
-      "learning_rate": 1.9822386780425242e-07,
-      "loss": 0.005690656900405884,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3775933372974396,
-      "reward_std": 0.09453948569484055,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3775933372974396,
-      "step": 6100,
-      "train_speed(iter/s)": 0.093779
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.452265625,
-      "epoch": 0.7208464132077665,
-      "grad_norm": 9.5769032777987,
-      "kl": 0.167353515625,
-      "learning_rate": 1.8372234951054205e-07,
-      "loss": 0.0064952802658081055,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3917820090055466,
-      "reward_std": 0.0956609710212797,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3917820090055466,
-      "step": 6200,
-      "train_speed(iter/s)": 0.093802
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.595390625,
-      "epoch": 0.7324729682595047,
-      "grad_norm": 13.490536213430035,
-      "kl": 0.16693359375,
-      "learning_rate": 1.696514090630571e-07,
-      "loss": 0.006171835064888001,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3438419443368912,
-      "reward_std": 0.09881241522729396,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3438419443368912,
-      "step": 6300,
-      "train_speed(iter/s)": 0.093826
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.58125,
-      "epoch": 0.7440995233112428,
-      "grad_norm": 13.80425097201388,
-      "kl": 0.1742724609375,
-      "learning_rate": 1.560302025268016e-07,
-      "loss": 0.004496442675590515,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3792090493440627,
-      "reward_std": 0.09534793998114764,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3792090493440627,
-      "step": 6400,
-      "train_speed(iter/s)": 0.093832
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4980078125,
-      "epoch": 0.755726078362981,
-      "grad_norm": 12.228002609541004,
-      "kl": 0.172158203125,
-      "learning_rate": 1.4287727370265557e-07,
-      "loss": 0.004531278908252716,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3554240018129349,
-      "reward_std": 0.0867443119455129,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3554240018129349,
-      "step": 6500,
-      "train_speed(iter/s)": 0.093837
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.415234375,
-      "epoch": 0.7673526334147193,
-      "grad_norm": 11.022738680450304,
-      "kl": 0.164775390625,
-      "learning_rate": 1.3021052888199273e-07,
-      "loss": 0.006004486083984375,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3786427634954452,
-      "reward_std": 0.09436391741968692,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3786427634954452,
-      "step": 6600,
-      "train_speed(iter/s)": 0.093792
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5644140625,
-      "epoch": 0.7789791884664574,
-      "grad_norm": 7.2361000289177095,
-      "kl": 0.17333984375,
-      "learning_rate": 1.1804721246919974e-07,
-      "loss": 0.004695640504360199,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.383240016102791,
-      "reward_std": 0.09347979573532939,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.383240016102791,
-      "step": 6700,
-      "train_speed(iter/s)": 0.093815
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.3888671875,
-      "epoch": 0.7906057435181956,
-      "grad_norm": 10.627678410762373,
-      "kl": 0.1702392578125,
-      "learning_rate": 1.0640388350528345e-07,
-      "loss": 0.006417045593261719,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.392098326086998,
-      "reward_std": 0.08011089071165771,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.392098326086998,
-      "step": 6800,
-      "train_speed(iter/s)": 0.093838
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5668359375,
-      "epoch": 0.8022322985699337,
-      "grad_norm": 15.465333954982329,
-      "kl": 0.170009765625,
-      "learning_rate": 9.529639312452559e-08,
-      "loss": 0.005341029167175293,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4103717935085296,
-      "reward_std": 0.09352740393951535,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4103717935085296,
-      "step": 6900,
-      "train_speed(iter/s)": 0.093849
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5197265625,
-      "epoch": 0.8138588536216719,
-      "grad_norm": 14.110343993379132,
-      "kl": 0.1599560546875,
-      "learning_rate": 8.473986297487578e-08,
-      "loss": 0.004906933009624481,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4088983750343322,
-      "reward_std": 0.08588065375573933,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4088983750343322,
-      "step": 7000,
-      "train_speed(iter/s)": 0.093861
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4692578125,
-      "epoch": 0.82548540867341,
-      "grad_norm": 8.408536596023637,
-      "kl": 0.1673828125,
-      "learning_rate": 7.474866463146251e-08,
-      "loss": 0.005006779432296753,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4262621313333512,
-      "reward_std": 0.08552982007153333,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4262621313333512,
-      "step": 7100,
-      "train_speed(iter/s)": 0.093824
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4380859375,
-      "epoch": 0.8371119637251483,
-      "grad_norm": 15.805070345572961,
-      "kl": 0.1696728515625,
-      "learning_rate": 6.53364000312463e-08,
-      "loss": 0.005111285448074341,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4090092825889586,
-      "reward_std": 0.08110610948875546,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4090092825889586,
-      "step": 7200,
-      "train_speed(iter/s)": 0.093851
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5043359375,
-      "epoch": 0.8487385187768864,
-      "grad_norm": 9.57328394904971,
-      "kl": 0.161328125,
-      "learning_rate": 5.651588295545168e-08,
-      "loss": 0.004713370501995087,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3688128244876863,
-      "reward_std": 0.08936454836279153,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3688128244876863,
-      "step": 7300,
-      "train_speed(iter/s)": 0.093859
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4918359375,
-      "epoch": 0.8603650738286246,
-      "grad_norm": 13.141769298737369,
-      "kl": 0.1631298828125,
-      "learning_rate": 4.8299121584989445e-08,
-      "loss": 0.005130698680877685,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.400255571603775,
-      "reward_std": 0.09085271211341023,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.400255571603775,
-      "step": 7400,
-      "train_speed(iter/s)": 0.093861
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4555859375,
-      "epoch": 0.8719916288803627,
-      "grad_norm": 9.746601959968274,
-      "kl": 0.1671728515625,
-      "learning_rate": 4.069730215261552e-08,
-      "loss": 0.005373966693878174,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4106507396697998,
-      "reward_std": 0.08433111377526074,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4106507396697998,
-      "step": 7500,
-      "train_speed(iter/s)": 0.093864
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.479375,
-      "epoch": 0.8836181839321009,
-      "grad_norm": 12.304794577190247,
-      "kl": 0.166220703125,
-      "learning_rate": 3.372077371408361e-08,
-      "loss": 0.004605398774147034,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4062111765146255,
-      "reward_std": 0.08385045255534351,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4062111765146255,
-      "step": 7600,
-      "train_speed(iter/s)": 0.093825
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4255078125,
-      "epoch": 0.895244738983839,
-      "grad_norm": 10.788517373431308,
-      "kl": 0.1640380859375,
-      "learning_rate": 2.7379034059024085e-08,
-      "loss": 0.005341172218322754,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.400910457968712,
-      "reward_std": 0.09175728805363179,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.400910457968712,
-      "step": 7700,
-      "train_speed(iter/s)": 0.093832
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.557265625,
-      "epoch": 0.9068712940355773,
-      "grad_norm": 15.69745045067331,
-      "kl": 0.1719189453125,
-      "learning_rate": 2.1680716780730136e-08,
-      "loss": 0.0057187509536743165,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4035167163610458,
-      "reward_std": 0.09192508255131543,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4035167163610458,
-      "step": 7800,
-      "train_speed(iter/s)": 0.093839
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5982421875,
-      "epoch": 0.9184978490873155,
-      "grad_norm": 9.828379408967727,
-      "kl": 0.167861328125,
-      "learning_rate": 1.6633579522452923e-08,
-      "loss": 0.004599595665931702,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.4050581753253937,
-      "reward_std": 0.08899507346563042,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.4050581753253937,
-      "step": 7900,
-      "train_speed(iter/s)": 0.093848
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4523828125,
-      "epoch": 0.9301244041390536,
-      "grad_norm": 7.564846175327,
-      "kl": 0.165205078125,
-      "learning_rate": 1.2244493416208424e-08,
-      "loss": 0.006511397361755371,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3674461019039155,
-      "reward_std": 0.09354917639866471,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3674461019039155,
-      "step": 8000,
-      "train_speed(iter/s)": 0.093866
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.441796875,
-      "epoch": 0.9417509591907918,
-      "grad_norm": 8.473570999026597,
-      "kl": 0.166337890625,
-      "learning_rate": 8.51943372847419e-09,
-      "loss": 0.004957606792449951,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3664843720197677,
-      "reward_std": 0.09796678048558533,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3664843720197677,
-      "step": 8100,
-      "train_speed(iter/s)": 0.093827
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4091796875,
-      "epoch": 0.9533775142425299,
-      "grad_norm": 17.38564208248951,
-      "kl": 0.1664453125,
-      "learning_rate": 5.463471725509206e-09,
-      "loss": 0.005511881113052368,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3864123088121414,
-      "reward_std": 0.09022373898886143,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3864123088121414,
-      "step": 8200,
-      "train_speed(iter/s)": 0.093846
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.52640625,
-      "epoch": 0.9650040692942681,
-      "grad_norm": 12.073204680109393,
-      "kl": 0.1724462890625,
-      "learning_rate": 3.0807677693729385e-09,
-      "loss": 0.006146684885025024,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3671981352567673,
-      "reward_std": 0.09982930341735483,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3671981352567673,
-      "step": 8300,
-      "train_speed(iter/s)": 0.093858
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.4923828125,
-      "epoch": 0.9766306243460062,
-      "grad_norm": 14.136069122546115,
-      "kl": 0.164794921875,
-      "learning_rate": 1.3745656540422036e-09,
-      "loss": 0.0051899772882461545,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3862751299142837,
-      "reward_std": 0.09112708026543259,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3862751299142837,
-      "step": 8400,
-      "train_speed(iter/s)": 0.093871
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 9.5616015625,
-      "epoch": 0.9882571793977445,
-      "grad_norm": 7.965510618669221,
-      "kl": 0.168076171875,
-      "learning_rate": 3.4718818933582305e-10,
-      "loss": 0.0061265045404434205,
-      "memory(GiB)": 50.01,
-      "response_clip_ratio": 0.0,
-      "reward": 1.3907999232411385,
-      "reward_std": 0.08998070719651878,
-      "rewards/MultiModalMultiActionNoThinkNewAction": 1.3907999232411385,
-      "step": 8500,
-      "train_speed(iter/s)": 0.093882
-    }
-  ],
-  "logging_steps": 100,
-  "max_steps": 8601,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 0.0,
-  "train_batch_size": 8,
-  "trial_name": null,
-  "trial_params": null
-}