HebQwen / logging.jsonl

Initial model upload

3c6b9cb verified 3 months ago

6.37 kB

	{"loss": 2.87438893, "acc": 0.61398816, "grad_norm": 7.7171979, "learning_rate": 3.333e-05, "memory(GiB)": 20.29, "train_speed(iter/s)": 0.066629, "epoch": 0.02206897, "global_step/max_steps": "1/45", "percentage": "2.22%", "elapsed_time": "14s", "remaining_time": "10m 38s"}
	{"loss": 2.60930538, "acc": 0.62096363, "grad_norm": 8.61656094, "learning_rate": 9.944e-05, "memory(GiB)": 22.58, "train_speed(iter/s)": 0.075138, "epoch": 0.11034483, "global_step/max_steps": "5/45", "percentage": "11.11%", "elapsed_time": "1m 6s", "remaining_time": "8m 48s"}
	{"loss": 0.68508205, "acc": 0.80472717, "grad_norm": 3.39920235, "learning_rate": 9.33e-05, "memory(GiB)": 23.35, "train_speed(iter/s)": 0.076348, "epoch": 0.22068966, "global_step/max_steps": "10/45", "percentage": "22.22%", "elapsed_time": "2m 10s", "remaining_time": "7m 36s"}
	{"loss": 0.69332366, "acc": 0.81436024, "grad_norm": 5.22668648, "learning_rate": 8.117e-05, "memory(GiB)": 24.12, "train_speed(iter/s)": 0.076737, "epoch": 0.33103448, "global_step/max_steps": "15/45", "percentage": "33.33%", "elapsed_time": "3m 14s", "remaining_time": "6m 29s"}
	{"loss": 0.57136168, "acc": 0.86372032, "grad_norm": 3.47823906, "learning_rate": 6.474e-05, "memory(GiB)": 24.12, "train_speed(iter/s)": 0.076946, "epoch": 0.44137931, "global_step/max_steps": "20/45", "percentage": "44.44%", "elapsed_time": "4m 19s", "remaining_time": "5m 24s"}
	{"loss": 0.51958747, "acc": 0.85740089, "grad_norm": 2.10636616, "learning_rate": 4.626e-05, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077061, "epoch": 0.55172414, "global_step/max_steps": "25/45", "percentage": "55.56%", "elapsed_time": "5m 23s", "remaining_time": "4m 19s"}
	{"loss": 0.51737795, "acc": 0.85881948, "grad_norm": 2.69179988, "learning_rate": 2.831e-05, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077142, "epoch": 0.66206897, "global_step/max_steps": "30/45", "percentage": "66.67%", "elapsed_time": "6m 28s", "remaining_time": "3m 14s"}
	{"loss": 0.72901492, "acc": 0.84086313, "grad_norm": 7.91634893, "learning_rate": 1.335e-05, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077198, "epoch": 0.77241379, "global_step/max_steps": "35/45", "percentage": "77.78%", "elapsed_time": "7m 32s", "remaining_time": "2m 9s"}
	{"loss": 0.43249173, "acc": 0.86680059, "grad_norm": 2.94894457, "learning_rate": 3.46e-06, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077243, "epoch": 0.88275862, "global_step/max_steps": "40/45", "percentage": "88.89%", "elapsed_time": "8m 37s", "remaining_time": "1m 4s"}
	{"loss": 0.34231672, "acc": 0.91657734, "grad_norm": 2.63670993, "learning_rate": 0.0, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077273, "epoch": 0.99310345, "global_step/max_steps": "45/45", "percentage": "100.00%", "elapsed_time": "9m 41s", "remaining_time": "0s"}
	{"eval_loss": 0.50872844, "eval_acc": 0.81818182, "eval_runtime": 3.4104, "eval_samples_per_second": 2.053, "eval_steps_per_second": 2.053, "epoch": 0.99310345, "global_step/max_steps": "45/45", "percentage": "100.00%", "elapsed_time": "9m 45s", "remaining_time": "0s"}
	{"train_runtime": 585.8499, "train_samples_per_second": 1.238, "train_steps_per_second": 0.077, "total_flos": 4.488065503664026e+16, "train_loss": 0.79476425, "epoch": 0.99310345, "global_step/max_steps": "45/45", "percentage": "100.00%", "elapsed_time": "9m 45s", "remaining_time": "0s"}
	{"memory": {"cuda": "24.91GiB"}, "last_model_checkpoint": "/content/output/qwen2-vl-7b-instruct/v2-20240909-100714/checkpoint-45", "best_model_checkpoint": "/content/output/qwen2-vl-7b-instruct/v2-20240909-100714/checkpoint-45", "best_metric": 0.50872844, "global_step": 45, "log_history": [{"loss": 2.87438893, "acc": 0.61398816, "grad_norm": 7.717197895050049, "learning_rate": 3.3333333333333335e-05, "memory(GiB)": 20.29, "train_speed(iter/s)": 0.066629, "epoch": 0.022068965517241378, "step": 1}, {"loss": 2.60930538, "acc": 0.62096363, "grad_norm": 8.616560935974121, "learning_rate": 9.944154131125642e-05, "memory(GiB)": 22.58, "train_speed(iter/s)": 0.075138, "epoch": 0.1103448275862069, "step": 5}, {"loss": 0.68508205, "acc": 0.80472717, "grad_norm": 3.399202346801758, "learning_rate": 9.330127018922194e-05, "memory(GiB)": 23.35, "train_speed(iter/s)": 0.076348, "epoch": 0.2206896551724138, "step": 10}, {"loss": 0.69332366, "acc": 0.81436024, "grad_norm": 5.226686477661133, "learning_rate": 8.117449009293668e-05, "memory(GiB)": 24.12, "train_speed(iter/s)": 0.076737, "epoch": 0.3310344827586207, "step": 15}, {"loss": 0.57136168, "acc": 0.86372032, "grad_norm": 3.478239059448242, "learning_rate": 6.473775872054521e-05, "memory(GiB)": 24.12, "train_speed(iter/s)": 0.076946, "epoch": 0.4413793103448276, "step": 20}, {"loss": 0.51958747, "acc": 0.85740089, "grad_norm": 2.1063661575317383, "learning_rate": 4.626349532067879e-05, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077061, "epoch": 0.5517241379310345, "step": 25}, {"loss": 0.51737795, "acc": 0.85881948, "grad_norm": 2.6917998790740967, "learning_rate": 2.8305813044122097e-05, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077142, "epoch": 0.6620689655172414, "step": 30}, {"loss": 0.72901492, "acc": 0.84086313, "grad_norm": 7.916348934173584, "learning_rate": 1.3347406408508695e-05, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077198, "epoch": 0.7724137931034483, "step": 35}, {"loss": 0.43249173, "acc": 0.86680059, "grad_norm": 2.948944568634033, "learning_rate": 3.4563125677897932e-06, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077243, "epoch": 0.8827586206896552, "step": 40}, {"loss": 0.34231672, "acc": 0.91657734, "grad_norm": 2.6367099285125732, "learning_rate": 0.0, "memory(GiB)": 24.91, "train_speed(iter/s)": 0.077273, "epoch": 0.993103448275862, "step": 45}, {"eval_loss": 0.5087284445762634, "eval_acc": 0.8181818181818182, "eval_runtime": 3.4104, "eval_samples_per_second": 2.053, "eval_steps_per_second": 2.053, "epoch": 0.993103448275862, "step": 45}, {"train_runtime": 585.8499, "train_samples_per_second": 1.238, "train_steps_per_second": 0.077, "total_flos": 4.488065503664026e+16, "train_loss": 0.7947642538282607, "epoch": 0.993103448275862, "step": 45}], "model_info": "PeftModelForCausalLM: 8311.5607M Params (20.1851M Trainable [0.2429%]), 0.0019M Buffers.", "dataset_info": null, "train_time": {"train_runtime": 585.8499, "n_train_samples": 725, "train_samples_per_second": 1.2375183472763245}}