inflaton
/

cs605-nlp-assignment-2-roberta-large-v2

Multiple Choice

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

cs605-nlp-assignment-2-roberta-large-v2 / run-0 /checkpoint-1500 /trainer_state.json

inflaton's picture

Training in progress, step 1500

1b402b4 verified 4 months ago

No virus

3.04 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 8.02139037433155,
	"eval_steps": 500,
	"global_step": 1500,
	"is_hyper_param_search": true,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"eval_accuracy": 0.5058665871620178,
	"eval_loss": 0.6931472420692444,
	"eval_runtime": 9.016,
	"eval_samples_per_second": 330.857,
	"eval_steps_per_second": 20.741,
	"step": 187
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.4958095848560333,
	"eval_loss": 0.6931472420692444,
	"eval_runtime": 9.075,
	"eval_samples_per_second": 328.705,
	"eval_steps_per_second": 20.606,
	"step": 374
	},
	{
	"epoch": 2.6737967914438503,
	"grad_norm": 0.6687777638435364,
	"learning_rate": 4.2187622155535154e-05,
	"loss": 0.6988,
	"step": 500
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.48105934262275696,
	"eval_loss": 0.6931472420692444,
	"eval_runtime": 8.941,
	"eval_samples_per_second": 333.63,
	"eval_steps_per_second": 20.915,
	"step": 561
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.5035199522972107,
	"eval_loss": 0.6931472420692444,
	"eval_runtime": 9.1554,
	"eval_samples_per_second": 325.818,
	"eval_steps_per_second": 20.425,
	"step": 748
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.49547436833381653,
	"eval_loss": 0.6931472420692444,
	"eval_runtime": 9.1937,
	"eval_samples_per_second": 324.463,
	"eval_steps_per_second": 20.34,
	"step": 935
	},
	{
	"epoch": 5.347593582887701,
	"grad_norm": 0.7034493684768677,
	"learning_rate": 2.6790679763004077e-05,
	"loss": 0.6966,
	"step": 1000
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.4904458522796631,
	"eval_loss": 0.6931472420692444,
	"eval_runtime": 9.0228,
	"eval_samples_per_second": 330.605,
	"eval_steps_per_second": 20.725,
	"step": 1122
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.525980532169342,
	"eval_loss": 0.6931472420692444,
	"eval_runtime": 9.194,
	"eval_samples_per_second": 324.452,
	"eval_steps_per_second": 20.339,
	"step": 1309
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.5005028247833252,
	"eval_loss": 0.6931472420692444,
	"eval_runtime": 9.1651,
	"eval_samples_per_second": 325.475,
	"eval_steps_per_second": 20.404,
	"step": 1496
	},
	{
	"epoch": 8.02139037433155,
	"grad_norm": 0.7838780283927917,
	"learning_rate": 1.1393737370472999e-05,
	"loss": 0.6959,
	"step": 1500
	}
	],
	"logging_steps": 500,
	"max_steps": 1870,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"total_flos": 1.7876643808636188e+16,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": {
	"learning_rate": 5.758456454806623e-05,
	"per_device_train_batch_size": 64
	}
	}