empty-michael
/

tinystories_1layer_attn_mlp_C25k_k16_mse_weighted

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

tinystories_1layer_attn_mlp_C25k_k16_mse_weighted / all_results.json

empty-michael's picture

End of training

8d4fef0 verified 9 months ago

history blame contribute delete

971 Bytes

	{
	"MSE": 0.0,
	"MSE/layer0": 0.0,
	"dead_code_fraction": 1.0,
	"dead_code_fraction/layer0": 1.0,
	"epoch": 2.04,
	"eval_MSE/layer0": 501.8128262733759,
	"eval_accuracy": 0.5193506309245984,
	"eval_dead_code_fraction/layer0": 0.16395,
	"eval_input_norm/layer0": 31.998895487949337,
	"eval_loss": 2.0353407859802246,
	"eval_multicode_k": 1,
	"eval_output_norm/layer0": 22.80092038433711,
	"eval_runtime": 159.0824,
	"eval_samples_per_second": 29.06,
	"eval_steps_per_second": 1.817,
	"input_norm": 0.0,
	"input_norm/layer0": 0.0,
	"loss": 2.205516522693634,
	"max_norm": 220.5869903564453,
	"max_norm/layer0": 220.5869903564453,
	"mean_norm": 69.14492416381836,
	"mean_norm/layer0": 69.14492416381836,
	"multicode_k": 1,
	"output_norm": 0.0,
	"output_norm/layer0": 0.0,
	"perplexity": 7.6548603501181,
	"runtime": 15654.0479,
	"samples_per_second": 61.326,
	"steps_per_second": 0.639
	}