Upload 12 files

Browse files

Files changed (13) hide show

.gitattributes +1 -0
config.json +42 -0
optimizer.pt +3 -0
pytorch_model-00001-of-00002.bin +3 -0
pytorch_model-00002-of-00002.bin +3 -0
pytorch_model.bin.index.json +373 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +6 -0
tokenizer.json +3 -0
tokenizer_config.json +11 -0
trainer_state.json +922 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -32,3 +32,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "bigscience/bloomz-3b",
+  "apply_residual_connection_post_layernorm": false,
+  "architectures": [
+    "BloomForSequenceClassification"
+  ],
+  "attention_dropout": 0.0,
+  "attention_softmax_in_fp32": true,
+  "bias_dropout_fusion": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_dropout": 0.0,
+  "hidden_size": 2560,
+  "id2label": {
+    "0": "human-produced",
+    "1": "machine-generated"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "human-produced": 0,
+    "machine-generated": 1
+  },
+  "layer_norm_epsilon": 1e-05,
+  "masked_softmax_fusion": true,
+  "model_type": "bloom",
+  "n_head": 32,
+  "n_inner": null,
+  "n_layer": 30,
+  "offset_alibi": 100,
+  "pad_token_id": 3,
+  "pretraining_tp": 4,
+  "problem_type": "single_label_classification",
+  "seq_length": 2048,
+  "skip_bias_add": true,
+  "skip_bias_add_qkv": false,
+  "slow_but_exact": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.1",
+  "unk_token_id": 0,
+  "use_cache": true,
+  "vocab_size": 250880
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e25972de8180fc10cad9e151af9cf748eb5e70bce391ee42a5beee72d894aac
+size 24020817451

pytorch_model-00001-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9c8f97329473aa11ca607af7aadd2dde0f2e8670980f786a51cd176f2762840
+size 9912311464

pytorch_model-00002-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8d463e9eeaf58b97d6a48cb3dbcb3169370ab28f131ea12cc27655cd9c16021
+size 2098070557

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,373 @@

+{
+  "metadata": {
+    "total_size": 12010250240
+  },
+  "weight_map": {
+    "score.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.0.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.0.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.1.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.10.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.11.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.12.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.13.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.14.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.15.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.16.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.17.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.18.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.19.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.2.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.20.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.21.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.22.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.23.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.23.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.23.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.23.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.23.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.24.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.self_attention.dense.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.self_attention.dense.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.self_attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.24.self_attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.self_attention.dense.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.self_attention.dense.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.self_attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.25.self_attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.self_attention.dense.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.self_attention.dense.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.self_attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.26.self_attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.self_attention.dense.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.self_attention.dense.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.self_attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.27.self_attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.self_attention.dense.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.self_attention.dense.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.self_attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.28.self_attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.input_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.input_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.post_attention_layernorm.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.post_attention_layernorm.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.self_attention.dense.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.self_attention.dense.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.self_attention.query_key_value.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.29.self_attention.query_key_value.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.h.3.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.3.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.4.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.5.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.6.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.7.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.8.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.input_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.input_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mlp.dense_4h_to_h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mlp.dense_4h_to_h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mlp.dense_h_to_4h.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.mlp.dense_h_to_4h.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.post_attention_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.self_attention.dense.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.self_attention.dense.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.self_attention.query_key_value.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.h.9.self_attention.query_key_value.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.ln_f.bias": "pytorch_model-00002-of-00002.bin",
+    "transformer.ln_f.weight": "pytorch_model-00002-of-00002.bin",
+    "transformer.word_embeddings.weight": "pytorch_model-00001-of-00002.bin",
+    "transformer.word_embeddings_layernorm.bias": "pytorch_model-00001-of-00002.bin",
+    "transformer.word_embeddings_layernorm.weight": "pytorch_model-00001-of-00002.bin"
+  }
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d944d6907131fce4941c1b98753b6c6304e9268438faa750202a7ed282544a4
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19c575370b6179b490f435df9c74d0ea7aabd16f264cf932690c39af9fca6ebb
+size 627

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3955d17bdf8285663734ab4418c7a0d6397bf2fa7d7a2f8d820f23b3130cd48
+size 14500708

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "model_max_length": 1000000000000000019884624838656,
+  "name_or_path": "bigscience/bloomz-3b",
+  "pad_token": "<pad>",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "BloomTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,922 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "global_step": 1750,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.9971428571428576e-05,
+      "loss": 8.3826,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.9e-05,
+      "loss": 3.6284,
+      "step": 35
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.656,
+      "eval_f1": 0.47560975609756095,
+      "eval_loss": 1.8382066488265991,
+      "eval_precision": 1.0,
+      "eval_recall": 0.312,
+      "eval_runtime": 462.8972,
+      "eval_samples_per_second": 6.481,
+      "eval_steps_per_second": 0.81,
+      "step": 35
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.8e-05,
+      "loss": 0.8755,
+      "step": 70
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.891,
+      "eval_f1": 0.8799118619170032,
+      "eval_loss": 0.9740824103355408,
+      "eval_precision": 0.9795584627964022,
+      "eval_recall": 0.7986666666666666,
+      "eval_runtime": 462.3762,
+      "eval_samples_per_second": 6.488,
+      "eval_steps_per_second": 0.811,
+      "step": 70
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.7e-05,
+      "loss": 0.5529,
+      "step": 105
+    },
+    {
+      "epoch": 0.06,
+      "eval_accuracy": 0.85,
+      "eval_f1": 0.823943661971831,
+      "eval_loss": 0.8984822630882263,
+      "eval_precision": 0.9971590909090909,
+      "eval_recall": 0.702,
+      "eval_runtime": 463.7211,
+      "eval_samples_per_second": 6.469,
+      "eval_steps_per_second": 0.809,
+      "step": 105
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.4281,
+      "step": 140
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.948,
+      "eval_f1": 0.948,
+      "eval_loss": 0.28269827365875244,
+      "eval_precision": 0.948,
+      "eval_recall": 0.948,
+      "eval_runtime": 462.5168,
+      "eval_samples_per_second": 6.486,
+      "eval_steps_per_second": 0.811,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.5e-05,
+      "loss": 0.4027,
+      "step": 175
+    },
+    {
+      "epoch": 0.1,
+      "eval_accuracy": 0.8686666666666667,
+      "eval_f1": 0.8490421455938698,
+      "eval_loss": 1.2850149869918823,
+      "eval_precision": 0.9981981981981982,
+      "eval_recall": 0.7386666666666667,
+      "eval_runtime": 462.9807,
+      "eval_samples_per_second": 6.48,
+      "eval_steps_per_second": 0.81,
+      "step": 175
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.4487,
+      "step": 210
+    },
+    {
+      "epoch": 0.12,
+      "eval_accuracy": 0.9423333333333334,
+      "eval_f1": 0.9391059486096445,
+      "eval_loss": 0.1546011120080948,
+      "eval_precision": 0.9947800149142431,
+      "eval_recall": 0.8893333333333333,
+      "eval_runtime": 462.5947,
+      "eval_samples_per_second": 6.485,
+      "eval_steps_per_second": 0.811,
+      "step": 210
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.3e-05,
+      "loss": 0.4095,
+      "step": 245
+    },
+    {
+      "epoch": 0.14,
+      "eval_accuracy": 0.8943333333333333,
+      "eval_f1": 0.8818486768542676,
+      "eval_loss": 0.8063055276870728,
+      "eval_precision": 1.0,
+      "eval_recall": 0.7886666666666666,
+      "eval_runtime": 463.8636,
+      "eval_samples_per_second": 6.467,
+      "eval_steps_per_second": 0.808,
+      "step": 245
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.2e-05,
+      "loss": 0.2566,
+      "step": 280
+    },
+    {
+      "epoch": 0.16,
+      "eval_accuracy": 0.9623333333333334,
+      "eval_f1": 0.9620932572962093,
+      "eval_loss": 0.37129560112953186,
+      "eval_precision": 0.9682646860229575,
+      "eval_recall": 0.956,
+      "eval_runtime": 462.5562,
+      "eval_samples_per_second": 6.486,
+      "eval_steps_per_second": 0.811,
+      "step": 280
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.1e-05,
+      "loss": 0.2851,
+      "step": 315
+    },
+    {
+      "epoch": 0.18,
+      "eval_accuracy": 0.9386666666666666,
+      "eval_f1": 0.9357990230286113,
+      "eval_loss": 0.3722746670246124,
+      "eval_precision": 0.9816983894582724,
+      "eval_recall": 0.894,
+      "eval_runtime": 462.4018,
+      "eval_samples_per_second": 6.488,
+      "eval_steps_per_second": 0.811,
+      "step": 315
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4e-05,
+      "loss": 0.4674,
+      "step": 350
+    },
+    {
+      "epoch": 0.2,
+      "eval_accuracy": 0.8966666666666666,
+      "eval_f1": 0.8849294729027467,
+      "eval_loss": 0.9987091422080994,
+      "eval_precision": 0.998324958123953,
+      "eval_recall": 0.7946666666666666,
+      "eval_runtime": 462.5055,
+      "eval_samples_per_second": 6.486,
+      "eval_steps_per_second": 0.811,
+      "step": 350
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.1749,
+      "step": 385
+    },
+    {
+      "epoch": 0.22,
+      "eval_accuracy": 0.9473333333333334,
+      "eval_f1": 0.9446002805049089,
+      "eval_loss": 0.4473351240158081,
+      "eval_precision": 0.996301775147929,
+      "eval_recall": 0.898,
+      "eval_runtime": 462.5402,
+      "eval_samples_per_second": 6.486,
+      "eval_steps_per_second": 0.811,
+      "step": 385
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3.8e-05,
+      "loss": 0.3134,
+      "step": 420
+    },
+    {
+      "epoch": 0.24,
+      "eval_accuracy": 0.9313333333333333,
+      "eval_f1": 0.9263759828448893,
+      "eval_loss": 0.8257947564125061,
+      "eval_precision": 0.9984591679506933,
+      "eval_recall": 0.864,
+      "eval_runtime": 462.4771,
+      "eval_samples_per_second": 6.487,
+      "eval_steps_per_second": 0.811,
+      "step": 420
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 3.7e-05,
+      "loss": 0.4379,
+      "step": 455
+    },
+    {
+      "epoch": 0.26,
+      "eval_accuracy": 0.9496666666666667,
+      "eval_f1": 0.9478050466643623,
+      "eval_loss": 0.34615999460220337,
+      "eval_precision": 0.9842067480258435,
+      "eval_recall": 0.914,
+      "eval_runtime": 462.467,
+      "eval_samples_per_second": 6.487,
+      "eval_steps_per_second": 0.811,
+      "step": 455
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.6e-05,
+      "loss": 0.1028,
+      "step": 490
+    },
+    {
+      "epoch": 0.28,
+      "eval_accuracy": 0.9523333333333334,
+      "eval_f1": 0.9523174391463821,
+      "eval_loss": 0.3040553629398346,
+      "eval_precision": 0.95263509006004,
+      "eval_recall": 0.952,
+      "eval_runtime": 462.402,
+      "eval_samples_per_second": 6.488,
+      "eval_steps_per_second": 0.811,
+      "step": 490
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3.5e-05,
+      "loss": 0.1392,
+      "step": 525
+    },
+    {
+      "epoch": 0.3,
+      "eval_accuracy": 0.9576666666666667,
+      "eval_f1": 0.9566996249573816,
+      "eval_loss": 0.3112805485725403,
+      "eval_precision": 0.9790648988136776,
+      "eval_recall": 0.9353333333333333,
+      "eval_runtime": 463.4665,
+      "eval_samples_per_second": 6.473,
+      "eval_steps_per_second": 0.809,
+      "step": 525
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0944,
+      "step": 560
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.9196666666666666,
+      "eval_f1": 0.9127759681505611,
+      "eval_loss": 0.9487587213516235,
+      "eval_precision": 0.9984164687252574,
+      "eval_recall": 0.8406666666666667,
+      "eval_runtime": 463.9336,
+      "eval_samples_per_second": 6.466,
+      "eval_steps_per_second": 0.808,
+      "step": 560
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3.3e-05,
+      "loss": 0.1758,
+      "step": 595
+    },
+    {
+      "epoch": 0.34,
+      "eval_accuracy": 0.935,
+      "eval_f1": 0.9306296691568836,
+      "eval_loss": 0.4119901657104492,
+      "eval_precision": 0.9977116704805492,
+      "eval_recall": 0.872,
+      "eval_runtime": 462.719,
+      "eval_samples_per_second": 6.483,
+      "eval_steps_per_second": 0.81,
+      "step": 595
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.1123,
+      "step": 630
+    },
+    {
+      "epoch": 0.36,
+      "eval_accuracy": 0.9673333333333334,
+      "eval_f1": 0.9671361502347419,
+      "eval_loss": 0.18079321086406708,
+      "eval_precision": 0.9730094466936572,
+      "eval_recall": 0.9613333333333334,
+      "eval_runtime": 462.4961,
+      "eval_samples_per_second": 6.487,
+      "eval_steps_per_second": 0.811,
+      "step": 630
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.1e-05,
+      "loss": 0.187,
+      "step": 665
+    },
+    {
+      "epoch": 0.38,
+      "eval_accuracy": 0.9563333333333334,
+      "eval_f1": 0.954936360509116,
+      "eval_loss": 0.3595654368400574,
+      "eval_precision": 0.9864960909737029,
+      "eval_recall": 0.9253333333333333,
+      "eval_runtime": 463.4737,
+      "eval_samples_per_second": 6.473,
+      "eval_steps_per_second": 0.809,
+      "step": 665
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3e-05,
+      "loss": 0.1876,
+      "step": 700
+    },
+    {
+      "epoch": 0.4,
+      "eval_accuracy": 0.962,
+      "eval_f1": 0.9621262458471761,
+      "eval_loss": 0.26878979802131653,
+      "eval_precision": 0.9589403973509933,
+      "eval_recall": 0.9653333333333334,
+      "eval_runtime": 462.4658,
+      "eval_samples_per_second": 6.487,
+      "eval_steps_per_second": 0.811,
+      "step": 700
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 2.9e-05,
+      "loss": 0.1762,
+      "step": 735
+    },
+    {
+      "epoch": 0.42,
+      "eval_accuracy": 0.9513333333333334,
+      "eval_f1": 0.949375866851595,
+      "eval_loss": 0.30938494205474854,
+      "eval_precision": 0.9891618497109826,
+      "eval_recall": 0.9126666666666666,
+      "eval_runtime": 462.6352,
+      "eval_samples_per_second": 6.485,
+      "eval_steps_per_second": 0.811,
+      "step": 735
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0164,
+      "step": 770
+    },
+    {
+      "epoch": 0.44,
+      "eval_accuracy": 0.9543333333333334,
+      "eval_f1": 0.9526115530958146,
+      "eval_loss": 0.3230161964893341,
+      "eval_precision": 0.9899352983465133,
+      "eval_recall": 0.918,
+      "eval_runtime": 464.4305,
+      "eval_samples_per_second": 6.46,
+      "eval_steps_per_second": 0.807,
+      "step": 770
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.0903,
+      "step": 805
+    },
+    {
+      "epoch": 0.46,
+      "eval_accuracy": 0.9593333333333334,
+      "eval_f1": 0.9585597826086957,
+      "eval_loss": 0.33148592710494995,
+      "eval_precision": 0.9771468144044322,
+      "eval_recall": 0.9406666666666667,
+      "eval_runtime": 462.7729,
+      "eval_samples_per_second": 6.483,
+      "eval_steps_per_second": 0.81,
+      "step": 805
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.2401,
+      "step": 840
+    },
+    {
+      "epoch": 0.48,
+      "eval_accuracy": 0.9326666666666666,
+      "eval_f1": 0.9285208775654635,
+      "eval_loss": 0.5261781215667725,
+      "eval_precision": 0.9894419306184012,
+      "eval_recall": 0.8746666666666667,
+      "eval_runtime": 462.0723,
+      "eval_samples_per_second": 6.492,
+      "eval_steps_per_second": 0.812,
+      "step": 840
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.5e-05,
+      "loss": 0.1308,
+      "step": 875
+    },
+    {
+      "epoch": 0.5,
+      "eval_accuracy": 0.922,
+      "eval_f1": 0.9155844155844155,
+      "eval_loss": 0.5081947445869446,
+      "eval_precision": 0.9976415094339622,
+      "eval_recall": 0.846,
+      "eval_runtime": 462.3765,
+      "eval_samples_per_second": 6.488,
+      "eval_steps_per_second": 0.811,
+      "step": 875
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.4e-05,
+      "loss": 0.1004,
+      "step": 910
+    },
+    {
+      "epoch": 0.52,
+      "eval_accuracy": 0.9353333333333333,
+      "eval_f1": 0.9321203638908327,
+      "eval_loss": 0.6189997792243958,
+      "eval_precision": 0.9808541973490427,
+      "eval_recall": 0.888,
+      "eval_runtime": 462.3735,
+      "eval_samples_per_second": 6.488,
+      "eval_steps_per_second": 0.811,
+      "step": 910
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.0982,
+      "step": 945
+    },
+    {
+      "epoch": 0.54,
+      "eval_accuracy": 0.9496666666666667,
+      "eval_f1": 0.9480921278789962,
+      "eval_loss": 0.5868619680404663,
+      "eval_precision": 0.978708303761533,
+      "eval_recall": 0.9193333333333333,
+      "eval_runtime": 462.6069,
+      "eval_samples_per_second": 6.485,
+      "eval_steps_per_second": 0.811,
+      "step": 945
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.1627,
+      "step": 980
+    },
+    {
+      "epoch": 0.56,
+      "eval_accuracy": 0.9503333333333334,
+      "eval_f1": 0.9483177245924385,
+      "eval_loss": 0.5452014803886414,
+      "eval_precision": 0.9884309472161966,
+      "eval_recall": 0.9113333333333333,
+      "eval_runtime": 462.2788,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 0.811,
+      "step": 980
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.1e-05,
+      "loss": 0.2264,
+      "step": 1015
+    },
+    {
+      "epoch": 0.58,
+      "eval_accuracy": 0.962,
+      "eval_f1": 0.9608785175017158,
+      "eval_loss": 0.36828112602233887,
+      "eval_precision": 0.9900990099009901,
+      "eval_recall": 0.9333333333333333,
+      "eval_runtime": 462.546,
+      "eval_samples_per_second": 6.486,
+      "eval_steps_per_second": 0.811,
+      "step": 1015
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2e-05,
+      "loss": 0.2683,
+      "step": 1050
+    },
+    {
+      "epoch": 0.6,
+      "eval_accuracy": 0.959,
+      "eval_f1": 0.9577464788732394,
+      "eval_loss": 0.2027631402015686,
+      "eval_precision": 0.9879518072289156,
+      "eval_recall": 0.9293333333333333,
+      "eval_runtime": 462.4537,
+      "eval_samples_per_second": 6.487,
+      "eval_steps_per_second": 0.811,
+      "step": 1050
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.9e-05,
+      "loss": 0.088,
+      "step": 1085
+    },
+    {
+      "epoch": 0.62,
+      "eval_accuracy": 0.937,
+      "eval_f1": 0.9328596802841918,
+      "eval_loss": 0.5130247473716736,
+      "eval_precision": 0.9984790874524715,
+      "eval_recall": 0.8753333333333333,
+      "eval_runtime": 462.3506,
+      "eval_samples_per_second": 6.489,
+      "eval_steps_per_second": 0.811,
+      "step": 1085
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.8e-05,
+      "loss": 0.214,
+      "step": 1120
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.9443333333333334,
+      "eval_f1": 0.9413829413829414,
+      "eval_loss": 0.38535651564598083,
+      "eval_precision": 0.994069681245367,
+      "eval_recall": 0.894,
+      "eval_runtime": 462.2352,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 0.811,
+      "step": 1120
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.0811,
+      "step": 1155
+    },
+    {
+      "epoch": 0.66,
+      "eval_accuracy": 0.9563333333333334,
+      "eval_f1": 0.954936360509116,
+      "eval_loss": 0.2761794328689575,
+      "eval_precision": 0.9864960909737029,
+      "eval_recall": 0.9253333333333333,
+      "eval_runtime": 463.2198,
+      "eval_samples_per_second": 6.476,
+      "eval_steps_per_second": 0.81,
+      "step": 1155
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0716,
+      "step": 1190
+    },
+    {
+      "epoch": 0.68,
+      "eval_accuracy": 0.9603333333333334,
+      "eval_f1": 0.9593717992488903,
+      "eval_loss": 0.3206270635128021,
+      "eval_precision": 0.9832050384884534,
+      "eval_recall": 0.9366666666666666,
+      "eval_runtime": 461.5741,
+      "eval_samples_per_second": 6.499,
+      "eval_steps_per_second": 0.812,
+      "step": 1190
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.5e-05,
+      "loss": 0.0843,
+      "step": 1225
+    },
+    {
+      "epoch": 0.7,
+      "eval_accuracy": 0.9546666666666667,
+      "eval_f1": 0.953103448275862,
+      "eval_loss": 0.38527336716651917,
+      "eval_precision": 0.9871428571428571,
+      "eval_recall": 0.9213333333333333,
+      "eval_runtime": 462.2164,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 0.811,
+      "step": 1225
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.0744,
+      "step": 1260
+    },
+    {
+      "epoch": 0.72,
+      "eval_accuracy": 0.9556666666666667,
+      "eval_f1": 0.9542168674698795,
+      "eval_loss": 0.4054282307624817,
+      "eval_precision": 0.9864768683274021,
+      "eval_recall": 0.924,
+      "eval_runtime": 461.3748,
+      "eval_samples_per_second": 6.502,
+      "eval_steps_per_second": 0.813,
+      "step": 1260
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.0748,
+      "step": 1295
+    },
+    {
+      "epoch": 0.74,
+      "eval_accuracy": 0.9476666666666667,
+      "eval_f1": 0.9450472523626182,
+      "eval_loss": 0.4932408928871155,
+      "eval_precision": 0.9948415622697127,
+      "eval_recall": 0.9,
+      "eval_runtime": 462.1327,
+      "eval_samples_per_second": 6.492,
+      "eval_steps_per_second": 0.811,
+      "step": 1295
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0181,
+      "step": 1330
+    },
+    {
+      "epoch": 0.76,
+      "eval_accuracy": 0.95,
+      "eval_f1": 0.9479889042995839,
+      "eval_loss": 0.4586262106895447,
+      "eval_precision": 0.9877167630057804,
+      "eval_recall": 0.9113333333333333,
+      "eval_runtime": 462.3672,
+      "eval_samples_per_second": 6.488,
+      "eval_steps_per_second": 0.811,
+      "step": 1330
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.098,
+      "step": 1365
+    },
+    {
+      "epoch": 0.78,
+      "eval_accuracy": 0.9503333333333334,
+      "eval_f1": 0.9479566887879846,
+      "eval_loss": 0.4024898409843445,
+      "eval_precision": 0.9955979457079971,
+      "eval_recall": 0.9046666666666666,
+      "eval_runtime": 461.9999,
+      "eval_samples_per_second": 6.494,
+      "eval_steps_per_second": 0.812,
+      "step": 1365
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1e-05,
+      "loss": 0.0752,
+      "step": 1400
+    },
+    {
+      "epoch": 0.8,
+      "eval_accuracy": 0.955,
+      "eval_f1": 0.9534322180062091,
+      "eval_loss": 0.2519637942314148,
+      "eval_precision": 0.9878484631879915,
+      "eval_recall": 0.9213333333333333,
+      "eval_runtime": 462.3269,
+      "eval_samples_per_second": 6.489,
+      "eval_steps_per_second": 0.811,
+      "step": 1400
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9e-06,
+      "loss": 0.0575,
+      "step": 1435
+    },
+    {
+      "epoch": 0.82,
+      "eval_accuracy": 0.959,
+      "eval_f1": 0.958120531154239,
+      "eval_loss": 0.24917536973953247,
+      "eval_precision": 0.9791231732776617,
+      "eval_recall": 0.938,
+      "eval_runtime": 462.2475,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 0.811,
+      "step": 1435
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0691,
+      "step": 1470
+    },
+    {
+      "epoch": 0.84,
+      "eval_accuracy": 0.9576666666666667,
+      "eval_f1": 0.9564322469982849,
+      "eval_loss": 0.3299550414085388,
+      "eval_precision": 0.9851590106007068,
+      "eval_recall": 0.9293333333333333,
+      "eval_runtime": 463.7914,
+      "eval_samples_per_second": 6.468,
+      "eval_steps_per_second": 0.809,
+      "step": 1470
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.0617,
+      "step": 1505
+    },
+    {
+      "epoch": 0.86,
+      "eval_accuracy": 0.957,
+      "eval_f1": 0.9556853315012023,
+      "eval_loss": 0.33974531292915344,
+      "eval_precision": 0.9858256555634302,
+      "eval_recall": 0.9273333333333333,
+      "eval_runtime": 462.1154,
+      "eval_samples_per_second": 6.492,
+      "eval_steps_per_second": 0.811,
+      "step": 1505
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6e-06,
+      "loss": 0.0392,
+      "step": 1540
+    },
+    {
+      "epoch": 0.88,
+      "eval_accuracy": 0.9573333333333334,
+      "eval_f1": 0.9561042524005487,
+      "eval_loss": 0.3205489218235016,
+      "eval_precision": 0.9844632768361582,
+      "eval_recall": 0.9293333333333333,
+      "eval_runtime": 463.3482,
+      "eval_samples_per_second": 6.475,
+      "eval_steps_per_second": 0.809,
+      "step": 1540
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5e-06,
+      "loss": 0.0386,
+      "step": 1575
+    },
+    {
+      "epoch": 0.9,
+      "eval_accuracy": 0.958,
+      "eval_f1": 0.9571428571428571,
+      "eval_loss": 0.27690985798835754,
+      "eval_precision": 0.9770833333333333,
+      "eval_recall": 0.938,
+      "eval_runtime": 462.2334,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 0.811,
+      "step": 1575
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0334,
+      "step": 1610
+    },
+    {
+      "epoch": 0.92,
+      "eval_accuracy": 0.9573333333333334,
+      "eval_f1": 0.9562243502051984,
+      "eval_loss": 0.30371883511543274,
+      "eval_precision": 0.9817415730337079,
+      "eval_recall": 0.932,
+      "eval_runtime": 462.4404,
+      "eval_samples_per_second": 6.487,
+      "eval_steps_per_second": 0.811,
+      "step": 1610
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3e-06,
+      "loss": 0.1167,
+      "step": 1645
+    },
+    {
+      "epoch": 0.94,
+      "eval_accuracy": 0.9593333333333334,
+      "eval_f1": 0.9583333333333333,
+      "eval_loss": 0.3056192100048065,
+      "eval_precision": 0.9824929971988795,
+      "eval_recall": 0.9353333333333333,
+      "eval_runtime": 461.9141,
+      "eval_samples_per_second": 6.495,
+      "eval_steps_per_second": 0.812,
+      "step": 1645
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0505,
+      "step": 1680
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.953,
+      "eval_f1": 0.9510586601874348,
+      "eval_loss": 0.42186784744262695,
+      "eval_precision": 0.9920347574221579,
+      "eval_recall": 0.9133333333333333,
+      "eval_runtime": 462.3061,
+      "eval_samples_per_second": 6.489,
+      "eval_steps_per_second": 0.811,
+      "step": 1680
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0468,
+      "step": 1715
+    },
+    {
+      "epoch": 0.98,
+      "eval_accuracy": 0.9576666666666667,
+      "eval_f1": 0.9562822719449227,
+      "eval_loss": 0.3499450385570526,
+      "eval_precision": 0.9886120996441281,
+      "eval_recall": 0.926,
+      "eval_runtime": 462.275,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 0.811,
+      "step": 1715
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 0.0429,
+      "step": 1750
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9576666666666667,
+      "eval_f1": 0.9562822719449227,
+      "eval_loss": 0.34879612922668457,
+      "eval_precision": 0.9886120996441281,
+      "eval_recall": 0.926,
+      "eval_runtime": 462.1636,
+      "eval_samples_per_second": 6.491,
+      "eval_steps_per_second": 0.811,
+      "step": 1750
+    }
+  ],
+  "max_steps": 1750,
+  "num_train_epochs": 1,
+  "total_flos": 1.0151220215808e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2d8678b7c6bfe9615db5aca300ebb7a40d9d87b308c181a8bff98588aba6c7b
+size 3451