add bfloat16 checkpoint

Files changed (3) hide show

config.json CHANGED Viewed

@@ -1,34 +1,40 @@
 {
-    "auto_map": {
-        "AutoConfig": "configuration_btlm.BTLMConfig",
-        "AutoModel": "modeling_btlm.BTLMModel",
-        "AutoModelForSequenceClassification": "modeling_btlm.BTLMForSequenceClassification",
-        "AutoModelForTokenClassification": "modeling_btlm.BTLMForTokenClassification",
-        "AutoModelForQuestionAnswering": "modeling_btlm.BTLMForQuestionAnswering",
-        "AutoModelForCausalLM": "modeling_btlm.BTLMLMHeadModel"
-    },
-    "architectures": [
-        "BTLMLMHeadModel"
-    ],
-    "attn_pdrop": 0.0,
-    "bos_token_id": 50256,
-    "eos_token_id": 50256,
-    "scale_attn_weights": true,
-    "resid_pdrop": 0.0,
-    "embeddings_scale": 14.6,
-    "n_inner": 6826,
-    "n_embd": 2560,
-    "layer_norm_epsilon": 1e-05,
-    "n_positions": 8192,
-    "activation_function": "swiglu",
-    "n_head": 32,
-    "n_layer": 32,
-    "model_type": "btlm",
-    "width_scale": 0.1,
-    "output_logits_scale": 0.22200000000000003,
-    "position_embedding_type": "alibi",
-    "scale_qk_dot_by_d": true,
-    "tie_word_embeddings": true,
-    "vocab_size": 50257,
-    "embd_pdrop": 0.0
 }

 {
+  "_name_or_path": "cerebras/btlm-3b-8k-base",
+  "activation_function": "swiglu",
+  "architectures": [
+    "BTLMLMHeadModel"
+  ],
+  "attn_pdrop": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_btlm.BTLMConfig",
+    "AutoModel": "modeling_btlm.BTLMModel",
+    "AutoModelForCausalLM": "modeling_btlm.BTLMLMHeadModel",
+    "AutoModelForQuestionAnswering": "modeling_btlm.BTLMForQuestionAnswering",
+    "AutoModelForSequenceClassification": "modeling_btlm.BTLMForSequenceClassification",
+    "AutoModelForTokenClassification": "modeling_btlm.BTLMForTokenClassification"
+  },
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.0,
+  "embeddings_scale": 14.6,
+  "eos_token_id": 50256,
+  "initializer_range": 0.073,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "btlm",
+  "n_embd": 2560,
+  "n_head": 32,
+  "n_inner": 6826,
+  "n_layer": 32,
+  "n_positions": 8192,
+  "output_logits_scale": 0.22200000000000003,
+  "position_embedding_type": "alibi",
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.0,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "scale_qk_dot_by_d": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.30.0",
+  "use_cache": true,
+  "vocab_size": 50257,
+  "width_scale": 0.1
 }

generation_config.json ADDED Viewed

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.30.0"
+}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c941784983f87a61c21450c65774c591a49291f565f3f15396348d5a1dd0263
-size 13247298643

 version https://git-lfs.github.com/spec/v1
+oid sha256:c99feaec6acd74a23d674bbc52ca50b7f1109a3537bcb883a85b104905945cde
+size 5292652837