Upload FlaxCohereForCausalLM

Browse files

Files changed (4) hide show

.gitattributes +1 -0
config.json +83 -0
easydel-model.parameters +3 -0
generation_config.json +7 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+easydel-model.parameters filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,83 @@

+{
+  "architectures": [
+    "CohereForCausalLM"
+  ],
+  "attention_axis_name": "sp",
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_mechanism": "sharded_vanilla",
+  "axis_dims": [
+    1,
+    -1,
+    1,
+    1
+  ],
+  "axis_names": [
+    "dp",
+    "fsdp",
+    "tp",
+    "sp"
+  ],
+  "backend": null,
+  "bits": null,
+  "block_b": 1,
+  "block_k": 128,
+  "block_k_dkv": 128,
+  "block_k_dq": 128,
+  "block_k_major": 128,
+  "block_k_major_dkv": 128,
+  "block_k_major_dq": 128,
+  "block_q": 128,
+  "block_q_dkv": 128,
+  "block_q_dq": 128,
+  "block_q_major_dkv": 128,
+  "bos_token_id": 5,
+  "easy_method": "train",
+  "eos_token_id": 255001,
+  "flash_attention_backward_pass_impl": "triton",
+  "gradient_checkpointing": "nothing_saveable",
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "layer_norm_eps": 1e-05,
+  "logit_scale": 0.0625,
+  "max_position_embeddings": 8192,
+  "model_type": "cohere",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "partition_axis": [
+    [
+      "fsdp",
+      "dp"
+    ],
+    "sp",
+    "sp",
+    "tp",
+    "sp",
+    "tp",
+    null,
+    null,
+    null,
+    null,
+    "tp",
+    "sp",
+    null
+  ],
+  "quantize_kv_cache": false,
+  "rope_theta": 10000,
+  "scan_attention_layers": false,
+  "scan_mlp_chunk_size": 1024,
+  "scan_ring_attention": true,
+  "shard_attention_computation": true,
+  "torch_dtype": "float16",
+  "transformers_version": "4.41.2",
+  "use_cache": true,
+  "use_qk_norm": false,
+  "use_scan_mlp": false,
+  "use_sharded_kv_caching": true,
+  "use_sharding_constraint": false,
+  "vocab_size": 256000
+}

easydel-model.parameters ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4cdb92ba99eb14863dd505196b7d32f8b99f50b34b9a2c47ffa2471f24f64594
+size 16056096152

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 5,
+  "eos_token_id": 255001,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.2"
+}