GregorZiegltrumAA commited on Oct 29, 2024

Commit

8385ecd

1 Parent(s): 97f66e4

Add Model

Browse files

Files changed (21) hide show

config.yml +101 -0
model_state_layer_0_EmbeddingInput.pt +3 -0
model_state_layer_10_TransformerLayer.pt +3 -0
model_state_layer_11_TransformerLayer.pt +3 -0
model_state_layer_12_TransformerLayer.pt +3 -0
model_state_layer_13_TransformerLayer.pt +3 -0
model_state_layer_14_TransformerLayer.pt +3 -0
model_state_layer_15_TransformerLayer.pt +3 -0
model_state_layer_16_TransformerLayer.pt +3 -0
model_state_layer_17_LayerNormWrapper.pt +3 -0
model_state_layer_18_TransformerLMHead.pt +3 -0
model_state_layer_1_TransformerLayer.pt +3 -0
model_state_layer_2_TransformerLayer.pt +3 -0
model_state_layer_3_TransformerLayer.pt +3 -0
model_state_layer_4_TransformerLayer.pt +3 -0
model_state_layer_5_TransformerLayer.pt +3 -0
model_state_layer_6_TransformerLayer.pt +3 -0
model_state_layer_7_TransformerLayer.pt +3 -0
model_state_layer_8_TransformerLayer.pt +3 -0
model_state_layer_9_TransformerLayer.pt +3 -0
vocab.json +0 -0

config.yml ADDED Viewed

	@@ -0,0 +1,101 @@

+optimizer:
+  allreduce_bucket_size: 500000000
+  beta1: 0.9
+  beta2: 0.95
+  debug_log: false
+  eps: 1e-08
+  gradient_clipping: 0.0
+  zero: true
+  zero_save_static: false
+topology:
+  activation_checkpointing_type: disabled
+  global_batch_size: 1024
+  gradient_accumulation_steps: 2
+  micro_batch_size: 2
+  model_parallel_size: 1
+  pipe_parallel_size: 1
+  pipe_partition_method: balanced
+  pipe_partition_overwrite: null
+  sequence_parallel: false
+trainer:
+  seed: 42
+  train_iterations: 72000
+training:
+  allow_missing_params_in_optimizer: true
+training_groups:
+- group_name: param_group
+  independent_weight_decay: true
+  learning_rate_scheduler:
+    learning_rate: 11.313708498984761
+    learning_rate_decay_iters: 72000
+    learning_rate_decay_style: cosine
+    learning_rate_minimum: 1.131370849898476
+    learning_rate_warmup_steps: 500
+  parameters_exclude:
+  - norm
+  weight_decay: 0.0001221
+transformer_architecture:
+  attention_bias: false
+  attention_num_kv_heads: null
+  attention_qkv_in_one: true
+  dropout_after_attention: 0.0
+  dropout_after_mlp: 0.0
+  dropout_attention_probs: 0.0
+  dropout_embedding: 0.0
+  dropout_image_encoder: 0.0
+  fp8_config_attention:
+    dtypes_forward:
+      left_dtype: e4m3
+      right_dtype: e4m3
+    dtypes_grad_input:
+      left_dtype: e5m2
+      right_dtype: e4m3
+    dtypes_grad_weight:
+      left_dtype: e4m3
+      right_dtype: e5m2
+  fp8_config_mlp:
+    dtypes_forward:
+      left_dtype: e4m3
+      right_dtype: e4m3
+    dtypes_grad_input:
+      left_dtype: e5m2
+      right_dtype: e4m3
+    dtypes_grad_weight:
+      left_dtype: e4m3
+      right_dtype: e5m2
+  hidden_size: 2048
+  image_encoder: false
+  key_query_norm: false
+  layernorm:
+    layernorm_epsilon: 1e-05
+    optimization_type: torch
+  local_attention_window_size: null
+  masked_softmax:
+    kernel: flash_attention
+    scale: 1.0
+    softmax_in_fp32: false
+  mlp_bias: false
+  mlp_factor: 2.6640625
+  mlp_type: swiglu
+  norm_type: rms
+  num_attention_heads: 16
+  num_layers: 16
+  num_local_attention_heads: 0
+  precision: bfloat16
+  relative_position_embedding_type: rotary_complex
+  reset_attention_mask: false
+  reset_position_ids: false
+  rotary_embedding_base: 10000
+  rotary_percentage: 1.0
+  sequence_length: 4096
+  umup:
+    act_mult: 1.0
+    attn_mult: 1.0
+    enable: true
+    loss_mult: 1.0
+    normalize_depth_to_num_layers: true
+    residual_attn_ratio: 0.25
+    residual_mult: 1.0
+  vocab_file: null
+  vocab_size: 65536
+  weight_tying: false

model_state_layer_0_EmbeddingInput.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fbc36b1b5de1f8c0654a87aa04e39bffeff77e8142789b052d3d996170b4646
+size 268436939

model_state_layer_10_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89d1166a4aca97dea1add692e78f704cf7ae4ed042ecc929c8f1de36c35ed37f
+size 100609197

model_state_layer_11_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:272841382ca3c7ce1b098c7e85e0c0a46d707d8df13488edec01cc14f1f89e6d
+size 100609197

model_state_layer_12_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:780caf8f6ddef73dc6f0cc232dd15ed700ef15d4246b98635a2dbcbda8b9b0a0
+size 100609197

model_state_layer_13_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34298185508c3b356d231e93a98b96aa06b17688beb8c491611d0f6e53747b3e
+size 100609197

model_state_layer_14_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65d5ba4ad31613e4476611aa8cca30b241b5b4f3e2ac28bc23986d6944ebfaf7
+size 100609197

model_state_layer_15_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edf5b416e1d1a671ff8c400261f58ddbb96927d0e3f7b3ec06b34c98378319ee
+size 100609197

model_state_layer_16_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bb1e9cbcc6b35b7ea8ae358849f44683bf3b8de9e65974fbbddcbda33db0329
+size 100609197

model_state_layer_17_LayerNormWrapper.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e657e00cad67691e2875f1bb3b943a2d86c17a326840572359f08e08e2f5b6cc
+size 5554

model_state_layer_18_TransformerLMHead.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db5bf94e56daf347abcb0a6460c46a9b0ce21b1a5b29adedf2adc17a4cf973e7
+size 268436904

model_state_layer_1_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0c61714acb70fd0d08767834c71248a68fe3a190a1d9566eabb7eb50088276c
+size 100609186

model_state_layer_2_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5326f1fd2b68509ebb591711eb8be77daa506c6af9c1a9acc93f73d3b96bd0a
+size 100609186

model_state_layer_3_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a07667f3ed172d21a1c398051bfba52cc47bedc1a5b2a7e24de32a4949659b5d
+size 100609186

model_state_layer_4_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c778568fea16842d20b696a66f97af7295bd045aff360db457cc6c5135fcbef6
+size 100609186

model_state_layer_5_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc381814789d626afc7c6cdc73f2d91982872cfebb3e90505e767074e697e341
+size 100609186

model_state_layer_6_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:534d9bcf4e5beecfbaf900f61f2cbcbcb85bfa4493429b979577bf89b26047ad
+size 100609186

model_state_layer_7_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d18824aa2a28cbf28bc1ebed8e5361ac1f043d8fd2a1f98a487b13e458a8992
+size 100609186

model_state_layer_8_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:916d82a54298804d1c7e054ab5c1f18245f6022f2a72071c6e3553523c62821b
+size 100609186

model_state_layer_9_TransformerLayer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de7054675fa0cbaee27099032b2cb11ba452d00eb2124e354b89f966e21dfac6
+size 100609186

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff