Qwen
/

Qwen3-Next-80B-A3B-Instruct

Text Generation

Model card Files Files and versions

littlebird13 commited on Sep 11

Commit

1f3f9fc

·

verified ·

1 Parent(s): f7597ba

Update config.json

Files changed (1) hide show

config.json +3 -6

config.json CHANGED Viewed

@@ -1,12 +1,11 @@
 {
-  "apply_layernorm_1p": true,
   "architectures": [
     "Qwen3NextForCausalLM"
   ],
   "attention_dropout": 0.0,
   "bos_token_id": 151643,
   "decoder_sparse_step": 1,
-  "eos_token_id": 151643,
   "full_attention_interval": 4,
   "head_dim": 256,
   "hidden_act": "silu",
@@ -14,12 +13,11 @@
   "initializer_range": 0.02,
   "intermediate_size": 5120,
   "linear_conv_kernel_dim": 4,
-  "linear_expand_v": 1,
   "linear_key_head_dim": 128,
   "linear_num_key_heads": 16,
   "linear_num_value_heads": 32,
   "linear_value_head_dim": 128,
-  "max_position_embeddings": 65536,
   "mlp_only_layers": [],
   "model_type": "qwen3_next",
   "moe_intermediate_size": 512,
@@ -31,7 +29,6 @@
   "num_key_value_heads": 2,
   "output_router_logits": false,
   "partial_rotary_factor": 0.25,
-  "qkv_bias": false,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
   "rope_theta": 10000000,
@@ -39,7 +36,7 @@
   "shared_expert_intermediate_size": 512,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.56.0.dev0",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936

 {
   "architectures": [
     "Qwen3NextForCausalLM"
   ],
   "attention_dropout": 0.0,
   "bos_token_id": 151643,
   "decoder_sparse_step": 1,
+  "eos_token_id": 151645,
   "full_attention_interval": 4,
   "head_dim": 256,
   "hidden_act": "silu",
   "initializer_range": 0.02,
   "intermediate_size": 5120,
   "linear_conv_kernel_dim": 4,
   "linear_key_head_dim": 128,
   "linear_num_key_heads": 16,
   "linear_num_value_heads": 32,
   "linear_value_head_dim": 128,
+  "max_position_embeddings": 262144,
   "mlp_only_layers": [],
   "model_type": "qwen3_next",
   "moe_intermediate_size": 512,
   "num_key_value_heads": 2,
   "output_router_logits": false,
   "partial_rotary_factor": 0.25,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
   "rope_theta": 10000000,
   "shared_expert_intermediate_size": 512,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.57.0.dev0",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936