python -m mlc_chat gen_config /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2 --quantization q0f16 --conv-template phi-2 --output /tmp/tmpo_r6sy3y
[2023-12-28 06:49:13] INFO auto_config.py:115: [92mFound[0m model configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/config.json
[2023-12-28 06:49:13] INFO auto_config.py:151: [92mFound[0m model type: [1mphi-msft[0m. Use `--model-type` to override.
[2023-12-28 06:49:13] INFO phi_model.py:59: [1mcontext_window_size[0m not found in config.json. Falling back to n_positions (2048)
[2023-12-28 06:49:13] INFO gen_config.py:129: [91mNot found[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/tokenizer.model
[2023-12-28 06:49:13] INFO gen_config.py:127: [92mFound[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/tokenizer.json. Copying to [1m/tmp/tmpo_r6sy3y/tokenizer.json[0m
[2023-12-28 06:49:13] INFO gen_config.py:127: [92mFound[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/vocab.json. Copying to [1m/tmp/tmpo_r6sy3y/vocab.json[0m
[2023-12-28 06:49:13] INFO gen_config.py:127: [92mFound[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/merges.txt. Copying to [1m/tmp/tmpo_r6sy3y/merges.txt[0m
[2023-12-28 06:49:13] INFO gen_config.py:127: [92mFound[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/added_tokens.json. Copying to [1m/tmp/tmpo_r6sy3y/added_tokens.json[0m
[2023-12-28 06:49:13] INFO gen_config.py:127: [92mFound[0m tokenizer config: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/tokenizer_config.json. Copying to [1m/tmp/tmpo_r6sy3y/tokenizer_config.json[0m
[2023-12-28 06:49:13] INFO gen_config.py:69: [System default] Setting [1mpad_token_id[0m: 0
[2023-12-28 06:49:13] INFO gen_config.py:69: [System default] Setting [1mbos_token_id[0m: 1
[2023-12-28 06:49:13] INFO gen_config.py:69: [System default] Setting [1meos_token_id[0m: 2
[2023-12-28 06:49:13] INFO gen_config.py:69: [System default] Setting [1mtemperature[0m: 0.7
[2023-12-28 06:49:13] INFO gen_config.py:69: [System default] Setting [1mrepetition_penalty[0m: 1.0
[2023-12-28 06:49:13] INFO gen_config.py:69: [System default] Setting [1mtop_p[0m: 0.95
[2023-12-28 06:49:13] INFO gen_config.py:69: [System default] Setting [1mmean_gen_len[0m: 128
[2023-12-28 06:49:13] INFO gen_config.py:69: [System default] Setting [1mmax_gen_len[0m: 512
[2023-12-28 06:49:13] INFO gen_config.py:69: [System default] Setting [1mshift_fill_factor[0m: 0.3
[2023-12-28 06:49:13] INFO gen_config.py:157: Dumping configuration file to: [1m/tmp/tmpo_r6sy3y/mlc-chat-config.json[0m
python -m mlc_chat convert_weight /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2 --quantization q0f16 --source-format auto --output /tmp/tmpo_r6sy3y
[2023-12-28 06:49:13] INFO auto_config.py:115: [92mFound[0m model configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/config.json
[2023-12-28 06:49:14] INFO auto_device.py:75: [92mFound[0m device: cuda:0
[2023-12-28 06:49:14] INFO auto_device.py:75: [92mFound[0m device: cuda:1
[2023-12-28 06:49:14] INFO auto_device.py:84: [91mNot found[0m device: rocm:0
[2023-12-28 06:49:14] INFO auto_device.py:84: [91mNot found[0m device: metal:0
[2023-12-28 06:49:14] INFO auto_device.py:75: [92mFound[0m device: vulkan:0
[2023-12-28 06:49:14] INFO auto_device.py:75: [92mFound[0m device: vulkan:1
[2023-12-28 06:49:14] INFO auto_device.py:75: [92mFound[0m device: vulkan:2
[2023-12-28 06:49:15] INFO auto_device.py:84: [91mNot found[0m device: opencl:0
[2023-12-28 06:49:15] INFO auto_device.py:33: Using device: [1mcuda:0[0m
[2023-12-28 06:49:15] INFO auto_weight.py:70: Finding weights in: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2
[2023-12-28 06:49:15] INFO auto_weight.py:136: [91mNot found[0m Huggingface PyTorch
[2023-12-28 06:49:15] INFO auto_weight.py:143: [92mFound[0m source weight format: huggingface-safetensor. Source configuration: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/model.safetensors.index.json
[2023-12-28 06:49:15] INFO auto_weight.py:106: Using source weight configuration: [1m/ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/model.safetensors.index.json[0m. Use `--source` to override.
[2023-12-28 06:49:15] INFO auto_weight.py:110: Using source weight format: [1mhuggingface-safetensor[0m. Use `--source-format` to override.
[2023-12-28 06:49:15] INFO auto_config.py:151: [92mFound[0m model type: [1mphi-msft[0m. Use `--model-type` to override.
[2023-12-28 06:49:15] INFO phi_model.py:59: [1mcontext_window_size[0m not found in config.json. Falling back to n_positions (2048)
[1mWeight conversion with arguments:[0m
  [1m--config[0m          /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/config.json
  [1m--quantization[0m    NoQuantize(name='q0f16', kind='no-quant', model_dtype='float16')
  [1m--model-type[0m      phi-msft
  [1m--device[0m          cuda:0
  [1m--source[0m          /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/model.safetensors.index.json
  [1m--source-format[0m   huggingface-safetensor
  [1m--output[0m          /tmp/tmpo_r6sy3y
  0%|                                                                                                                                                                                                                                  | 0/325 [00:00<?, ?it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:18] INFO huggingface_loader.py:169: Loading HF parameters from: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/model-00002-of-00002.safetensors
  0%|                                                                                                                                                                                                                                  | 0/325 [00:00<?, ?it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mlm_head.linear.bias[0m", shape: (51200,), dtype: float16
  0%|                                                                                                                                                                                                                                  | 0/325 [00:01<?, ?it/s]  0%|▋                                                                                                                                                                                                                         | 1/325 [00:01<06:19,  1.17s/it]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mlm_head.linear.weight[0m", shape: (51200, 2560), dtype: float16
  0%|▋                                                                                                                                                                                                                         | 1/325 [00:01<06:19,  1.17s/it]  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mlm_head.ln.bias[0m", shape: (2560,), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mlm_head.ln.weight[0m", shape: (2560,), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.ln.bias[0m", shape: (2560,), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.ln.weight[0m", shape: (2560,), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
  1%|█▎                                                                                                                                                                                                                        | 2/325 [00:01<03:15,  1.65it/s]  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:01<00:16, 18.45it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:01<00:16, 18.45it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:01<00:16, 18.45it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:01<00:16, 18.45it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:01<00:16, 18.45it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:01<00:16, 18.45it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.31.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:01<00:16, 18.45it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:179: Unloading HF weight file: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/model-00002-of-00002.safetensors
  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:01<00:16, 18.45it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:19] INFO huggingface_loader.py:169: Loading HF parameters from: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/model-00001-of-00002.safetensors
  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:01<00:16, 18.45it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.embd.weight[0m", shape: (51200, 2560), dtype: float16
  5%|██████████▋                                                                                                                                                                                                              | 16/325 [00:13<00:16, 18.45it/s]  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln.bias[0m", shape: (2560,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.ln.weight[0m", shape: (2560,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.0.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln.bias[0m", shape: (2560,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.ln.weight[0m", shape: (2560,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
  7%|███████████████▎                                                                                                                                                                                                         | 23/325 [00:13<03:29,  1.44it/s] 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.1.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln.bias[0m", shape: (2560,), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.ln.weight[0m", shape: (2560,), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 12%|██████████████████████████                                                                                                                                                                                               | 39/325 [00:13<01:27,  3.27it/s] 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.10.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln.bias[0m", shape: (2560,), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.ln.weight[0m", shape: (2560,), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.11.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 16%|██████████████████████████████████                                                                                                                                                                                       | 51/325 [00:13<00:53,  5.15it/s] 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln.bias[0m", shape: (2560,), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.ln.weight[0m", shape: (2560,), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.12.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln.bias[0m", shape: (2560,), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.ln.weight[0m", shape: (2560,), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 19%|██████████████████████████████████████████                                                                                                                                                                               | 63/325 [00:13<00:33,  7.74it/s] 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.13.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln.bias[0m", shape: (2560,), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.ln.weight[0m", shape: (2560,), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 24%|███████████████████████████████████████████████████▍                                                                                                                                                                     | 77/325 [00:13<00:20, 11.87it/s] 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.14.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln.bias[0m", shape: (2560,), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.ln.weight[0m", shape: (2560,), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.15.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln.bias[0m", shape: (2560,), dtype: float16
 28%|████████████████████████████████████████████████████████████▊                                                                                                                                                            | 91/325 [00:13<00:13, 17.29it/s] 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.ln.weight[0m", shape: (2560,), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:31] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.16.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln.bias[0m", shape: (2560,), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.ln.weight[0m", shape: (2560,), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 32%|█████████████████████████████████████████████████████████████████████                                                                                                                                                   | 104/325 [00:13<00:09, 23.70it/s] 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.17.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln.bias[0m", shape: (2560,), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.ln.weight[0m", shape: (2560,), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.18.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 37%|███████████████████████████████████████████████████████████████████████████████                                                                                                                                         | 119/325 [00:13<00:06, 33.21it/s] 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln.bias[0m", shape: (2560,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.ln.weight[0m", shape: (2560,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.19.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln.bias[0m", shape: (2560,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.ln.weight[0m", shape: (2560,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 41%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                               | 133/325 [00:14<00:04, 42.43it/s] 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.2.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln.bias[0m", shape: (2560,), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.ln.weight[0m", shape: (2560,), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.20.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 46%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 149/325 [00:14<00:03, 56.29it/s] 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln.bias[0m", shape: (2560,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.ln.weight[0m", shape: (2560,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.21.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln.bias[0m", shape: (2560,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.ln.weight[0m", shape: (2560,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 50%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 163/325 [00:14<00:02, 65.78it/s] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.22.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln.bias[0m", shape: (2560,), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.ln.weight[0m", shape: (2560,), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.23.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 179/325 [00:14<00:01, 81.07it/s] 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.ln.bias[0m", shape: (2560,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.ln.weight[0m", shape: (2560,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.24.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.ln.bias[0m", shape: (2560,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.ln.weight[0m", shape: (2560,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 193/325 [00:14<00:01, 87.59it/s] 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.25.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.ln.bias[0m", shape: (2560,), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.ln.weight[0m", shape: (2560,), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.26.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 209/325 [00:14<00:01, 102.02it/s] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.ln.bias[0m", shape: (2560,), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.ln.weight[0m", shape: (2560,), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.27.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.ln.bias[0m", shape: (2560,), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.ln.weight[0m", shape: (2560,), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 223/325 [00:14<00:00, 102.33it/s] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:32] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.28.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.ln.bias[0m", shape: (2560,), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.ln.weight[0m", shape: (2560,), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 237/325 [00:14<00:00, 110.06it/s] 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.29.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln.bias[0m", shape: (2560,), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.ln.weight[0m", shape: (2560,), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:14<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:15<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:15<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.3.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:15<00:00, 112.02it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.ln.bias[0m", shape: (2560,), dtype: float16
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 251/325 [00:15<00:00, 112.02it/s] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.30.ln.weight[0m", shape: (2560,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln.bias[0m", shape: (2560,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.ln.weight[0m", shape: (2560,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.4.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln.bias[0m", shape: (2560,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.ln.weight[0m", shape: (2560,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 264/325 [00:15<00:00, 90.84it/s] 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.5.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln.bias[0m", shape: (2560,), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.ln.weight[0m", shape: (2560,), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 279/325 [00:15<00:00, 102.27it/s] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.6.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln.bias[0m", shape: (2560,), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.ln.weight[0m", shape: (2560,), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.7.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 293/325 [00:15<00:00, 105.33it/s] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln.bias[0m", shape: (2560,), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.ln.weight[0m", shape: (2560,), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.8.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln.bias[0m", shape: (2560,), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.ln.weight[0m", shape: (2560,), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mixer.Wqkv.bias[0m", shape: (7680,), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mixer.Wqkv.weight[0m", shape: (7680, 2560), dtype: float16
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 305/325 [00:15<00:00, 107.70it/s] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 319/325 [00:15<00:00, 113.58it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mixer.out_proj.bias[0m", shape: (2560,), dtype: float16
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 319/325 [00:15<00:00, 113.58it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mixer.out_proj.weight[0m", shape: (2560, 2560), dtype: float16
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 319/325 [00:15<00:00, 113.58it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.fc1.bias[0m", shape: (10240,), dtype: float16
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 319/325 [00:15<00:00, 113.58it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.fc1.weight[0m", shape: (10240, 2560), dtype: float16
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 319/325 [00:15<00:00, 113.58it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.fc2.bias[0m", shape: (2560,), dtype: float16
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 319/325 [00:15<00:00, 113.58it/s]                                                                                                                                                                                                                                                               [2023-12-28 06:49:33] INFO huggingface_loader.py:129: [Not quantized] Parameter: "[1mtransformer.h.9.mlp.fc2.weight[0m", shape: (2560, 10240), dtype: float16
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 319/325 [00:15<00:00, 113.58it/s]100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 325/325 [00:15<00:00, 20.77it/s]
[2023-12-28 06:49:33] INFO huggingface_loader.py:179: Unloading HF weight file: /ssd1/cfruan/mlc-llm-repos/mlc-llm-head/dist/models/phi-2/model-00001-of-00002.safetensors
[2023-12-28 06:49:34] INFO stats.py:71: [92mTime usage[0m: HF loading: 12.780 sec; Pre-quantization mapping: 0.982 sec; Quantization: 0.000 sec
[2023-12-28 06:49:34] INFO stats.py:85: [92mRAM usage[0m: Peak RAM: 4.640 GB. Total bytes loaded from disk: 5.178 GB
[2023-12-28 06:49:34] INFO convert_weight.py:110: [92mParameter size[0m after quantization: 5.178 GB
[2023-12-28 06:49:34] INFO convert_weight.py:115: [92mTotal parameters[0m: 2,779,683,840
[2023-12-28 06:49:34] INFO convert_weight.py:116: [92mBits per parameter[0m: 16.000
Start storing to cache /tmp/tmpo_r6sy3y
[0001/0325] saving lm_head.linear.bias                                      [0002/0325] saving lm_head.linear.weight                                        [0003/0325] saving lm_head.ln.bias                                        [0004/0325] saving lm_head.ln.weight                                        [0005/0325] saving transformer.h.30.mixer.Wqkv.bias                                                   [0006/0325] saving transformer.h.30.mixer.Wqkv.weight                                                     [0007/0325] saving transformer.h.30.mixer.out_proj.bias                                                       [0008/0325] saving transformer.h.30.mixer.out_proj.weight                                                         [0009/0325] saving transformer.h.30.mlp.fc1.bias                                                         [0010/0325] saving transformer.h.30.mlp.fc1.weight                                                         [0011/0325] saving transformer.h.30.mlp.fc2.bias                                                         [0012/0325] saving transformer.h.30.mlp.fc2.weight                                                         [0013/0325] saving transformer.h.31.ln.bias                                                         [0014/0325] saving transformer.h.31.ln.weight                                                         [0015/0325] saving transformer.h.31.mixer.Wqkv.bias                                                         [0016/0325] saving transformer.h.31.mixer.Wqkv.weight                                                         [0017/0325] saving transformer.h.31.mixer.out_proj.bias                                                         [0018/0325] saving transformer.h.31.mixer.out_proj.weight                                                         [0019/0325] saving transformer.h.31.mlp.fc1.bias                                                         [0020/0325] saving transformer.h.31.mlp.fc1.weight                                                         [0021/0325] saving transformer.h.31.mlp.fc2.bias                                                         [0022/0325] saving transformer.h.31.mlp.fc2.weight                                                         [0023/0325] saving transformer.embd.weight                                                         [0024/0325] saving transformer.h.0.ln.bias                                                         [0025/0325] saving transformer.h.0.ln.weight                                                         [0026/0325] saving transformer.h.0.mixer.Wqkv.bias                                                         [0027/0325] saving transformer.h.0.mixer.Wqkv.weight                                                         [0028/0325] saving transformer.h.0.mixer.out_proj.bias                                                         [0029/0325] saving transformer.h.0.mixer.out_proj.weight                                                         [0030/0325] saving transformer.h.0.mlp.fc1.bias                                                         [0031/0325] saving transformer.h.0.mlp.fc1.weight                                                         [0032/0325] saving transformer.h.0.mlp.fc2.bias                                                         [0033/0325] saving transformer.h.0.mlp.fc2.weight                                                         [0034/0325] saving transformer.h.1.ln.bias                                                         [0035/0325] saving transformer.h.1.ln.weight                                                         [0036/0325] saving transformer.h.1.mixer.Wqkv.bias                                                         [0037/0325] saving transformer.h.1.mixer.Wqkv.weight                                                         [0038/0325] saving transformer.h.1.mixer.out_proj.bias                                                         [0039/0325] saving transformer.h.1.mixer.out_proj.weight                                                         [0040/0325] saving transformer.h.1.mlp.fc1.bias                                                         [0041/0325] saving transformer.h.1.mlp.fc1.weight                                                         [0042/0325] saving transformer.h.1.mlp.fc2.bias                                                         [0043/0325] saving transformer.h.1.mlp.fc2.weight                                                         [0044/0325] saving transformer.h.10.ln.bias                                                         [0045/0325] saving transformer.h.10.ln.weight                                                         [0046/0325] saving transformer.h.10.mixer.Wqkv.bias                                                         [0047/0325] saving transformer.h.10.mixer.Wqkv.weight                                                         [0048/0325] saving transformer.h.10.mixer.out_proj.bias                                                         [0049/0325] saving transformer.h.10.mixer.out_proj.weight                                                         [0050/0325] saving transformer.h.10.mlp.fc1.bias                                                         [0051/0325] saving transformer.h.10.mlp.fc1.weight                                                         [0052/0325] saving transformer.h.10.mlp.fc2.bias                                                         [0053/0325] saving transformer.h.10.mlp.fc2.weight                                                         [0054/0325] saving transformer.h.11.ln.bias                                                         [0055/0325] saving transformer.h.11.ln.weight                                                         [0056/0325] saving transformer.h.11.mixer.Wqkv.bias                                                         [0057/0325] saving transformer.h.11.mixer.Wqkv.weight                                                         [0058/0325] saving transformer.h.11.mixer.out_proj.bias                                                         [0059/0325] saving transformer.h.11.mixer.out_proj.weight                                                         [0060/0325] saving transformer.h.11.mlp.fc1.bias                                                         [0061/0325] saving transformer.h.11.mlp.fc1.weight                                                         [0062/0325] saving transformer.h.11.mlp.fc2.bias                                                         [0063/0325] saving transformer.h.11.mlp.fc2.weight                                                         [0064/0325] saving transformer.h.12.ln.bias                                                         [0065/0325] saving transformer.h.12.ln.weight                                                         [0066/0325] saving transformer.h.12.mixer.Wqkv.bias                                                         [0067/0325] saving transformer.h.12.mixer.Wqkv.weight                                                         [0068/0325] saving transformer.h.12.mixer.out_proj.bias                                                         [0069/0325] saving transformer.h.12.mixer.out_proj.weight                                                         [0070/0325] saving transformer.h.12.mlp.fc1.bias                                                         [0071/0325] saving transformer.h.12.mlp.fc1.weight                                                         [0072/0325] saving transformer.h.12.mlp.fc2.bias                                                         [0073/0325] saving transformer.h.12.mlp.fc2.weight                                                         [0074/0325] saving transformer.h.13.ln.bias                                                         [0075/0325] saving transformer.h.13.ln.weight                                                         [0076/0325] saving transformer.h.13.mixer.Wqkv.bias                                                         [0077/0325] saving transformer.h.13.mixer.Wqkv.weight                                                         [0078/0325] saving transformer.h.13.mixer.out_proj.bias                                                         [0079/0325] saving transformer.h.13.mixer.out_proj.weight                                                         [0080/0325] saving transformer.h.13.mlp.fc1.bias                                                         [0081/0325] saving transformer.h.13.mlp.fc1.weight                                                         [0082/0325] saving transformer.h.13.mlp.fc2.bias                                                         [0083/0325] saving transformer.h.13.mlp.fc2.weight                                                         [0084/0325] saving transformer.h.14.ln.bias                                                         [0085/0325] saving transformer.h.14.ln.weight                                                         [0086/0325] saving transformer.h.14.mixer.Wqkv.bias                                                         [0087/0325] saving transformer.h.14.mixer.Wqkv.weight                                                         [0088/0325] saving transformer.h.14.mixer.out_proj.bias                                                         [0089/0325] saving transformer.h.14.mixer.out_proj.weight                                                         [0090/0325] saving transformer.h.14.mlp.fc1.bias                                                         [0091/0325] saving transformer.h.14.mlp.fc1.weight                                                         [0092/0325] saving transformer.h.14.mlp.fc2.bias                                                         [0093/0325] saving transformer.h.14.mlp.fc2.weight                                                         [0094/0325] saving transformer.h.15.ln.bias                                                         [0095/0325] saving transformer.h.15.ln.weight                                                         [0096/0325] saving transformer.h.15.mixer.Wqkv.bias                                                         [0097/0325] saving transformer.h.15.mixer.Wqkv.weight                                                         [0098/0325] saving transformer.h.15.mixer.out_proj.bias                                                         [0099/0325] saving transformer.h.15.mixer.out_proj.weight                                                         [0100/0325] saving transformer.h.15.mlp.fc1.bias                                                         [0101/0325] saving transformer.h.15.mlp.fc1.weight                                                         [0102/0325] saving transformer.h.15.mlp.fc2.bias                                                         [0103/0325] saving transformer.h.15.mlp.fc2.weight                                                         [0104/0325] saving transformer.h.16.ln.bias                                                         [0105/0325] saving transformer.h.16.ln.weight                                                         [0106/0325] saving transformer.h.16.mixer.Wqkv.bias                                                         [0107/0325] saving transformer.h.16.mixer.Wqkv.weight                                                         [0108/0325] saving transformer.h.16.mixer.out_proj.bias                                                         [0109/0325] saving transformer.h.16.mixer.out_proj.weight                                                         [0110/0325] saving transformer.h.16.mlp.fc1.bias                                                         [0111/0325] saving transformer.h.16.mlp.fc1.weight                                                         [0112/0325] saving transformer.h.16.mlp.fc2.bias                                                         [0113/0325] saving transformer.h.16.mlp.fc2.weight                                                         [0114/0325] saving transformer.h.17.ln.bias                                                         [0115/0325] saving transformer.h.17.ln.weight                                                         [0116/0325] saving transformer.h.17.mixer.Wqkv.bias                                                         [0117/0325] saving transformer.h.17.mixer.Wqkv.weight                                                         [0118/0325] saving transformer.h.17.mixer.out_proj.bias                                                         [0119/0325] saving transformer.h.17.mixer.out_proj.weight                                                         [0120/0325] saving transformer.h.17.mlp.fc1.bias                                                         [0121/0325] saving transformer.h.17.mlp.fc1.weight                                                         [0122/0325] saving transformer.h.17.mlp.fc2.bias                                                         [0123/0325] saving transformer.h.17.mlp.fc2.weight                                                         [0124/0325] saving transformer.h.18.ln.bias                                                         [0125/0325] saving transformer.h.18.ln.weight                                                         [0126/0325] saving transformer.h.18.mixer.Wqkv.bias                                                         [0127/0325] saving transformer.h.18.mixer.Wqkv.weight                                                         [0128/0325] saving transformer.h.18.mixer.out_proj.bias                                                         [0129/0325] saving transformer.h.18.mixer.out_proj.weight                                                         [0130/0325] saving transformer.h.18.mlp.fc1.bias                                                         [0131/0325] saving transformer.h.18.mlp.fc1.weight                                                         [0132/0325] saving transformer.h.18.mlp.fc2.bias                                                         [0133/0325] saving transformer.h.18.mlp.fc2.weight                                                         [0134/0325] saving transformer.h.19.ln.bias                                                         [0135/0325] saving transformer.h.19.ln.weight                                                         [0136/0325] saving transformer.h.19.mixer.Wqkv.bias                                                         [0137/0325] saving transformer.h.19.mixer.Wqkv.weight                                                         [0138/0325] saving transformer.h.19.mixer.out_proj.bias                                                         [0139/0325] saving transformer.h.19.mixer.out_proj.weight                                                         [0140/0325] saving transformer.h.19.mlp.fc1.bias                                                         [0141/0325] saving transformer.h.19.mlp.fc1.weight                                                         [0142/0325] saving transformer.h.19.mlp.fc2.bias                                                         [0143/0325] saving transformer.h.19.mlp.fc2.weight                                                         [0144/0325] saving transformer.h.2.ln.bias                                                         [0145/0325] saving transformer.h.2.ln.weight                                                         [0146/0325] saving transformer.h.2.mixer.Wqkv.bias                                                         [0147/0325] saving transformer.h.2.mixer.Wqkv.weight                                                         [0148/0325] saving transformer.h.2.mixer.out_proj.bias                                                         [0149/0325] saving transformer.h.2.mixer.out_proj.weight                                                         [0150/0325] saving transformer.h.2.mlp.fc1.bias                                                         [0151/0325] saving transformer.h.2.mlp.fc1.weight                                                         [0152/0325] saving transformer.h.2.mlp.fc2.bias                                                         [0153/0325] saving transformer.h.2.mlp.fc2.weight                                                         [0154/0325] saving transformer.h.20.ln.bias                                                         [0155/0325] saving transformer.h.20.ln.weight                                                         [0156/0325] saving transformer.h.20.mixer.Wqkv.bias                                                         [0157/0325] saving transformer.h.20.mixer.Wqkv.weight                                                         [0158/0325] saving transformer.h.20.mixer.out_proj.bias                                                         [0159/0325] saving transformer.h.20.mixer.out_proj.weight                                                         [0160/0325] saving transformer.h.20.mlp.fc1.bias                                                         [0161/0325] saving transformer.h.20.mlp.fc1.weight                                                         [0162/0325] saving transformer.h.20.mlp.fc2.bias                                                         [0163/0325] saving transformer.h.20.mlp.fc2.weight                                                         [0164/0325] saving transformer.h.21.ln.bias                                                         [0165/0325] saving transformer.h.21.ln.weight                                                         [0166/0325] saving transformer.h.21.mixer.Wqkv.bias                                                         [0167/0325] saving transformer.h.21.mixer.Wqkv.weight                                                         [0168/0325] saving transformer.h.21.mixer.out_proj.bias                                                         [0169/0325] saving transformer.h.21.mixer.out_proj.weight                                                         [0170/0325] saving transformer.h.21.mlp.fc1.bias                                                         [0171/0325] saving transformer.h.21.mlp.fc1.weight                                                         [0172/0325] saving transformer.h.21.mlp.fc2.bias                                                         [0173/0325] saving transformer.h.21.mlp.fc2.weight                                                         [0174/0325] saving transformer.h.22.ln.bias                                                         [0175/0325] saving transformer.h.22.ln.weight                                                         [0176/0325] saving transformer.h.22.mixer.Wqkv.bias                                                         [0177/0325] saving transformer.h.22.mixer.Wqkv.weight                                                         [0178/0325] saving transformer.h.22.mixer.out_proj.bias                                                         [0179/0325] saving transformer.h.22.mixer.out_proj.weight                                                         [0180/0325] saving transformer.h.22.mlp.fc1.bias                                                         [0181/0325] saving transformer.h.22.mlp.fc1.weight                                                         [0182/0325] saving transformer.h.22.mlp.fc2.bias                                                         [0183/0325] saving transformer.h.22.mlp.fc2.weight                                                         [0184/0325] saving transformer.h.23.ln.bias                                                         [0185/0325] saving transformer.h.23.ln.weight                                                         [0186/0325] saving transformer.h.23.mixer.Wqkv.bias                                                         [0187/0325] saving transformer.h.23.mixer.Wqkv.weight                                                         [0188/0325] saving transformer.h.23.mixer.out_proj.bias                                                         [0189/0325] saving transformer.h.23.mixer.out_proj.weight                                                         [0190/0325] saving transformer.h.23.mlp.fc1.bias                                                         [0191/0325] saving transformer.h.23.mlp.fc1.weight                                                         [0192/0325] saving transformer.h.23.mlp.fc2.bias                                                         [0193/0325] saving transformer.h.23.mlp.fc2.weight                                                         [0194/0325] saving transformer.h.24.ln.bias                                                         [0195/0325] saving transformer.h.24.ln.weight                                                         [0196/0325] saving transformer.h.24.mixer.Wqkv.bias                                                         [0197/0325] saving transformer.h.24.mixer.Wqkv.weight                                                         [0198/0325] saving transformer.h.24.mixer.out_proj.bias                                                         [0199/0325] saving transformer.h.24.mixer.out_proj.weight                                                         [0200/0325] saving transformer.h.24.mlp.fc1.bias                                                         [0201/0325] saving transformer.h.24.mlp.fc1.weight                                                         [0202/0325] saving transformer.h.24.mlp.fc2.bias                                                         [0203/0325] saving transformer.h.24.mlp.fc2.weight                                                         [0204/0325] saving transformer.h.25.ln.bias                                                         [0205/0325] saving transformer.h.25.ln.weight                                                         [0206/0325] saving transformer.h.25.mixer.Wqkv.bias                                                         [0207/0325] saving transformer.h.25.mixer.Wqkv.weight                                                         [0208/0325] saving transformer.h.25.mixer.out_proj.bias                                                         [0209/0325] saving transformer.h.25.mixer.out_proj.weight                                                         [0210/0325] saving transformer.h.25.mlp.fc1.bias                                                         [0211/0325] saving transformer.h.25.mlp.fc1.weight                                                         [0212/0325] saving transformer.h.25.mlp.fc2.bias                                                         [0213/0325] saving transformer.h.25.mlp.fc2.weight                                                         [0214/0325] saving transformer.h.26.ln.bias                                                         [0215/0325] saving transformer.h.26.ln.weight                                                         [0216/0325] saving transformer.h.26.mixer.Wqkv.bias                                                         [0217/0325] saving transformer.h.26.mixer.Wqkv.weight                                                         [0218/0325] saving transformer.h.26.mixer.out_proj.bias                                                         [0219/0325] saving transformer.h.26.mixer.out_proj.weight                                                         [0220/0325] saving transformer.h.26.mlp.fc1.bias                                                         [0221/0325] saving transformer.h.26.mlp.fc1.weight                                                         [0222/0325] saving transformer.h.26.mlp.fc2.bias                                                         [0223/0325] saving transformer.h.26.mlp.fc2.weight                                                         [0224/0325] saving transformer.h.27.ln.bias                                                         [0225/0325] saving transformer.h.27.ln.weight                                                         [0226/0325] saving transformer.h.27.mixer.Wqkv.bias                                                         [0227/0325] saving transformer.h.27.mixer.Wqkv.weight                                                         [0228/0325] saving transformer.h.27.mixer.out_proj.bias                                                         [0229/0325] saving transformer.h.27.mixer.out_proj.weight                                                         [0230/0325] saving transformer.h.27.mlp.fc1.bias                                                         [0231/0325] saving transformer.h.27.mlp.fc1.weight                                                         [0232/0325] saving transformer.h.27.mlp.fc2.bias                                                         [0233/0325] saving transformer.h.27.mlp.fc2.weight                                                         [0234/0325] saving transformer.h.28.ln.bias                                                         [0235/0325] saving transformer.h.28.ln.weight                                                         [0236/0325] saving transformer.h.28.mixer.Wqkv.bias                                                         [0237/0325] saving transformer.h.28.mixer.Wqkv.weight                                                         [0238/0325] saving transformer.h.28.mixer.out_proj.bias                                                         [0239/0325] saving transformer.h.28.mixer.out_proj.weight                                                         [0240/0325] saving transformer.h.28.mlp.fc1.bias                                                         [0241/0325] saving transformer.h.28.mlp.fc1.weight                                                         [0242/0325] saving transformer.h.28.mlp.fc2.bias                                                         [0243/0325] saving transformer.h.28.mlp.fc2.weight                                                         [0244/0325] saving transformer.h.29.ln.bias                                                         [0245/0325] saving transformer.h.29.ln.weight                                                         [0246/0325] saving transformer.h.29.mixer.Wqkv.bias                                                         [0247/0325] saving transformer.h.29.mixer.Wqkv.weight                                                         [0248/0325] saving transformer.h.29.mixer.out_proj.bias                                                         [0249/0325] saving transformer.h.29.mixer.out_proj.weight                                                         [0250/0325] saving transformer.h.29.mlp.fc1.bias                                                         [0251/0325] saving transformer.h.29.mlp.fc1.weight                                                         [0252/0325] saving transformer.h.29.mlp.fc2.bias                                                         [0253/0325] saving transformer.h.29.mlp.fc2.weight                                                         [0254/0325] saving transformer.h.3.ln.bias                                                         [0255/0325] saving transformer.h.3.ln.weight                                                         [0256/0325] saving transformer.h.3.mixer.Wqkv.bias                                                         [0257/0325] saving transformer.h.3.mixer.Wqkv.weight                                                         [0258/0325] saving transformer.h.3.mixer.out_proj.bias                                                         [0259/0325] saving transformer.h.3.mixer.out_proj.weight                                                         [0260/0325] saving transformer.h.3.mlp.fc1.bias                                                         [0261/0325] saving transformer.h.3.mlp.fc1.weight                                                         [0262/0325] saving transformer.h.3.mlp.fc2.bias                                                         [0263/0325] saving transformer.h.3.mlp.fc2.weight                                                         [0264/0325] saving transformer.h.30.ln.bias                                                         [0265/0325] saving transformer.h.30.ln.weight                                                         [0266/0325] saving transformer.h.4.ln.bias                                                         [0267/0325] saving transformer.h.4.ln.weight                                                         [0268/0325] saving transformer.h.4.mixer.Wqkv.bias                                                         [0269/0325] saving transformer.h.4.mixer.Wqkv.weight                                                         [0270/0325] saving transformer.h.4.mixer.out_proj.bias                                                         [0271/0325] saving transformer.h.4.mixer.out_proj.weight                                                         [0272/0325] saving transformer.h.4.mlp.fc1.bias                                                         [0273/0325] saving transformer.h.4.mlp.fc1.weight                                                         [0274/0325] saving transformer.h.4.mlp.fc2.bias                                                         [0275/0325] saving transformer.h.4.mlp.fc2.weight                                                         [0276/0325] saving transformer.h.5.ln.bias                                                         [0277/0325] saving transformer.h.5.ln.weight                                                         [0278/0325] saving transformer.h.5.mixer.Wqkv.bias                                                         [0279/0325] saving transformer.h.5.mixer.Wqkv.weight                                                         [0280/0325] saving transformer.h.5.mixer.out_proj.bias                                                         [0281/0325] saving transformer.h.5.mixer.out_proj.weight                                                         [0282/0325] saving transformer.h.5.mlp.fc1.bias                                                         [0283/0325] saving transformer.h.5.mlp.fc1.weight                                                         [0284/0325] saving transformer.h.5.mlp.fc2.bias                                                         [0285/0325] saving transformer.h.5.mlp.fc2.weight                                                         [0286/0325] saving transformer.h.6.ln.bias                                                         [0287/0325] saving transformer.h.6.ln.weight                                                         [0288/0325] saving transformer.h.6.mixer.Wqkv.bias                                                         [0289/0325] saving transformer.h.6.mixer.Wqkv.weight                                                         [0290/0325] saving transformer.h.6.mixer.out_proj.bias                                                         [0291/0325] saving transformer.h.6.mixer.out_proj.weight                                                         [0292/0325] saving transformer.h.6.mlp.fc1.bias                                                         [0293/0325] saving transformer.h.6.mlp.fc1.weight                                                         [0294/0325] saving transformer.h.6.mlp.fc2.bias                                                         [0295/0325] saving transformer.h.6.mlp.fc2.weight                                                         [0296/0325] saving transformer.h.7.ln.bias                                                         [0297/0325] saving transformer.h.7.ln.weight                                                         [0298/0325] saving transformer.h.7.mixer.Wqkv.bias                                                         [0299/0325] saving transformer.h.7.mixer.Wqkv.weight                                                         [0300/0325] saving transformer.h.7.mixer.out_proj.bias                                                         [0301/0325] saving transformer.h.7.mixer.out_proj.weight[2023-12-28 06:49:44] INFO convert_weight.py:132: Saved to directory: [1m/tmp/tmpo_r6sy3y[0m
                                                         [0302/0325] saving transformer.h.7.mlp.fc1.bias                                                         [0303/0325] saving transformer.h.7.mlp.fc1.weight                                                         [0304/0325] saving transformer.h.7.mlp.fc2.bias                                                         [0305/0325] saving transformer.h.7.mlp.fc2.weight                                                         [0306/0325] saving transformer.h.8.ln.bias                                                         [0307/0325] saving transformer.h.8.ln.weight                                                         [0308/0325] saving transformer.h.8.mixer.Wqkv.bias                                                         [0309/0325] saving transformer.h.8.mixer.Wqkv.weight                                                         [0310/0325] saving transformer.h.8.mixer.out_proj.bias                                                         [0311/0325] saving transformer.h.8.mixer.out_proj.weight                                                         [0312/0325] saving transformer.h.8.mlp.fc1.bias                                                         [0313/0325] saving transformer.h.8.mlp.fc1.weight                                                         [0314/0325] saving transformer.h.8.mlp.fc2.bias                                                         [0315/0325] saving transformer.h.8.mlp.fc2.weight                                                         [0316/0325] saving transformer.h.9.ln.bias                                                         [0317/0325] saving transformer.h.9.ln.weight                                                         [0318/0325] saving transformer.h.9.mixer.Wqkv.bias                                                         [0319/0325] saving transformer.h.9.mixer.Wqkv.weight                                                         [0320/0325] saving transformer.h.9.mixer.out_proj.bias                                                         [0321/0325] saving transformer.h.9.mixer.out_proj.weight                                                         [0322/0325] saving transformer.h.9.mlp.fc1.bias                                                         [0323/0325] saving transformer.h.9.mlp.fc1.weight                                                         [0324/0325] saving transformer.h.9.mlp.fc2.bias                                                         [0325/0325] saving transformer.h.9.mlp.fc2.weight
All finished, 114 total shards committed, record saved to /tmp/tmpo_r6sy3y/ndarray-cache.json