Should this be pulling the 15 5gb models?

#1
by vade001 - opened

Hi

Attempting to use this with MLX-LM, and noticing when invoked its downloading all 15 model safe tensor model files, including the smaller quantized model.

is that expected? it seems a bit overkill?

mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-64k-4bit --prompt "hello"

 mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-64k-4bit --prompt "hello"

None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.
/Users/vade/miniconda3/envs/mlx/lib/python3.12/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
config.json: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 779/779 [00:00<00:00, 3.36MB/s]
model-00008-of-00015.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5.13G/5.13G [14:57<00:00, 5.72MB/s]
model-00007-of-00015.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5.37G/5.37G [23:05<00:00, 3.87MB/s]
model-00002-of-00015.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5.21G/5.21G [24:24<00:00, 3.55MB/s]
model-00005-of-00015.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5.21G/5.21G [25:43<00:00, 3.37MB/s]s]
model-00003-of-00015.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5.37G/5.37G [26:30<00:00, 3.37MB/s]s]
model-00009-of-00015.safetensors: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5.21G/5.21G [14:24<00:00, 6.02MB/s]
model-00010-of-00015.safetensors:  39%|██████████████████████████████████████████████▊                                                                          | 2.01G/5.21G [06:15<12:09, 4.37MB/s]
model-00010-of-00015.safetensors:  42%|██████████████████████████████████████████████████▍                                                                      | 2.17G/5.21G [07:01<14:58, 3.38MB/s]
model-00013-of-00015.safetensors:  16%|██████████████████▉                                                                                                       | 807M/5.21G [03:37<30:18, 2.42MB/s]
model-00001-of-00015.safetensors:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 4.58G/5.16G [30:06<05:24, 1.79MB/s]s]
model-00006-of-00015.safetensors:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 4.36G/5.21G [30:09<08:21, 1.68MB/s]s]
model-00012-of-00015.safetensors:  18%|█████████████████████▋                                                                                                    | 912M/5.13G [04:21<34:09, 2.06MB/s]
model-00014-of-00015.safetensors:   5%|██████▋                                                                                                                   | 283M/5.21G [00:46<09:12, 8.91MB/s]
model-00011-of-00015.safetensors:  21%|█████████████████████████                                                                                                | 1.11G/5.37G [05:43<17:34, 4.03MB/s]
model-00004-of-00015.safetensors:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 4.38G/5.13G [30:04<07:32, 1.66MB/s

Sign up or log in to comment