Edit Models filters

AutoTrain Compatible

Inference Endpoints

text-generation-inference

4-bit precision

Other with no match

text-embeddings-inference

8-bit precision

Carbon Emissions

Mixture of Experts

Models

18

Full-text search

Active filters: nm-vllm

neuralmagic/TinyLlama-1.1B-Chat-v1.0-pruned2.4

Text Generation • Updated Mar 5 • 105

neuralmagic/MiniChat-2-3B-pruned2.4

Text Generation • Updated Mar 5 • 1

neuralmagic/OpenHermes-2.5-Mistral-7B-pruned2.4

Text Generation • Updated Mar 5 • 1.48k

neuralmagic/OpenHermes-2.5-Mistral-7B-pruned50

Text Generation • Updated Mar 5 • 1.63k • 1

neuralmagic/Nous-Hermes-2-SOLAR-10.7B-pruned2.4

Text Generation • Updated Mar 5 • 1

neuralmagic/Nous-Hermes-2-Yi-34B-pruned2.4

Text Generation • Updated Mar 5 • 1

neuralmagic/Nous-Hermes-2-Yi-34B-pruned50

Text Generation • Updated Mar 5 • 1

neuralmagic/zephyr-7b-beta-marlin

Text Generation • Updated Mar 6 • 4.16k • 1

neuralmagic/llama2.c-stories110M-pruned2.4

Text Generation • Updated Mar 5 • 5

neuralmagic/llama2.c-stories110M-pruned50

Text Generation • Updated Mar 5 • 316

neuralmagic/phi-2-pruned50

Text Generation • Updated Mar 5 • 5

neuralmagic/TinyLlama-1.1B-Chat-v1.0-marlin

Text Generation • Updated Mar 6 • 11.4k • 1

neuralmagic/OpenHermes-2.5-Mistral-7B-marlin

Text Generation • Updated Mar 6 • 223 • 2

neuralmagic/Nous-Hermes-2-Yi-34B-marlin

Text Generation • Updated Mar 6 • 5 • 5

softmax/Llama-2-70b-chat-hf-marlin

Text Generation • Updated Mar 17 • 6

softmax/falcon-180B-chat-marlin

Text Generation • Updated Mar 21 • 1

dtransposed/llama2.c-stories110M-pruned50-compressed-tensors

Text Generation • Updated Apr 23 • 3

nm-testing/llama2.c-stories110M-pruned50-compressed-tensors

Text Generation • Updated Apr 25 • 3