Edit Models filters

Inference status

Misc

AutoTrain Compatible

Inference Endpoints

text-generation-inference

4-bit precision

Misc with no match

text-embeddings-inference

8-bit precision

Carbon Emissions

Mixture of Experts

Models

18

Full-text search

Active filters: nm-vllm

neuralmagic/TinyLlama-1.1B-Chat-v1.0-pruned2.4

Text Generation • Updated Mar 5 • 16 • 1

neuralmagic/MiniChat-2-3B-pruned2.4

Text Generation • Updated Mar 5 • 19

neuralmagic/OpenHermes-2.5-Mistral-7B-pruned2.4

Text Generation • Updated Mar 5 • 722

neuralmagic/OpenHermes-2.5-Mistral-7B-pruned50

Text Generation • Updated Mar 5 • 746 • 1

neuralmagic/Nous-Hermes-2-SOLAR-10.7B-pruned2.4

Text Generation • Updated Mar 5 • 16

neuralmagic/Nous-Hermes-2-Yi-34B-pruned2.4

Text Generation • Updated Mar 5 • 2

neuralmagic/Nous-Hermes-2-Yi-34B-pruned50

Text Generation • Updated Mar 5

neuralmagic/zephyr-7b-beta-marlin

Text Generation • Updated Mar 6 • 12.1k

neuralmagic/llama2.c-stories110M-pruned2.4

Text Generation • Updated Mar 5 • 17

neuralmagic/llama2.c-stories110M-pruned50

Text Generation • Updated Mar 5 • 1.69k

neuralmagic/phi-2-pruned50

Text Generation • Updated Mar 5 • 18

neuralmagic/TinyLlama-1.1B-Chat-v1.0-marlin

Text Generation • Updated Mar 6 • 6.35k • 1

neuralmagic/OpenHermes-2.5-Mistral-7B-marlin

Text Generation • Updated Mar 6 • 1.19k • 2

neuralmagic/Nous-Hermes-2-Yi-34B-marlin

Text Generation • Updated Mar 6 • 7 • 5

softmax/Llama-2-70b-chat-hf-marlin

Text Generation • Updated Mar 17 • 733

softmax/falcon-180B-chat-marlin

Text Generation • Updated Mar 21 • 4

dtransposed/llama2.c-stories110M-pruned50-compressed-tensors

Text Generation • Updated Apr 23 • 17

nm-testing/llama2.c-stories110M-pruned50-compressed-tensors

Text Generation • Updated Apr 25 • 13