Edit Models filters

Inference status

Misc

compressed-tensors

Inference Endpoints

AutoTrain Compatible

text-generation-inference

8-bit precision

Misc with no match

4-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

216

Full-text search

Active filters: compressed-tensors

neuralmagic/Llama-3.1-Nemotron-70B-Instruct-HF-FP8-dynamic

Text Generation • Updated 6 days ago • 2.18k • 6

neuralmagic/Meta-Llama-3.1-8B-Instruct-FP8

Text Generation • Updated 13 days ago • 83.8k • 30

neuralmagic/Meta-Llama-3.1-70B-Instruct-FP8

Text Generation • Updated 13 days ago • 44.8k • 29

neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a16

Text Generation • Updated 13 days ago • 2.25k • 8

neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8

Text Generation • Updated 12 days ago • 5.7k • 10

neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w8a8

Text Generation • Updated 12 days ago • 26.1k • 7

neuralmagic/gemma-2-9b-it-quantized.w8a8

Text Generation • Updated 13 days ago • 177 • 2

neuralmagic/Llama-3.2-11B-Vision-Instruct-FP8-dynamic

Text Generation • Updated 20 days ago • 24.8k • 7

neuralmagic/Llama-3.2-1B-Instruct-FP8-dynamic

Text Generation • Updated 13 days ago • 844 • 2

neuralmagic/Llama-3.2-1B-Instruct-quantized.w8a8

Text Generation • Updated 6 days ago • 481 • 1

neuralmagic/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

Text Generation • Updated 20 days ago • 12.4k • 3

neuralmagic/Phi-3.5-mini-instruct-FP8-KV

Text Generation • Updated 21 days ago • 400 • 1

qeternity/Qwen2.5-72B-Instruct-W8A8

Updated 21 days ago • 247 • 1

nm-testing/NVLM-D-72B-FP8-dynamic

Updated 15 days ago • 1.67k • 2

noneUsername/SuperNova-Medius-W8A8-Dynamic-Per-Token

Updated 4 days ago • 181 • 1

flowaicom/Flow-Judge-v0.1-FP8

Updated 8 days ago • 46 • 1

flowaicom/Flow-Judge-v0.1-W8A16

Updated 8 days ago • 19 • 1

flowaicom/Flow-Judge-v0.1-W4A16

Updated 8 days ago • 35 • 1

nm-testing/tinyllama-one-shot-static-quant-test-compressed

Text Generation • Updated 13 days ago • 24

nm-testing/tinyllama-one-shot-dynamic-test

Text Generation • Updated 13 days ago • 12

nm-testing/tinyllama-one-shot-w4a16-group-packed

Text Generation • Updated 12 days ago • 36

nm-testing/tinyllama-one-shot-w4a16-channel-compressed

Text Generation • Updated 13 days ago • 10

nm-testing/tinyllama-one-shot-w4a16-channel-packed

Text Generation • Updated 13 days ago • 10

nm-testing/llama7b-one-shot-2_4-w4a16-packed

Text Generation • Updated 13 days ago • 12

nm-testing/tinyllama-one-shot-w4a16-group128-packed

Text Generation • Updated 13 days ago • 10

nm-testing/llama3-8b-w8_channel-a8_tensor-compressed

Text Generation • Updated 13 days ago • 11

nm-testing/llama7b-one-shot-2_4-w4a16-marlin24

Text Generation • Updated Jun 4 • 5

nm-testing/llama7b-one-shot-2_4-w4a16-group128-packed

Text Generation • Updated Jun 4 • 8

nm-testing/llama1.1b_0.5_sparse_bitmask

Text Generation • Updated 13 days ago • 15

nm-testing/llama7b-one-shot-2_4-w4a16-marlin24-t

Text Generation • Updated 13 days ago • 8.14k • 1