Run fp8 models on Ampere GPUs with Marlin Kernels #2503

RonanKMcGovern · 2024-12-17T17:40:47Z

RonanKMcGovern
Dec 17, 2024

I see that awq is supported (likely via Marlin?) and am wondering whether fp8 can also be done on Ampere (via dequantisation)? It works on vLLM.

fp8 works natively on Lovelace and Hopper.

RonanKMcGovern · 2024-12-18T08:13:22Z

I just ran this and it's flawless. On an A40. 3X higher throughput than vllm at batch 64

0 replies