NVIDIA (re-quant van Google) 26B-A4B params NVFP4 MoE

Gemma-4-26B-A4B-it

NVFP4 op dezelfde Gemma-4-26B-A4B is op deze hardware bijna een gratis lunch. Chat-decode 20.9 t/s/user (BF16: 10.9), agents 22.5 t/s/user, en zelfs 25k context blijft op 7.6 t/s/user. Onder maandagochtend-piek total throughput bijna 2 GB/s aan tokens en P99 TTFT onder 7 sec. Dit is wat de Spark wil draaien.

Arena score
Throughput tok/s
24 GB
VRAM
9/9
Benches mesurés
Hugging Face → vLLM v0.20.1 DGX Spark, NVIDIA GB10, 128 GB unified memory Dernière mesure 6 mai 2026

La composante quality de l'Arena score. Pas mesurée par moi, issue des model cards officielles du vendor. Pour une comparaison cross-model avec un eval harness cohérent, Artificial Analysis est un tiers utile. La moyenne des trois benchmarks entre une à une dans la formule du Score (pondérée plus lourd en Aggregate/Agent, plus léger en Batch).

Avg
MMLU-Pro
GPQA-Diamond
HumanEval
Decode throughput · total t/s · c=10
Mesuré
1k ctx 0.0 t/s
8k ctx 0.0 t/s
4k+turn 0.0 t/s
25k ctx 0.0 t/s

5 tests closed-loop avec llama-benchy et 4 tests open-loop avec vllm bench serve. Par benchmark les tokens/sec (decode throughput) et le TTFT p50. Le TTFT se traduit directement en ressenti UX, les tps en capacité. Déplie "view command" pour la commande exacte.

01 · llama-benchy closed-loop

Chat

Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.

pp (prompt) 1024 tg (gen) 1024 depth 0 concurrency 10 runs 3
tokens/sec
20.9 t/s
TTFT · p50
1,10s
3 runs · seed 42
02 · llama-benchy closed-loop

RAG · 8k context

Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.

pp (prompt) 8192 tg (gen) 512 depth 0 concurrency 10 runs 3
tokens/sec
16.0 t/s
TTFT · p50
8,00s
3 runs · seed 42
03 · llama-benchy closed-loop

Lange output / agents

Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.

pp (prompt) 256 tg (gen) 4096 depth 0 concurrency 10 runs 3
tokens/sec
22.5 t/s
TTFT · p50
370ms
3 runs · seed 42
04 · llama-benchy closed-loop

Grote context · 25k

Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.

pp (prompt) 25000 tg (gen) 256 depth 0 concurrency 10 runs 3
tokens/sec
7.5 t/s
TTFT · p50
35,65s
3 runs · seed 42
05 · llama-benchy closed-loop

Multi-turn · kantoorwerk

Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.

pp (prompt) 2048 tg (gen) 512 depth 4 concurrency 10 runs 3
tokens/sec
19.5 t/s
TTFT · p50
1,94s
3 runs · seed 42
06 · vllm bench serve open-loop

Realistische kantoor-baseline

Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.

dataset random rate (req/s) 0,30 burstiness 0,7 prompts 200
tokens/sec
81.4 t/s
TTFT · p50
1,01s
200 prompts · seed 42
07 · vllm bench serve open-loop

Echte gesprekken · ShareGPT

ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.

dataset sharegpt v3 rate (req/s) 0,30 burstiness 0,7 prompts 250
tokens/sec
13.3 t/s
TTFT · p50
152ms
250 prompts · seed 42
08 · vllm bench serve open-loop

Maandagochtend-piek

Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?

dataset random rate (req/s) 1,50 burstiness 1,0 prompts 300 max parallel 25
tokens/sec
73.5 t/s
TTFT · p50
920ms
300 prompts · seed 42
09 · vllm bench serve open-loop

Reasoning workload

Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.

dataset random rate (req/s) 0,20 burstiness 1,0 prompts 50
tokens/sec
9.0 t/s
TTFT · p50
356ms
50 prompts · seed 42
Ce qui marche

NVFP4 verdubbelt decode bijna gratis

Chat 20.9 vs 10.9 t/s/user, agents 22.5 vs 11.8, multi-turn 19.5 vs 10.4. Bijna 2× decode-doorvoer voor dezelfde MoE, op dezelfde Spark, voor minder dan 0.5% quality-drift volgens NVIDIA's eigen evals.

Ce qui a cassé

25k context blijft duur

TTFT mean 35.6 sec bij c=10, vrijwel gelijk aan BF16. Quantisatie helpt decode, maar de prefill-muur op 25k is hardware-limited, niet precisie-limited.

Ce qui a déçu

Single-stream decode hoger dan c=10

Bij c=1 op 4k context: 29.8 t/s/user. Bij c=10: 16.9 t/s/user. Niet onverwacht, maar het verschil is groter dan bij BF16 (24.1 naar 9.5). Quantisatie is gevoeliger voor scheduling-overhead.

Ce qui a surpris

Total throughput tikt 1984 t/s op piek

Onder J (max-concurrency 25, burstiness 1.0) komt total token throughput op 1984 t/s, anderhalf keer de BF16-versie. NVFP4 op een MoE met 4B actief is op deze hardware echt vleugels.

Plus de chiffres ?
Lis l'article complet.

Explication

Esc