Google 26B-A4B params BF16 MoE

Gemma-4-26B-A4B-it

Controlelijn voor vLLM v0.23.0. Chat haalt 11.47 t/s/user bij c=10, multi-turn 10.69 t/s/user en de kantoor-baseline blijft 200/200 groen. Prima als referentie, maar MTP en NVFP4 laten zien hoeveel decode er blijft liggen.

68.9
Arena score
59
Throughput tok/s
52 GB
VRAM
8/9
Benches gemeten
Hugging Face → vLLM v0.23.0 DGX Spark, NVIDIA GB10, 128 GB unified memory Laatst gemeten 23 juni 2026

De quality-component van de Arena-score. Niet zelf gemeten, uit de officiële model-cards van de vendor. Voor cross-model vergelijking met consistente eval-harness is Artificial Analysis een nuttige derde partij. Het gemiddelde van de drie benchmarks komt 1-op-1 in de Score-formule terug (zwaarder gewogen in Aggregaat/Agent, lichter in Batch).

80.7
Avg
82.6
MMLU-Pro
82.3
GPQA-Diamond
77.1
HumanEval
Decode throughput · totaal t/s · c=10
BF16
1k ctx 91.0 t/s
8k ctx 78.0 t/s
4k+turn 98.0 t/s
25k ctx 28.0 t/s

5 closed-loop tests met llama-benchy en 4 open-loop tests met vllm bench serve. Per benchmark de tokens/sec (decode throughput) en TTFT p50. TTFT vertaalt direct in UX-gevoel, tps in capaciteit. Klap "view command" uit voor het exacte commando.

01 · llama-benchy closed-loop

Chat

Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.

pp (prompt) 1024 tg (gen) 1024 depth 0 concurrency 10 runs 3
tokens/sec
11.5 t/s
TTFT · p50
1,34s
3 runs · seed 42
02 · llama-benchy closed-loop

RAG · 8k context

Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.

pp (prompt) 8192 tg (gen) 512 depth 0 concurrency 10 runs 3
tokens/sec
9.5 t/s
TTFT · p50
8,49s
3 runs · seed 42
03 · llama-benchy closed-loop

Lange output / agents

Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.

pp (prompt) 256 tg (gen) 4096 depth 0 concurrency 10 runs 3
tokens/sec
12.5 t/s
TTFT · p50
491ms
3 runs · seed 42
04 · llama-benchy closed-loop

Grote context · 25k

Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.

pp (prompt) 25000 tg (gen) 256 depth 0 concurrency 10 runs 3
tokens/sec
5.3 t/s
TTFT · p50
39,28s
3 runs · seed 42
05 · llama-benchy closed-loop

Multi-turn · kantoorwerk

Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.

pp (prompt) 2048 tg (gen) 512 depth 4 concurrency 10 runs 3
tokens/sec
10.7 t/s
TTFT · p50
2,16s
3 runs · seed 42
06 · vllm bench serve open-loop

Realistische kantoor-baseline

Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.

dataset random rate (req/s) 0,30 burstiness 0,7 prompts 200
tokens/sec
33.9 t/s
TTFT · p50
1,33s
200 prompts · seed 42
07 · vllm bench serve open-loop

Echte gesprekken · ShareGPT

ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.

dataset sharegpt v3 rate (req/s) 0,30 burstiness 0,7 prompts 250
tokens/sec
8.3 t/s
TTFT · p50
327ms
250 prompts · seed 42
08 · vllm bench serve open-loop

Maandagochtend-piek

Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?

dataset random rate (req/s) 1,50 burstiness 1,0 prompts 300 max parallel 25
tokens/sec
44.0 t/s
TTFT · p50
1,18s
300 prompts · seed 42
09 · vllm bench serve open-loop

Reasoning workload

Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.

dataset random rate (req/s) 0,20 burstiness 1,0 prompts 50
tokens/sec
t/s
TTFT · p50
50 prompts · seed 42
Wat werkt

NVFP4 is de praktische default

Chat op 21.59 t/s/user en multi-turn op 20.01 t/s/user bij c=10. Voor lokale kantoorchat voelt dit niet als een concessie.

Wat brak

25k context blijft prefill-pijn

Zelfs NVFP4 zit bij 25k en c=10 op 38.58s TTFT gemiddeld. Serve-profiel helpt decode, niet de wachttijd voor grote prompts.

Wat niet meeviel

MTP koopt decode, geen perfecte tail

MTP verslaat BF16 in decode, maar onder maandagochtend-load zijn p95 TTFT en p95 TPOT slechter dan BF16. Percentielen blijven nodig.

Wat verbaasde

ShareGPT-replay is extreem vriendelijk

NVFP4 haalt 250/250 requests met p95 TTFT 225.09 ms en p95 TPOT 45.30 ms. Echte korte gesprekken zijn veel lichter dan random 4k.

Meer cijfers?
Lees het volledig artikel.

Uitleg

Esc