NVIDIA 120B (12B active) params NVFP4 MoE

Nemotron-3-Super-120B-A12B

Het zwaarste model dat op de Spark draait, en dat merk je. Single-user chat is nog redelijk, lange-output ook. Zodra de queue groeit valt 'ie om: op random kantoor-load schiet TTFT richting de vier minuten en achieved RPS halveert. Op 25k context met tien gebruikers wacht je ruim een minuut op het eerste token, soms langer. Mooi bewijs dat je de hardware niet kunt overstemmen, ook niet met NVFP4.

68.2

Arena score

Throughput tok/s

60 GB

VRAM

9/9

Benches mesurés

Hugging Face → vLLM cu130-nightly DGX Spark, NVIDIA GB10, 128 GB unified memory Dernière mesure 5 mai 2026

02 Quality · MMLU · GPQA · HumanEval artificial analysis ↗

La composante quality de l'Arena score. Pas mesurée par moi, issue des model cards officielles du vendor. Pour une comparaison cross-model avec un eval harness cohérent, Artificial Analysis est un tiers utile. La moyenne des trois benchmarks entre une à une dans la formule du Score (pondérée plus lourd en Aggregate/Agent, plus léger en Batch).

81.4

Avg

83.7

MMLU-Pro

79.2

GPQA-Diamond

81.2

HumanEval

03 Performance · NVFP4

Decode throughput · total t/s · c=10

NVFP4

1k ctx 75.0 t/s

8k ctx 50.0 t/s

4k+turn 69.0 t/s

25k ctx 17.0 t/s

04 Test suite · 9 benchmarks méthodologie →

5 tests closed-loop avec llama-benchy et 4 tests open-loop avec vllm bench serve. Par benchmark les tokens/sec (decode throughput) et le TTFT p50. Le TTFT se traduit directement en ressenti UX, les tps en capacité. Déplie "view command" pour la commande exacte.

01 · llama-benchy closed-loop

Chat

Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.

pp (prompt) 1024 tg (gen) 1024 depth 0 concurrency 10 runs 3

tokens/sec

8.2 t/s

TTFT · p50

4,60s

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --pp 1024 \
  --tg 1024 \
  --depth 0 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

02 · llama-benchy closed-loop

RAG · 8k context

Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.

pp (prompt) 8192 tg (gen) 512 depth 0 concurrency 10 runs 3

tokens/sec

6.9 t/s

TTFT · p50

26,51s

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --pp 8192 \
  --tg 512 \
  --depth 0 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

03 · llama-benchy closed-loop

Lange output / agents

Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.

pp (prompt) 256 tg (gen) 4096 depth 0 concurrency 10 runs 3

tokens/sec

9.0 t/s

TTFT · p50

2,05s

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --pp 256 \
  --tg 4096 \
  --depth 0 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

04 · llama-benchy closed-loop

Grote context · 25k

Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.

pp (prompt) 25000 tg (gen) 256 depth 0 concurrency 10 runs 3

tokens/sec

4.3 t/s

TTFT · p50

79,79s

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --pp 25000 \
  --tg 256 \
  --depth 0 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

05 · llama-benchy closed-loop

Multi-turn · kantoorwerk

Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.

pp (prompt) 2048 tg (gen) 512 depth 4 concurrency 10 runs 3

tokens/sec

7.8 t/s

TTFT · p50

7,78s

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --pp 2048 \
  --tg 512 \
  --depth 4 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

06 · vllm bench serve open-loop

Realistische kantoor-baseline

Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.

dataset random rate (req/s) 0,30 burstiness 0,7 prompts 200

tokens/sec

7.4 t/s

TTFT · p50

247,72s

200 prompts · seed 42

docker exec vllm-bench vllm bench serve \
  --backend openai-chat \
  --base-url http://localhost:8000 \
  --endpoint /v1/chat/completions \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --tokenizer nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --served-model-name NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --dataset-name random \
  --random-input-len 4000 \
  --random-output-len 500 \
  --random-range-ratio 0.9 \
  --num-prompts 200 \
  --request-rate 0,30 \
  --burstiness 0,7 \
  --percentile-metrics ttft,tpot,itl,e2el \
  --metric-percentiles 50,90,95,99 \
  --seed 42

07 · vllm bench serve open-loop

Echte gesprekken · ShareGPT

ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.

dataset sharegpt v3 rate (req/s) 0,30 burstiness 0,7 prompts 250

tokens/sec

7.2 t/s

TTFT · p50

1,08s

250 prompts · seed 42

docker exec vllm-bench vllm bench serve \
  --backend openai-chat \
  --base-url http://localhost:8000 \
  --endpoint /v1/chat/completions \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --tokenizer nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --served-model-name NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --dataset-name sharegpt \
  --dataset-path /tmp/ShareGPT_V3.json \
  --num-prompts 250 \
  --request-rate 0,30 \
  --burstiness 0,7 \
  --percentile-metrics ttft,tpot,itl,e2el \
  --metric-percentiles 50,90,95,99 \
  --seed 42

08 · vllm bench serve open-loop

Maandagochtend-piek

Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?

dataset random rate (req/s) 1,50 burstiness 1,0 prompts 300 max parallel 25

tokens/sec

25.9 t/s

TTFT · p50

33,37s

300 prompts · seed 42

docker exec vllm-bench vllm bench serve \
  --backend openai-chat \
  --base-url http://localhost:8000 \
  --endpoint /v1/chat/completions \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --tokenizer nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --served-model-name NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --dataset-name random \
  --random-input-len 4000 \
  --random-output-len 500 \
  --random-range-ratio 0.9 \
  --num-prompts 300 \
  --request-rate 1,50 \
  --burstiness 1,0 \
  --max-concurrency 25 \
  --percentile-metrics ttft,tpot,itl,e2el \
  --metric-percentiles 50,90,95,99 \
  --seed 42

09 · vllm bench serve open-loop

Reasoning workload

Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.

dataset random rate (req/s) 0,20 burstiness 1,0 prompts 50

tokens/sec

3.8 t/s

TTFT · p50

281,81s

50 prompts · seed 42

docker exec vllm-bench vllm bench serve \
  --backend openai-chat \
  --base-url http://localhost:8000 \
  --endpoint /v1/chat/completions \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --tokenizer nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --served-model-name NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 \
  --dataset-name random \
  --random-input-len 4000 \
  --random-output-len 500 \
  --random-range-ratio 0.9 \
  --num-prompts 50 \
  --request-rate 0,20 \
  --burstiness 1,0 \
  --percentile-metrics ttft,tpot,itl,e2el \
  --metric-percentiles 50,90,95,99 \
  --seed 42

05 Ce que j'en ai pensé

Ce qui marche

120B draait überhaupt op de Spark

NVFP4 krimpt 120B naar circa 60 GB weights. Single-user chat-1k haalt 8 t/s/user, voor incidenteel werk met het zwaarste open-source model is dat bruikbaar.

Ce qui a cassé

Onder kantoor-load blaast de queue op

Test H stapelt 102 parallelle requests bij target 0.3 RPS, achieved 0.16. Bij c=20 op 25k context tikt TTFT 153 seconden. KV-cache budget krap, prefill traag, queue groeit harder dan de server kan lokaliseren.

Ce qui a déçu

25k context met c=10 is onbruikbaar

TTFT P50 79 seconden bij c=10, op c=20 zelfs 153s. Voor RAG of long-context use-cases moet je dit model elders draaien dan op een Spark.

Ce qui a surpris

Single-user chat voelt nog snappy

TTFT 4.6s, decode 8 t/s/user. Voor één gebruiker die af en toe het slimste lokale model raadpleegt: acceptabel. Alles boven c=5 valt om.

Plus de chiffres ?
Lis l'article complet.

Weights Hugging Face Retour Vers l'arena

Nemotron-3-Super-120B-A12B

Chat

RAG · 8k context

Lange output / agents

Grote context · 25k

Multi-turn · kantoorwerk

Realistische kantoor-baseline

Echte gesprekken · ShareGPT

Maandagochtend-piek

Reasoning workload

120B draait überhaupt op de Spark

Onder kantoor-load blaast de queue op

25k context met c=10 is onbruikbaar

Single-user chat voelt nog snappy

Plus de chiffres ?Lis l'article complet.

Plus de chiffres ?
Lis l'article complet.