---
title: "Nemotron-3-Super-120B-A12B (NVFP4) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/en/arena/nemotron-3-super-120b-a12b-nvfp4/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Nemotron-3-Super-120B-A12B (NVFP4)

Het zwaarste model dat op de Spark draait, en dat merk je. Single-user chat is nog redelijk, lange-output ook. Zodra de queue groeit valt 'ie om: op random kantoor-load schiet TTFT richting de vier minuten en achieved RPS halveert. Op 25k context met tien gebruikers wacht je ruim een minuut op het eerste token, soms langer. Mooi bewijs dat je de hardware niet kunt overstemmen, ook niet met NVFP4.

## Specs

- Vendor: NVIDIA
- Architecture: MoE
- Parameters: 120B (12B active)
- Precision: NVFP4
- Context: 256K
- VRAM: 60 GB
- Engine: vLLM cu130-nightly
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 83.7 |
| GPQA | 79.2 |
| HumanEval / LCB | 81.2 |
| Avg | 81.4 |

## Benchmarks on the DGX Spark

| Test | tokens/s per user | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 8 | 75 | 4600 |
| 02 RAG · 8k context | 7 | 50 | 26510 |
| 03 Lange output / agents | 9 | 61 | 2050 |
| 04 Grote context · 25k | 4 | 17 | 79790 |
| 05 Multi-turn · kantoorwerk | 8 | 69 | 7780 |
| 06 Realistische kantoor-baseline | 7 | 7 | 247722 |
| 07 Echte gesprekken · ShareGPT | 7 | 7 | 1082 |
| 08 Maandagochtend-piek | 26 | 26 | 33368 |
| 09 Reasoning workload | 4 | 4 | 281808 |

## What I made of it

**Worked: 120B draait überhaupt op de Spark**

NVFP4 krimpt 120B naar circa 60 GB weights. Single-user chat-1k haalt 8 t/s/user, voor incidenteel werk met het zwaarste open-source model is dat bruikbaar.

**Broke: Onder kantoor-load blaast de queue op**

Test H stapelt 102 parallelle requests bij target 0.3 RPS, achieved 0.16. Bij c=20 op 25k context tikt TTFT 153 seconden. KV-cache budget krap, prefill traag, queue groeit harder dan de server kan lokaliseren.

**Cost: 25k context met c=10 is onbruikbaar**

TTFT P50 79 seconden bij c=10, op c=20 zelfs 153s. Voor RAG of long-context use-cases moet je dit model elders draaien dan op een Spark.

**Surprised: Single-user chat voelt nog snappy**

TTFT 4.6s, decode 8 t/s/user. Voor één gebruiker die af en toe het slimste lokale model raadpleegt: acceptabel. Alles boven c=5 valt om.

## Notes

NVFP4-quantisatie van Nemotron-3-Super-120B-A12B (MoE, 12B active parameters per token). KV-cache fp8, max_model_len 131072. Default profiel: prefix caching uit, async scheduling aan. Model-weights zijn ~60 GB in NVFP4 op een 128 GB unified-memory machine, ruimte voor KV-cache is krap, en dat zie je terug in de open-loop tail-latency.

---

License: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Full arena: https://djangodevreng.nl/en/arena/ · Raw runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks
