---
title: "Nemotron-3-Nano-4B (BF16) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/arena/nemotron-3-nano-4b-bf16/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Nemotron-3-Nano-4B (BF16)

Klein, snel en verrassend goed in z'n niche. Op chat zit decode rond de 25 tokens per gebruiker, TTFT op ShareGPT-replay blijft onder de 150 ms. Onder maandagochtend-piek schaalt 'ie waar grotere modellen op een derde daarvan vastlopen. Op brede kennis zit 'ie laag, op reasoning-benchmarks zoals AIME en MATH verrassend hoog. Voor classifiers, routing of korte samenvattingen waar je geen 30B+ voor nodig hebt: serieus snel werkpaard.

## Specificaties

- Vendor: NVIDIA
- Architectuur: Dense
- Parameters: 4B
- Precisie: BF16
- Context: 256K
- VRAM: 8 GB
- Engine: vLLM cu130-nightly
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16

## Quality (model-cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 18.1 |
| GPQA | 51.3 |
| HumanEval / LCB | 51.8 |
| Avg | 40.4 |

## Benchmarks op de DGX Spark

| Test | tokens/s p/user | tokens/s totaal | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 25 | 224 | 750 |
| 02 RAG · 8k context | 21 | 166 | 5090 |
| 03 Lange output / agents | 26 | 96 | 300 |
| 04 Grote context · 25k | 13 | 67 | 16530 |
| 05 Multi-turn · kantoorwerk | 24 | 221 | 1370 |
| 06 Realistische kantoor-baseline | 88 | 88 | 706 |
| 07 Echte gesprekken · ShareGPT | 13 | 13 | 134 |
| 08 Maandagochtend-piek | 100 | 100 | 775 |
| 09 Reasoning workload | 11 | 11 | 257 |

## Wat ik ervan vond

**Werkte: Schaalt door waar grotere modellen vastlopen**

Onder maandagochtend-piek doet 'ie 0.62 RPS, het dubbele tot drievoud van wat 30B-modellen halen op dezelfde test. P99 TTFT blijft onder de 3.5 seconden waar 27B-dense richting de 40s schiet.

**Brak: MMLU-Pro 18.1 is laag**

Reasoning-getuned, geen knowledge-breedte. Voor general-purpose chat verlies je het tegen brede modellen van vergelijkbare grootte.

**Kostte: max_model_len 49152 ipv 256k native**

Server-config is geknepen omdat de KV-cache anders te veel ruimte vraagt voor lange context. Niet het model, wel hoe ik 'm op de Spark serveer.

**Verraste: AIME25 78.5 en MATH500 95.4 op een 4B-model**

Een 4B-model dat op math en competitie-benchmarks in de buurt komt van 30B+. NVIDIA's compute-budget zit duidelijk in reasoning-training, niet in knowledge-coverage.

## Noten

BF16 zonder quantisatie. Dense architectuur, 4B params. KV-cache fp8_e4m3, max_model_len 49152. Default profiel: prefix caching uit, async scheduling aan.

---

Licentie: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Volledige arena: https://djangodevreng.nl/arena/ · Ruwe runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks