---
title: "Nemotron-3-Nano-Omni-30B-A3B-Reasoning (NVFP4) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/en/arena/nemotron-3-nano-30b-a3b-nvfp4/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Nemotron-3-Nano-Omni-30B-A3B-Reasoning (NVFP4)

De snelste van de drie precisies, met afstand. Op chat tikt 'ie 23 tokens per gebruiker en TTFT blijft mooi onder de seconde, ook bij grotere contexten. Voor lange chain-of-thought waar je bij BF16 nog op het eerste antwoord zit te wachten, gaat dit gewoon door. Setup-pijn is wel reëel, dezelfde rits aan vLLM-patches die ook de Gemma-versie nodig had. Eenmaal draaiend is dit op de Spark de variant die je wil hebben.

## Specs

- Vendor: NVIDIA
- Architecture: MoE
- Parameters: 30B-A3B
- Precision: NVFP4
- Context: 256K
- VRAM: 21 GB
- Engine: vLLM 0.20.0
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 77.3 |
| GPQA | 72.2 |
| HumanEval / LCB | 63.2 |
| Avg | 70.9 |

## Benchmarks on the DGX Spark

| Test | tokens/s per user | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 23 | 202 | 950 |
| 02 RAG · 8k context | 20 | 167 | 4010 |
| 03 Lange output / agents | 25 | 172 | 360 |
| 04 Grote context · 25k | 13 | 78 | 12710 |
| 05 Multi-turn · kantoorwerk | 22 | 193 | 1360 |
| 06 Realistische kantoor-baseline | 89 | 89 | 618 |
| 07 Echte gesprekken · ShareGPT | 13 | 13 | 157 |
| 08 Maandagochtend-piek | 94 | 94 | 687 |
| 09 Reasoning workload | n/a | n/a | n/a |

## What I made of it

**Worked: Drop-in upgrade van FP8 naar NVFP4**

Zelfde recipe, andere precision-flag, factor 1.5x snelheid eruit (23 vs 15 t/s/user op chat). Checkpoint zakt van 33 naar 21 GB, KV-cache headroom van ruim 100 GB.

**Broke: Tweede ronde NVFP4 setup-pijn**

Dezelfde patches als bij Gemma-4-NVFP4 nodig: vLLM dev154+, flashinfer-version-check bypass, sampler-fallback. Niet een druk-op-de-knop install.

**Cost: Geen native FP4 op SM12.1**

Kernel-emulatie via Marlin. Op datacenter-Blackwell zou de NVFP4-winst nog groter zijn. Wat we nu zien is de bandwidth-helft van de winst zonder de compute-helft.

**Surprised: Reasoning-workload wordt opeens haalbaar**

Lange chain-of-thought houdt op c=10 nog 25 t/s/user (Run G). Op BF16 of FP8 is ditzelfde scenario op de Spark eerder een geduldspel.

## Notes

Multimodaliteit uitgezet, KV-cache dtype auto.

---

License: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Full arena: https://djangodevreng.nl/en/arena/ · Raw runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks
