---
title: "Nemotron-3-Nano-Omni-30B-A3B-Reasoning (FP8) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/en/arena/nemotron-3-nano-30b-a3b-fp8/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Nemotron-3-Nano-Omni-30B-A3B-Reasoning (FP8)

Hier wordt het serieus. FP8 verdubbelt de snelheid van BF16 zonder dat je het in kwaliteit merkt. Decode tikt rond de 15 tokens per gebruiker op chat, TTFT zakt onder de seconde. Onder maandagochtend-piek doet 'ie het bijna twee keer zo goed als BF16. Voor de meeste workloads is dit waar je standaard naar zou moeten grijpen, klein offer voor flink wat winst.

## Specs

- Vendor: NVIDIA
- Architecture: MoE
- Parameters: 30B-A3B
- Precision: FP8
- Context: 256K
- VRAM: 33 GB
- Engine: vLLM 0.20.0
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 77.3 |
| GPQA | 72.2 |
| HumanEval / LCB | 63.2 |
| Avg | 70.9 |

## Benchmarks on the DGX Spark

| Test | tokens/s per user | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 15 | 138 | 960 |
| 02 RAG · 8k context | 14 | 119 | 5110 |
| 03 Lange output / agents | 18 | 95 | 450 |
| 04 Grote context · 25k | 9 | 55 | 16890 |
| 05 Multi-turn · kantoorwerk | 15 | 134 | 1550 |
| 06 Realistische kantoor-baseline | 72 | 72 | 732 |
| 07 Echte gesprekken · ShareGPT | 11 | 11 | 220 |
| 08 Maandagochtend-piek | 70 | 70 | 757 |
| 09 Reasoning workload | n/a | n/a | n/a |

## What I made of it

**Worked: FP8 native op Blackwell, volle compute-winst**

Tensor-cores draaien direct op 8-bit, geen kernel-emulatie zoals bij FP4. Decode verdubbelt vs BF16 (15 vs 7.8 t/s/user op chat), op TTFT zakt het van 1.33 naar 0.96 seconden.

**Broke: Config-keys driften tussen vLLM-versies**

Tussen dev-builds wisselt de canonical naam voor W8A8 weights/activations. Profile aanpassen na elke vLLM-upgrade hoort er gewoon bij.

**Cost: Quality-drop niet zelf gemeten**

NVIDIA's Tabel 14 toont -0.37 mean over multimodal evals vs BF16. Niet getest op text-only taken; aanname is gelijk aan BF16 binnen meet-onzekerheid.

**Surprised: Tail-latency wint sterker dan decode-mean**

Niet alleen gemiddelde verbetert, P95 en P99 TTFT op H/I/J zakken evenredig of meer. Voor chat-perceptie helpt dat veel meer dan een paar t/s extra.

## Notes

W8A8 quantisatie. KV-cache fp8. Multimodaliteit uitgezet.

---

License: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Full arena: https://djangodevreng.nl/en/arena/ · Raw runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks