---
title: "Mistral-Small-3.2-24B-Instruct-2506 (NVFP4) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/arena/mistral-small-3-2-24b-it-nvfp4/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Mistral-Small-3.2-24B-Instruct-2506 (NVFP4)

Mistral Small 3.2 NVFP4 is geen makkelijke Spark-winnaar. ShareGPT is bruikbaar, maar de 4k kantoor-baseline loopt naar p95 TTFT van 155.8 sec. Voor on-prem chat kies ik hier eerder Gemma-4 NVFP4.

## Specificaties

- Vendor: RedHatAI
- Architectuur: Dense
- Parameters: 24B
- Precisie: NVFP4
- Context: 128K
- VRAM: 16 GB
- Engine: vLLM v0.23.0
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/RedHatAI/Mistral-Small-3.2-24B-Instruct-2506-NVFP4

## Quality (model-cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 80.5 |
| GPQA | 46.13 |
| HumanEval / LCB | 92.9 |
| Avg | 73.2 |

## Benchmarks op de DGX Spark

| Test | tokens/s p/user | tokens/s totaal | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 13 | 63 | 7010 |
| 02 RAG · 8k context | 5 | 17 | 39890 |
| 03 Lange output / agents | 15 | 80 | 5200 |
| 04 Grote context · 25k | 2 | 5 | 127730 |
| 05 Multi-turn · kantoorwerk | 13 | 94 | 12380 |
| 06 Realistische kantoor-baseline | 5 | 5 | 86740 |
| 07 Echte gesprekken · ShareGPT | 22 | 22 | 1004 |
| 08 Maandagochtend-piek | 30 | 30 | 4842 |
| 09 Reasoning workload | n/a | n/a | n/a |

## Wat ik ervan vond

**Werkte: ShareGPT blijft bruikbaar**

Bij echte korte gesprekken haalt Mistral Small NVFP4 57.9 output tok/s en p95 TTFT 2546 ms. Niet snel, wel bruikbaar als chat niet continu onder druk staat.

**Brak: De 4k kantoor-baseline breekt**

Test H is hard: 200/200 requests slagen, maar p95 TTFT is 155844.87 ms en p95 TPOT 4429.32 ms. Dat voelt niet als chat.

**Kostte: Decode is laag voor NVFP4**

Run C blijft op 63.13 tok/s totaal en 12.63 tok/s per request. Voor een 24B NVFP4-model op deze machine is dat geen overtuigende score.

**Verraste: Mistral is workload-gevoelig**

Multi-turn haalt 94.20 tok/s, beter dan de simpele chat-run. De scheduler krijgt daar blijkbaar net een vorm die beter past.

## Noten

Complete A-J suite op vLLM v0.23.0-aarch64-cu129-ubuntu2404. Served name mistral-small-3.2-24b. KV-cache fp8, prefix caching uit. Gegenereerd 2026-06-23T09:40:30+02:00.

---

Licentie: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Volledige arena: https://djangodevreng.nl/arena/ · Ruwe runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks