---
title: "Ministral-3 8B (BF16) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/en/arena/ministral-3-8b-instruct-bf16/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Ministral-3 8B (BF16)

Mistrals 8B-klasse op Spark. Decode 23 t/s per gebruiker op chat c=10, 23.5 op long-output, 21 op multi-turn, strakke spreiding voor verschillende workloads. Quality is waar 'ie z'n geld terugverdient: GPQA Diamond 66.8 en LiveCodeBench 61.6, cijfers waar je in BF16 normaal richting de 26B-MoE moet voor. Onder maandagochtend-piek voltooit 'ie 0.49 RPS van 1.5 ingeplande, duidelijk onder de 3B-broer (0.78). En op 25k×10 concurrent breekt de KV-cache: 6.1 t/s per gebruiker en TTFT mediaan 25 seconden, daar wil je een gequantiseerde of een MoE.

## Specs

- Vendor: Mistral AI
- Architecture: Dense
- Parameters: 8B
- Precision: BF16
- Context: 256K
- VRAM: 18 GB
- Engine: vLLM v0.20.1
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/mistralai/Ministral-3-8B-Instruct-2512

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 76.1 |
| GPQA | 66.8 |
| HumanEval / LCB | 61.6 |
| Avg | 68.2 |

## Benchmarks on the DGX Spark

| Test | tokens/s per user | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 23 | 160 | 960 |
| 02 RAG · 8k context | 14 | 122 | 5920 |
| 03 Lange output / agents | 24 | 73 | 320 |
| 04 Grote context · 25k | 6 | 38 | 25320 |
| 05 Multi-turn · kantoorwerk | 21 | 195 | 1660 |
| 06 Realistische kantoor-baseline | 81 | 81 | 774 |
| 07 Echte gesprekken · ShareGPT | 13 | 13 | 137 |
| 08 Maandagochtend-piek | 78 | 78 | 764 |
| 09 Reasoning workload | 9 | 9 | 264 |

## What I made of it

**Worked: Quality op 26B-niveau in een 8B-frame**

GPQA Diamond 66.8, LiveCodeBench 61.6, MMLU 5-shot 76.1. Voor BF16 dense in deze grootteklasse is dat de top. Inclusief AIME25 78.7 en AIME24 86.0, Ministral-3 8B zit op reasoning-niveau dat een paar maanden geleden alleen voor 70B+ haalbaar was.

**Broke: Maandagochtend-piek haalt z'n target niet**

0.49 RPS verwerkt van 1.5 configured, 33% van de target. Burstiness 1.0 met 25 max concurrent breekt de queue: TTFT P99 stijgt naar 4.05 seconden. Voor agressieve burst-workloads kies je een grotere FP8 of een MoE.

**Cost: 25k×10 concurrent gaat door de KV-cache**

Per-user decode op pp25000 c=10 valt naar 6.1 t/s, prefill TTFT mediaan 25 seconden. Dense 8B BF16 heeft niet genoeg KV-budget voor tien parallelle 25k-sessies. Dezelfde ravijn als bij Ministral-3 3B en Qwen-3.5 2B, kenmerk van dense BF16.

**Surprised: ShareGPT TTFT P50 onder 140 ms**

Op echte gesprekken (gem. 228 tokens prompt) is mediaan TTFT 137 ms en P95 209 ms. Voor een 8B BF16 is dat strak, vergelijkbaar met sommige 0.8B-runs. De multi-turn-office decode op 21 t/s per gebruiker zit dicht tegen chat aan, dus prefix-caching of geen verschil voor deze workload.

## Notes

BF16 zonder quantisatie. Dense 8B + vision-encoder (uitgeschakeld via LIMIT_MM_PER_PROMPT image=0,audio=0). KV-cache fp8, max_model_len 131072 (model-native: 256k). Mistral-flags op vLLM v0.20.1: tokenizer_mode mistral, config_format mistral, load_format mistral. Async scheduling aan, prefix caching uit, max-num-batched-tokens 8192. Boot 1040 s wegens fresh HF-download van ~16 GB.

---

License: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Full arena: https://djangodevreng.nl/en/arena/ · Raw runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks
