---
title: "Ministral-3 3B (BF16) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/fr/arena/ministral-3-3b-instruct-bf16/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Ministral-3 3B (BF16)

Eerste Mistral-model in de Arena. Strakke decode (49 t/s per gebruiker op chat c=10, 53 t/s op long-output) en sterke quality voor zijn maat: GPQA Diamond 53.4 en LiveCodeBench 54.8 zijn cijfers waar je de 8B-klasse normaal voor nodig hebt. ShareGPT TTFT P50 onder 70 ms, bijna identiek aan de 0.8B-Qwen, en sneller dan bijna alles erboven. Onder maandagochtend-piek voltooit 'ie 0.78 RPS van 1.5 ingeplande, redelijk maar geen outlier. Op grote context (25k×10) breekt 'ie net als andere dense BF16-modellen: 9.6 t/s per gebruiker, daar wil je een gequantiseerde of een MoE.

## Spécifications

- Vendor: Mistral AI
- Architecture: Dense
- Paramètres: 3B
- Précision: BF16
- Contexte: 256K
- VRAM: 8 GB
- Engine: vLLM v0.20.1
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/mistralai/Ministral-3-3B-Instruct-2512

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 70.7 |
| GPQA | 53.4 |
| HumanEval / LCB | 54.8 |
| Avg | 59.6 |

## Benchmarks sur le DGX Spark

| Test | tokens/s par utilisateur | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 49 | 339 | 490 |
| 02 RAG · 8k context | 26 | 219 | 3340 |
| 03 Lange output / agents | 53 | 340 | 190 |
| 04 Grote context · 25k | 10 | 61 | 15600 |
| 05 Multi-turn · kantoorwerk | 43 | 401 | 820 |
| 06 Realistische kantoor-baseline | 122 | 122 | 407 |
| 07 Echte gesprekken · ShareGPT | 18 | 18 | 69 |
| 08 Maandagochtend-piek | 126 | 126 | 514 |
| 09 Reasoning workload | 20 | 20 | 161 |

## Mon avis

**A marché: Quality op 8B-niveau in een 3B-frame**

GPQA Diamond 53.4 en LiveCodeBench 54.8 zijn cijfers waar je normaal de 8B-klasse voor nodig hebt. MMLU 5-shot 70.7 voltooit het beeld. Voor het eerste Mistral-model in de Arena, sterke entry.

**A cassé: Mistral-stack vereist eigen flags**

vLLM laadt Ministral-3 alleen met --tokenizer_mode mistral --config_format mistral --load_format mistral. Zonder die drie flags crasht model load direct. In het profiel staat het al, maar voor wie van Qwen of Gemma komt: niet vergeten.

**A coûté: 25k×10 concurrent breekt de KV-cache**

Per-user decode op pp25000 c=10 valt naar 9.6 t/s, prefill duurt mediaan 15.6 seconden. Dense BF16 zonder kwantisatie heeft op deze grootte gewoon te weinig KV-budget voor tien parallelle 25k-sessies. Niet geschikt voor lange-context werklasten op tien gebruikers tegelijk.

**A surpris: Long-output decode bovenmodaal**

Op test G (256 in / 4096 uit, c=10) tikt 'ie 52.55 tokens per gebruiker met 340 t/s aggregate, sneller dan op chat zelf (48.7 / 339). Decode-loop is bij Mistral kennelijk beter geoptimaliseerd dan prefill-zware workloads.

## Notes

BF16 zonder quantisatie. Dense 3B met vision-encoder die we voor deze run uitschakelen via LIMIT_MM_PER_PROMPT image=0,audio=0. KV-cache fp8, max_model_len 131072 (model-native: 256k). Mistral-specifieke flags op vLLM v0.20.1: tokenizer_mode mistral, config_format mistral, load_format mistral. Async scheduling aan, prefix caching uit, max-num-batched-tokens 8192.

---

Licence: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Arène complète: https://djangodevreng.nl/fr/arena/ · Runs bruts (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks