Mistral AI 8B params BF16 Dense

Ministral-3 8B

Mistrals 8B-klasse op Spark. Decode 23 t/s per gebruiker op chat c=10, 23.5 op long-output, 21 op multi-turn, strakke spreiding voor verschillende workloads. Quality is waar 'ie z'n geld terugverdient: GPQA Diamond 66.8 en LiveCodeBench 61.6, cijfers waar je in BF16 normaal richting de 26B-MoE moet voor. Onder maandagochtend-piek voltooit 'ie 0.49 RPS van 1.5 ingeplande, duidelijk onder de 3B-broer (0.78). En op 25k×10 concurrent breekt de KV-cache: 6.1 t/s per gebruiker en TTFT mediaan 25 seconden, daar wil je een gequantiseerde of een MoE.

60.4
Arena score
85
Throughput tok/s
18 GB
VRAM
9/9
Benches measured
Hugging Face → vLLM v0.20.1 DGX Spark, NVIDIA GB10, 128 GB unified memory Last measured 7 May 2026

The quality component of the Arena score. Not measured by me, from the vendor's official model cards. For cross-model comparison with a consistent eval harness, Artificial Analysis is a useful third party. The average of the three benchmarks feeds one-to-one into the Score formula (weighted heavier in Aggregate/Agent, lighter in Batch).

68.2
Avg
76.1
MMLU-Pro
66.8
GPQA-Diamond
61.6
HumanEval
Decode throughput · total t/s · c=10
BF16
1k ctx 160 t/s
8k ctx 122 t/s
4k+turn 195 t/s
25k ctx 38.0 t/s

5 closed-loop tests with llama-benchy and 4 open-loop tests with vllm bench serve. Per benchmark the tokens/sec (decode throughput) and TTFT p50. TTFT translates directly into UX feel, tps into capacity. Expand "view command" for the exact command.

01 · llama-benchy closed-loop

Chat

Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.

pp (prompt) 1024 tg (gen) 1024 depth 0 concurrency 10 runs 3
tokens/sec
22.8 t/s
TTFT · p50
960ms
3 runs · seed 42
02 · llama-benchy closed-loop

RAG · 8k context

Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.

pp (prompt) 8192 tg (gen) 512 depth 0 concurrency 10 runs 3
tokens/sec
14.3 t/s
TTFT · p50
5,92s
3 runs · seed 42
03 · llama-benchy closed-loop

Lange output / agents

Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.

pp (prompt) 256 tg (gen) 4096 depth 0 concurrency 10 runs 3
tokens/sec
23.6 t/s
TTFT · p50
320ms
3 runs · seed 42
04 · llama-benchy closed-loop

Grote context · 25k

Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.

pp (prompt) 25000 tg (gen) 256 depth 0 concurrency 10 runs 3
tokens/sec
6.1 t/s
TTFT · p50
25,32s
3 runs · seed 42
05 · llama-benchy closed-loop

Multi-turn · kantoorwerk

Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.

pp (prompt) 2048 tg (gen) 512 depth 4 concurrency 10 runs 3
tokens/sec
20.8 t/s
TTFT · p50
1,66s
3 runs · seed 42
06 · vllm bench serve open-loop

Realistische kantoor-baseline

Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.

dataset random rate (req/s) 0,30 burstiness 0,7 prompts 200
tokens/sec
81.3 t/s
TTFT · p50
774ms
200 prompts · seed 42
07 · vllm bench serve open-loop

Echte gesprekken · ShareGPT

ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.

dataset sharegpt v3 rate (req/s) 0,30 burstiness 0,7 prompts 250
tokens/sec
12.5 t/s
TTFT · p50
137ms
250 prompts · seed 42
08 · vllm bench serve open-loop

Maandagochtend-piek

Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?

dataset random rate (req/s) 1,50 burstiness 1,0 prompts 300 max parallel 25
tokens/sec
78.3 t/s
TTFT · p50
764ms
300 prompts · seed 42
09 · vllm bench serve open-loop

Reasoning workload

Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.

dataset random rate (req/s) 0,20 burstiness 1,0 prompts 50
tokens/sec
8.7 t/s
TTFT · p50
264ms
50 prompts · seed 42
What works

Quality op 26B-niveau in een 8B-frame

GPQA Diamond 66.8, LiveCodeBench 61.6, MMLU 5-shot 76.1. Voor BF16 dense in deze grootteklasse is dat de top. Inclusief AIME25 78.7 en AIME24 86.0, Ministral-3 8B zit op reasoning-niveau dat een paar maanden geleden alleen voor 70B+ haalbaar was.

What broke

Maandagochtend-piek haalt z'n target niet

0.49 RPS verwerkt van 1.5 configured, 33% van de target. Burstiness 1.0 met 25 max concurrent breekt de queue: TTFT P99 stijgt naar 4.05 seconden. Voor agressieve burst-workloads kies je een grotere FP8 of een MoE.

What disappointed

25k×10 concurrent gaat door de KV-cache

Per-user decode op pp25000 c=10 valt naar 6.1 t/s, prefill TTFT mediaan 25 seconden. Dense 8B BF16 heeft niet genoeg KV-budget voor tien parallelle 25k-sessies. Dezelfde ravijn als bij Ministral-3 3B en Qwen-3.5 2B, kenmerk van dense BF16.

What surprised

ShareGPT TTFT P50 onder 140 ms

Op echte gesprekken (gem. 228 tokens prompt) is mediaan TTFT 137 ms en P95 209 ms. Voor een 8B BF16 is dat strak, vergelijkbaar met sommige 0.8B-runs. De multi-turn-office decode op 21 t/s per gebruiker zit dicht tegen chat aan, dus prefix-caching of geen verschil voor deze workload.

More numbers?
Read the full article.

Explanation

Esc