Ministral-3 8B
Mistrals 8B-klasse op Spark. Decode 23 t/s per gebruiker op chat c=10, 23.5 op long-output, 21 op multi-turn, strakke spreiding voor verschillende workloads. Quality is waar 'ie z'n geld terugverdient: GPQA Diamond 66.8 en LiveCodeBench 61.6, cijfers waar je in BF16 normaal richting de 26B-MoE moet voor. Onder maandagochtend-piek voltooit 'ie 0.49 RPS van 1.5 ingeplande, duidelijk onder de 3B-broer (0.78). En op 25k×10 concurrent breekt de KV-cache: 6.1 t/s per gebruiker en TTFT mediaan 25 seconden, daar wil je een gequantiseerde of een MoE.
La composante quality de l'Arena score. Pas mesurée par moi, issue des model cards officielles du vendor. Pour une comparaison cross-model avec un eval harness cohérent, Artificial Analysis est un tiers utile. La moyenne des trois benchmarks entre une à une dans la formule du Score (pondérée plus lourd en Aggregate/Agent, plus léger en Batch).
5 tests closed-loop avec llama-benchy et 4 tests open-loop avec vllm bench serve. Par benchmark les tokens/sec (decode throughput) et le TTFT p50. Le TTFT se traduit directement en ressenti UX, les tps en capacité. Déplie "view command" pour la commande exacte.
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
RAG · 8k context
Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.
Lange output / agents
Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.
Grote context · 25k
Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.
Multi-turn · kantoorwerk
Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.
Realistische kantoor-baseline
Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.
Echte gesprekken · ShareGPT
ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.
Maandagochtend-piek
Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?
Reasoning workload
Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.
Quality op 26B-niveau in een 8B-frame
GPQA Diamond 66.8, LiveCodeBench 61.6, MMLU 5-shot 76.1. Voor BF16 dense in deze grootteklasse is dat de top. Inclusief AIME25 78.7 en AIME24 86.0, Ministral-3 8B zit op reasoning-niveau dat een paar maanden geleden alleen voor 70B+ haalbaar was.
Maandagochtend-piek haalt z'n target niet
0.49 RPS verwerkt van 1.5 configured, 33% van de target. Burstiness 1.0 met 25 max concurrent breekt de queue: TTFT P99 stijgt naar 4.05 seconden. Voor agressieve burst-workloads kies je een grotere FP8 of een MoE.
25k×10 concurrent gaat door de KV-cache
Per-user decode op pp25000 c=10 valt naar 6.1 t/s, prefill TTFT mediaan 25 seconden. Dense 8B BF16 heeft niet genoeg KV-budget voor tien parallelle 25k-sessies. Dezelfde ravijn als bij Ministral-3 3B en Qwen-3.5 2B, kenmerk van dense BF16.
ShareGPT TTFT P50 onder 140 ms
Op echte gesprekken (gem. 228 tokens prompt) is mediaan TTFT 137 ms en P95 209 ms. Voor een 8B BF16 is dat strak, vergelijkbaar met sommige 0.8B-runs. De multi-turn-office decode op 21 t/s per gebruiker zit dicht tegen chat aan, dus prefix-caching of geen verschil voor deze workload.