Ministral-3 3B
Eerste Mistral-model in de Arena. Strakke decode (49 t/s per gebruiker op chat c=10, 53 t/s op long-output) en sterke quality voor zijn maat: GPQA Diamond 53.4 en LiveCodeBench 54.8 zijn cijfers waar je de 8B-klasse normaal voor nodig hebt. ShareGPT TTFT P50 onder 70 ms, bijna identiek aan de 0.8B-Qwen, en sneller dan bijna alles erboven. Onder maandagochtend-piek voltooit 'ie 0.78 RPS van 1.5 ingeplande, redelijk maar geen outlier. Op grote context (25k×10) breekt 'ie net als andere dense BF16-modellen: 9.6 t/s per gebruiker, daar wil je een gequantiseerde of een MoE.
La composante quality de l'Arena score. Pas mesurée par moi, issue des model cards officielles du vendor. Pour une comparaison cross-model avec un eval harness cohérent, Artificial Analysis est un tiers utile. La moyenne des trois benchmarks entre une à une dans la formule du Score (pondérée plus lourd en Aggregate/Agent, plus léger en Batch).
5 tests closed-loop avec llama-benchy et 4 tests open-loop avec vllm bench serve. Par benchmark les tokens/sec (decode throughput) et le TTFT p50. Le TTFT se traduit directement en ressenti UX, les tps en capacité. Déplie "view command" pour la commande exacte.
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
RAG · 8k context
Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.
Lange output / agents
Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.
Grote context · 25k
Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.
Multi-turn · kantoorwerk
Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.
Realistische kantoor-baseline
Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.
Echte gesprekken · ShareGPT
ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.
Maandagochtend-piek
Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?
Reasoning workload
Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.
Quality op 8B-niveau in een 3B-frame
GPQA Diamond 53.4 en LiveCodeBench 54.8 zijn cijfers waar je normaal de 8B-klasse voor nodig hebt. MMLU 5-shot 70.7 voltooit het beeld. Voor het eerste Mistral-model in de Arena, sterke entry.
Mistral-stack vereist eigen flags
vLLM laadt Ministral-3 alleen met --tokenizer_mode mistral --config_format mistral --load_format mistral. Zonder die drie flags crasht model load direct. In het profiel staat het al, maar voor wie van Qwen of Gemma komt: niet vergeten.
25k×10 concurrent breekt de KV-cache
Per-user decode op pp25000 c=10 valt naar 9.6 t/s, prefill duurt mediaan 15.6 seconden. Dense BF16 zonder kwantisatie heeft op deze grootte gewoon te weinig KV-budget voor tien parallelle 25k-sessies. Niet geschikt voor lange-context werklasten op tien gebruikers tegelijk.
Long-output decode bovenmodaal
Op test G (256 in / 4096 uit, c=10) tikt 'ie 52.55 tokens per gebruiker met 340 t/s aggregate, sneller dan op chat zelf (48.7 / 339). Decode-loop is bij Mistral kennelijk beter geoptimaliseerd dan prefill-zware workloads.