Mistral Small 3.2 NVFP4 is geen makkelijke Spark-winnaar. ShareGPT is bruikbaar, maar de 4k kantoor-baseline loopt naar p95 TTFT van 155.8 sec. Voor on-prem chat kies ik hier eerder Gemma-4 NVFP4.
61.9
Arena score
40
Throughput tok/s
16 GB
VRAM
8/9
Benches gemeten
Hugging Face → ·vLLM v0.23.0·DGX Spark, NVIDIA GB10, 128 GB unified memory·Laatst gemeten 23 juni 2026
De quality-component van de Arena-score. Niet zelf gemeten, uit de officiële model-cards van de vendor. Voor cross-model vergelijking met consistente eval-harness is Artificial Analysis een nuttige derde partij. Het gemiddelde van de drie benchmarks komt 1-op-1 in de Score-formule terug (zwaarder gewogen in Aggregaat/Agent, lichter in Batch).
5 closed-loop tests met llama-benchy en 4 open-loop tests met vllm bench serve. Per benchmark de tokens/sec (decode throughput) en TTFT p50. TTFT vertaalt direct in UX-gevoel, tps in capaciteit. Klap "view command" uit voor het exacte commando.
01 · llama-benchy closed-loop
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
Bij echte korte gesprekken haalt Mistral Small NVFP4 57.9 output tok/s en p95 TTFT 2546 ms. Niet snel, wel bruikbaar als chat niet continu onder druk staat.
Wat brak
De 4k kantoor-baseline breekt
Test H is hard: 200/200 requests slagen, maar p95 TTFT is 155844.87 ms en p95 TPOT 4429.32 ms. Dat voelt niet als chat.
Wat niet meeviel
Decode is laag voor NVFP4
Run C blijft op 63.13 tok/s totaal en 12.63 tok/s per request. Voor een 24B NVFP4-model op deze machine is dat geen overtuigende score.
Wat verbaasde
Mistral is workload-gevoelig
Multi-turn haalt 94.20 tok/s, beter dan de simpele chat-run. De scheduler krijgt daar blijkbaar net een vorm die beter past.