Gemma-4-26B-A4B-it
Sterke MoE-baseline op de Spark. Chat-decode op 10.9 t/s/user bij c=10, agents-workload 11.8 t/s/user, en zelfs 25k context blijft op 5.4 t/s/user. Onder kantoor-baseline een nette TTFT mean van 1.4 sec en tail die rustig oploopt. Maandagochtend-piek tikt P99 boven 6 seconden, niet ideaal maar nog steeds bruikbaar.
The quality component of the Arena score. Not measured by me, from the vendor's official model cards. For cross-model comparison with a consistent eval harness, Artificial Analysis is a useful third party. The average of the three benchmarks feeds one-to-one into the Score formula (weighted heavier in Aggregate/Agent, lighter in Batch).
5 closed-loop tests with llama-benchy and 4 open-loop tests with vllm bench serve. Per benchmark the tokens/sec (decode throughput) and TTFT p50. TTFT translates directly into UX feel, tps into capacity. Expand "view command" for the exact command.
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
RAG · 8k context
Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.
Lange output / agents
Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.
Grote context · 25k
Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.
Multi-turn · kantoorwerk
Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.
Realistische kantoor-baseline
Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.
Echte gesprekken · ShareGPT
ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.
Maandagochtend-piek
Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?
Reasoning workload
Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.
MoE active-params houden chat snappy
Met 4B actief van 26B totaal blijft chat-decode op 10.9 t/s/user bij c=10. Voor kantoorchat van 5-10 gebruikers nauwelijks merkbaar verschil tussen single-user en concurrent.
KV-cache budget krap op 25k context
26B in BF16 zijn 52 GB weights. Op 128 GB unified blijft circa 65 GB voor KV-cache. Bij 25k context met c=10 tikt TTFT naar 35 sec gemiddeld.
Maandag-piek tail tikt P99 boven 6s
Onder Run J (oversubscribe 1.5 rps, max-concurrency 25) klimt P99 TTFT richting 6 seconden. Voor de unlucky 1% gebruikers het verschil tussen druk en stuk.
Decode/user blijft stabiel met groeiende context
TTFT loopt sterk op met context-grootte (1.3s op chat, 35s op 25k), maar decode/user blijft single-user rond 22-24 t/s, ook bij 25k. De prefill-muur is real, decode merkt er weinig van.