Qwen-3.5-2B
Sweet spot tussen 0.8B en de echt grote modellen op de Spark. 50 tokens per gebruiker op chat (c=10), TTFT P50 onder de 80 ms op ShareGPT, en onder maandagochtend-piek tikt 'ie 1.20 RPS aan met 5.4k aggregate t/s. Op multi-turn kantoorwerk haalt 'ie 47.7 t/s per gebruiker op c=10, vergelijkbaar met chat. Quality-sprong tegenover 0.8B: MMLU-Pro 55.3 versus 29.7, SuperGPQA 30.4. Sweet-spot voor classifiers, routing en korte rapportages waar je iets meer kennis wil dan een 0.8B kan leveren.
De quality-component van de Arena-score. Niet zelf gemeten, uit de officiële model-cards van de vendor. Voor cross-model vergelijking met consistente eval-harness is Artificial Analysis een nuttige derde partij. Het gemiddelde van de drie benchmarks komt 1-op-1 in de Score-formule terug (zwaarder gewogen in Aggregaat/Agent, lichter in Batch).
5 closed-loop tests met llama-benchy en 4 open-loop tests met vllm bench serve. Per benchmark de tokens/sec (decode throughput) en TTFT p50. TTFT vertaalt direct in UX-gevoel, tps in capaciteit. Klap "view command" uit voor het exacte commando.
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
RAG · 8k context
Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.
Lange output / agents
Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.
Grote context · 25k
Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.
Multi-turn · kantoorwerk
Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.
Realistische kantoor-baseline
Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.
Echte gesprekken · ShareGPT
ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.
Maandagochtend-piek
Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?
Reasoning workload
Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.
Quality-sprong tegen kleine throughput-prijs
MMLU-Pro 55.3 versus 29.7 voor 0.8B, SuperGPQA 30.4. Decode op c=10 valt van ~100 t/s naar 50 t/s per gebruiker, half zoveel snelheid voor bijna twee keer zoveel kennis.
Geen quantized release voor 2B
Alibaba publiceert geen FP8 of NVFP4 voor de small Qwen3.5-lijn, alleen voor 27B en groter. Voor wie KV-cache headroom wil op deze schaal moet je zelf quantizen of een grotere FP8 kiezen.
25k×10 concurrent breekt de KV-cache
Per-user decode op pp25000 c=10 valt naar 22 t/s. Dense BF16 zonder kwantisatie heeft op deze grootte gewoon te weinig KV-budget om tien parallelle 25k-sessies bij te houden. Voor groot context kies je beter een MoE of een gequantiseerde variant.
Prefill schaalt boven verwachting
15.4k tokens per seconde aggregate prefill op pp4096 c=10 is harder dan ik bij een 2B verwachtte. Op pp8192 c=10 draait 'ie nog 13.1k. Voor classifiers en routing op kortere prompts ruim voldoende headroom voor een drukke kantoorload.