Alibaba 2B params BF16 Hybrid

Qwen-3.5-2B

Sweet spot tussen 0.8B en de echt grote modellen op de Spark. 50 tokens per gebruiker op chat (c=10), TTFT P50 onder de 80 ms op ShareGPT, en onder maandagochtend-piek tikt 'ie 1.20 RPS aan met 5.4k aggregate t/s. Op multi-turn kantoorwerk haalt 'ie 47.7 t/s per gebruiker op c=10, vergelijkbaar met chat. Quality-sprong tegenover 0.8B: MMLU-Pro 55.3 versus 29.7, SuperGPQA 30.4. Sweet-spot voor classifiers, routing en korte rapportages waar je iets meer kennis wil dan een 0.8B kan leveren.

47.6
Arena score
187
Throughput tok/s
4 GB
VRAM
9/9
Benches measured
Hugging Face → vLLM v0.20.1 DGX Spark, NVIDIA GB10, 128 GB unified memory Last measured 7 May 2026

The quality component of the Arena score. Not measured by me, from the vendor's official model cards. For cross-model comparison with a consistent eval harness, Artificial Analysis is a useful third party. The average of the three benchmarks feeds one-to-one into the Score formula (weighted heavier in Aggregate/Agent, lighter in Batch).

42.9
Avg
55.3
MMLU-Pro
30.4
GPQA-Diamond
0.0
HumanEval
Decode throughput · total t/s · c=10
BF16
1k ctx 329 t/s
8k ctx 283 t/s
4k+turn 379 t/s
25k ctx 115 t/s

5 closed-loop tests with llama-benchy and 4 open-loop tests with vllm bench serve. Per benchmark the tokens/sec (decode throughput) and TTFT p50. TTFT translates directly into UX feel, tps into capacity. Expand "view command" for the exact command.

01 · llama-benchy closed-loop

Chat

Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.

pp (prompt) 1024 tg (gen) 1024 depth 0 concurrency 10 runs 3
tokens/sec
49.8 t/s
TTFT · p50
390ms
3 runs · seed 42
02 · llama-benchy closed-loop

RAG · 8k context

Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.

pp (prompt) 8192 tg (gen) 512 depth 0 concurrency 10 runs 3
tokens/sec
38.7 t/s
TTFT · p50
2,74s
3 runs · seed 42
03 · llama-benchy closed-loop

Lange output / agents

Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.

pp (prompt) 256 tg (gen) 4096 depth 0 concurrency 10 runs 3
tokens/sec
50.7 t/s
TTFT · p50
190ms
3 runs · seed 42
04 · llama-benchy closed-loop

Grote context · 25k

Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.

pp (prompt) 25000 tg (gen) 256 depth 0 concurrency 10 runs 3
tokens/sec
22.1 t/s
TTFT · p50
9,43s
3 runs · seed 42
05 · llama-benchy closed-loop

Multi-turn · kantoorwerk

Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.

pp (prompt) 2048 tg (gen) 512 depth 4 concurrency 10 runs 3
tokens/sec
47.7 t/s
TTFT · p50
740ms
3 runs · seed 42
06 · vllm bench serve open-loop

Realistische kantoor-baseline

Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.

dataset random rate (req/s) 0,30 burstiness 0,7 prompts 200
tokens/sec
136 t/s
TTFT · p50
366ms
200 prompts · seed 42
07 · vllm bench serve open-loop

Echte gesprekken · ShareGPT

ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.

dataset sharegpt v3 rate (req/s) 0,30 burstiness 0,7 prompts 250
tokens/sec
18.4 t/s
TTFT · p50
76ms
250 prompts · seed 42
08 · vllm bench serve open-loop

Maandagochtend-piek

Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?

dataset random rate (req/s) 1,50 burstiness 1,0 prompts 300 max parallel 25
tokens/sec
180 t/s
TTFT · p50
470ms
300 prompts · seed 42
09 · vllm bench serve open-loop

Reasoning workload

Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.

dataset random rate (req/s) 0,20 burstiness 1,0 prompts 50
tokens/sec
28.3 t/s
TTFT · p50
169ms
50 prompts · seed 42
What works

Quality-sprong tegen kleine throughput-prijs

MMLU-Pro 55.3 versus 29.7 voor 0.8B, SuperGPQA 30.4. Decode op c=10 valt van ~100 t/s naar 50 t/s per gebruiker, half zoveel snelheid voor bijna twee keer zoveel kennis.

What broke

Geen quantized release voor 2B

Alibaba publiceert geen FP8 of NVFP4 voor de small Qwen3.5-lijn, alleen voor 27B en groter. Voor wie KV-cache headroom wil op deze schaal moet je zelf quantizen of een grotere FP8 kiezen.

What disappointed

25k×10 concurrent breekt de KV-cache

Per-user decode op pp25000 c=10 valt naar 22 t/s. Dense BF16 zonder kwantisatie heeft op deze grootte gewoon te weinig KV-budget om tien parallelle 25k-sessies bij te houden. Voor groot context kies je beter een MoE of een gequantiseerde variant.

What surprised

Prefill schaalt boven verwachting

15.4k tokens per seconde aggregate prefill op pp4096 c=10 is harder dan ik bij een 2B verwachtte. Op pp8192 c=10 draait 'ie nog 13.1k. Voor classifiers en routing op kortere prompts ruim voldoende headroom voor een drukke kantoorload.

More numbers?
Read the full article.

Explanation

Esc