Alibaba 2B params BF16 Hybrid

Qwen-3.5-2B

Sweet spot tussen 0.8B en de echt grote modellen op de Spark. 50 tokens per gebruiker op chat (c=10), TTFT P50 onder de 80 ms op ShareGPT, en onder maandagochtend-piek tikt 'ie 1.20 RPS aan met 5.4k aggregate t/s. Op multi-turn kantoorwerk haalt 'ie 47.7 t/s per gebruiker op c=10, vergelijkbaar met chat. Quality-sprong tegenover 0.8B: MMLU-Pro 55.3 versus 29.7, SuperGPQA 30.4. Sweet-spot voor classifiers, routing en korte rapportages waar je iets meer kennis wil dan een 0.8B kan leveren.

47.6

Arena score

187

Throughput tok/s

4 GB

VRAM

9/9

Benches gemeten

Hugging Face → vLLM v0.20.1 DGX Spark, NVIDIA GB10, 128 GB unified memory Laatst gemeten 7 mei 2026

02 Quality · MMLU · GPQA · HumanEval artificial analysis ↗

De quality-component van de Arena-score. Niet zelf gemeten, uit de officiële model-cards van de vendor. Voor cross-model vergelijking met consistente eval-harness is Artificial Analysis een nuttige derde partij. Het gemiddelde van de drie benchmarks komt 1-op-1 in de Score-formule terug (zwaarder gewogen in Aggregaat/Agent, lichter in Batch).

42.9

Avg

55.3

MMLU-Pro

30.4

GPQA-Diamond

0.0

HumanEval

03 Performance · BF16

Decode throughput · totaal t/s · c=10

BF16

1k ctx 329 t/s

8k ctx 283 t/s

4k+turn 379 t/s

25k ctx 115 t/s

04 Test suite · 9 benchmarks methodologie →

5 closed-loop tests met llama-benchy en 4 open-loop tests met vllm bench serve. Per benchmark de tokens/sec (decode throughput) en TTFT p50. TTFT vertaalt direct in UX-gevoel, tps in capaciteit. Klap "view command" uit voor het exacte commando.

01 · llama-benchy closed-loop

Chat

Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.

pp (prompt) 1024 tg (gen) 1024 depth 0 concurrency 10 runs 3

tokens/sec

49.8 t/s

TTFT · p50

390ms

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model Qwen/Qwen3.5-2B \
  --pp 1024 \
  --tg 1024 \
  --depth 0 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

02 · llama-benchy closed-loop

RAG · 8k context

Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.

pp (prompt) 8192 tg (gen) 512 depth 0 concurrency 10 runs 3

tokens/sec

38.7 t/s

TTFT · p50

2,74s

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model Qwen/Qwen3.5-2B \
  --pp 8192 \
  --tg 512 \
  --depth 0 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

03 · llama-benchy closed-loop

Lange output / agents

Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.

pp (prompt) 256 tg (gen) 4096 depth 0 concurrency 10 runs 3

tokens/sec

50.7 t/s

TTFT · p50

190ms

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model Qwen/Qwen3.5-2B \
  --pp 256 \
  --tg 4096 \
  --depth 0 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

04 · llama-benchy closed-loop

Grote context · 25k

Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.

pp (prompt) 25000 tg (gen) 256 depth 0 concurrency 10 runs 3

tokens/sec

22.1 t/s

TTFT · p50

9,43s

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model Qwen/Qwen3.5-2B \
  --pp 25000 \
  --tg 256 \
  --depth 0 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

05 · llama-benchy closed-loop

Multi-turn · kantoorwerk

Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.

pp (prompt) 2048 tg (gen) 512 depth 4 concurrency 10 runs 3

tokens/sec

47.7 t/s

TTFT · p50

740ms

3 runs · seed 42

uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model Qwen/Qwen3.5-2B \
  --pp 2048 \
  --tg 512 \
  --depth 4 \
  --concurrency 10 \
  --runs 3 \
  --latency-mode generation \
  --format md

06 · vllm bench serve open-loop

Realistische kantoor-baseline

Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.

dataset random rate (req/s) 0,30 burstiness 0,7 prompts 200

tokens/sec

136 t/s

TTFT · p50

366ms

200 prompts · seed 42

docker exec vllm-bench vllm bench serve \
  --backend openai-chat \
  --base-url http://localhost:8000 \
  --endpoint /v1/chat/completions \
  --model Qwen/Qwen3.5-2B \
  --tokenizer Qwen/Qwen3.5-2B \
  --served-model-name Qwen3.5-2B \
  --dataset-name random \
  --random-input-len 4000 \
  --random-output-len 500 \
  --random-range-ratio 0.9 \
  --num-prompts 200 \
  --request-rate 0,30 \
  --burstiness 0,7 \
  --percentile-metrics ttft,tpot,itl,e2el \
  --metric-percentiles 50,90,95,99 \
  --seed 42

07 · vllm bench serve open-loop

Echte gesprekken · ShareGPT

ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.

dataset sharegpt v3 rate (req/s) 0,30 burstiness 0,7 prompts 250

tokens/sec

18.4 t/s

TTFT · p50

76ms

250 prompts · seed 42

docker exec vllm-bench vllm bench serve \
  --backend openai-chat \
  --base-url http://localhost:8000 \
  --endpoint /v1/chat/completions \
  --model Qwen/Qwen3.5-2B \
  --tokenizer Qwen/Qwen3.5-2B \
  --served-model-name Qwen3.5-2B \
  --dataset-name sharegpt \
  --dataset-path /tmp/ShareGPT_V3.json \
  --num-prompts 250 \
  --request-rate 0,30 \
  --burstiness 0,7 \
  --percentile-metrics ttft,tpot,itl,e2el \
  --metric-percentiles 50,90,95,99 \
  --seed 42

08 · vllm bench serve open-loop

Maandagochtend-piek

Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?

dataset random rate (req/s) 1,50 burstiness 1,0 prompts 300 max parallel 25

tokens/sec

180 t/s

TTFT · p50

470ms

300 prompts · seed 42

docker exec vllm-bench vllm bench serve \
  --backend openai-chat \
  --base-url http://localhost:8000 \
  --endpoint /v1/chat/completions \
  --model Qwen/Qwen3.5-2B \
  --tokenizer Qwen/Qwen3.5-2B \
  --served-model-name Qwen3.5-2B \
  --dataset-name random \
  --random-input-len 4000 \
  --random-output-len 500 \
  --random-range-ratio 0.9 \
  --num-prompts 300 \
  --request-rate 1,50 \
  --burstiness 1,0 \
  --max-concurrency 25 \
  --percentile-metrics ttft,tpot,itl,e2el \
  --metric-percentiles 50,90,95,99 \
  --seed 42

09 · vllm bench serve open-loop

Reasoning workload

Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.

dataset random rate (req/s) 0,20 burstiness 1,0 prompts 50

tokens/sec

28.3 t/s

TTFT · p50

169ms

50 prompts · seed 42

docker exec vllm-bench vllm bench serve \
  --backend openai-chat \
  --base-url http://localhost:8000 \
  --endpoint /v1/chat/completions \
  --model Qwen/Qwen3.5-2B \
  --tokenizer Qwen/Qwen3.5-2B \
  --served-model-name Qwen3.5-2B \
  --dataset-name random \
  --random-input-len 4000 \
  --random-output-len 500 \
  --random-range-ratio 0.9 \
  --num-prompts 50 \
  --request-rate 0,20 \
  --burstiness 1,0 \
  --percentile-metrics ttft,tpot,itl,e2el \
  --metric-percentiles 50,90,95,99 \
  --seed 42

05 Wat ik er van vond

Wat werkt

Quality-sprong tegen kleine throughput-prijs

MMLU-Pro 55.3 versus 29.7 voor 0.8B, SuperGPQA 30.4. Decode op c=10 valt van ~100 t/s naar 50 t/s per gebruiker, half zoveel snelheid voor bijna twee keer zoveel kennis.

Wat brak

Geen quantized release voor 2B

Alibaba publiceert geen FP8 of NVFP4 voor de small Qwen3.5-lijn, alleen voor 27B en groter. Voor wie KV-cache headroom wil op deze schaal moet je zelf quantizen of een grotere FP8 kiezen.

Wat niet meeviel

25k×10 concurrent breekt de KV-cache

Per-user decode op pp25000 c=10 valt naar 22 t/s. Dense BF16 zonder kwantisatie heeft op deze grootte gewoon te weinig KV-budget om tien parallelle 25k-sessies bij te houden. Voor groot context kies je beter een MoE of een gequantiseerde variant.

Wat verbaasde

Prefill schaalt boven verwachting

15.4k tokens per seconde aggregate prefill op pp4096 c=10 is harder dan ik bij een 2B verwachtte. Op pp8192 c=10 draait 'ie nog 13.1k. Voor classifiers en routing op kortere prompts ruim voldoende headroom voor een drukke kantoorload.

Meer cijfers?
Lees het volledig artikel.

Weights Hugging Face Terug Naar de arena

Qwen-3.5-2B

Chat

RAG · 8k context

Lange output / agents

Grote context · 25k

Multi-turn · kantoorwerk

Realistische kantoor-baseline

Echte gesprekken · ShareGPT

Maandagochtend-piek

Reasoning workload

Quality-sprong tegen kleine throughput-prijs

Geen quantized release voor 2B

25k×10 concurrent breekt de KV-cache

Prefill schaalt boven verwachting

Meer cijfers?Lees het volledig artikel.

Meer cijfers?
Lees het volledig artikel.