---
title: "Qwen-3.5-0.8B (BF16) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/en/arena/qwen-3-5-0-8b-bf16/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Qwen-3.5-0.8B (BF16)

Klein maar verbluffend snel. Op chat tikt 'ie boven de 100 tokens per gebruiker, op ShareGPT zit TTFT P50 onder de 50 milliseconden. Onder maandagochtend-piek haalt 'ie ruim 1.4 RPS waar grotere modellen vastlopen op een fractie daarvan. Op kwaliteit doet 'ie wat je verwacht voor 0.8B parameters: niet voor reasoning of code, wel voor classifiers, routing of korte samenvattingen. Eerste model in de Arena dat alle 9 benchmarks volledig draait, inclusief de reasoning-test waar grotere modellen het zwaar krijgen.

## Specs

- Vendor: Alibaba
- Architecture: Hybrid
- Parameters: 0.8B
- Precision: BF16
- Context: 256K
- VRAM: 2 GB
- Engine: vLLM cu130-nightly
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/Qwen/Qwen3.5-0.8B

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 29.7 |
| GPQA | 11.9 |
| HumanEval / LCB | 0 |
| Avg | 20.8 |

## Benchmarks on the DGX Spark

| Test | tokens/s per user | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 102 | 669 | 260 |
| 02 RAG · 8k context | 73 | 565 | 1720 |
| 03 Lange output / agents | 106 | 588 | 120 |
| 04 Grote context · 25k | 36 | 182 | 6180 |
| 05 Multi-turn · kantoorwerk | 91 | 729 | 470 |
| 06 Realistische kantoor-baseline | 227 | 227 | 224 |
| 07 Echte gesprekken · ShareGPT | 22 | 22 | 43 |
| 08 Maandagochtend-piek | 281 | 281 | 269 |
| 09 Reasoning workload | 63 | 63 | 96 |

## What I made of it

**Worked: Eerste model dat alle 9 benches volledig draait**

100+ tokens per gebruiker op chat, 669 t/s aggregate decode op c=10, P50 TTFT 43ms op ShareGPT. Inclusief bench D (reasoning) waar grotere modellen op een fractie blijven steken.

**Broke: Quality is wat je voor 0.8B verwacht**

MMLU-Pro 29.7, GPQA 11.9. Niet voor reasoning of complexe code. Wel voor classifiers, routing, korte samenvattingen, intent-detection.

**Cost: Geen HumanEval-publicatie**

Alibaba publiceert die niet voor 0.8B, te klein voor zinvolle code-evals. In de Arena-tabel staat een 0 als zichtbare niet-gemeten-marker.

**Surprised: 1.43 RPS onder maandag-piek is een outlier**

Andere modellen blijven steken op 0.16 tot 0.62 in dezelfde test. 0.8B met BF16 schaalt zonder breken; je zou er meerdere parallel op één Spark kunnen draaien.

## Notes

BF16 zonder quantisatie. Hybride architectuur: 6 lagen Gated DeltaNet + 1 laag Gated Attention, 16 head dim. KV-cache fp8_e4m3, max_model_len 131072 (model-native: 262k). Default profiel: prefix caching uit, async scheduling uit.

---

License: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Full arena: https://djangodevreng.nl/en/arena/ · Raw runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks