---
title: "Qwen-3.6-35B-A3B (BF16) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/en/arena/qwen-3-6-35b-a3b-bf16/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Qwen-3.6-35B-A3B (BF16)

De BF16-baseline van het 35B-A3B-MoE, schoner referentiepunt zonder quantisatie-twijfel. Op chat haal je ongeveer de helft van wat de FP8-versie doet, op 25k context idem dito. De 3B active-parameters helpen, maar bandwidth-gebonden decode betaalt de volle BF16-prijs. 70 GB aan weights laat weinig over voor KV-cache, dus voor lange context wordt het krap. Goed startpunt voor accuracy-werk, voor productie pak je gewoon de FP8-variant.

## Specs

- Vendor: Alibaba
- Architecture: MoE
- Parameters: 35B (3B active)
- Precision: BF16
- Context: 256K
- VRAM: 70 GB
- Engine: vLLM cu130-nightly
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/Qwen/Qwen3.6-35B-A3B

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 85.2 |
| GPQA | 86 |
| HumanEval / LCB | 80.4 |
| Avg | 83.9 |

## Benchmarks on the DGX Spark

| Test | tokens/s per user | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 8 | 83 | 1780 |
| 02 RAG · 8k context | 7 | 64 | 11950 |
| 03 Lange output / agents | 10 | 76 | 730 |
| 04 Grote context · 25k | 5 | 27 | 39370 |
| 05 Multi-turn · kantoorwerk | 8 | 80 | 3220 |
| 06 Realistische kantoor-baseline | 21 | 21 | 3100 |
| 07 Echte gesprekken · ShareGPT | 8 | 8 | 390 |
| 08 Maandagochtend-piek | 34 | 34 | 2153 |
| 09 Reasoning workload | 4 | 4 | 741 |

## What I made of it

**Worked: Schoon referentiepunt zonder quant-twijfel**

Geen vraag of edge-case-Python lijdt onder quantisatie. Voor accuracy-kritieke evals het schone vertrekpunt voordat je naar FP8 of NVFP4 stapt.

**Broke: Bijna helft van FP8-snelheid**

Chat 8.4 vs 14.9 t/s/user, 25k context 4.85 vs 8.1. Bandwidth-bound decode betaalt de volle BF16-prijs, ook al zijn maar 3B params actief.

**Cost: 70 GB weights op 128 GB unified**

Laat circa 50 GB voor KV-cache. Voor 25k met c=10 zit je krap. FP8 (38 GB) of NVFP4 zou hier veel meer ademruimte geven.

**Surprised: A3B helpt ook in BF16**

Ondanks bandwidth-belasting houdt decode/user beter stand dan een 35B-dense in BF16 zou doen. Active-parameter winst is niet alleen een FP8-truc.

## Notes

BF16 zonder quantisatie van Qwen3.6-35B-A3B. Mixture-of-Experts: 35B total parameters, 3B actief per token. KV-cache dtype auto, max_model_len 131072 (model-native: 262k). Default profiel: prefix caching uit, async scheduling uit.

---

License: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Full arena: https://djangodevreng.nl/en/arena/ · Raw runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks
