---
title: "Qwen-3.6-35B-A3B (FP8) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/en/arena/qwen-3-6-35b-a3b-fp8/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Qwen-3.6-35B-A3B (FP8)

Sneller dan je zou verwachten voor zo'n groot model. De MoE-truc doet zijn werk: groot op papier, klein per token. Voor kantoorchat en agent-output draait dit lekker, ook met tien gebruikers tegelijk. Bij grotere contexten begint prefill te knellen, dat blijft het zwakke punt. Onder maandagochtend-piek wint 'ie het overtuigend van de dense 27B-variant, ruim dubbele doorvoer in dezelfde test.

## Specs

- Vendor: Alibaba
- Architecture: MoE
- Parameters: 35B (3B active)
- Precision: FP8
- Context: 256K
- VRAM: 38 GB
- Engine: vLLM cu130-nightly
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 85.2 |
| GPQA | 86 |
| HumanEval / LCB | 80.4 |
| Avg | 83.9 |

## Benchmarks on the DGX Spark

| Test | tokens/s per user | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 15 | 148 | 1210 |
| 02 RAG · 8k context | 13 | 110 | 8050 |
| 03 Lange output / agents | 17 | 128 | 530 |
| 04 Grote context · 25k | 8 | 43 | 26880 |
| 05 Multi-turn · kantoorwerk | 15 | 139 | 2130 |
| 06 Realistische kantoor-baseline | 54 | 54 | 1229 |
| 07 Echte gesprekken · ShareGPT | 11 | 11 | 205 |
| 08 Maandagochtend-piek | 59 | 59 | 1352 |
| 09 Reasoning workload | n/a | n/a | n/a |

## What I made of it

**Worked: MoE A3B haalt de 27B-dense in op snelheid**

Chat 14.9 t/s/user vs 7.0 voor de 27B-dense. Totaal-params zijn groter (35B vs 27B), active per token zijn 3B vs 27B. Dat zie je terug in elke benchmark.

**Broke: Prefill-muur op 25k blijft staan**

TTFT 27 seconden bij c=10, 52s bij c=20. MoE helpt decode, niet prefill. Voor lange context kies je hier ook niet voor.

**Cost: Geen per-precisie quality-publicatie**

Alibaba publiceert geen FP8-vs-BF16 splits. Aanname is dat de drift onder de 0.5% blijft, conform vergelijkbare modellen, maar zelf gemeten heb ik dat niet.

**Surprised: Achieved RPS verdubbelt onder oversubscribe**

Run J haalt 0.35 RPS tegenover 0.16 voor de 27B-dense. Active-parameter MoE wint juist als de queue groeit.

## Notes

FP8-quantisatie van Qwen3.6-35B-A3B. Mixture-of-Experts: 35B total parameters, 3B actief per token. KV-cache fp8_e4m3, max_model_len 131072 (model-native: 262k). Default profiel: prefix caching uit, async scheduling uit.

---

License: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Full arena: https://djangodevreng.nl/en/arena/ · Raw runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks