---
title: "Qwen-3.6-27B (FP8) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/en/arena/qwen-3-6-27b-fp8/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Qwen-3.6-27B (FP8)

Dense 27B betekent: alle parameters doen mee per token, en dat zie je terug in decode. Op chat haal je 7 tokens per gebruiker, op 25k context tikt TTFT de minuut aan. Onder maandagochtend-piek stapelt de queue tot 160 parallelle requests, achieved RPS valt terug naar 0.16. Op kwaliteit (MMLU 86, HumanEval 84) is 'ie top, alleen op deze hardware betaal je dat met geduld. Voor incidentele zware taken prima, voor doorlopende werklast pak je beter een MoE.

## Specs

- Vendor: Alibaba
- Architecture: Hybrid
- Parameters: 27B
- Precision: FP8
- Context: 256K
- VRAM: 31 GB
- Engine: vLLM cu130-nightly
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/Qwen/Qwen3.6-27B-FP8

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 86.2 |
| GPQA | 87.8 |
| HumanEval / LCB | 83.9 |
| Avg | 86 |

## Benchmarks on the DGX Spark

| Test | tokens/s per user | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 7 | 69 | 4480 |
| 02 RAG · 8k context | 6 | 45 | 23310 |
| 03 Lange output / agents | 7 | 46 | 2090 |
| 04 Grote context · 25k | 3 | 15 | 76490 |
| 05 Multi-turn · kantoorwerk | 7 | 63 | 6250 |
| 06 Realistische kantoor-baseline | 6 | 6 | 14093 |
| 07 Echte gesprekken · ShareGPT | 7 | 7 | 511 |
| 08 Maandagochtend-piek | 25 | 25 | 3882 |
| 09 Reasoning workload | n/a | n/a | n/a |

## What I made of it

**Worked: Quality is uitstekend voor de prijs**

MMLU 86, GPQA 88, HumanEval 84. In de aggregate-score van de Arena steeds bij de top, ook al is throughput middelmatig.

**Broke: 27B dense betekent volledig bandwidth-bound**

Geen MoE active-parameter winst, alle 27B doen mee per token. Decode/user op chat zit op 7 t/s, helft van wat de A4B en A3B MoE's halen.

**Cost: Op 25k context wacht je een minuut**

TTFT tikt 76 seconden bij c=10. Onder maandag-piek queued 'ie tot 160 parallelle requests met P99 TTFT 40 seconden. Voor RAG of long-context flows hier niet beginnen.

**Surprised: Hybride architectuur draait zonder gedoe**

48 Gated DeltaNet + 16 full-attention layers, vision-encoder erbij; vLLM ondersteunt het zonder extra config. Drie jaar geleden was dit een week werk.

## Notes

FP8-quantisatie van Qwen, fine-grained block-128. Hybride architectuur: 48 lagen Gated DeltaNet (linear) + 16 lagen Gated Attention (full), met vision-encoder. KV-cache fp8_e4m3, max_model_len 131072 (model-native: 262k). Default profiel: prefix caching uit, async scheduling uit.

---

License: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Full arena: https://djangodevreng.nl/en/arena/ · Raw runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks
