---
title: "Gemma-4-26B-A4B-it (BF16) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/arena/gemma-4-26b-a4b-it-bf16/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Gemma-4-26B-A4B-it (BF16)

Sterke MoE-baseline op de Spark. Chat-decode op 10.9 t/s/user bij c=10, agents-workload 11.8 t/s/user, en zelfs 25k context blijft op 5.4 t/s/user. Onder kantoor-baseline een nette TTFT mean van 1.4 sec en tail die rustig oploopt. Maandagochtend-piek tikt P99 boven 6 seconden, niet ideaal maar nog steeds bruikbaar.

## Specificaties

- Vendor: Google
- Architectuur: MoE
- Parameters: 26B-A4B
- Precisie: BF16
- VRAM: 52 GB
- Engine: vLLM v0.20.1
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/google/gemma-4-26B-A4B-it

## Benchmarks op de DGX Spark

| Test | tokens/s p/user | tokens/s totaal | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 11 | n/a | 1260 |
| 02 RAG · 8k context | 9 | n/a | 7990 |
| 03 Lange output / agents | 12 | n/a | 480 |
| 04 Grote context · 25k | 5 | n/a | 35670 |
| 05 Multi-turn · kantoorwerk | 10 | n/a | 2130 |
| 06 Realistische kantoor-baseline | 34 | n/a | 1286 |
| 07 Echte gesprekken · ShareGPT | 8 | n/a | 353 |
| 08 Maandagochtend-piek | 43 | n/a | 1132 |
| 09 Reasoning workload | 5 | n/a | 620 |

## Wat ik ervan vond

**Werkte: MoE active-params houden chat snappy**

Met 4B actief van 26B totaal blijft chat-decode op 10.9 t/s/user bij c=10. Voor kantoorchat van 5-10 gebruikers nauwelijks merkbaar verschil tussen single-user en concurrent.

**Brak: KV-cache budget krap op 25k context**

26B in BF16 zijn 52 GB weights. Op 128 GB unified blijft circa 65 GB voor KV-cache. Bij 25k context met c=10 tikt TTFT naar 35 sec gemiddeld.

**Kostte: Maandag-piek tail tikt P99 boven 6s**

Onder Run J (oversubscribe 1.5 rps, max-concurrency 25) klimt P99 TTFT richting 6 seconden. Voor de unlucky 1% gebruikers het verschil tussen druk en stuk.

**Verraste: Decode/user blijft stabiel met groeiende context**

TTFT loopt sterk op met context-grootte (1.3s op chat, 35s op 25k), maar decode/user blijft single-user rond 22-24 t/s, ook bij 25k. De prefill-muur is real, decode merkt er weinig van.

## Noten

MoE met 4B actief van 26B totaal. KV-cache fp8, prefix caching uit. vLLM v0.20.1 met async scheduling. Complete suite (A-J) gedraaid 2026-05-05.

---

Licentie: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Volledige arena: https://djangodevreng.nl/arena/ · Ruwe runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks
