---
title: "Gemma-4-26B-A4B-it (BF16) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/arena/gemma-4-26b-a4b-it-bf16-v23/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Gemma-4-26B-A4B-it (BF16)

Controlelijn voor vLLM v0.23.0. Chat haalt 11.47 t/s/user bij c=10, multi-turn 10.69 t/s/user en de kantoor-baseline blijft 200/200 groen. Prima als referentie, maar MTP en NVFP4 laten zien hoeveel decode er blijft liggen.

## Specificaties

- Vendor: Google
- Architectuur: MoE
- Parameters: 26B-A4B
- Precisie: BF16
- Context: 256K
- VRAM: 52 GB
- Engine: vLLM v0.23.0
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/google/gemma-4-26B-A4B-it

## Quality (model-cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 82.6 |
| GPQA | 82.3 |
| HumanEval / LCB | 77.1 |
| Avg | 80.7 |

## Benchmarks op de DGX Spark

| Test | tokens/s p/user | tokens/s totaal | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 11 | 91 | 1343 |
| 02 RAG · 8k context | 10 | 78 | 8488 |
| 03 Lange output / agents | 12 | 87 | 491 |
| 04 Grote context · 25k | 5 | 28 | 39281 |
| 05 Multi-turn · kantoorwerk | 11 | 98 | 2155 |
| 06 Realistische kantoor-baseline | 34 | 34 | 1330 |
| 07 Echte gesprekken · ShareGPT | 8 | 8 | 327 |
| 08 Maandagochtend-piek | 44 | 44 | 1178 |
| 09 Reasoning workload | n/a | n/a | n/a |

## Wat ik ervan vond

**Werkte: NVFP4 is de praktische default**

Chat op 21.59 t/s/user en multi-turn op 20.01 t/s/user bij c=10. Voor lokale kantoorchat voelt dit niet als een concessie.

**Brak: 25k context blijft prefill-pijn**

Zelfs NVFP4 zit bij 25k en c=10 op 38.58s TTFT gemiddeld. Serve-profiel helpt decode, niet de wachttijd voor grote prompts.

**Kostte: MTP koopt decode, geen perfecte tail**

MTP verslaat BF16 in decode, maar onder maandagochtend-load zijn p95 TTFT en p95 TPOT slechter dan BF16. Percentielen blijven nodig.

**Verraste: ShareGPT-replay is extreem vriendelijk**

NVFP4 haalt 250/250 requests met p95 TTFT 225.09 ms en p95 TPOT 45.30 ms. Echte korte gesprekken zijn veel lichter dan random 4k.

## Noten

Google BF16-model op vLLM v0.23.0, KV-cache fp8, prefix caching uit, gpu-memory-utilization 0.85. Nieuwe suite gedraaid op 2026-06-22 en 2026-06-23.

---

Licentie: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Volledige arena: https://djangodevreng.nl/arena/ · Ruwe runs (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks
