---
title: "Gemma-4-26B-A4B-it MTP (BF16 + MTP) · DGX Spark Arena"
canonical: "https://djangodevreng.nl/fr/arena/gemma-4-26b-a4b-it-mtp-v23/"
license: "CC-BY-4.0"
source: "https://github.com/djangodevreng/dgx-spark-benchmarks"
attribution: "Django de Vreng, https://djangodevreng.nl"
---

# Gemma-4-26B-A4B-it MTP (BF16 + MTP)

Position intermédiaire intéressante sur vLLM v0.23.0. MTP monte le chat à 17.79 t/s/user et le multi-turn à 16.57 t/s/user sans passer au re-quant NVIDIA NVFP4. Pas les meilleures tails, mais beaucoup plus de decode que BF16.

## Spécifications

- Vendor: Google
- Architecture: MoE
- Paramètres: 26B-A4B
- Précision: BF16 + MTP
- Contexte: 256K
- VRAM: 52 GB
- Engine: vLLM v0.23.0
- Hardware: DGX Spark, NVIDIA GB10, 128 GB unified memory
- Model card: https://huggingface.co/google/gemma-4-26B-A4B-it

## Quality (model cards)

| Benchmark | Score |
| --- | --- |
| MMLU-Pro | 82.6 |
| GPQA | 82.3 |
| HumanEval / LCB | 77.1 |
| Avg | 80.7 |

## Benchmarks sur le DGX Spark

| Test | tokens/s par utilisateur | tokens/s total | TTFT (ms) |
| --- | --- | --- | --- |
| 01 Chat | 18 | 139 | 1400 |
| 02 RAG · 8k context | 13 | 97 | 9519 |
| 03 Lange output / agents | 18 | 128 | 564 |
| 04 Grote context · 25k | 6 | 28 | 45640 |
| 05 Multi-turn · kantoorwerk | 17 | 143 | 2368 |
| 06 Realistische kantoor-baseline | 48 | 48 | 1608 |
| 07 Echte gesprekken · ShareGPT | 11 | 11 | 409 |
| 08 Maandagochtend-piek | 53 | 53 | 1684 |
| 09 Reasoning workload | n/a | n/a | n/a |

## Mon avis

**A marché: NVFP4 est le choix pratique**

Chat à 21.59 t/s/user et multi-turn à 20.01 t/s/user à c=10. Pour du chat local de bureau, cela ne ressemble pas à un compromis.

**A cassé: Le contexte 25k reste douloureux en prefill**

Même NVFP4 est à 38.58s de TTFT moyen en 25k et c=10. Le profil de serving aide le decode, pas l’attente avant les grands prompts.

**A coûté: MTP achète du decode, pas une tail parfaite**

MTP bat BF16 en decode, mais sous le pic du lundi son p95 TTFT et son p95 TPOT sont pires que BF16. Les percentiles restent nécessaires.

**A surpris: Le replay ShareGPT est très favorable**

NVFP4 termine 250/250 requêtes avec p95 TTFT 225.09 ms et p95 TPOT 45.30 ms. Les vraies conversations courtes sont bien plus légères que random 4k.

## Notes

Artefact modèle Google avec profil MTP sur vLLM v0.23.0. KV-cache fp8, prefix caching désactivé, gpu-memory-utilization 0.85. Suite complète exécutée le 2026-06-23.

---

Licence: CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/). Django de Vreng, https://djangodevreng.nl.
Arène complète: https://djangodevreng.nl/fr/arena/ · Runs bruts (GitHub): https://github.com/djangodevreng/dgx-spark-benchmarks