L'Arena.
17 modèles.
1 DGX Spark.
Les modèles sont classés par throughput (tokens/sec) et pondérés par use-case. Pas de latency gates : un modèle lent reste dans la liste, juste tout en bas. Un modèle 0.8B gagne sa propre classe, pas le ring principal.
A Quel use-case veux-tu optimiser ?
B Filtre
Terme de recherche ou maker
Classe de taille
# Model Size Context VRAM Quality MMLU GPQA HE Throughput Score
01 Qwen-3.6 35B-A3B alibaba · MoE · FP8 35B 256K
38 GB
83.9 85.2 86.0 80.4 87
t/s
73.1 02 Qwen-3.6 27B alibaba · Hybrid · FP8 27B 256K
31 GB
86.0 86.2 87.8 83.9 35
t/s
71.9 03 Gemma-4 26B-A4B google · MoE · NVFP4 26B 256K
24 GB
81.5 84.8 79.9 79.8 97
t/s
71.8 04 Qwen-3.6 35B-A3B alibaba · MoE · BF16 35B 256K
70 GB
83.9 85.2 86.0 80.4 44
t/s
70.7 05 Gemma-4 26B-A4B google · MoE · BF16 + MTP 26B 256K
52 GB
80.7 82.6 82.3 77.1 81
t/s
70.1 06 Gemma-4 26B-A4B google · MoE · BF16 26B 256K
52 GB
80.7 82.6 82.3 77.1 59
t/s
68.9 07 Nemotron-3-Super 120B-A12B nvidia · MoE · NVFP4 120B 256K
60 GB
81.4 83.7 79.2 81.2 35
t/s
68.2 08 Gemma-4 31B google · Dense · BF16 31B 256K
62 GB
80.7 82.6 82.3 77.1 12
t/s
66.4 09 Nemotron-3-Nano 30B-A3B nvidia · MoE · NVFP4 30B 256K
21 GB
70.9 77.3 72.2 63.2 126
t/s
64.9 10 Nemotron-3-Nano 30B-A3B nvidia · MoE · FP8 30B 256K
33 GB
70.9 77.3 72.2 63.2 87
t/s
62.5
C Quality vs Throughput, qui est sur la frontière de Pareto ? taille de bulle = VRAM
Les modèles sur la frontière de Pareto (ligne reliée) sont dominants, rien n'est à la fois plus rapide et plus intelligent. Tout ce qui est en dessous est dominé, il existe un autre modèle qui le bat sur les deux axes. Survole pour les détails.
Sur la frontière de Pareto Dominé VRAM (petit → grand)
D Comment le Score est construit Aggregaat
70 %
Quality
MMLU · GPQA · HumanEval
20 %
Throughput
tokens/sec, % cohort-max
10 %
Efficiency
throughput ÷ VRAM, % cohort-max
score = 70%·Quality + 20%·Throughput + 10%·Efficiency
0 / 4 sélectionnés Comparer →