De Arena.
17 modellen.
1 DGX Spark.
Modellen worden geranked op throughput (tokens/sec) en gewogen per use-case. Geen latency-gates: een traag model staat in de lijst, gewoon onderaan. Een 0.8B-model wint zijn eigen klasse, niet de hoofdring.
A Welke use-case wil je optimaliseren?
B Filter
Zoekterm of maker
Grootte-klasse
# Model Size Context VRAM Quality MMLU GPQA HE Throughput Score
01 Qwen-3.6 35B-A3B alibaba · MoE · FP8 35B 256K
38 GB
83.9 85.2 86.0 80.4 87
t/s
73.1 02 Qwen-3.6 27B alibaba · Hybrid · FP8 27B 256K
31 GB
86.0 86.2 87.8 83.9 35
t/s
71.9 03 Gemma-4 26B-A4B google · MoE · NVFP4 26B 256K
24 GB
81.5 84.8 79.9 79.8 97
t/s
71.8 04 Qwen-3.6 35B-A3B alibaba · MoE · BF16 35B 256K
70 GB
83.9 85.2 86.0 80.4 44
t/s
70.7 05 Gemma-4 26B-A4B google · MoE · BF16 + MTP 26B 256K
52 GB
80.7 82.6 82.3 77.1 81
t/s
70.1 06 Gemma-4 26B-A4B google · MoE · BF16 26B 256K
52 GB
80.7 82.6 82.3 77.1 59
t/s
68.9 07 Nemotron-3-Super 120B-A12B nvidia · MoE · NVFP4 120B 256K
60 GB
81.4 83.7 79.2 81.2 35
t/s
68.2 08 Gemma-4 31B google · Dense · BF16 31B 256K
62 GB
80.7 82.6 82.3 77.1 12
t/s
66.4 09 Nemotron-3-Nano 30B-A3B nvidia · MoE · NVFP4 30B 256K
21 GB
70.9 77.3 72.2 63.2 126
t/s
64.9 10 Nemotron-3-Nano 30B-A3B nvidia · MoE · FP8 30B 256K
33 GB
70.9 77.3 72.2 63.2 87
t/s
62.5
C Quality vs Throughput, wie zit op de Pareto-grens? bolgrootte = VRAM
Modellen op de Pareto-grens (verbonden lijn) zijn dominant, niets is tegelijk sneller én slimmer. Alles eronder is gedomineerd, er bestaat een ander model dat het op beide assen verslaat. Hover voor details.
Op de Pareto-grens Gedomineerd VRAM (klein → groot)
D Hoe de Score is opgebouwd Aggregaat
70 %
Quality
MMLU · GPQA · HumanEval
20 %
Throughput
tokens/sec, % cohort-max
10 %
Efficiency
throughput ÷ VRAM, % cohort-max
score = 70%·Quality + 20%·Throughput + 10%·Efficiency
0 / 4 geselecteerd Vergelijk →