De Arena.
17 modellen.
1 DGX Spark.

Modellen worden geranked op throughput (tokens/sec) en gewogen per use-case. Geen latency-gates: een traag model staat in de lijst, gewoon onderaan. Een 0.8B-model wint zijn eigen klasse, niet de hoofdring.

Modellen op de Pareto-grens (verbonden lijn) zijn dominant, niets is tegelijk sneller én slimmer. Alles eronder is gedomineerd, er bestaat een ander model dat het op beide assen verslaat. Hover voor details.

Op de Pareto-grens Gedomineerd VRAM (klein → groot)
70 %
Quality
MMLU · GPQA · HumanEval
20 %
Throughput
tokens/sec, % cohort-max
10 %
Efficiency
throughput ÷ VRAM, % cohort-max

score = 70%·Quality + 20%·Throughput + 10%·Efficiency

Methodologie

Hoe de Score wordt berekend

score = wq·Q + wg·G + we·E

Drie dimensies, drie gewichten, sommatie. Alle dimensies zijn cohort-relatief: getallen 0–100, waar 100 het beste model in de actieve bucket is.

De drie dimensies

Q
Quality
MMLU-Pro · GPQA · HumanEval, gemiddeld. Genormaliseerd op cohort-piek.
→ artificial analysis ↗
G
Throughput
tokens/sec op de preset-bench (of mean over alle 9 bij Aggregaat). Genormaliseerd op cohort-piek.
→ vllm bench serve · llama-benchy ↗
E
Efficiency
Throughput ÷ VRAM. Tokens per seconde per GB. Genormaliseerd op cohort-piek.
→ afgeleid · per cohort ↗

Gewichten per preset

Preset Q G E Bench
Aggregaat 70% 20% 10% mean over 9
Chat assistant 60% 30% 10% chat
Agent / tool-use 70% 20% 10% long-output
Batch / RAG offline 20% 70% 10% rag-8k
Reasoning / long-output 60% 30% 10% reasoning

Voorbeeld: Aggregaat

Stel Q=99, G=48, E=22 →
score = 0.70·99 + 0.20·48 + 0.10·22
= 69.3 + 9.6 + 2.2 = 81.1

Kleurcodes in de Score-kolom

81.1
Top
Bovenste 25% van het cohort-bereik. norm > 0.75.
54.0
Midden
Middelste 50%. 0.25 ≤ norm ≤ 0.75.
26.4
Onderkant
Onderste 25%. norm < 0.25.

Cohort-relatief: norm = (score − min) / (max − min) over de zichtbare modellen. Wissel je bucket of preset, dan kleuren de getallen opnieuw mee. De koploper is altijd blauw, de hekkensluiter altijd grijs.

Belangrijk om te weten

  • Cohort = bucket. Filter je op "<8B", dan is "100" de snelste <8B'er, niet de globale max. Score-getallen tussen buckets zijn dus niet 1-op-1 vergelijkbaar.
  • Geen meting → tps 0. Modellen zonder benchmark-data blijven zichtbaar maar zakken naar onderaan met "geen meting" in de Throughput-kolom.
  • Geen latency-gates. Een traag model staat in de lijst, gewoon onderaan. Geen verborgen SLA-filter of quality-floor multiplier.
Uitleg

Esc