De Arena.
17 modellen.
1 DGX Spark.

Modellen worden geranked op throughput (tokens/sec) en gewogen per use-case. Geen latency-gates: een traag model staat in de lijst, gewoon onderaan. Een 0.8B-model wint zijn eigen klasse, niet de hoofdring.

Methodologie · 9 tests · llama-benchy + vLLM → Kosten · DGX Spark per maand →

Methodologie

Hoe de Score wordt berekend

score = wq·Q + wg·G + we·E

Drie dimensies, drie gewichten, sommatie. Alle dimensies zijn cohort-relatief: getallen 0–100, waar 100 het beste model in de actieve bucket is.

De drie dimensies

Quality

MMLU-Pro · GPQA · HumanEval, gemiddeld. Genormaliseerd op cohort-piek.

→ artificial analysis ↗

Throughput

tokens/sec op de preset-bench (of mean over alle 9 bij Aggregaat). Genormaliseerd op cohort-piek.

→ vllm bench serve · llama-benchy ↗

Efficiency

Throughput ÷ VRAM. Tokens per seconde per GB. Genormaliseerd op cohort-piek.

→ afgeleid · per cohort ↗

Gewichten per preset

Preset	Q	G	E	Bench
Aggregaat	70%	20%	10%	mean over 9
Chat assistant	60%	30%	10%	chat
Agent / tool-use	70%	20%	10%	long-output
Batch / RAG offline	20%	70%	10%	rag-8k
Reasoning / long-output	60%	30%	10%	reasoning

Voorbeeld: Aggregaat

Stel Q=99, G=48, E=22 →
score = 0.70·99 + 0.20·48 + 0.10·22
= 69.3 + 9.6 + 2.2 = 81.1

Kleurcodes in de Score-kolom

81.1

Top

Bovenste 25% van het cohort-bereik. norm > 0.75.

54.0

Midden

Middelste 50%. 0.25 ≤ norm ≤ 0.75.

26.4

Onderkant

Onderste 25%. norm < 0.25.

Cohort-relatief: norm = (score − min) / (max − min) over de zichtbare modellen. Wissel je bucket of preset, dan kleuren de getallen opnieuw mee. De koploper is altijd blauw, de hekkensluiter altijd grijs.

Belangrijk om te weten

Cohort = bucket. Filter je op "<8B", dan is "100" de snelste <8B'er, niet de globale max. Score-getallen tussen buckets zijn dus niet 1-op-1 vergelijkbaar.
Geen meting → tps 0. Modellen zonder benchmark-data blijven zichtbaar maar zakken naar onderaan met "geen meting" in de Throughput-kolom.
Geen latency-gates. Een traag model staat in de lijst, gewoon onderaan. Geen verborgen SLA-filter of quality-floor multiplier.

De Arena. 17 modellen. 1 DGX Spark.

De Arena.
17 modellen.
1 DGX Spark.