L'Arena.
17 modèles.
1 DGX Spark.

Les modèles sont classés par throughput (tokens/sec) et pondérés par use-case. Pas de latency gates : un modèle lent reste dans la liste, juste tout en bas. Un modèle 0.8B gagne sa propre classe, pas le ring principal.

Méthodologie · 9 tests · llama-benchy + vLLM → Coût · DGX Spark par mois →

Méthodologie

Comment le Score est calculé

score = wq·Q + wg·G + we·E

Trois dimensions, trois poids, sommés. Toutes les dimensions sont cohort-relatives : des chiffres 0–100, où 100 est le meilleur modèle du bucket actif.

Les trois dimensions

Quality

MMLU-Pro · GPQA · HumanEval, en moyenne. Normalisé sur le pic du cohort.

→ artificial analysis ↗

Throughput

tokens/sec sur le bench du preset (ou mean sur les 9 en Aggregate). Normalisé sur le pic du cohort.

→ vllm bench serve · llama-benchy ↗

Efficiency

Throughput ÷ VRAM. Tokens par seconde par GB. Normalisé sur le pic du cohort.

→ dérivé · par cohort ↗

Poids par preset

Preset	Q	G	E	Bench
Aggregaat	70%	20%	10%	mean sur 9
Chat assistant	60%	30%	10%	chat
Agent / tool-use	70%	20%	10%	long-output
Batch / RAG offline	20%	70%	10%	rag-8k
Reasoning / long-output	60%	30%	10%	reasoning

Exemple : Aggregate

Disons Q=99, G=48, E=22 →
score = 0.70·99 + 0.20·48 + 0.10·22
= 69.3 + 9.6 + 2.2 = 81.1

Codes couleur dans la colonne Score

81.1

Top

Top 25% de la plage du cohort. norm > 0.75.

54.0

Milieu

Milieu 50%. 0.25 ≤ norm ≤ 0.75.

26.4

Bas

Bas 25%. norm < 0.25.

Cohort-relatif : norm = (score − min) / (max − min) sur les modèles visibles. Change de bucket ou de preset et les chiffres se recolorent. Le leader est toujours bleu, le dernier toujours gris.

Bon à savoir

Cohort = bucket. Filtre sur "<8B" et "100" est le plus rapide des <8B, pas le max global. Les scores entre buckets ne sont donc pas comparables un à un.
Pas de mesure → tps 0. Les modèles sans données de benchmark restent visibles mais tombent tout en bas avec "pas de mesure" dans la colonne Throughput.
Pas de latency gates. Un modèle lent reste dans la liste, juste tout en bas. Pas de filtre SLA caché ni de multiplicateur quality-floor.

L'Arena. 17 modèles. 1 DGX Spark.

L'Arena.
17 modèles.
1 DGX Spark.