L'Arena.
17 modèles.
1 DGX Spark.

Les modèles sont classés par throughput (tokens/sec) et pondérés par use-case. Pas de latency gates : un modèle lent reste dans la liste, juste tout en bas. Un modèle 0.8B gagne sa propre classe, pas le ring principal.

Les modèles sur la frontière de Pareto (ligne reliée) sont dominants, rien n'est à la fois plus rapide et plus intelligent. Tout ce qui est en dessous est dominé, il existe un autre modèle qui le bat sur les deux axes. Survole pour les détails.

Sur la frontière de Pareto Dominé VRAM (petit → grand)
70 %
Quality
MMLU · GPQA · HumanEval
20 %
Throughput
tokens/sec, % cohort-max
10 %
Efficiency
throughput ÷ VRAM, % cohort-max

score = 70%·Quality + 20%·Throughput + 10%·Efficiency

Méthodologie

Comment le Score est calculé

score = wq·Q + wg·G + we·E

Trois dimensions, trois poids, sommés. Toutes les dimensions sont cohort-relatives : des chiffres 0–100, où 100 est le meilleur modèle du bucket actif.

Les trois dimensions

Q
Quality
MMLU-Pro · GPQA · HumanEval, en moyenne. Normalisé sur le pic du cohort.
→ artificial analysis ↗
G
Throughput
tokens/sec sur le bench du preset (ou mean sur les 9 en Aggregate). Normalisé sur le pic du cohort.
→ vllm bench serve · llama-benchy ↗
E
Efficiency
Throughput ÷ VRAM. Tokens par seconde par GB. Normalisé sur le pic du cohort.
→ dérivé · par cohort ↗

Poids par preset

Preset Q G E Bench
Aggregaat 70% 20% 10% mean sur 9
Chat assistant 60% 30% 10% chat
Agent / tool-use 70% 20% 10% long-output
Batch / RAG offline 20% 70% 10% rag-8k
Reasoning / long-output 60% 30% 10% reasoning

Exemple : Aggregate

Disons Q=99, G=48, E=22 →
score = 0.70·99 + 0.20·48 + 0.10·22
= 69.3 + 9.6 + 2.2 = 81.1

Codes couleur dans la colonne Score

81.1
Top
Top 25% de la plage du cohort. norm > 0.75.
54.0
Milieu
Milieu 50%. 0.25 ≤ norm ≤ 0.75.
26.4
Bas
Bas 25%. norm < 0.25.

Cohort-relatif : norm = (score − min) / (max − min) sur les modèles visibles. Change de bucket ou de preset et les chiffres se recolorent. Le leader est toujours bleu, le dernier toujours gris.

Bon à savoir

  • Cohort = bucket. Filtre sur "<8B" et "100" est le plus rapide des <8B, pas le max global. Les scores entre buckets ne sont donc pas comparables un à un.
  • Pas de mesure → tps 0. Les modèles sans données de benchmark restent visibles mais tombent tout en bas avec "pas de mesure" dans la colonne Throughput.
  • Pas de latency gates. Un modèle lent reste dans la liste, juste tout en bas. Pas de filtre SLA caché ni de multiplicateur quality-floor.
Explication

Esc