Compare
côte à côte.
2-4 modèles · toutes les metrics · par benchmark.
← Choisir d'autres modèles ↳ Comparaison
01 Aucun modèle sélectionné
Retourne à l'Arena et coche 2 à 4 modèles à comparer. Au-delà de 4 ça devient trop chargé sur un écran.
→ Vers l'Arena A Les modèles sélectionnés
B Metrics agrégées meilleur = bleu · pire = atténué
C Throughput par benchmark tokens/sec · 9 benches
D Détail de la quality MMLU-Pro · GPQA-Diamond · HumanEval
E La version courte