Nemotron-3-Nano-4B
Klein, snel en verrassend goed in z'n niche. Op chat zit decode rond de 25 tokens per gebruiker, TTFT op ShareGPT-replay blijft onder de 150 ms. Onder maandagochtend-piek schaalt 'ie waar grotere modellen op een derde daarvan vastlopen. Op brede kennis zit 'ie laag, op reasoning-benchmarks zoals AIME en MATH verrassend hoog. Voor classifiers, routing of korte samenvattingen waar je geen 30B+ voor nodig hebt: serieus snel werkpaard.
De quality-component van de Arena-score. Niet zelf gemeten, uit de officiële model-cards van de vendor. Voor cross-model vergelijking met consistente eval-harness is Artificial Analysis een nuttige derde partij. Het gemiddelde van de drie benchmarks komt 1-op-1 in de Score-formule terug (zwaarder gewogen in Aggregaat/Agent, lichter in Batch).
5 closed-loop tests met llama-benchy en 4 open-loop tests met vllm bench serve. Per benchmark de tokens/sec (decode throughput) en TTFT p50. TTFT vertaalt direct in UX-gevoel, tps in capaciteit. Klap "view command" uit voor het exacte commando.
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
RAG · 8k context
Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.
Lange output / agents
Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.
Grote context · 25k
Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.
Multi-turn · kantoorwerk
Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.
Realistische kantoor-baseline
Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.
Echte gesprekken · ShareGPT
ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.
Maandagochtend-piek
Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?
Reasoning workload
Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.
Schaalt door waar grotere modellen vastlopen
Onder maandagochtend-piek doet 'ie 0.62 RPS, het dubbele tot drievoud van wat 30B-modellen halen op dezelfde test. P99 TTFT blijft onder de 3.5 seconden waar 27B-dense richting de 40s schiet.
MMLU-Pro 18.1 is laag
Reasoning-getuned, geen knowledge-breedte. Voor general-purpose chat verlies je het tegen brede modellen van vergelijkbare grootte.
max_model_len 49152 ipv 256k native
Server-config is geknepen omdat de KV-cache anders te veel ruimte vraagt voor lange context. Niet het model, wel hoe ik 'm op de Spark serveer.
AIME25 78.5 en MATH500 95.4 op een 4B-model
Een 4B-model dat op math en competitie-benchmarks in de buurt komt van 30B+. NVIDIA's compute-budget zit duidelijk in reasoning-training, niet in knowledge-coverage.