Nemotron-3-Nano-Omni-30B-A3B-Reasoning
De snelste van de drie precisies, met afstand. Op chat tikt 'ie 23 tokens per gebruiker en TTFT blijft mooi onder de seconde, ook bij grotere contexten. Voor lange chain-of-thought waar je bij BF16 nog op het eerste antwoord zit te wachten, gaat dit gewoon door. Setup-pijn is wel reëel, dezelfde rits aan vLLM-patches die ook de Gemma-versie nodig had. Eenmaal draaiend is dit op de Spark de variant die je wil hebben.
De quality-component van de Arena-score. Niet zelf gemeten, uit de officiële model-cards van de vendor. Voor cross-model vergelijking met consistente eval-harness is Artificial Analysis een nuttige derde partij. Het gemiddelde van de drie benchmarks komt 1-op-1 in de Score-formule terug (zwaarder gewogen in Aggregaat/Agent, lichter in Batch).
5 closed-loop tests met llama-benchy en 4 open-loop tests met vllm bench serve. Per benchmark de tokens/sec (decode throughput) en TTFT p50. TTFT vertaalt direct in UX-gevoel, tps in capaciteit. Klap "view command" uit voor het exacte commando.
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
RAG · 8k context
Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.
Lange output / agents
Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.
Grote context · 25k
Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.
Multi-turn · kantoorwerk
Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.
Realistische kantoor-baseline
Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.
Echte gesprekken · ShareGPT
ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.
Maandagochtend-piek
Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?
Reasoning workload
Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.
Drop-in upgrade van FP8 naar NVFP4
Zelfde recipe, andere precision-flag, factor 1.5x snelheid eruit (23 vs 15 t/s/user op chat). Checkpoint zakt van 33 naar 21 GB, KV-cache headroom van ruim 100 GB.
Tweede ronde NVFP4 setup-pijn
Dezelfde patches als bij Gemma-4-NVFP4 nodig: vLLM dev154+, flashinfer-version-check bypass, sampler-fallback. Niet een druk-op-de-knop install.
Geen native FP4 op SM12.1
Kernel-emulatie via Marlin. Op datacenter-Blackwell zou de NVFP4-winst nog groter zijn. Wat we nu zien is de bandwidth-helft van de winst zonder de compute-helft.
Reasoning-workload wordt opeens haalbaar
Lange chain-of-thought houdt op c=10 nog 25 t/s/user (Run G). Op BF16 of FP8 is ditzelfde scenario op de Spark eerder een geduldspel.