Nemotron-3-Nano-Omni-30B-A3B-Reasoning
Hier wordt het serieus. FP8 verdubbelt de snelheid van BF16 zonder dat je het in kwaliteit merkt. Decode tikt rond de 15 tokens per gebruiker op chat, TTFT zakt onder de seconde. Onder maandagochtend-piek doet 'ie het bijna twee keer zo goed als BF16. Voor de meeste workloads is dit waar je standaard naar zou moeten grijpen, klein offer voor flink wat winst.
La composante quality de l'Arena score. Pas mesurée par moi, issue des model cards officielles du vendor. Pour une comparaison cross-model avec un eval harness cohérent, Artificial Analysis est un tiers utile. La moyenne des trois benchmarks entre une à une dans la formule du Score (pondérée plus lourd en Aggregate/Agent, plus léger en Batch).
5 tests closed-loop avec llama-benchy et 4 tests open-loop avec vllm bench serve. Par benchmark les tokens/sec (decode throughput) et le TTFT p50. Le TTFT se traduit directement en ressenti UX, les tps en capacité. Déplie "view command" pour la commande exacte.
Chat
Korte prompt, lang antwoord. De vorm die als normale chat moet aanvoelen, TTFT bepaalt of het "snappy" is.
RAG · 8k context
Middelgrote context, een paar documentchunks met antwoord van normale lengte. Toont prefill-kosten zonder de muur te raken.
Lange output / agents
Korte instructie, veel output. Code-generation, rapporten of gestructureerde agent-output. Stress-test voor decode throughput.
Grote context · 25k
Stress-test met grote prompts. Niet per se chatmateriaal, wel exact waar de prefill-muur zichtbaar wordt en TTFT instort.
Multi-turn · kantoorwerk
Vijf beurten per gesprek, tien gesprekken parallel. Dicht bij hoe een team dit echt gebruikt, met groeiende context per turn.
Realistische kantoor-baseline
Random dataset · 4000 tokens in, 500 tokens uit · request-rate 0.3, burstiness 0.7. Een rustig kantoor.
Echte gesprekken · ShareGPT
ShareGPT V3 · gemiddeld 228 tokens per turn · natuurlijk variërend per gesprek. Wat real users doen, niet een synthetische random distributie.
Maandagochtend-piek
Random · 4000 in / 500 uit · request-rate 1.5 req/s, burstiness 1.0, max 25 parallel. Wanneer iedereen tegelijk inlogt, zien we de queue groeien?
Reasoning workload
Lange chain-of-thought outputs · 1k in / 4k uit · trage rate (0.2 req/s) want elke request kost veel decode-budget. Test of TTFT stabiel blijft.
FP8 native op Blackwell, volle compute-winst
Tensor-cores draaien direct op 8-bit, geen kernel-emulatie zoals bij FP4. Decode verdubbelt vs BF16 (15 vs 7.8 t/s/user op chat), op TTFT zakt het van 1.33 naar 0.96 seconden.
Config-keys driften tussen vLLM-versies
Tussen dev-builds wisselt de canonical naam voor W8A8 weights/activations. Profile aanpassen na elke vLLM-upgrade hoort er gewoon bij.
Quality-drop niet zelf gemeten
NVIDIA's Tabel 14 toont -0.37 mean over multimodal evals vs BF16. Niet getest op text-only taken; aanname is gelijk aan BF16 binnen meet-onzekerheid.
Tail-latency wint sterker dan decode-mean
Niet alleen gemiddelde verbetert, P95 en P99 TTFT op H/I/J zakken evenredig of meer. Voor chat-perceptie helpt dat veel meer dan een paar t/s extra.