IA on-prem.
modèles locaux, sans cloud
DGX Spark, modèles locaux, et tout ce qui tourne sans le cloud. Ce qui tient dans 128 Go, ce qui ne tient pas, et quelle quantization valait le coup.
- 23-06-26 7 min0017 min
Gemma-4 v23 sur le DGX Spark
Nouveaux runs vLLM v0.23.0 pour Gemma-4 sur DGX Spark : BF16, NVFP4 et MTP comparés sur decode, TTFT, tails et limites pratiques pour agents locaux.
- 22-05-26 5 min0025 min
Les trois chiffres d'une DGX Spark rapide
Decode, prefill et queueing : trois chiffres décident si une DGX Spark semble rapide sous une vraie charge, et ce sont eux que la plupart des tests oublient.
- 03-05-26 15 min00315 min
Gemma-4 sur la DGX Spark : NVFP4 vs BF16
Neuf benchmarks identiques, deux précisions. NVFP4 est 22 à 92 pour cent plus rapide par token, et la capacité grimpe de 69 pour cent aux heures de pointe.
- 03-05-26 19 min00419 min
Nemotron-3 sur le DGX Spark : BF16 vs FP8 vs NVFP4
Un modèle, trois précisions, le même Spark. Ce que font budget mémoire, vitesse de decode et tail-latency quand tu passes de 16 à 8 puis 4 bits.
- 01-05-26 30 min00530 min
Gemma-4 sur le DGX Spark : le prix du contexte
Neuf benchmarks de Gemma-4-26B-A4B-it sur le DGX Spark avec llama-benchy et vLLM. Le decode tient ; le prefill et la file d'attente decident du ressenti.
- 01-05-26 8 min0068 min
J'ai mis un assistant 24/7 sur un Raspberry Pi
Un build-log sur OpenClaw sur un Raspberry Pi 5 : Slack comme interface, GPT-5.5 comme modèle, et le Pi comme couche agent always-on à côté du DGX Spark.
- 01-05-26 9 min0079 min
Ce que la quantization s'est révélée être
Retour pratique sur la quantization sur la DGX Spark : ce que BF16, FP8 et NVFP4 font à la mémoire, la vitesse et la tail-latency, après trois rounds avec vLLM.