IA on-prem.

modèles locaux, sans cloud

7 posts · ~1×/mois

DGX Spark, modèles locaux, et tout ce qui tourne sans le cloud. Ce qui tient dans 128 Go, ce qui ne tient pas, et quelle quantization valait le coup.

Catégorie

Tous Build logs IA on-prem Field notes Réflexions

23-06-26 7 min

001 23-06-26

Gemma-4 v23 sur le DGX Spark

Nouveaux runs vLLM v0.23.0 pour Gemma-4 sur DGX Spark : BF16, NVFP4 et MTP comparés sur decode, TTFT, tails et limites pratiques pour agents locaux.

7 min
22-05-26 5 min

002 22-05-26

Les trois chiffres d'une DGX Spark rapide

Decode, prefill et queueing : trois chiffres décident si une DGX Spark semble rapide sous une vraie charge, et ce sont eux que la plupart des tests oublient.

5 min
03-05-26 15 min

003 03-05-26

Gemma-4 sur la DGX Spark : NVFP4 vs BF16

Neuf benchmarks identiques, deux précisions. NVFP4 est 22 à 92 pour cent plus rapide par token, et la capacité grimpe de 69 pour cent aux heures de pointe.

15 min
03-05-26 19 min

004 03-05-26

Nemotron-3 sur le DGX Spark : BF16 vs FP8 vs NVFP4

Un modèle, trois précisions, le même Spark. Ce que font budget mémoire, vitesse de decode et tail-latency quand tu passes de 16 à 8 puis 4 bits.

19 min
01-05-26 30 min

005 01-05-26

Gemma-4 sur le DGX Spark : le prix du contexte

Neuf benchmarks de Gemma-4-26B-A4B-it sur le DGX Spark avec llama-benchy et vLLM. Le decode tient ; le prefill et la file d'attente decident du ressenti.

30 min
01-05-26 8 min

006 01-05-26

J'ai mis un assistant 24/7 sur un Raspberry Pi

Un build-log sur OpenClaw sur un Raspberry Pi 5 : Slack comme interface, GPT-5.5 comme modèle, et le Pi comme couche agent always-on à côté du DGX Spark.

8 min
01-05-26 9 min

007 01-05-26

Ce que la quantization s'est révélée être

Retour pratique sur la quantization sur la DGX Spark : ce que BF16, FP8 et NVFP4 font à la mémoire, la vitesse et la tail-latency, après trois rounds avec vLLM.

9 min