On-prem AI.

lokale modellen, geen cloud

7 posts · ~1× per maand

DGX Spark, lokale modellen, en alles wat zonder cloud draait. Wat past in 128 GB, wat net niet, en welke quantisatie de moeite waard was.

Categorie

Alle Build-logs On-prem AI Field notes Reflecties

23-06-26 7 min

001 23-06-26

Gemma-4 v23 op de DGX Spark

Nieuwe vLLM v0.23.0-runs voor Gemma-4 op de DGX Spark: BF16, NVFP4 en MTP naast elkaar, met decode, TTFT, tails en praktische grenzen voor lokale agents.

7 min
22-05-26 5 min

002 22-05-26

De drie getallen achter een snelle DGX Spark

Decode, prefill en queueing: drie getallen bepalen of een DGX Spark snel voelt onder een echte workload, en juist die drie slaan de meeste reviews over.

5 min
03-05-26 13 min

003 03-05-26

Gemma-4 op de DGX Spark: NVFP4 vs BF16

Negen identieke benchmarks, twee precisies. NVFP4 is 22 tot 92 procent sneller per token, en de capaciteit groeit 69 procent op piekuren op de Spark.

13 min
03-05-26 17 min

004 03-05-26

Nemotron-3 op de DGX Spark: BF16 vs FP8 vs NVFP4

Eén model, drie precisies, dezelfde Spark. Wat geheugen-budget, decode-snelheid en tail-latency doen wanneer je van 16 bit naar 8 bit naar 4 bit gaat.

17 min
01-05-26 26 min

005 01-05-26

Gemma-4 op de DGX Spark: de prijs van context

Negen benchmarks van Gemma-4-26B-A4B-it op de DGX Spark met llama-benchy en vLLM. Decode houdt stand; prefill en queueing bepalen het gevoel.

26 min
01-05-26 7 min

006 01-05-26

Ik zette een 24/7 assistent op een Raspberry Pi

Een build-log over OpenClaw op een Raspberry Pi 5: Slack als interface, GPT-5.5 als model, en de Pi als always-on agent-laag naast de DGX Spark.

7 min
01-05-26 7 min

007 01-05-26

Wat quantization werd na drie benchmarkrondes

Een praktische terugblik op quantization op de DGX Spark: wat BF16, FP8 en NVFP4 doen met geheugen, snelheid en tail-latency, na drie benchmarkrondes met vLLM.

7 min