On-prem AI.
lokale modellen, geen cloud
DGX Spark, lokale modellen, en alles wat zonder cloud draait. Wat past in 128 GB, wat net niet, en welke quantisatie de moeite waard was.
- 23-06-26 7 min0017 min
Gemma-4 v23 op de DGX Spark
Nieuwe vLLM v0.23.0-runs voor Gemma-4 op de DGX Spark: BF16, NVFP4 en MTP naast elkaar, met decode, TTFT, tails en praktische grenzen voor lokale agents.
- 22-05-26 5 min0025 min
De drie getallen achter een snelle DGX Spark
Decode, prefill en queueing: drie getallen bepalen of een DGX Spark snel voelt onder een echte workload, en juist die drie slaan de meeste reviews over.
- 03-05-26 13 min00313 min
Gemma-4 op de DGX Spark: NVFP4 vs BF16
Negen identieke benchmarks, twee precisies. NVFP4 is 22 tot 92 procent sneller per token, en de capaciteit groeit 69 procent op piekuren op de Spark.
- 03-05-26 17 min00417 min
Nemotron-3 op de DGX Spark: BF16 vs FP8 vs NVFP4
Eén model, drie precisies, dezelfde Spark. Wat geheugen-budget, decode-snelheid en tail-latency doen wanneer je van 16 bit naar 8 bit naar 4 bit gaat.
- 01-05-26 26 min00526 min
Gemma-4 op de DGX Spark: de prijs van context
Negen benchmarks van Gemma-4-26B-A4B-it op de DGX Spark met llama-benchy en vLLM. Decode houdt stand; prefill en queueing bepalen het gevoel.
- 01-05-26 7 min0067 min
Ik zette een 24/7 assistent op een Raspberry Pi
Een build-log over OpenClaw op een Raspberry Pi 5: Slack als interface, GPT-5.5 als model, en de Pi als always-on agent-laag naast de DGX Spark.
- 01-05-26 7 min0077 min
Wat quantization werd na drie benchmarkrondes
Een praktische terugblik op quantization op de DGX Spark: wat BF16, FP8 en NVFP4 doen met geheugen, snelheid en tail-latency, na drie benchmarkrondes met vLLM.