香港二樓書店 > 塞爆 128G GPU 記憶體，Nvidia DGX Spark，影音圖生成、微調、預訓練 Agent 全面玩透

序言

　　2024 年底，我在 NVIDIA 的發表會上第一次看到 DGX Spark 的實機。一台比鞋盒大不多少的機器，裡面塞著 Grace Blackwell 超級晶片和 128 GB 統一

記憶體。當時我心裡想的是：如果這東西放在我書桌上，我還需要雲端 GPU 嗎？

答案是，大部分情況下不需要了。

過去三年，AI 的發展速度讓所有人都措手不及。GPT-4 證明了大型語言模型的能力，Stable Diffusion 讓每個人都能生成圖片，Sora 和 Wan 把影片生成從科幻變成現實。但這些技術有一個共同的門檻：你需要一張夠大的 GPU。消費級顯示卡的 24 GB 記憶體，連一個 70B 的模型都塞不下。想跑 120B ？請上雲端，按小時計費。

DGX Spark 改變了這個局面。128 GB 的統一記憶體，不是 CPU 和 GPU 各自獨立的 128 GB，而是兩者共享的同一塊記憶體。這代表一個 120B 參數的語言模型可以完整載入，不需要做模型分片、不需要量化到面目全非、不需要把一半權重放在 CPU 上慢慢搬。Blackwell 架構的 NVFP4 量化更是把可用的模型範圍再往上推了一個等級。

這 128 GB 帶來的不只是「能跑更大的模型」這麼簡單。它讓一整類過去只存在於資料中心的工作流程，變成你在書桌上就能完成的事：用 Ollama 跑 Qwen3.5 122B 和人對話，回答品質不輸雲端 API。用ComfyUI 跑 FLUX 12B 生成圖片，再用 Wan 2.2 14B 生成影片，全部在本機完成。用 Unsloth 微調一個 8B 模型，從準備資料到推論測試不到一小時。

用 vLLM 部署推論服務，PagedAttention 讓多人同時使用也不會爆記憶體。用RAPIDS cuDF 處理 8 GB 的資料集，速度比 pandas 快幾十倍。甚至可以從零開始預訓練一個小型語言模型，看著 loss 曲線一路往下掉。

兩台 DGX Spark 用一條 QSFP 傳輸線直連，就有 256 GB 和 200Gbps 的節點間頻寬。這足以跑 235B 參數的模型做分散式推論，而整個「叢集」就放在你書桌上，功耗不到 500W。

這本書記錄了我在 DGX Spark 上實際操作的每一個步驟。從第 5 章開始，所有操作都透過 Claude Code 完成，不手動編輯設定檔、不手動下載模型、不手動寫 Docker Compose。你告訴 Claude Code 你要做什麼，它幫你搞定。這不是偷懶，而是 2026 年寫程式和部署 AI 服務的正確方式。

NVIDIA 為 DGX Spark 提供了完整的官方 Playbook，涵蓋從系統設定到多機互連的所有操作。本書的 25 章完整覆蓋了每一個 Playbook，並且加入了大量實測截圖和效能數據。如果你拿到一台 DGX Spark，翻開這本書，從頭到尾跟著做，就能把這台機器的每一分能力都發揮出來。

最後要感謝的是 AI 本身。這本書的寫作過程大量使用了 Claude Code，從章節規劃、內容撰寫、程式碼測試到截圖生成，都有 AI 的參與。這不是為了炫技，而是親身示範本書的核心主張：AI 不是取代人，而是讓人能做到原本做不到的事。一個人加上一台 DGX Spark 加上 Claude Code，就能完成過去需要一整個團隊才能處理的工作量。

這就是 128 GB 放在桌上的意義。

?

Josh Hu

2026 年 4 月，台北