最近 Google 釋出了 Gemma 4 系列,其中 gemma4:e4b 是專為本機與一般電腦設計的版本,4.5B 有效參數,理論上筆電可以跑。我想說趁這個機會,把 Claude Code 的推論後端換成地端,省點 API token,結果跑得很累 XDD。最後發現「跑得起來」跟「能正常工作」是兩件完全不同的事。這篇就是把整個踩坑過程記下來,包含架構設計、VRAM 預算計算、為什麼一定要加 LiteLLM、以及 Claude Code 的 token 結構分析。

最近 Google 釋出了 Gemma 4 系列,其中 gemma4:e4b 是專為本機與一般電腦設計的版本,4.5B 有效參數,理論上筆電可以跑。我想說趁這個機會,把 Claude Code 的推論後端換成地端,省點 API token,結果跑得很累 XDD。最後發現「跑得起來」跟「能正常工作」是兩件完全不同的事。這篇就是把整個踩坑過程記下來,包含架構設計、VRAM 預算計算、為什麼一定要加 LiteLLM、以及 Claude Code 的 token 結構分析。

發現社群開源的 Claude Code Router(CCR),它可以在 Claude Code 的介面下,透過設定檔把請求路由到不同的 LLM 提供商,例如 OpenRouter、DeepSeek、Ollama、Gemini 等。
這篇記錄我用 CCR + OpenRouter 串接多家模型的過程與心得。

上篇使用 Spec Workflow 需求 → 設計 → 任務 → 實作,這樣的開發流程 SDD(Spec-Driven Development)深得我心,這次來試試 Claude Code PM(CCPM),看看是否能滿足我的開發流程?

往往我們在使用 AI 助手時,都期望隨面丟一句話就期望 AI 能給你完整的答案,但其實我們都要花時間在調整 AI 給出來的答案,Spec Workflow MCP 讓 Claude Code 遵守軟體工程的路徑:需求分析 → 架構設計 → 任務分解 → 實現程式碼的工作流工具,目的是在引導 AI 系統化地完成軟體開發,確保程式碼與業務需求的一致性。
另外一個是 Bug Fix Workflow,這個功能的流程:報告 → 修復 → 驗證,目的是在引導 AI 分析根本原因,修正它,並驗證結果,讓修復流程更有效率。
