在 8GB VRAM 筆電讓 Claude Code 串接 Gemma 4 E4B:Ollama + LiteLLM 完整踩坑紀錄

最近 Google 釋出了 Gemma 4 系列,其中 gemma4:e4b 是專為本機與一般電腦設計的版本,4.5B 有效參數,理論上筆電可以跑。我想說趁這個機會,把 Claude Code 的推論後端換成地端,省點 API token,結果跑得很累 XDD。最後發現「跑得起來」跟「能正常工作」是兩件完全不同的事。這篇就是把整個踩坑過程記下來,包含架構設計、VRAM 預算計算、為什麼一定要加 LiteLLM、以及 Claude Code 的 token 結構分析。

...繼續閱讀 »