余小章 @ 大內殿堂

在 8GB VRAM 筆電讓 Claude Code 串接 Gemma 4 E4B：Ollama + LiteLLM 完整踩坑紀錄

303
0
Local Model

最近 Google 釋出了 Gemma 4 系列，其中 gemma4:e4b 是專為本機與一般電腦設計的版本，4.5B 有效參數，理論上筆電可以跑。我想說趁這個機會，把 Claude Code 的推論後端換成地端，省點 API token，結果跑得很累 XDD。最後發現「跑得起來」跟「能正常工作」是兩件完全不同的事。這篇就是把整個踩坑過程記下來，包含架構設計、VRAM 預算計算、為什麼一定要加 LiteLLM、以及 Claude Code 的 token 結構分析。

Claude Code
Gemma4
LiteLLM
Local Model
On-Prem

...繼續閱讀 »

Claude Code
Gemma4
LiteLLM
Local Model
On-Prem