📱 按设备推荐配置
📱 手机端(iPhone 17 Pro / 高端安卓)
12GB 统一内存 · A19 Pro / 骁龙旗舰 · Neural Engine 加持
✅ 推荐:E4B Q4(~5GB)或 E2B Q8(~5GB)
支持:文字 + 图片 + 音频 + 视频多模态输入
💻 Mac M4 / M5(32GB 统一内存)
统一内存架构 · 约 120-150 GB/s 带宽 · 超低功耗
✅ 推荐:26B A4B Q4(~18GB)
速度约 30-50 t/s,支持 256K 超长上下文
🖥️ Win + RTX 4080 Super(16GB VRAM)
16GB GDDR6X · 736 GB/s 带宽 · 32GB 系统内存
✅ 推荐:26B A4B Q4(溢出约 2GB 到内存)约 40-50 t/s
✅ 也可跑:Qwen3-14B Q8(完全在 VRAM 内,极速)
🚀 Win + RTX 4090(24GB VRAM)推荐升级
24GB GDDR6X · ~1008 GB/s 带宽 · 顶级本地推理
✅ 推荐:31B Q4(全速,约 80-120 t/s)
✅ 26B A4B Q8(完整精度,约 60-80 t/s)
可跑任意 70B 以下模型
🏆 Mac M5 Pro(64GB 统一内存)2026年6月发布
64GB 统一内存 · 预计 ~200 GB/s 带宽 · macOS 生态
✅ 推荐:31B Q8(高精度,约 40-60 t/s)
✅ 还可跑:Qwen3-30B、Llama 3.3 70B Q4
256K 超长上下文不成问题
🚀 5 分钟跑起来(Ollama)
brew install ollama
ollama run gemma4:e4b
ollama run gemma4:26b-a4b
ollama run gemma4:31b
ollama run qwen3:14b
💡 骚操作:Win 电脑跑 Ollama 开启远程访问,Mac / 手机通过局域网调用,实现"Win 当 GPU 服务器,Mac/手机当客户端"的家庭 AI 局域网。