引言:Ollama现支持苹果开源MLX机器学习框架,显著提升了在Apple Silicon Mac上本地运行大语言模型的性能。此次更新还改进了缓存性能,并支持Nvidia的NVFP4格式进行模型压缩,使本地AI模型的使用更加高效。随着开发者越来越多地寻求云端服务的替代方案,这一发展可谓恰逢其时。

Ollama是一款在本地计算机上运行大语言模型的运行时系统,现已支持苹果开源的MLX机器学习框架。此外,Ollama还改进了缓存性能,并支持Nvidia的NVFP4格式进行模型压缩,从而在某些模型中实现更高效的内存使用。
Apple Silicon Mac性能提升
综合来看,这些改进有望显著提升M1或更新版本Apple Silicon Mac的性能。正值本地模型开始在研究者和爱好者群体之外获得关注,此次更新来得正是时候。
MLX是苹果专门为Apple Silicon设计的机器学习框架,利用了这些芯片独特的统一内存架构优势。通过优化模型对统一内存的使用方式,MLX可以为本地模型推理带来显著的速度提升。
本地AI模型的兴起
OpenClaw的迅速走红让许多人在自己的机器上尝试运行模型。该项目在GitHub上迅速获得超过30万颗星,因Moltbook等实验而成为头条新闻,并在中国引发特别关注。
随着开发者对速率限制和高昂的高级订阅费用(如Claude Code或ChatGPT Codex)感到沮丧,本地编码模型的实验热潮不断升温。Ollama最近还扩展了Visual Studio Code集成,使开发者更易于在现有工作流程中使用本地模型。
Nvidia NVFP4格式支持
除MLX支持外,Ollama现在还支持Nvidia的NVFP4格式进行模型压缩。该格式可以在运行某些模型时实现更高效的内存使用,尤其是那些受益于较低精度数值表示的模型。通过降低内存需求,开发者可以在同一硬件上运行更大的模型或同时运行更多模型。
Apple Silicon的MLX优化与Nvidia GPU的NVFP4支持相结合,标志着在使本地AI模型运行更加实用和普及方面迈出了重要一步。
文章来源:网络
声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:sales@idmakers.cn删除,任何个人或组织,需要转载可以自行与原作者联系。
