Ollama支持MLX框架 Mac本地运行AI模型速度大幅提升 - 思为交互

You are currently viewing Ollama支持MLX框架 Mac本地运行AI模型速度大幅提升

Ollama支持MLX框架 Mac本地运行AI模型速度大幅提升

Post author:思为交互
Post published:2026年 4月 1日
Post category:热点新闻

引言：Ollama现支持苹果开源MLX机器学习框架，显著提升了在Apple Silicon Mac上本地运行大语言模型的性能。此次更新还改进了缓存性能，并支持Nvidia的NVFP4格式进行模型压缩，使本地AI模型的使用更加高效。随着开发者越来越多地寻求云端服务的替代方案，这一发展可谓恰逢其时。

Ollama支持MLX框架 Mac本地运行AI模型速度大幅提升

Ollama是一款在本地计算机上运行大语言模型的运行时系统，现已支持苹果开源的MLX机器学习框架。此外，Ollama还改进了缓存性能，并支持Nvidia的NVFP4格式进行模型压缩，从而在某些模型中实现更高效的内存使用。

Apple Silicon Mac性能提升

综合来看，这些改进有望显著提升M1或更新版本Apple Silicon Mac的性能。正值本地模型开始在研究者和爱好者群体之外获得关注，此次更新来得正是时候。

MLX是苹果专门为Apple Silicon设计的机器学习框架，利用了这些芯片独特的统一内存架构优势。通过优化模型对统一内存的使用方式，MLX可以为本地模型推理带来显著的速度提升。

本地AI模型的兴起

OpenClaw的迅速走红让许多人在自己的机器上尝试运行模型。该项目在GitHub上迅速获得超过30万颗星，因Moltbook等实验而成为头条新闻，并在中国引发特别关注。

随着开发者对速率限制和高昂的高级订阅费用（如Claude Code或ChatGPT Codex）感到沮丧，本地编码模型的实验热潮不断升温。Ollama最近还扩展了Visual Studio Code集成，使开发者更易于在现有工作流程中使用本地模型。

Nvidia NVFP4格式支持

除MLX支持外，Ollama现在还支持Nvidia的NVFP4格式进行模型压缩。该格式可以在运行某些模型时实现更高效的内存使用，尤其是那些受益于较低精度数值表示的模型。通过降低内存需求，开发者可以在同一硬件上运行更大的模型或同时运行更多模型。

Apple Silicon的MLX优化与Nvidia GPU的NVFP4支持相结合，标志着在使本地AI模型运行更加实用和普及方面迈出了重要一步。

文章来源：网络

思为交互

思为交互科技

思为交互科技是一家”从云到端”的新型物联网及工业4.0技术公司，可以为各类生产制造型企业提供从硬件到云端全套的解决方案。我公司Galileo OS数据基座融合AI大模型、数据中台、物联网等技术，推动制造业工厂数字化转型。从数字化车间到智能工厂，全面覆盖安全、生产、质量、设备管理等业务。

更多方案… 更多产品…

声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：sales@idmakers.cn删除，任何个人或组织，需要转载可以自行与原作者联系。

标签: AI技术, 人工智能, 半导体, 芯片

郑经理 13880801194
朱经理 19388757946
冯经理 17665189269

微信扫码关注

数字化咨询