跳到主要内容

Rapid-MLX_raullenchai

Rapid-MLX GitHub Repo stars

Rapid-MLX 是一个面向 Apple Silicon Mac(M1/M2/M3/M4)的本地 AI 推理与服务框架,核心功能是让用户在本机高速运行大模型,并以 OpenAI 兼容 API(/v1)对外提供服务,无需云端和 API 费用。

主要能力包括:

  • 本地模型部署与推理:支持大量文本/代码/推理模型(含 MoE、大上下文模型),提供模型别名与按内存分级推荐。
  • 高性能优化:基于 MLX + Metal,主打高吞吐与低首字延迟;提供 KV 缓存、DeltaNet 状态快照、推测解码(DFlash/SuffixDecoding)、缓存量化等加速能力。
  • 工具调用(Tool Calling):完整 OpenAI 风格工具调用,内置 17 种解析器,并支持量化模型输出异常时的自动恢复。
  • 推理内容分离:对支持思维链的模型,将 reasoning 与最终回答分字段输出。
  • 多模态扩展:可选支持视觉、音频(TTS/STT)、视频理解与 embeddings。
  • 智能云路由:超长上下文请求可按阈值自动切换到云模型。
  • 广泛生态兼容:可直接对接 Cursor、Continue、LangChain、PydanticAI、Aider、Open WebUI、Claude/OpenAI 兼容客户端等。
  • 工程与可维护性:提供 doctor 自检、丰富 CLI、3200+ 测试、基准测试与回归测试体系。
  • 隐私与遥测:遥测默认关闭,仅在用户显式开启后上传匿名统计,不采集提示词与生成内容。