Mellum2 正式开源:专为 AI 工作流打造的高效模型
从头训练,专为实际部署设计——Mellum2 专注于路由、问答、子代理及软件工程系统中的私有 AI 应用。
今天,我们正式开源 Mellum2——一个 12B 参数的模型,专为解决生产级 AI 中最棘手的挑战(延迟、吞吐量和成本)而打造。该模型从头训练,基于 Apache 2.0 许可证发布,Mellum2 为您的基础设施提供高性能、高性价比的替代方案。
Mellum 始于代码补全;如今我们将其演进为同时处理自然语言和代码的能力。现在的 Mellum 是一款多功能工具,随时准备为您的现代 AI 工作流提供路由、摘要和中间推理步骤支持。
无论您是想实验、微调还是大规模部署,Mellum2 都能在您自己的系统中直接运行。
架构与性能
Mellum2 通过其架构设计和专注的效率驱动方法,专为解决生产规模系统的瓶颈而生。
- 混合专家模型(MoE)设计:模型总参数量为 12B,但由于采用 MoE 设计,每个 token 仅激活 2.5B 参数。这降低了计算成本,同时实现了高吞吐、低延迟的推理,满足实时工作负载需求。
- 专注的定位:与许多现代模型不同,Mellum2 并非多模态模型。它专门针对自然语言和代码数据进行训练。这种专业化确保了它在软件工程环境中的卓越表现,同时保持模型精简和快速。
[LOADING...]
[LOADING...]
[LOADING...]
[LOADING...]
[LOADING...]
[LOADING...]
[LOADING...]
[LOADING...]
[LOADING...]
在我们的技术报告中,我们详细展示了模型在代码生成、科学、数学和推理基准测试中的表现。Mellum2 与同等规模的模型相比具有竞争力,同时将推理时间削减至不到一半——这是生产级部署的决定性优势。 [LOADING...]
Mellum2 的关键用例
- 路由和编排 AI 工作负载:使用 Mellum2 分析输入提示,帮助为每项任务选择正确的模型或工具。
- 构建低延迟 RAG 流水线:检索相关上下文,使用 Mellum2 进行摘要,并即时生成响应。
- 在复杂工作流中驱动快速的子代理:将代理流水线分解为上下文收集、规划和验证等步骤。使用 Mellum2 完成快速、专业化的任务,而不是依赖单一的大型模型。
- 启用私有的本地 AI 部署:在本地运行 Mellum2 或自行托管,将代码和数据完全置于您的控制之下。
"焦点模型"理念:为什么专注的模型能更好地扩展
随着 AI 系统变得越来越复杂,性能瓶颈从原始能力转向延迟、吞吐量和规模成本。并非每项任务都需要最大的模型。现代 AI 系统中的许多步骤是重复的、对延迟敏感且高频率的。这些步骤需要一个快速可靠的模型,并且能够高效地路由、托管和控制。
在 JetBrains,我们相信未来属于协作的系统,而不是单一模型。前沿模型将继续突破极限,但实际的 AI 产品还需要焦点模型:快速、专业化的组件,能够高效处理高频任务。
这正是我们在下一代 AI 软件工具中为 Mellum2 设想的角色。
开始使用 Mellum2
如果您正在为软件工程构建 AI 系统——无论是在 IDE 中、RAG 流水线中、作为代理工作流的一部分,还是完全在您自己的基础设施上——我们希望您尝试 Mellum2。
开源是打造更好工具的途径。