Mellum2 正式开源：专为 AI 工作流打造的高效模型

从头训练，专为实际部署设计——Mellum2 专注于路由、问答、子代理及软件工程系统中的私有 AI 应用。

今天，我们正式开源 Mellum2——一个 12B 参数的模型，专为解决生产级 AI 中最棘手的挑战（延迟、吞吐量和成本）而打造。该模型从头训练，基于 Apache 2.0 许可证发布，Mellum2 为您的基础设施提供高性能、高性价比的替代方案。

Mellum 始于代码补全；如今我们将其演进为同时处理自然语言和代码的能力。现在的 Mellum 是一款多功能工具，随时准备为您的现代 AI 工作流提供路由、摘要和中间推理步骤支持。

无论您是想实验、微调还是大规模部署，Mellum2 都能在您自己的系统中直接运行。

架构与性能

Mellum2 通过其架构设计和专注的效率驱动方法，专为解决生产规模系统的瓶颈而生。

混合专家模型（MoE）设计：模型总参数量为 12B，但由于采用 MoE 设计，每个 token 仅激活 2.5B 参数。这降低了计算成本，同时实现了高吞吐、低延迟的推理，满足实时工作负载需求。
专注的定位：与许多现代模型不同，Mellum2 并非多模态模型。它专门针对自然语言和代码数据进行训练。这种专业化确保了它在软件工程环境中的卓越表现，同时保持模型精简和快速。

在我们的技术报告中，我们详细展示了模型在代码生成、科学、数学和推理基准测试中的表现。Mellum2 与同等规模的模型相比具有竞争力，同时将推理时间削减至不到一半——这是生产级部署的决定性优势。 [LOADING...]

路由和编排 AI 工作负载：使用 Mellum2 分析输入提示，帮助为每项任务选择正确的模型或工具。
构建低延迟 RAG 流水线：检索相关上下文，使用 Mellum2 进行摘要，并即时生成响应。
在复杂工作流中驱动快速的子代理：将代理流水线分解为上下文收集、规划和验证等步骤。使用 Mellum2 完成快速、专业化的任务，而不是依赖单一的大型模型。
启用私有的本地 AI 部署：在本地运行 Mellum2 或自行托管，将代码和数据完全置于您的控制之下。

随着 AI 系统变得越来越复杂，性能瓶颈从原始能力转向延迟、吞吐量和规模成本。并非每项任务都需要最大的模型。现代 AI 系统中的许多步骤是重复的、对延迟敏感且高频率的。这些步骤需要一个快速可靠的模型，并且能够高效地路由、托管和控制。

在 JetBrains，我们相信未来属于协作的系统，而不是单一模型。前沿模型将继续突破极限，但实际的 AI 产品还需要焦点模型：快速、专业化的组件，能够高效处理高频任务。

这正是我们在下一代 AI 软件工具中为 Mellum2 设想的角色。

如果您正在为软件工程构建 AI 系统——无论是在 IDE 中、RAG 流水线中、作为代理工作流的一部分，还是完全在您自己的基础设施上——我们希望您尝试 Mellum2。

开源是打造更好工具的途径。