Codex 成为 JetBrains IDE 默认 AI 编程代理
JetBrains AI 支持多种代码代理,包括 Junie、Codex、Claude Agent,以及任何你自行引入的 ACP 兼容代理。此前,JetBrains IDE 中的 AI 用户默认从聊天模式开始,需要自行选择代理。
随着模型变得越来越先进,代理的能力也日益增强,其采用率也随之增长。我们认识到代理能帮助用户完成更多工作,因此建议用户从一开始就使用代理。
为了简化这一体验,我们选择了一个特定的代理作为默认选项。本文阐述了我们的选择依据。
你随时可以切换到任何其他代理。
基于实际开发任务的评估
我们使用一个基于真实软件工程任务构建的基准数据集来评估候选代理,这些任务涵盖三个生态系统:Java(225 个任务)、C#(38 个任务)和 Python(90 个任务)。
每个任务都基于真实的代码库,包含描述所需操作的提示和验证结果的自动化测试。这些任务共同涵盖了错误修复、功能开发、增强以及其他在真实应用、库、框架和开发者工具中常见的开发任务。
用于选择推荐代理的数据点可在 Developer Productivity AI Arena (DPAIA) 仓库 中获取 —— 这是 JetBrains 用于评估 AI 编码工具的开放基准,确保评估可复现。C# 数据集是内部的,不对外公开。
Java 数据集是我们的主要评估集,它是三个集中规模最大的,涵盖来自五个组织的 17 个仓库,覆盖了广泛的任务类型。
C# 和 Python 数据集产生了相似的候选代理总体排名,这让我们更有信心结果并非特定于单一生态系统。
我们的方法
我们在相同模型层级内比较候选代理。我们的目标不是寻找最强大的模型,而是在相似的模型能力和成本下找到最佳的代理行为。我们预估了代理使用成本,考虑了 JetBrains AI 的 token 用量。在根据质量和延迟对候选代理进行排名之前,我们排除了那些会导致超过 2% 的用户每月花费超过 20 美元的配置。
在选择推荐哪个代理时,我们聚焦于三个问题:
- 它能处理任务吗? → 这里我们通过解决率来衡量:基准任务中所有测试通过的比例。
- 成本合理吗? → 我们考察每个任务的中位成本。
- 速度够快吗? → 我们考察端到端的中位延迟。
这三个指标(解决率、成本和延迟)构成了我们排名的基础。我们还跟踪了其他信号,包括编译成功率和平均工具调用次数,但这些并未对结果产生实质影响。
除了离线基准测试,我们还进行了在线 A/B 测试,由真实用户参与。该实验作为验证层,帮助我们了解离线结果是否能转化为实际使用。由于在大规模场景下很难可靠地衡量任务成功与否,我们关注的是行为信号,如参与度以及用户切换到其他代理或返回聊天的频率。在线结果与离线基准测试一致,这让我们对选择更加有信心。
候选配置
我们测试了 JetBrains AI 提供的代理(Codex、Junie 和 Claude Agent)在多种模型配置下的表现。候选配置基于先前的基准测试和内部评估进行筛选;我们专注于每个代理模型家族中最有前景的选项,而非测试每一种可能的设置。最终,Codex 和 Junie 进入候选名单。
Codex —— 我们最初在 GPT-5.2 和 GPT-5.3 之间进行了初步扫描。当 GPT-5.4 mini 可用时,它在解决率和成本两方面都超越了之前的顶级表现者,使得模型选择变得直接。剩下的问题是推理级别:中等还是低等。GPT-5.4 mini 采用默认的中等推理级别,在三个生态系统中均以合理的成本获得了最佳解决率,因此被选中进入最终评估。
Codex 候选名单——GPT-5.4-mini 对比
中等推理在 Java、C# 和 Python 中解决了更多任务。低等推理更便宜且通常更快,但其成本和延迟优势不足以弥补解决率的明显下降。因此我们选择了中等推理。
所有——跨生态系统的加权平均值
Java——突出显示指标领先者
C#——突出显示指标领先者
Python——突出显示指标领先者
Junie —— Junie 可以使用不同的模型提供商。我们评估了 Gemini 模型系列,这是基于 Junie 团队自身的基准预选出的最有前景的选项。Gemini 3 Flash 被选为优胜模型。
Junie 候选名单——Gemini 模型对比
Gemini 3 Flash 拥有更强的解决率;Gemini 3.1 Flash Lite 则始终更便宜、更快。
所有——跨生态系统的加权平均值
Java——突出显示指标领先者
C#——突出显示指标领先者
Python——突出显示指标领先者
最终对决:Junie vs Codex
离线结果本身难分高下。没有一个代理在所有指标和生态系统中占据绝对优势。我们将两者纳入在线 A/B 测试,以观察哪个在实际使用中表现更佳。我们跟踪了激活率、流失率和失败率。Codex 胜出,这最终决定了我们的选择。
最终候选对比——Codex 与 Junie 跨生态系统
最终候选名单对比了采用 GPT-5.4-mini 中等推理的 Codex 和采用 Gemini 3 Flash 的 Junie。
所有——跨生态系统的加权平均值
Java——突出显示指标领先者
C#——突出显示指标领先者
Python——突出显示指标领先者
推荐代理的未来
现在 Codex 被推荐为默认代理,因为它在我们测试的任务中实现了解决率和成本的最佳组合。然而,这并非永久决定。随着模型的演进、新代理的加入以及我们基准测试覆盖范围的扩大,我们将重新评估这一决定,并根据数据更新推荐。
如果其他代理更适合你的工作流程,你随时可以切换。我们的推荐是一个起点,而非约束。