Ohhnews

分类导航

$ cd ..
foojay原文

JC-AI 快讯第13期

#ai#研究#智能体#llm#mcp

两周过去了,是时候展示一组新的阅读材料了,它们可能会塑造 2026 年人工智能领域的发展、应用或理念。

尽管 AI 领域以活跃著称,但许多未解决的研究、设计和实施挑战仍在影响着进步。未来的进步在很大程度上取决于理解这些挑战的本质,以便从适当的方向应对概率性问题。本期 JC-AI 通讯收录了该领域关键人物的深度访谈,旨在帮助读者提出正确的问题,并将“不确定的未来”的愿景与当前能力进行比较,从而保持务实的视角。

文章: 具备序列计划反思与候选交叉的深度研究员 (Deep Researcher Reflect Evolve)

作者: Saurav Prateek

日期: 2026-01-28

描述: 本文介绍了 Deep Researcher,这是一种新颖的架构,它将范式从延迟优化的并行扩展转变为以准确性驱动的序列优化模型。在深度智能体 的发展中,主要考虑了两种范式:并行扩展和序列优化。Deep Researcher 智能在 Research Bench 上获得了 46.21 的总分,展示了优于现有智能体的性能,包括 Claude Researcher、Nvidia AIQ Research Assistant、Perplexity Research、Kimi Researcher 和 Grok Deep Search。虽然这些改进是可喜的,但该领域仍需进一步研究以解决剩余的挑战。

类别: 研究

文章: 预测市场中的操纵:基于智能体的建模实验

作者: Bridget Smart, Ebba Mark, Anne Bastian, Josefina Waugh (牛津大学)

日期: 2026-01-28

描述: 本文探讨了智能体系统在经济领域的应用及其对预测的影响。首先,本文评估了一个预测市场的基于智能体的模型,在该模型中,具有不同专业知识、带有噪声的私有信息、可变学习率和预算的投注者,观察公众对二元选举结果看法的演变,从而为他们在市场上的投注策略提供信息。该智能体系统在实验中表现出稳定性。第二个领域涉及关于“鲸鱼”智能体的实验,这是一类资源丰富且持有偏见信息的少数派,实验考察了它们如何扭曲市场价格以及这种扭曲持续的时间。本文讨论了关于偏见信息如何从长期角度改变市场的有趣模拟结果。

类别: 研究

文章: 超越准确性:绘制工具使用智能体能力边界的认知负荷框架

作者: Qihao Wang, Yue Hu, Mingzhe Lu, Jiayue Wu, Yanbing Liu, Yuanmin Tang

日期: 2026-01-28

描述: 尽管 LLM 使用外部工具的能力能够实现强大的现实应用,但当前的基准测试侧重于最终准确性,而不是揭示限制其真实能力的认知瓶颈。本文提出了一个基于认知负荷理论的框架,旨在将任务分解为两个部分:内在负荷和外在负荷。本文讨论了随着认知负荷增加而出现的性能不一致性,并展示了所提出的框架如何在检查示例中实现能力边界的识别。

类别: 研究

文章: 构建提示词学习循环 - SallyAnn DeLucia & Fuad Ali, Arize

作者: AI 工程师 Sally Ann Delucia, Fuad Alli (Arize)

日期: 2026-01-06

描述: 本次演讲旨在提供关于如何通过反馈循环来改善 LLM 响应的思路。重要的是,要结合当前关于 LLM 幻觉现象及其他因素的研究结果来看待本次演讲。记住当前研究结果的主要原因是避免陷入失败/错误的无限循环。

类别: YouTube

文章: 斯坦福 CS230 | 2025 年秋季 | 第 8 课:智能体、提示词与 RAG

作者: 斯坦福在线

日期: 2025-11-11

描述: 欲了解更多关于斯坦福人工智能专业和研究生课程的信息

类别: YouTube, 教程

文章: AI 编码智能体时代的开发者体验 -- Max Kanat-Alexander, Capital One

作者: AI 工程师 Max Kanat-Alexander

日期: 2025-12-23

描述: 感觉每隔两周,软件工程的世界就会被颠覆一次。有没有什么我们可以依赖的原则,无论发生什么,这些原则都将持续有效,并帮助我们为未来做好准备?Max 利用研究、数据以及他在企业开发者体验团队工作 20 多年的经验,探讨了我们现在可以做些什么来为智能体的未来做好准备,无论那个未来是什么样子。

类别: YouTube, 观点

文章: Token-Guard:通过自检解码实现令牌级幻觉控制

作者: Yifan Zhu, Huiqiang Rong, Haoran Luo

日期: 2026-01-29

描述: 幻觉是 LLM 领域公认的一种现象,它影响着检索增强生成 (RAG) 和奖励建模 (RM) 等应用。本文介绍了 Token-Guard,这是一种旨在令牌级别识别和控制幻觉的自检机制。实验证明了其改进效果。

类别: 研究

文章: 奖励模型从预训练中继承价值偏见

作者: Brian Christian, Jessica A. F. Thompson, Elle Michelle Yang, Vincent Adam, Hannah Rose Kirk 等 (牛津大学, 庞培法布拉大学)

日期: 2026-01-28

描述: 尽管奖励模型 (RM) 在 LLM 对齐中很重要,但对其研究仍然不足。本文提供了证据表明 RM 从其基础模型继承了偏见,这表明选择开源模型既是对性能的反映,也是对价值观的反映。本文讨论了实验的局限性,并提供了未来研究的方向。

类别: 研究

文章: Geoffrey Hinton 教授 - AI 与我们的未来

作者: 霍巴特市, Geoffrey Hinton

日期: 2026-01-08

描述: 被誉为“AI 教父”的 Geoffrey Hinton 教授将探讨人工智能——它的工作原理、它对社会构成的风险,以及我们如何与超级智能 AI 共存。适合商业领袖、创意人士、研究人员、教育工作者、学生以及任何对智能和社会未来感到好奇的人士。

类别: 观点

文章: 你的 MCP 服务器很糟糕(你应该感到羞愧) - Jeremiah Lowin, Prefect

作者: AI 工程师 Jeremiah Lowin

日期: 2026-01-12

描述: 太多的 MCP 服务器只是被美化的 REST 包装器,它们照搬了为 SDK 而非智能体设计的 API。这导致 LLM 产生困惑、浪费令牌,并且表现出明显的糟糕性能。如果你曾经将 MCP 生成器指向 OpenAPI 规范然后就以为大功告成,那么这次演讲就是给你的警钟。

类别: YouTube

文章: 前沿模型与 AI | Sam Altman, CEO & 联合创始人, OpenAI

作者: Cisco

日期: 2026-02-04

描述: 尽管 @OpenAI 的 CEO 兼联合创始人 Sam Altman 探讨了关于未来可能性和潜在发展的想法,但他在采访中被要求将他的愿景与当前的研究状态和现有的技术能力相协调。然而,采访并没有提供清晰的数据来证明 Codex 如何优于替代方案,或者“更好”在这个具体语境下意味着什么。对问题的回答在本质上可能显得是不确定的。采访在很大程度上依赖于关于“未定义的未来”的思考,而这需要一个确定性定义的基础。采访考察了前沿 AI 模型及其对经济、机构和全球系统的影响,这一点很有趣。

类别: 观点

文章: 如何构建安全且可扩展的远程 MCP 服务器

作者: Den Delimarsky (Microsoft)

日期: 2025-07-25

描述: 本教程提供了关于如何构建可靠的模型上下文协议 (MCP) 服务器的见解,使 AI 智能体能够连接到外部工具。它涵盖了几个关键领域,并为应对这一挑战提供了宝贵的资源和思路。

类别: 教程

本文 JC-AI Newsletter #13 首次发布于 foojay