从DeepSeek“上新”看AI演进大模型将成“全能管家”？

12-02 19:45 星期二

科创板日报记者黄心怡

《科创板日报》12月2日讯（记者黄心怡）12月1日晚间，DeepSeek一口气发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型。

《科创板日报》记者注意到，此次新发布的DeepSeek-V3.2系列模型，主要强在推理能力的提升。

在Benchmark推理测试中，V3.2与GPT5、Claude  4.5在不同领域各有高低，只有Gemini 3 Pro对比前三者均有较明显优势。

而与月之暗面新发布的Kimi-K2-Thinking相比，V3.2的输出长度大幅降低，显著减少了计算开销与用户等待时间。

对于这次DeepSeek新模型的发布，IDC中国研究总监卢言霞向《科创板日报》记者认为，其将推理能力融入到既有大模型，使得大语言模型、多模态大模型本身就具备推理能力，这也是未来的发展方向，会让模型推理更快，以解决之前纯推理模型速度慢的问题。

快思慢想研究院院长、特邀评论员田丰则向《科创板日报》记者称， DeepSeek新模型降低了推理成本，通过稀疏注意力机制，使128K长上下文推理成本降低数倍，内存占用减少70%。

与此同时，DeepSeek作为开源模型在某些领域实现对闭源模型的反超，通过RL强化学习投入超过预训练投入，以规模化投入强化学习创新路径，直接推动模型在数学推理（IMO金牌）、编程（ICPC世界第二）等硬核任务中达到GPT-5水平。

此外，DeepSeek V3.2模型从“工具调用”迈向“思考型智能体”，实现“文武兼优”。V3.2版本引入“思考保留”模式，支持将工具调用嵌入完整的推理链条中，从而有效规避传统智能体常见的“记忆断裂”问题。比如，面对多步骤复杂任务时，模型能够基于历史工具执行结果持续优化决策，而无需重启推理流程。

技术报告显示，在智能体评测中，V3.2得分高于同为开源的Kimi-K2-Thinking和MiniMax M2。

不过， DeepSeek也承认，与Gemini3 Pro等前沿闭源模型相比，自家模型仍存在一定的局限性。首先，V3.2的世界知识广度仍落后于领先的专有模型，其次在令牌（Token）效率方面，V3.2通常需要更多的令牌才能达到像Gemini3 Pro这样的模型输出质量。在解决复杂任务方面也不如前沿模型。

DeepSeek方面称，团队计划在未来通过增加预训练计算量来填补知识空白，并专注于优化模型推理链的智能密度以提高效率，进一步改进基础模型和训练后方案。

一位AI智能体业内人士在实测后向《科创板日报》记者表示，DeepSeek的多智能体效果优于国内其他模型，而低于谷歌Gemini。

对于DeepSeek近期的新模型都在发力智能体，卢言霞认为，未来的大模型就是智能体平台，这是必然趋势。

“大模型衍生出来的智能体，将首先在部分垂直应用场景落地。然而，要构建系统级的智能体，仍要克服数据、硬件、知识融合与外部生态协同等多重挑战。展望未来，专用的智能体开发平台将应运而生。一个明确的趋势是，基础大模型能力将越来越延伸，进化为可自主行动的智能体。”

从智能体的发展方向上来看，田丰表示，目前在深度思考、调用工具两类发展方向上渐趋融合，同时解决长记忆能力、复杂任务规划能力。

此外，服务执行正在取代信息搜索。田丰表示，初级智能体只能查询信息、缺少执行能力，而以千问app、豆包AI、 DeepSeek等为代表的智能体，则能将购物、支付、物流、社交、娱乐等综合O2O服务融为一体，即是百事通，又是“全能管家”。

田丰还看好智能体解决行业专有问题。“法律、财会、医疗、制造、能源、政务、教育等智能体将成为刚需，万金油不如一招鲜，用户会对解决工作生活刚需的专用智能体更有兴趣，通过通用智能体调用专用智能体也成为一篮子协同模式。”

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。