与DeepSeek-Prover-V1.5一致,DeepSeek-Prover-V2的两种生成模式由两个不同的引导提示控制。在第一阶段,DeepSeek团队在课程学习框架内使用专家迭代范式来训练非思维链证明模型,同时通过基于子目标的递归证明为难题合成证明。选择非思维链生成模式是为了加速迭代训练和数据收集过程,因为它提供了明显更快的推理和验证周期。在此基础上,第二阶段利用了通过将DeepSeek-V3复杂的数学推理模式与合成形式证明相结合而生成的冷启动链式思维链数据。CoT模式通过进一步的强化学习阶段得到增强,遵循推理模型常用的标准训练流程。
4月29日,阿里通义千问宣布推出Qwen系列大型语言模型的最新成员——Qwen3。阿里通义千问的旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。此外,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
Qwen3模型支持两种思考模式:思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。
微软和Meta最新财报双双超预期,云业务和AI成增长引擎。微软第三财季营收达到701亿美元,同比增长13%,净利润为258亿美元,同比增长18%。强劲的云业务是推动增长的关键引擎。微软的商业云(Commercial Cloud)总收入达到424亿美元,略高于市场预期的422亿美元,包含Azure云服务的智能云部门贡献了267.5亿美元的收入,同比增长约21%,超预期,Azure自身收入增长达到了33%。AI在Azure的增长中扮演了重要角色,本季度Azure增长中有16个百分点由AI服务贡献,这一数字略高于此前预期的15.6个百分点。Meta在2025年第一季度同样超预期,公司营收达到423.1亿美元,同比增长16%;净利润为166.4亿美元,同比大幅增长35%,合每股收益6.43美元,均超预期。在核心业务强劲势头的推动下,Meta正全力推进人工智能投资,显著提高了资本支出预期。公司将2025年的资本支出预测从原先的600亿-650亿美元上调至640亿-720亿美元。Meta在财报中明确指出,增加的投入是为了“支持人工智能(AI)计划而增加的数据中心投资,以及基础设施硬件预期成本的上升”。我们认为全球算力有望节后共振,微软和Meta的超预期表现给Ai需求打上强心针。
建议关注临床AI产品成功落地验证的嘉和美康(688246.SH)、以AI为核心的龙头厂商科大讯飞(002230.SZ)、芯片技术有望创新突破的寒武纪(688256.SH)、高速通信连接器业务或显著受益于GB200放量的鼎通科技(688668.SH)、已与Rokid等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、持续加码高速铜缆的泓淋电力(301439.SZ)、新能源业务高增并供货科尔摩根等全球电机巨头的唯科科技(301196.SZ)等。