谷歌 Gemini 3 Deep Think 深度思考版上线
推理能力碾压GPT-5.1,并行思考机制成关键,但高昂定价引争议。
Google 正式推出 Gemini 3 Deep Think,该模型在 ARC-AGI-2 等“圣杯”级基准测试中准确率达 45.1%,远超 GPT-5.1 的 17.6%。它支持并行推理,能同时探索多重假设。然而,其仅向 Ultra 会员开放的策略被吐槽“吃相难看”,与此同时,开源界的 DeepSeek 正凭借极高性价比步步紧逼。
Gemini 3 Deep Think 在高阶推理任务中展现出统治级表现
推理能力碾压GPT-5.1,并行思考机制成关键,但高昂定价引争议。
Google 正式推出 Gemini 3 Deep Think,该模型在 ARC-AGI-2 等“圣杯”级基准测试中准确率达 45.1%,远超 GPT-5.1 的 17.6%。它支持并行推理,能同时探索多重假设。然而,其仅向 Ultra 会员开放的策略被吐槽“吃相难看”,与此同时,开源界的 DeepSeek 正凭借极高性价比步步紧逼。
开盘市值破3000亿,全功能GPU生态从图形渲染全面转向AI智算。
摩尔线程仅用88天过会,创科创板最快纪录,上市首日市值突破 2800 亿元。作为“中国版英伟达”,其核心团队拥有深厚技术背景,基于自研 MUSA 架构实现了图形与 AI 计算的统一。招股书显示,公司营收结构已发生根本转变,AI 智算产品占比飙升至 94.85%,标志着国产算力商业化进入关键期。
彻底打破视觉与语言界限,仅用1/10数据追平旗舰模型。
针对传统模块化拼接架构的弊端,商汤与南洋理工等团队推出了全球首个开源原生多模态架构 NEO。通过原生图块嵌入和三维旋转位置编码等技术,NEO 摒弃了离散 Tokenizer,直接从像素构建视觉表征。这一“降维打击”证明了架构创新优于单纯的规模堆砌,为下一代通用多模态大脑指明了方向。
清华姚班校友领衔,对抗式双智能体架构解决复杂工程难题。
由前字节跳动技术负责人创立的词元无限团队推出 InfCode,在权威基准 SWE-Bench Verified 中刷新 SOTA。不同于简单的代码补全,InfCode 具备“代码意图分析”能力,能精准定位深层 Bug,并通过对抗式生成与筛选机制,显著提升了在 C++ 等复杂系统级语言中的修复成功率,定义了 AI 编程的“工程时代”。
将链式思考(CoT)引入四足机器人,解决语义与控制断层。
北大团队提出 MobileVLA-R1,打破了传统 VLA 模型“看图直接给动作”的黑盒模式。该模型让机器人在执行指令前先生成一段可解释的链式推理(如“先右转避开障碍,再直行”),有效提升了导航成功率。在真实环境测试中,其在复杂长指令理解与执行上全面超越了 GPT-4o 等基线模型。