头条新闻
OpenAI年收200亿美元验证Scaling Law,首款硬件或于2026登场
收入与算力同步狂飙。 OpenAI CFO公告显示,年化收入从20亿暴涨至200亿美元,与算力增长(9.5倍)呈现惊人同步。尽管烧钱无数,但公司坚持“智能创造价值”的商业Scaling Law。此外,高管透露首款AI硬件(即无屏智能笔)有望在2026年下半年发布。
蚂蚁谷歌强强联手:发布UCP协议,为万亿智能体制定“商业宪法”
打破AI商业的“巴别塔”。 双方共同推广通用商业协议(UCP),旨在让全球AI智能体拥有一套通用的“语言”来自主完成发现、比价和支付。这标志着互联网从“信息互联”向“行为互联”的范式转移,意在争夺未来智能体经济的底层话语权。
行业洞察
谷歌研究揭秘:DeepSeek推理时的“脑内多重人格互搏”
越吵越聪明。 研究发现DeepSeek-R1在处理复杂问题时,内部会自发分裂出“规划者”、“验证者”等虚拟人格进行辩论。通过稀疏自编码器解码发现,这种“对话式思维”是模型在强化学习中自发涌现的,显著提升了推理准确率。
警惕捷径!虚假奖励如何诱导大模型激活“第18-20层”记忆
背题而非推理。 研究揭示,在带有虚假奖励的强化学习中,模型并未真正学会推理,而是通过激活第18-20层的“记忆锚点”来检索训练集中的答案。这被称为“困惑度悖论”,为检测大模型数据污染提供了新的神经学证据。
技术硬核:从REINFORCE到GRPO,LLM强化学习演进史
优化核心难题。 深度解析传统RL算法如何适配LLM,重点解决“信用分配过粗”和“绝对优势方差大”两大痛点。文章详细推导了策略梯度,并对比了PPO、GRPO及REINFORCE++在Baseline处理上的不同策略。
新产品 & 工具
智谱GLM-4.7-Flash:适配苹果M5的高效能模型
采用DeepSeek同款MLA架构,30B参数仅激活3B,专为端侧和编程优化。
MiniMax Agent 2.0:把AI“实习生”招进电脑
桌面App打通本地与云端,配合Expert Agents(专家智能体),深度嵌入工作流。
阶跃星辰“小跃”:免费版Claude Cowork
支持屏幕感知、本地文件整理与MCP工具调用,打造“所见即所问”的桌面自动化体验。
超参数COTA:首个思维链可视化的游戏Agent
双系统架构(快执行+慢思考),在FPS游戏中实现职业级操作,推理过程全程透明。
场景应用
新报告
赛迪智库:2026年我国未来产业发展形势展望
报告预测2026年将是未来产业从技术突破走向产业化落地的关键年。重点关注未来健康(AI制药)、未来空间(空天信息)及未来材料。融合化与智能化成为核心驱动力,且资本投入与风险分担机制将迎来变革。