AI科技日报

2026/01/21

OpenAI收入破200亿 | 智能体商业宪法诞生

头条新闻

OpenAI年收200亿美元验证Scaling Law,首款硬件或于2026登场

商业模式 硬件

收入与算力同步狂飙。 OpenAI CFO公告显示,年化收入从20亿暴涨至200亿美元,与算力增长(9.5倍)呈现惊人同步。尽管烧钱无数,但公司坚持“智能创造价值”的商业Scaling Law。此外,高管透露首款AI硬件(即无屏智能笔)有望在2026年下半年发布。

蚂蚁谷歌强强联手:发布UCP协议,为万亿智能体制定“商业宪法”

行业标准 Agent Commerce

打破AI商业的“巴别塔”。 双方共同推广通用商业协议(UCP),旨在让全球AI智能体拥有一套通用的“语言”来自主完成发现、比价和支付。这标志着互联网从“信息互联”向“行为互联”的范式转移,意在争夺未来智能体经济的底层话语权。


行业洞察

谷歌研究揭秘:DeepSeek推理时的“脑内多重人格互搏”

越吵越聪明。 研究发现DeepSeek-R1在处理复杂问题时,内部会自发分裂出“规划者”、“验证者”等虚拟人格进行辩论。通过稀疏自编码器解码发现,这种“对话式思维”是模型在强化学习中自发涌现的,显著提升了推理准确率。

警惕捷径!虚假奖励如何诱导大模型激活“第18-20层”记忆

背题而非推理。 研究揭示,在带有虚假奖励的强化学习中,模型并未真正学会推理,而是通过激活第18-20层的“记忆锚点”来检索训练集中的答案。这被称为“困惑度悖论”,为检测大模型数据污染提供了新的神经学证据。

技术硬核:从REINFORCE到GRPO,LLM强化学习演进史

优化核心难题。 深度解析传统RL算法如何适配LLM,重点解决“信用分配过粗”和“绝对优势方差大”两大痛点。文章详细推导了策略梯度,并对比了PPO、GRPO及REINFORCE++在Baseline处理上的不同策略。


新产品 & 工具

智谱GLM-4.7-Flash:适配苹果M5的高效能模型

采用DeepSeek同款MLA架构,30B参数仅激活3B,专为端侧和编程优化。

Model

MiniMax Agent 2.0:把AI“实习生”招进电脑

桌面App打通本地与云端,配合Expert Agents(专家智能体),深度嵌入工作流。

Agent

阶跃星辰“小跃”:免费版Claude Cowork

支持屏幕感知、本地文件整理与MCP工具调用,打造“所见即所问”的桌面自动化体验。

Tool

超参数COTA:首个思维链可视化的游戏Agent

双系统架构(快执行+慢思考),在FPS游戏中实现职业级操作,推理过程全程透明。

Game AI

场景应用

新报告

赛迪智库:2026年我国未来产业发展形势展望

报告预测2026年将是未来产业从技术突破走向产业化落地的关键年。重点关注未来健康(AI制药)、未来空间(空天信息)及未来材料。融合化与智能化成为核心驱动力,且资本投入与风险分担机制将迎来变革。