智源研究院发布原生多模态世界模型“悟界·Emu3.5”,开启“下一个状态预测”(NSP)新范式。该模型采用自回归架构,基于13万亿Token(含790年长视频数据)训练,能理解高层级人类意图(如“如何做咖啡拉花”)并自主生成多步骤行动路径,模拟物理动态与时空演化。智源院长王仲远称这可能开启了多模态领域的第三个Scaling范式,其自研DiDa技术将推理速度提升20倍。
AI科技日报
2025年11月02日智源Emu3.5对决OpenAI宫斗
头条新闻
在马斯克诉OpenAI案的最新庭审记录中,Ilya Sutskever长达10小时的质询内容曝光。他证实,在奥特曼被罢免后,董事会曾与Anthropic探讨合并,对方对此感到“兴奋”,Dario Amodei或将出任CEO。Ilya的备忘录详细记录了罢免原因,指控奥特曼存在“持续的撒谎模式”,并“挑拨高管相互对立”(如在Murati和Daniela Amodei之间),这些行为最终导致董事会决定解雇他。
硅谷AI编程工具引发“套壳”争议。知名代码工具Cursor 2.0发布的自研模型Composer被发现思考过程(<think>标签内)竟使用中文。同时,AI编程独角兽Cognition的新模型SWE-1.5在“越狱”测试中自曝为智谱AI开发的GLM。这一现象引发热议,业界大佬指出,这证明了国产开源大模型(如通义千问Qwen、GLM)在性能和成本上已具备全球竞争力,正成为西方AI产品的重要技术底座。
顶级风投a16z合伙人Guido Appenzeller将全球3000万开发者标价3万亿美元,等同于法国GDP,并称AI编程是AI首个大规模应用市场。他提出激进判断:软件开发能力正从“人工薪酬”转变为持续消耗Token的“基础设施成本”。随着AI智能体(如Cursor、Devins)接管更多任务,开发者将转向更高抽象层,而传统CS课程或将成为“过往时代的遗留”。
行业洞察
AI算力飙升正倒逼数据中心供电革命。英伟达GPU功耗突破千瓦,机柜功率向兆瓦跃迁,传统54V直流架构已达极限。800V高压直流架构成为必然路径,该架构将电流降低15倍,铜损减少90%,系统能效超90%。英伟达计划于2027年推动800VDC落地。核心器件氮化镓(GaN)因其高频高压优势成为实现该架构的最佳选择,其市场规模预计将迎来爆发式增长。
研究发现,多模态大模型(MLLM)存在普遍的“模态失衡”缺陷,即过度依赖强大的语言先验而忽视视觉信息,出现“只看字不看图”。这种偏差源于模型基于万亿级文本预训练,导致其倾向于“捷径学习”,依赖文本统计模式而非复杂视觉信息。随着推理链延长,模型注意力会从视觉Token显著迁移至语言Token,导致视觉信息逐层衰减,制约了真正的跨模态理解。
一篇长达132页的研究报告警示,过度依赖AI正导致严重的“认知卸载”,即“脑腐”。当人们将批判性思考、创造性解题等核心心智功能外包给AI,大脑的“心智肌肉”正悄然萎缩。报告指出,AI营造的“过滤气泡”与“回音室”正导致思维同质化和认知极化。当断网或AI断供时,人们可能才发现自己已丧失独立解决问题的能力。
南理工、中南大学等机构在NeurIPS 2025提出VIST框架,为大模型长文本推理提供了新的视觉解决方案。该技术模仿人类“快-慢阅读通路”,将次要上下文渲染为图像快速提取语义,关键文本则输入LLM深度推理。该方法可减少56%的Token需求,降低50%的内存占用。其“概率感知视觉增强”机制能让模型像人一样“略读”,专注于高信息量词汇,极大提升了长文本处理效率。
新产品
香港大学黄超团队开源的DeepCode项目,在“论文复现代码”任务上取得突破。在OpenAI的PaperBench基准测试中,DeepCode以75.9%的准确率首次超越了来自剑桥、伯克利等8所顶尖高校的机器学习博士专家组(72.4%),并大幅领先Claude Code等商用智能体。该工具采用“架构蓝图构建、代码实现、自动验证”的三阶段多智能体框架,能将顶会论文PDF自动转换为高质量的可运行代码。
人大与清华团队推出首个面向数据科学的Agentic LLM——DeepAnalyze。它能像数据科学家一样,自主完成数据准备、分析、建模、可视化和洞察报告生成。DeepAnalyze的核心在于其“课程学习式Agentic训练范式”,让LLM在真实环境中从简单到复杂逐步进阶,解决了复杂任务的“奖励稀疏”问题。同时,它通过“面向数据的轨迹合成”方法,自动生成50万条推理与交互数据用于训练。
国内首个音乐创作Agent产品Tunee亮相,通过对话式交互显著降低音乐创作门槛。用户可输入模糊灵感,Agent会主动分析意图、推荐风格并引导完善创意,最终生成可执行指令。Tunee的突破在于其团队融合了资深音乐制作人经验,能将用户“感觉不走心”等抽象反馈,精准翻译为AI可理解的专业指令,实现了从“工具”到“智能体”的交互飞跃,适配音乐创作需多轮修改的特性。
AI PC成为双11换新焦点,其核心搭载了英特尔® 酷睿™ Ultra 200H系列处理器。新一代AI PC的价值在于其强大的NPU(神经网络处理单元),它专职处理低功耗、长时运行的AI任务,如会议降噪、智能抠图等,解放CPU和GPU。这使得AI PC即使在断网状态下也能高效运行AI助手(如Flowy)、Kutools办公插件、本地知识库等应用,实现更长续航和更高能效。
场景应用
2025 Unity开发者大会聚焦“AI+游戏”。Unity中国宣布与腾讯混元合作,推出深度集成在引擎内的AIGC工作流平台AI Graph,可将3D资产生产效率提升70%。AI正赋能游戏全生命周期:AWS展示了AI在游戏构建、运行和增长(数据分析、LTV预测)中的应用;Meshy则分享了3D GenAI在降低3A游戏成本、加速VR/AR内容及UGC场景中的实践。
美国最大的公立大学系统——加州州立大学(CSU)正与OpenAI、亚马逊、谷歌等科技巨头合作,旨在成为首个“AI赋能”的大学系统。CSU斥资1690万美元采购OpenAI Edu服务,并举办AWS“AI训练营”,计划将AI工具普及到全部22个校区、46万名学生。此举引发批评,有学者认为这是在对年轻人进行“大规模实验”,存在侵蚀学生批判性思维、将高等教育“企业化”的风险。
AI健康管理应用OtterLife上线一年用户破百万,首日付费率超20%。该产品将AI与游戏化设计结合,通过虚拟宠物“海獭”陪伴用户养成健康习惯。其核心在于对Apple Watch等穿戴设备数据进行AI二次分析,如将HRV(心率变异性)数据解读为“压力监测”,并提供食物AI识别、个性化目标设定等功能。产品定位“核心健康人群”,其成功验证了“游戏化+AI”在“反人性”的健康管理赛道上的价值。
新报告
CNNIC发布《2025年生成式AI应用发展报告》。报告显示中国生成式AI用户达5.15亿,国产模型与美国顶级模型性能差距缩小至0.3%。技术呈现五大趋势:国产化成果显著、逻辑推理提升、多模态突破(如GPT-4o)、推理成本大幅降低(超280倍)及轻量模型赋能终端。豆包和DeepSeek成最受欢迎产品。产业正从“技术探索期”迈向“产业应用期”。
《2025年AI视觉创意应用蓝皮书》指出,AI正推动视觉创作从工具探索走向系统化生产。AI协同创作者快速完成创意设计、画面生成、视频动效乃至配音配乐,大幅降低试错成本并提高创作敏捷性。但报告也点出现实问题,包括生成内容的版权归属、低质内容涌入市场,以及行业尚未形成统一的服务质量与定价标准,不利于建立交易信任。
鼎帷咨询发布《2025年英伟达AI发展战略报告》,全景式解码英伟达的技术研发路径与生态控制策略。报告旨在为产业、政策与研究机构提供战略参考,并结合国内AI产业实践反思差距与机遇。该研究为企业制定“十五五”规划提供AI前瞻,期望助力中国在人工智能、低空经济、生物医药等未来产业的全球竞赛中占据主动。