让 AI 给你办事,有时候就像点外卖:下单秒接,出餐迅速。但是到手一看,图片和实物严重不符。
前几天,知危让某国产文生图模型成一张 “ 水杯倒了 ” 的图片。拿到的结果 “ AI 感 ” 十足:一个表面凹凸不平的矮脚杯以一个 “ 诡异 ” 的姿态悬浮于桌面,杯子仅杯底与桌面接触,杯身却有点 “ 似接触非接触 ”。杯中的水也以一种明显不符合杯中液位高度的状态汇成一注流出。
而这就是生成式 AI 的局限——它并不理解真实的物理因果,只是靠庞大的数据训练依据 “ 概率 ” 生成可能正确的结果,“ 假装懂物理 ”。
就像图灵奖得主杨立昆 ( Yann LeCun ) 在此前采访中提到的, “ 目前人工智能系统在很多方面还非常‘笨’,它们并不理解物理世界、也没有长期记忆,无法真正地进行推理或规划,而这些才是智能行为的关键特征。”
而如果希望 AI 能够真正识别、理解并作用于真实的物理世界,自主完成感知、交互、决策和执行,真正从互联网这个 “ 虚拟世界 ” 走向真实 “ 物理世界 ”,从生成式 AI 走向物理 AI,关键会是什么?
在杨立昆等科学家看来,首先可以排除的是纯文本训练。
杨立昆以婴儿认识物理世界过程为例,提到婴儿从刚刚出生到九个月的时候,并不具备重力、惯性等 “ 物理直觉 ”。但是到九个月的时候,将一个放在平台上的小车推下去,小车如果悬浮在空中,九个月大的婴儿就会张大眼睛持续盯着看,表现出非常惊讶的样子。
这期间,婴儿并不是因为通读了《 物理学入门 》或者是被输入了大量文本作出的反应,而是通过感知和互动开始学习世界。进而,杨立昆提出真正的智能体需要一个 “ 世界模型 ”,一个能让你通过观察与互动来学习,在‘脑里’里模拟事情、预测后果、想象未发生的事情的东西。
无独有偶。斯坦福大学知名教授、“ AI 教母 ” 李飞飞也提到,真正的通用智能 ( AGI ) 无法仅靠语言模型实现,必须引入对物理世界的理解维度。“ 语言赋予了机器一种谈论世界的方式。世界模型,是机器最终得以理解、想象、推理并与世界互动的方式。”
不难看出,如果将 “ 打造识别、理解、作用于现实世界的物理 AI ” 比喻成 “ 建盖一座摩天大楼 ”,那么摩天大楼的地基大概率就是 “ 世界模型 ”。如同大语言模型是生成 AI 时代的基座,因为它压缩了人类文明的文本知识;那么世界模型是物理 AI 时代的基座模型,因为它压缩了物理世界的运行规律。
事实上,自 2023 年 OpenAI Sora 的发布引爆世界模型概念以来,该赛道发展就不断加速。从国内来看,据商业数据服务商 IT 桔子 6 月 18 日最新报告,中国共有 33 家世界模型创业公司,85% 在 2023 年后成立,累计融资超 260 亿。海外巨头谷歌、英伟达、特斯拉等纷纷入局,World Labs、Meta JEPA 等团队也正持续加码。
然而,理想虽丰满,现实却很骨感,做世界模型并不是一件容易坚持下去的事,比如引爆世界模型概念的 Sora 已经被 OpenAI 宣布全线停运了。
停运的理由也很简单:OpenAI 暂时玩不转这件事儿。
他们没有足够的精力、没有足够多的场景,以及,他们没有足够的钱了。Anthropic 带着 Coding 能力极强的 Claude 大杀四方,给包括 OpenAI 在内的所有 AI 公司都带来了巨大的压力:你必须去卷 Coding,Coding 就是一切,Coding 就是未来。
所以或许,无论 OpneAI 也好、Anthropic 也好、Meta 也好,有没有那么一种可能:世界模型的突破不会在他们身上发生?
他们是生成式 AI 的簇拥者,他们的技术路线、盈利模式、商业规划,一直都是顺着生成式 AI 这条路来的,他们并没有世界模型的原生思想。
现在,行业总是讲 AI-Native ( AI 原生 ) 才会赢得未来,如果赞同这个逻辑,那么在世界模型这条路上,一定是 “ 世界模型原生 ” 也就是 “ 从一开始就准备拿 AI 与物理世界做交互 ” 的公司更容易赢得未来。
昨日 ( 6 月 23 日 ) 刚刚正式通过港交所上市聆讯的 Momenta,可能就是其中之一。它在市场上有另一个外号,叫 “ 物理 AI 第一股 ”。
此前,其在 4 月发布了物理 AI 基座模型——Momenta R7 世界模型。
就像我们前面所提到,婴儿拥有 “ 物理直觉 ” 的关键是对外界的感知和互动。所以,Momenta R7 搭建了一个让 AI 增加 “ 物理直觉 ” 的三层架构,让 AI 形成对物理世界的认知,拥有因果推演的能力。
第一层是世界模型预训练 ( World Model Pre-Training ),目标是让模型更懂物理。物理在交通运输领域的重要性不言而喻,相信在路上跑了数十年没出过事故的老司机,依靠的不是死记硬背驾校教的行车口诀,而是实实在在的生活实践经验,比如下雨天提前刹停,远离满载货车等等。
Momenta 把海量真实驾驶数据的预训练,把物理规律、常识和因果关系压缩进模型,让系统对物理世界有了基础的认知。这背后,是搭载 Momenta 系统的 90 多万台 L2++量产车,累计超过 120 亿公里的真实行驶里程,以及其中提炼出 1 亿段黄金数据,这是大多数同行都难以契机的数据规模。
第二层是世界模型仿真 ( World Model Simulation ),这相当于给模型提供了一个 "练兵场"。 现实生活中有个很常见的现象:很多人在大学期间利用寒暑假考取了驾照,却一连多年不敢真正上路。原因很简单——驾校的路况与真实世界天差地别,现实道路上充满了各种突发状况和极端场景。
而 R7 世界模型却为自动驾驶汽车提供了一个接近现实的练车环境:系统利用生成模型推演周围环境,进行闭环仿真,从而预判自身行为变化将引发世界如何演变。同时,系统还能对极端罕见的长尾场景进行评估与验证,效率比传统实车路测高出数个数量级。由于这个仿真世界本身是从真实数据中学习构建的,Momenta 可以将实车数据与仿真结果进行交叉校验,清晰掌握仿真与真实世界之间的差距有多大、具体差在哪里,为 AI 打造一个真实可靠的 “ 练兵场 ”。
第三层是在世界模型中进行强化学习 ( World Model Reinforcement Learning ),扮演 "教练" 的角色。 普通人学开车,仅靠驾校教练的口头讲解和示范是远远不够的——关键是教练坐在副驾驶,对学员的每一次操作及时给予肯定或纠正,学员才能越开越好。
R7 世界模型第三层架构的工作逻辑也是如此:通过奖惩机制让大模型反复探索与试错,最终输出比人类预先提供的经验更安全、更高效、更丝滑的驾驶表现。
通过三层架构,从 “ 懂 ” 到 “ 实践 ” 再到 “ 精进 ”,Momenta R7 将自动驾驶汽车逐步变成一个能理解物理世界规律、拥有因果推断能力、自主做出决策的智能体。
有好的技术架构,只是第一步,就像生成式 AI 一样,物理世界的 AI 也需要数据。
以 Momenta 为例,它不仅 “ 有 ” 海量数据,更关键是它已经跑通 “ 数据驱动模型进化 ” 的闭环。
在物理 AI 领域,数据不是静态的资产,而是越转越快的引擎。90 多万台 L2++量产车每天在路上跑,意味着 Momenta 的系统正在持续接触真实世界的长尾场景:暴雨中的模糊车道线、施工路段的临时改道、夜间对向车辆的眩光干扰……这些 Corner Case 被源源不断地回传、标注、训练,再反哺给下一代模型。竞争对手即便砸下重金采集数据,也难以在同等时间跨度内积累起如此规模的 “ 活数据池 ”。
世界模型数据处理过程的简单示意|图源Nvidia
更为关键的是,Momenta 的数据优势并非停留在 "量" 的层面。通过与 24 家车企、全球前十大车企中的 9 家建立合作,其数据覆盖了中国乃至全球多样化的道路环境、驾驶习惯和法规场景。这种跨地域、跨车型、跨用户群体的数据广度,使其模型在面对不同市场的本地化适配时,天然具备更强的泛化能力。
做物理 AI 研发是需要门票的。而 Momenta 拥有充裕的弹药储备:截至 2025 年底,公司现金储备超 100 亿元,为其加速物理 AI 发展提供了有力支撑。
此外,Momenta 近三年营收从 7.43 亿元跃升至 24.13 亿元,三年翻 3 倍,年均复合增长率超 80%,但这组数字的真正含金量藏在收入结构里。其营收由技术开发收入与许可收入两部分构成,其中许可收入增速表现尤为亮眼,从 2023 年的 0.23 亿元大幅增长至 2025 年的 9.68 亿元,三年翻 42 倍。技术开发收入确保当下有稳健现金流和车企生态位,许可收入的爆发则证明 Momenta 已跨越物理 AI 企业的 "纯投入期",进入 "数据驱动产品化、产品化驱动规模化变现" 的正向循环。
在 Momenta CEO 曹旭东看来,物理 AI 的核心是数据 Scaling+商业 Scaling,且二者形成正反馈。而很显然,Momenta 目前已在行业中率先跑通这两个 Scaling。
值得一提的是,业内普遍将世界模型当作 "仿真考场"——生成虚拟数据,用来给主模型做模拟测验、查漏补缺。世界模型是备考工具,主模型才是上考场的考生。而 Momenta 是市场上为数不多将世界模型直接注入 "端到端基座模型预训练" 的玩家,世界模型成为了主模型的一部分。
如果说前者是考前狂刷模拟卷,那 Momenta 则是直接重构了学生大脑里的认知结构——把物理规律、因果关系和常识判断,在预训练阶段就压缩进模型的底层架构。这让世界模型成为了一个超级 “ 放大器 ”,使系统的整体产品性能和上限实现了 10 到 100 倍的代际跃升。
曹旭东的判断是,智驾行业具有极强的规模效应和先发优势——数据越多、场景越丰富,系统迭代越快,马太效应显著。基于此,他预计全球市场最终仅有 3-4 家核心供应商能够胜出。
而今,Momenta 已将战略视野从乘用车拓展至更广阔的物理 AI 版图。
在 Momenta 看来,掌握底层物理规律的世界模型,具备强大的跨场景泛化能力。它不需要为每种载具单独 "补课"——只要真正理解了惯性、运动因果等通用物理法则,同一套底层架构就能同时赋能四大业务形态:乘用车、Robotaxi、Robovan 与 Robotruck。未来,这套认知体系还可能进一步延展至具身智能等更广阔的物理交互领域。
Momenta 正凭借着先发优势和规模优势,摩拳擦掌力争在这场物理 AI 的卡位战中占据一席之地。