超越LLM：世界模型如何重构AI对现实的理解、推演与行动

3月9日，AI教父杨立昆（Yann LeCun）为其创立仅三个月的法国初创公司 Advanced Machine Intelligence（AMI）成功募集10.3亿美元种子轮资金，本轮融资使AMI的估值达到35亿美元，成为欧洲历史上规模最大的首轮融资之一。AMI的目标是走向“通用人工智能”——AGI，杨立昆坚定地认为，大语言模型LLM无法实现AGI，必须赋予AI以人的物理常识和预测能力，即构建内部的世界模型（World Models），训练出能够真正理解世界、具备常识并能自主行动的智能体，这才是实现AGI的必由之路。

图1.AMI创始人、前Meta首席AI科学家、图灵奖得主Yann LeCun

图片来源：硅谷101

无独有偶，此前，AI教母李飞飞创立的World Labs以50亿美元估值引领世界模型赛道，其核心在于构建具备永久一致性的3D场景实现空间智能，并于2025年推出世界模型Marble——一个能够生成具有空间一致性和高保真度、且持久存在的3D世界，能够训练AI感知、推理以及与3D世界进行交互的模型。

世界模型作为实现AI理解世界、推演世界和预测世界的数字底座，其概念早在2018年就已被提出，随着LLMs的能力遇到天花板、算力成本的激增、多模态技术的发展，以及具身智能的应用需求，世界模型被认为是实现AGI的必经之路。2025-2026年，多个商用世界模型诞生，生成式AI进入了从“内容生成”向“结构生成”跃迁的关键节点。

图2.世界模型——让AI像人脑一样感知

图片来源：Medium

一、什么是世界模型

世界模型没有官方定义，普遍认为世界模型是用于理解现实世界动态 (包括物理属性和空间属性)的神经网络，它们可以使用文本、图像、视频和运动等输入数据来生成模拟实际物理环境的视频，通过从感官数据中学习表征和预测运动、力和空间关系等动态特性，实现对现实环境物理属性的理解并通过生成环境及动作，从而模拟、指导及实施决策。

简单来说，世界模型=观察世界（V）+预测世界（M）+在世界中学习行动（C），对应的是视觉（Vision）、记忆（Memory）和控制（Controller）三个核心模块。它具备三个特质：一、表示世界。模型能够理解所处的环境里有什么、物体在哪里，以及物与物之间是什么关系；二、预测未来。它能够对事件进行模拟和生成，能够预测推一下杯子、打开一扇门或往前走两步的下一秒，世界发生什么样的改变；三、在世界里规划和行动。当能预测接下来会发生什么之后，AI应该如何采取行动。

图3.世界模型核心模块

图片来源：硅谷101

本质上，世界模型是把世界抽象到一个潜在的、被压缩过的空间里，在这个潜在空间里，AI能够通过学到的物理规律，去做对未来的预测，形成一个对真实世界的模拟器，从而训练AI形成“世界观”，最终理解真实世界的规律。

二、世界模型VS.大语言模型

如果说大语言模型让AI学会了说话，那么世界模型让AI掌握了世界运行规律，学会了理解、推理和预测。它们的根本区别在于其对世界的认知与交互方式。LLMs的核心是基于海量文本数据学习语言的统计规律，通过预测下一个词元来生成内容，其本质是统计学的、语言学的，擅长处理抽象的符号信息。相比之下，世界模型旨在学习物理世界的运作规律，通过处理多模态感官数据来预测环境状态并支持决策制定。它具备物理与因果的根基，能够进行反事实推理和长时序的动态规划，因此其应用领域超越了语言本身，延伸至机器人技术、自动驾驶和科学模拟等需要与环境进行主动、动态交互的具身智能场景。

表1.世界模型与LLMs的核心区别

区别点	世界模型 (World Models)	大语言模型 (LLMs)
主要数据	多模态感官数据（如视频、音频、传感器数据）	文本语料库（如网络文本、书籍）
核心定义	模拟物理世界运作规律的内部表征模型，预测下一个状态变化，支持决策制定	海量文本数据训练的统计概率模型，预测下一个词元（token）
训练范式	自监督学习或强化学习	基于文本的自监督学习
推理机制	支持反事实推理和规划	依赖上下文统计关联的推理联想，难以进行长程逻辑推演
时间感知	动态且主动，能在内部模拟未来的多种可能性分支，支持长时序的一致性记忆	线性且被动，仅处理已发生的文本序列，无法真正模拟未来的动态演化
输出方式	指导智能体行动、规划	对话、生成内容
典型应用	机器人技术、自动驾驶决策、科学实验模拟、具身智能等	语言生成、知识问答、代码编写、翻译、摘要等
基础/立足点	物理、因果	统计学、语言学

三、世界模型的四条技术路线

截止目前，全球已经涌现出多个商用世界模型，如OpenAI的Sora、Google DeepMind的Genie、李飞飞的Marble、杨立昆的JEPA、英伟达的Picasso 3D、Wayve的GAIA以及最近中国的章国锋博士领衔的影溯团队发布并开源的InSpatio-WorldFM世界模型等。这些世界模型主要可分为四大主流技术路线。

1、视频生成路线：OpenAI的Sora

这条技术路线的核心思想非常直观：如果一个AI模型能够生成逼真的视频，那么它必然已经内化了支配物理世界运作的基本规律。正如一位精通绘画的艺术家，必然对光影、透视及物体结构有着深刻的理解。基于这一理念，OpenAI 将 Sora 定义为“世界模拟器”。Sora 的核心突破在于，它并非简单地将静态图像拼接成视频，而是通过学习海量视频数据，让画面中的实体能够随时间推移而连续、一致地演化，从而掌握了物体运动、光影变化以及物理碰撞等复杂的动态规律。

这条路径的优势在于其直观性及生成的视觉内容高度逼真，具有极强的表现力。然而，其局限性也同样显著：首先，计算成本极高，单次训练耗资可达数千万美元；其次，生成过程中对每一帧像素的独立处理导致效率低下；最重要的是，模型仍时常产生违背物理常识的“幻觉”现象，例如实体突然消失或违反重力规则运动。

2、交互式路线：Google DeepMind的Genie

如果说Sora实现的是“播放一个世界”的预渲染视频生成，那么Google的Genie 3则标志着迈向“探索一个世界”的交互式生成。Genie 3能根据用户提示实时生成可供人类或智能体自由探索的虚拟环境，其核心突破在于“实时交互性”与“长时间一致性”，支持长达数分钟的持续互动。

与传统视频生成模型的本质区别在于其生成内容的可交互性。后者是被动的像素预测，而Genie 3的实时可控性意味着其内部已超越像素层面，开始模拟“未来的世界状态”。这标志着视频生成从被动的“播放”走向主动的“交互”，从“电影式生成”迈向“游戏式模拟”，使之更接近一个真正的“世界引擎”。

这条路线的优势在于强大的实时交互能力（24fps），天然适配强化学习与智能体训练。但局限性同样明显：生成内容的逼真度尚不足，文本渲染能力有限，且交互时长受限于数分钟而非数小时，长期一致性维护仍是核心挑战。

3、空间智能路线：李飞飞的Marble

视频生成虽然当前最具直观性和应用落地潜力，但本质上仍停留于世界的视觉表层，呈现的仅是“皮相”，缺乏对底层结构与因果关系的理解。要勾勒出世界表象之下的框架，李提出的路径是3D生成，即空间智能。她认为，真正的世界模型必须理解三维空间。为此，她创立的World Labs专注于空间智能，致力于让AI像人类一样掌握3D世界的几何结构与物理规律。其核心追求并非画面的视觉逼真度或“电影级”的时序连续性，而是对世界结构的深度理解：物体在何处？空间几何关系如何？物体间怎样相互影响？生成的世界是否可被“进入”与“操作”？其Marble模型能够从文本、图像或视频输入生成完全可编辑的3D环境。与实时渲染的视频生成路线不同，Marble生成的是持久的、可下载的3D场景，具备良好的3D几何一致性，支持多视角观察，并可导出为标准3D格式（如高斯点云、网格等）。

从技术层面看，3D生成路线的核心优势在于其显式结构。与视频模型依赖的“隐式物理直觉”不同，它生成的是显式表征，模型明确知晓每个物体的空间位置，这使得物理模拟、路径规划与动作控制等下游任务更易于实现。一旦掌握了这些显式信息，便能继承传统物理引擎的优势，确保碰撞、遮挡、受力等物理表现的严格正确性，从而成为“可操作世界模型”的坚实底座。然而，这条路线也面临严峻挑战：技术难度远高于2D视频生成，对算力需求巨大，且高质量3D训练数据极为稀缺。

4、联合嵌入预测路线：杨立昆的JEPA

杨认为，生成每一个像素是对计算资源的浪费。真正的智能应当像人类一样，只需预测事物的抽象特征，而无需将世界完整“画”出来。其核心思想是让AI直接学习世界的抽象结构，而非沉溺于视觉细节。基于这一理念，他提出的JEPA架构在抽象的表征空间而非像素空间中进行预测。例如，面对一个飞行的球，JEPA不会预测每个像素的RGB值，而是预测其轨迹、运动方向等高层次语义信息。这种机制通过主动忽略不可预测的细粒度信息，大幅提升了计算效率。

JEPA的基本结构可拆解为三个核心组件：首先，编码器（Encoder）将输入的视觉信息与动作压缩为抽象表征；随后，预测器（Predictor）基于当前抽象状态预测其未来变化；最后，通过将预测结果与真实未来状态的编码进行对齐，使模型学会捕捉世界运行的关键因果结构。

这条技术路线的最大优势在于计算高效，能以更少的资源学习更具泛化性的抽象世界知识。然而，其局限性同样显著：首先，由于无法直接生成可视化的输出，模型的“理解”程度难以直观验证；其次，自监督学习目标的设计极具挑战性——JEPA预测的是“未来的结构”，但何为“结构”？哪些信息该保留、哪些该忽略？这些问题目前仍缺乏统一的答案。

四、未来展望

世界模型的终极愿景，是构建一个可操作、可交互、可推理的虚拟现实底座，其应用将超越内容生成，全面赋能人类在物理世界中的探索与创造。

在创意产业，它将催生“可编辑的现实”：创作者不再受限于传统3D软件的高昂成本与技术门槛，可通过自然语言或图像直接生成具备几何一致性的持久化3D场景，使沉浸式叙事与个性化世界构建成为人人可及的日常体验。

在机器人领域，世界模型将成为具身智能的“训练场”与“大脑”。通过在模拟环境中推演无数种未来状态，机器人得以在部署前掌握复杂技能，并在真实场景中实现与人类的共情协作——从实验室的精准操作到居家环境中的辅助陪伴，模型对“下一状态”的预测能力将确保其行为与人类意图保持动态对齐。

在更长远的视野中，世界模型将重塑科学探索与知识传递的方式。它使研究人员得以在虚拟空间中并行推演分子交互、气候演变或新材料合成，降低实验成本并加速发现周期；在教育领域，它可将抽象概念转化为可进入、可操作的具身体验，让学习从单向灌输变为探索式互动。

归根结底，世界模型的目标并非取代现实，而是构建一座连接想象与实在的桥梁——让AI成为人类能力的延伸，在创意、科研与日常照护中，释放更深层的人文价值。

参考文献

1、TechCrunch，Yann LeCun’s AMI Labs Raises $1.03B to Build World Models[EB/OL].(2026-3-9)[2026-3-11].https://techcrunch.com/2026/03/09/yann-lecuns-ami-labs-raises-1-03-billion-to-build-world-models/

2、Bloomberg，Fei-Fei Li’s AI Startup World Labs in Funding Talks at $5 Billion Valuation[EB/OL].(2026-1-23)[2026-3-11].https://www.bloomberg.com/news/articles/2026-01-23/fei-fei-li-s-ai-startup-world-labs-in-funding-talks-at-5-billion-valuation

3、Fei-Fei Li，From Words to Worlds: Spatial Intelligence is AI’s Next Frontier[EB/OL].(2025-11-10)[2026-3-11].https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

4、SCIENTIFIC AMERICAN，The Next AI Revolution Could Start with World Models[EB/OL].(2026-1-17)[2026-3-11].https://www.scientificamerican.com/article/world-models-could-unlock-the-next-revolution-in-artificial-intelligence/

5、Medium,World Models: The Next Leap Beyond LLMs[EB/OL].(2025-10-13)[2026-3-11]. https://medium.com/@graison/world-models-the-next-leap-beyond-llms-012504a9c1e7

6、硅谷101,“世界模型”到底是什么？[EB/OL].(2026-3-6)[2026-3-11].https://m.huxiu.com/article/4839709.html

7、知乎，世界模型四大技术路线[EB/OL].(2026-2-3)[2026-3-11].https://zhuanlan.zhihu.com/p/2001937282500945251

8、MIT科技评论，杨立昆：“AGI即将到来”完全是无稽之谈，真正的智能要建立在世界模型之上[EB/OL].(2025-3-28)[2026-3-11].https://www.mittrchina.com/news/detail/14583