检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业新一代信息技术软件与信息服务

超越LLM:世界模型如何重构AI对现实的理解、推演与行动

供稿人:蒋洁如供稿时间:2026-03-11 16:44:02关键词:世界模型,大语言模型,技术路线,应用场景

          3月9日,AI教父杨立昆(Yann LeCun)为其创立仅三个月的法国初创公司 Advanced Machine Intelligence(AMI)成功募集10.3亿美元种子轮资金,本轮融资使AMI的估值达到35亿美元,成为欧洲历史上规模最大的首轮融资之一。AMI的目标是走向“通用人工智能”——AGI,杨立昆坚定地认为,大语言模型LLM无法实现AGI,必须赋予AI以人的物理常识和预测能力,即构建内部的世界模型(World  Models),训练出能够真正理解世界、具备常识并能自主行动的智能体,这才是实现AGI的必由之路。 

1.AMI创始人、前Meta首席AI科学家、图灵奖得主Yann LeCun

图片来源:硅谷101

无独有偶,此前,AI教母李飞飞创立的World Labs以50亿美元估值引领世界模型赛道,其核心在于构建具备永久一致性的3D场景实现空间智能,并于2025年推出世界模型Marble——一个能够生成具有空间一致性和高保真度、且持久存在的3D世界,能够训练AI感知、推理以及与3D世界进行交互的模型。

世界模型作为实现AI理解世界、推演世界和预测世界的数字底座,其概念早在2018年就已被提出,随着LLMs的能力遇到天花板、算力成本的激增、多模态技术的发展,以及具身智能的应用需求,世界模型被认为是实现AGI的必经之路。2025-2026年,多个商用世界模型诞生,生成式AI进入了从“内容生成”向“结构生成”跃迁的关键节点。


2.世界模型——让AI像人脑一样感知

图片来源:Medium

一、什么是世界模型

世界模型没有官方定义,普遍认为世界模型是用于理解现实世界动态 (包括物理属性和空间属性)的神经网络,它们可以使用文本、图像、视频和运动等输入数据来生成模拟实际物理环境的视频,通过从感官数据中学习表征和预测运动、力和空间关系等动态特性,实现对现实环境物理属性的理解并通过生成环境及动作,从而模拟、指导及实施决策。

简单来说,世界模型=观察世界(V)+预测世界(M)+在世界中学习行动(C),对应的是视觉(Vision)、记忆(Memory)和控制(Controller)三个核心模块。它具备三个特质:一、表示世界。模型能够理解所处的环境里有什么、物体在哪里,以及物与物之间是什么关系;二、预测未来。它能够对事件进行模拟和生成,能够预测推一下杯子、打开一扇门或往前走两步的下一秒,世界发生什么样的改变;三、在世界里规划和行动。当能预测接下来会发生什么之后,AI应该如何采取行动。


图3.世界模型核心模块

图片来源:硅谷101

本质上,世界模型是把世界抽象到一个潜在的、被压缩过的空间里,在这个潜在空间里,AI能够通过学到的物理规律,去做对未来的预测,形成一个对真实世界的模拟器,从而训练AI形成“世界观”,最终理解真实世界的规律。 

二、世界模型VS.大语言模型

如果说大语言模型让AI学会了说话,那么世界模型让AI掌握了世界运行规律,学会了理解、推理和预测。它们的根本区别在于其对世界的认知与交互方式。LLMs的核心是基于海量文本数据学习语言的统计规律,通过预测下一个词元来生成内容,其本质是统计学的、语言学的,擅长处理抽象的符号信息。相比之下,世界模型旨在学习物理世界的运作规律,通过处理多模态感官数据来预测环境状态并支持决策制定。它具备物理与因果的根基,能够进行反事实推理和长时序的动态规划,因此其应用领域超越了语言本身,延伸至机器人技术、自动驾驶和科学模拟等需要与环境进行主动、动态交互的具身智能场景。

1.世界模型与LLMs的核心区别

区别点

世界模型 (World Models)

大语言模型 (LLMs)

主要数据

多模态感官数据(如视频、音频、传感器数据

文本语料库(如网络文本、书籍)

核心定义

模拟物理世界运作规律的内部表征模型,预测下一个状态变化,支持决策制定

海量文本数据训练的统计概率模型,预测下一个词元(token)

训练范式

自监督学习或强化学习

基于文本的自监督学习

推理机制

支持反事实推理和规划

依赖上下文统计关联的推理联想,难以进行长程逻辑推演

时间感知

动态且主动,能在内部模拟未来的多种可能性分支,支持长时序的一致性记忆

线性且被动,仅处理已发生的文本序列,无法真正模拟未来的动态演化

输出方式

指导智能体行动、规划

对话、生成内容

典型应用

机器人技术、自动驾驶决策、科学实验模拟、具身智能等

语言生成、知识问答、代码编写、翻译、摘要等

基础/立足点

物理、因果

统计学、语言学

三、世界模型的四条技术路线

截止目前,全球已经涌现出多个商用世界模型,如OpenAI的Sora、Google DeepMind的Genie、李飞飞的Marble、杨立昆的JEPA、英伟达的Picasso 3D、Wayve的GAIA以及最近中国的章国锋博士领衔的影溯团队发布并开源的InSpatio-WorldFM世界模型等。这些世界模型主要可分为四大主流技术路线。

1、视频生成路线:OpenAI的Sora

这条技术路线的核心思想非常直观:如果一个AI模型能够生成逼真的视频,那么它必然已经内化了支配物理世界运作的基本规律。正如一位精通绘画的艺术家,必然对光影、透视及物体结构有着深刻的理解。基于这一理念,OpenAI 将 Sora 定义为“世界模拟器”。Sora 的核心突破在于,它并非简单地将静态图像拼接成视频,而是通过学习海量视频数据,让画面中的实体能够随时间推移而连续、一致地演化,从而掌握了物体运动、光影变化以及物理碰撞等复杂的动态规律。

这条路径的优势在于其直观性及生成的视觉内容高度逼真,具有极强的表现力。然而,其局限性也同样显著:首先,计算成本极高,单次训练耗资可达数千万美元;其次,生成过程中对每一帧像素的独立处理导致效率低下;最重要的是,模型仍时常产生违背物理常识的“幻觉”现象,例如实体突然消失或违反重力规则运动。

2、交互式路线:Google DeepMind的Genie

如果说Sora实现的是“播放一个世界”的预渲染视频生成,那么Google的Genie 3则标志着迈向“探索一个世界”的交互式生成。Genie 3能根据用户提示实时生成可供人类或智能体自由探索的虚拟环境,其核心突破在于“实时交互性”与“长时间一致性”,支持长达数分钟的持续互动。

与传统视频生成模型的本质区别在于其生成内容的可交互性。后者是被动的像素预测,而Genie 3的实时可控性意味着其内部已超越像素层面,开始模拟“未来的世界状态”。这标志着视频生成从被动的“播放”走向主动的“交互”,从“电影式生成”迈向“游戏式模拟”,使之更接近一个真正的“世界引擎”。

这条路线的优势在于强大的实时交互能力(24fps),天然适配强化学习与智能体训练。但局限性同样明显:生成内容的逼真度尚不足,文本渲染能力有限,且交互时长受限于数分钟而非数小时,长期一致性维护仍是核心挑战。 

3、空间智能路线:李飞飞的Marble

视频生成虽然当前最具直观性和应用落地潜力,但本质上仍停留于世界的视觉表层,呈现的仅是“皮相”,缺乏对底层结构与因果关系的理解。要勾勒出世界表象之下的框架,李提出的路径是3D生成,即空间智能。她认为,真正的世界模型必须理解三维空间。为此,她创立的World Labs专注于空间智能,致力于让AI像人类一样掌握3D世界的几何结构与物理规律。其核心追求并非画面的视觉逼真度或“电影级”的时序连续性,而是对世界结构的深度理解:物体在何处?空间几何关系如何?物体间怎样相互影响?生成的世界是否可被“进入”与“操作”?其Marble模型能够从文本、图像或视频输入生成完全可编辑的3D环境。与实时渲染的视频生成路线不同,Marble生成的是持久的、可下载的3D场景,具备良好的3D几何一致性,支持多视角观察,并可导出为标准3D格式(如高斯点云、网格等)。

从技术层面看,3D生成路线的核心优势在于其显式结构。与视频模型依赖的“隐式物理直觉”不同,它生成的是显式表征,模型明确知晓每个物体的空间位置,这使得物理模拟、路径规划与动作控制等下游任务更易于实现。一旦掌握了这些显式信息,便能继承传统物理引擎的优势,确保碰撞、遮挡、受力等物理表现的严格正确性,从而成为“可操作世界模型”的坚实底座。然而,这条路线也面临严峻挑战:技术难度远高于2D视频生成,对算力需求巨大,且高质量3D训练数据极为稀缺。

4、联合嵌入预测路线:杨立昆的JEPA

杨认为,生成每一个像素是对计算资源的浪费。真正的智能应当像人类一样,只需预测事物的抽象特征,而无需将世界完整“画”出来。其核心思想是让AI直接学习世界的抽象结构,而非沉溺于视觉细节。基于这一理念,他提出的JEPA架构在抽象的表征空间而非像素空间中进行预测。例如,面对一个飞行的球,JEPA不会预测每个像素的RGB值,而是预测其轨迹、运动方向等高层次语义信息。这种机制通过主动忽略不可预测的细粒度信息,大幅提升了计算效率。

JEPA的基本结构可拆解为三个核心组件:首先,编码器(Encoder)将输入的视觉信息与动作压缩为抽象表征;随后,预测器(Predictor)基于当前抽象状态预测其未来变化;最后,通过将预测结果与真实未来状态的编码进行对齐,使模型学会捕捉世界运行的关键因果结构。

这条技术路线的最大优势在于计算高效,能以更少的资源学习更具泛化性的抽象世界知识。然而,其局限性同样显著:首先,由于无法直接生成可视化的输出,模型的“理解”程度难以直观验证;其次,自监督学习目标的设计极具挑战性——JEPA预测的是“未来的结构”,但何为“结构”?哪些信息该保留、哪些该忽略?这些问题目前仍缺乏统一的答案。

四、未来展望

世界模型的终极愿景,是构建一个可操作、可交互、可推理的虚拟现实底座,其应用将超越内容生成,全面赋能人类在物理世界中的探索与创造。

在创意产业,它将催生“可编辑的现实”创作者不再受限于传统3D软件的高昂成本与技术门槛,可通过自然语言或图像直接生成具备几何一致性的持久化3D场景,使沉浸式叙事与个性化世界构建成为人人可及的日常体验。

在机器人领域,世界模型将成为具身智能的“训练场”与“大脑”。通过在模拟环境中推演无数种未来状态,机器人得以在部署前掌握复杂技能,并在真实场景中实现与人类的共情协作——从实验室的精准操作到居家环境中的辅助陪伴,模型对“下一状态”的预测能力将确保其行为与人类意图保持动态对齐。

在更长远的视野中,世界模型将重塑科学探索与知识传递的方式。它使研究人员得以在虚拟空间中并行推演分子交互、气候演变或新材料合成,降低实验成本并加速发现周期;在教育领域,它可将抽象概念转化为可进入、可操作的具身体验,让学习从单向灌输变为探索式互动。

归根结底,世界模型的目标并非取代现实,而是构建一座连接想象与实在的桥梁——让AI成为人类能力的延伸,在创意、科研与日常照护中,释放更深层的人文价值。

参考文献

1、TechCrunch,Yann LeCun’s AMI Labs Raises $1.03B to Build World Models[EB/OL].(2026-3-9)[2026-3-11].https://techcrunch.com/2026/03/09/yann-lecuns-ami-labs-raises-1-03-billion-to-build-world-models/

2、Bloomberg,Fei-Fei Li’s AI Startup World Labs in Funding Talks at $5 Billion Valuation[EB/OL].(2026-1-23)[2026-3-11].https://www.bloomberg.com/news/articles/2026-01-23/fei-fei-li-s-ai-startup-world-labs-in-funding-talks-at-5-billion-valuation

3、Fei-Fei Li,From Words to Worlds: Spatial Intelligence is AI’s Next Frontier[EB/OL].(2025-11-10)[2026-3-11].https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

4、SCIENTIFIC AMERICAN,The Next AI Revolution Could Start with World Models[EB/OL].(2026-1-17)[2026-3-11].https://www.scientificamerican.com/article/world-models-could-unlock-the-next-revolution-in-artificial-intelligence/ 

5、Medium,World Models: The Next Leap Beyond LLMs[EB/OL].(2025-10-13)[2026-3-11]. https://medium.com/@graison/world-models-the-next-leap-beyond-llms-012504a9c1e7

6、硅谷101,“世界模型”到底是什么?[EB/OL].(2026-3-6)[2026-3-11].https://m.huxiu.com/article/4839709.html

7、知乎,世界模型四大技术路线[EB/OL].(2026-2-3)[2026-3-11].https://zhuanlan.zhihu.com/p/2001937282500945251 

8、MIT科技评论,杨立昆“AGI即将到来”完全是无稽之谈,真正的智能要建立在世界模型之上[EB/OL].(2025-3-28)[2026-3-11].https://www.mittrchina.com/news/detail/14583