【十字路口】哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人【视频播客】

开场0:00

Koji杨远骋0:00

当今天我们说到世界模型的时候，我们到底在说什么？

黄碧薇0:03

我们要构建这个真正的因果世界模型，让 AI 真正可以理解物理世界背后的因果关系。

Koji杨远骋0:10

一个非常重要的学术问题。

黄碧薇0:12

在具身任务上面，大语言模型天花板已经出现了，它显然是不够了。

Koji杨远骋0:16

已经看到了一些什么样的信号吗？

黄碧薇0:19

聊 A 不是终局，WAM 也不是终局。我们要开创这个下一代以因果智能为核心的 AI 范式。我是做了深刻反思的。明明因果 AI 它是更合理的。为什么是 LLM 吸引了所有人的注意力？

Koji杨远骋0:32

你觉得自己现在更像是一个科学家在创业，还是一个企业家在做学术？

黄碧薇0:37

科研和创业一直是我唯一想做的事情啊。我们要去跨过潮流，看到下一个潮流在哪里。

Koji杨远骋0:45

不要再读 PHD 了。

黄碧薇0:46

只有真正对研究有渴望的人才应该来读 PHD。

Koji杨远骋0:51

咱们目前的融资情况是什么？

黄碧薇0:52

刚刚短息内融了两千万美金左右。

Koji杨远骋0:55

听起来是非常惊鸿大海的一个创业啊。

嗨，我是 Koji。那过去半年呢，世界模型是在 AI 和具身这两个领域都最热门的关键词之一。但是问题是啊，当今天我们说到世界模型的时候，我们到底在说什么？它的定义到底是什么啊？它听起来很宏大，但是呢，又好像很不准确，呃，它到底是一个严肃的技术对象，还是一个被混用的一个热词。所以今天呢，我们请到了

Aether AI 的创始人黄碧薇教授来和大家分享她对世界模型的理解，以及在她深耕的因果世界模型的这个新范式，她的一些观察和思考。你好，黄教授，欢迎来到十字路口。

黄碧薇1:41

嗨，Koji 你好。

Koji杨远骋1:42

我们的节目有一个传统哈，就我们还是先从快问快答开始。那请问黄教授留学的经历可以介绍一下吗？

快问快答1:42

黄碧薇1:48

我一路还蛮有意思的，我是从上海华师大计算机系毕业，然后去德国马克思普朗克研究所，从麻普所到 CMU 读博，毕业以后又加入 UCSD 做助理教授。

Koji杨远骋2:00

那请问你的 MBTI 和星座。

黄碧薇2:02

我应该是 INTJ，有的时候也会 INTP，然后星座是水瓶座。

Koji杨远骋2:08

来，那一句话介绍一下 Aether AI 这个公司。

黄碧薇2:11

我们要构建这个真正的因果世界模型，让 AI 真正可以理解我们这个物理世界背后的因果关系、基础的物理规律，从而它可以举一反三，真正在物理世界当中可以帮到大家。然后我们的第一个落地的场景就是具身大脑。

Koji杨远骋2:30

嗯，听起来是非常惊鸿大海的一个创业啊。那咱们目前的融资情况是什么？

黄碧薇2:35

我们得到了很多顶级美元基金的大力支持，刚刚短息内融了两千万美金左右。

Koji杨远骋2:42

哇，恭喜恭喜。那再一句话介绍一下创业之前在做什么。

黄碧薇2:47

因果发现和因果 AI 领域我做了十二年，从麻普所读研，然后呃，在 CMU 读博，然后再到 UCSD 做助理教授。这一路都是我主攻的科研方向，怎么超越现在的基于相关性的 AI，真正，呃，找到背后因果关系。

Koji杨远骋3:05

我们待会儿会展开来聊一聊这个因果模型哈。但我们还是先从世界模型开始。那今天说到世界模型的时候，可不可以先请黄教授给我们做一个科普。

第四条路3:12

黄碧薇3:15

世界模型这个词啊，今年以来我感觉可能是被大家提到最多的词，然后它，它的定义呢，又非常，就是不统一。我们现在其实视频生成模型、3D 生成模型，然后包括 VEGA、JEPA 等等这些模型，大家现在都统一称为世界模型，但大家如果看具体的实现的话，你会发现它们侧重点是不一样的。有些世界模型它侧重渲染，有些世界模型

它侧重于我模型本身对这个动力学系统的理解。有些模型呢，侧重视频生成的效果。我这边定义是世界模型，它需要去理解背后的物理规律、因果关系，或者换，换句话说，它可以模拟我们这个世界是怎么运行的，基于时间或基于不同动作，它是怎么从当下状态变到下一个状态的。

Koji杨远骋4:08

当我们今天说到世界模型的时候，你觉得有哪几条最主流的路线呢？

黄碧薇4:13

一是就是我们大家熟知的视频生成模型。第二，3D 生成模型，第三，就是 JEPA 路线，杨乐坤教授主导的这条路线，它的核心是想要去真正学习到我底层的规律，它是把我整个 decoder 在像素空间那个 decoder 完整地去掉，它可以在隐空间只保留这种平滑，呃，smooth transition 的这种信息。

Koji杨远骋4:40

在这些路线里面，你自己最看好哪一条呀？

黄碧薇4:43

最终的那个落地的世界模型，它必须要是懂我们这个物理世界底层规律、因果结构，懂这个 transition dynamics，物理动力学到底是怎么样子啊。但是对于现在的世界模型的话，就还没有真正地做到这一点。

Koji杨远骋4:58

所以就是刚才三条路线，你觉得谁最有可能能够提前达到那样的一个世界模型的愿景和状态？

黄碧薇5:06

可能就是我们的因果世界模型。对。

Koji杨远骋5:10

所以不是那三条路线，是你们现在在做的第四条路线。

黄碧薇5:13

对，但是，就是，当然我们肯定也是都是，呃，站在各种巨人肩膀上嘛，包括我们早期的因果领域小模型探索，然后以及在基于相关性的大模型的探索，以及视频生成模型。我们把这些不同的方法从各个层面结合起来，然后达到我们真正想要实现这个以因果为核心的这样一个世界模型。

Koji杨远骋5:38

所以当我们说到这个咱们在做的因果世界模型的时候，它和其他刚才我们说的三条世界模型，3D 生成、视频生成，以及这个，呃，杨乐坤教授的 JEPA 路线，它最核心的差异化是什么呀？

黄碧薇5:51

最核心的差异化就是我们的世界模型真正能在隐空间里面，第一点，能够学到因果变量、因果特征。比如说我举个例子，比如说我这个物体的形状，呃，有几个物体，是吧，速度、角速度，然后摩擦力等等。这第一点。第二点就是我要同时学习这些因果变量之间因果结构，它们相互之间怎么影响。比如说我，我想抓这

个杯子，我抓杯子的时候，手的握，握力点、速度、角度都会影响我是不是能成功抓取这个杯子。然后第三点，在模型当中自己能学习我这个呃，transition dynamics 是怎么样的，我在用不同动作，它下一时刻它达到什么样状态。这是我们因果世界模型的核心的三，呃三个要素。有了这三个要素，你学习到了整个因果系统，从而你可以

做真正的泛化。比如说当我们把一个机器人模型从一个环境迁到另外环境，从一个呃，任务迁到另外一个任务的时候，因为理解了基本规律，所以它可以像我们人一样举一反三，很快适应新的环境、新的任务。

因果重要7:02

Koji杨远骋7:02

就为什么理解因果那么重要呢？因为比如说在大语言模型里面，我们通过这个大离出奇迹的训练模型本身它不需要知道因果，它仍然会有它的非常严密的逻辑。但是在世界模型里面，为什么因果是那么的重要呢？这是不是也会和大语言模型一样，有只要数据够了，算法好了，最后它的因果会是涌现出来的一个结果。

黄碧薇7:25

这是一个特别好的问题啊。首先我问扣紧您一个问题，你知道为什么 LLM 当下它只能在自然语言以及 coding 任务上取得很大成功呢？

Koji杨远骋7:37

因为我们在世界里面，不管是视频还是真实世界的其他的这个训练的这种数据还不够多。

黄碧薇7:43

嗯，这是一个点，但其实核心是这样子的，因为自然语言和 coding 它是两个非常简单的模态，这 -- 它的信息是只在我语言层面。比如说我因为今天天气很好，所以我今天要出去，出去，呃，逛一圈。这种因为所有的关系，它已经被总结到我们这个语言表面了，再加上就是呃，语言，我们把它可以作为一个离散 token，这是第二点

。然后第三点，它当然它的数据量很多啊，因此就是 LLM 这种简单的学习或数据表层相关性的这种呃，模型范式，它也可以做得很好。但接下来一旦我们要到更难的具身任务、机器人任务，以及更复杂的各种科研发现，比如说在生物制药、新材料发现，在天文学等等领域，就现在的 LLM 这条范式它显然是不够了。我举个例

子啊，比如说咱们回到具身这个呃，这个领域，你看机器人，它每次和我这个环境进行交互，或者和我这个物体进行交互，它其实就是在做一些 intervention，所以它自然而然的就一定是个因果的过程。如果它不理解背后的因果关系，没办法把一些操作任务做得很好。比如说我让机器人给我，呃，给我煎一个 pancake，那如果机器人先它只

是看视频学习，它可能只是学到一个表面流程，我先倒个面糊，然后等一会儿，然后再翻面，是吧。如果只是从视频生成角度看的话，可能觉得，诶它还做得不错，生成的视频还不错，能看的。但如果你走到真正厨房里，每次情 -- 可能情况都不太一样。比如说这次它锅可能更热，但也可能没那么热，然后面糊可能更厚

，也可能更薄，可能 -- 油可能多了一点，也可能少了一点。你想象一下，如果机器人或者说我们人不懂背后的因果关系，它就可能只会机械地模仿，它不会说能够真正地非常灵活应用举一反三。比如说锅很热的时候，我可能等三十秒就已经糊了，但如果锅不够热的时候，我可能三十秒还不够。就是我们在物理世界中对

操作要求是比视频生成要求要高很多的。

Koji杨远骋9:57

我们在前面沟通的时候，你有提到说咱们的数据哈，它有一个叫做自循环的系统，可不可以讲一讲这个训练数据它如何自循环起来？

黄碧薇10:08

您说的应该是一个自我进化这样一个概念。对，首先我们从因果的角度去收集数据的时候，我们可以更有提防识地去收集模型到底需要什么样数据，缺什么样数据。比如说你采一万条，有可能包含模型所需要的新的信息的，可能只有一百条，那我们其实只需要把这一百条喂给数据去训练模型就可以了。这是第一点，数

据作为模型的输入。然后第二点，数据作为模型输出。当我们这个因果世界模型它 train 到一定程度之后，它本身就可以做一个 simulator，可以产生非常高质量的，然后包括 long horizon 长程的，包含一些 corner cases 以及可控的 few case 的数据，然后这个数据可以再反哺给我们这个因果世界模型去 train。但其实我这里想提一点啊，这篇我们因果世界模型作

为 simulator，它产生数据在真机场景中通常是很难采集到的，所以它相当于其实可以很好地弥补这些数据的，就是一个采集性能不足，以及一些，一些特别在一些 corner case 啊，你可能在利用遥操，你没法去呃采集到这样的数据。所以它你可以看到数据输入作为燃料去喂模型，train 模型，让模型再产生高质量的数据，然后反哺世界模型的

训练。

Koji杨远骋11:33

你觉得训出第一个呃，milestone 的模型，它应该是一个什么样的模型？然后这大概在中间需要怎样的数据量，以及怎样的一个算力？

黄碧薇11:46

嗯，我觉得训出第一版的模型的话，我们预期的数据量大概在七八千个小时，然后算力的话肯定是需要可能几百张卡吧，我们现在有大概四，四百张卡左右。

Koji杨远骋12:02

那刚才说到这个八千个小时的数据，主要是什么样的数据呢？

黄碧薇12:05

嗯，我们数据大概分四个方面，第一个就是，呃模拟数据产生数据，包括物理模拟器，有 -- 以及我们这个因果世界模型它自己作为模拟器产生数据。然后第二点是 ego-centric 的数据，第三点视频数据，然后第四点遥操数据，它是最后一公里啊，把我这个背后这个物理规律 map 到机器人身上。

Koji杨远骋12:32

咱们的这个第一版的模型在你看来，它训出来之后，它是可以泛化到什么程度？

黄碧薇12:37

它可以做非常长程任务啊。第二，它可以，呃，可以有真正思考的能力。比如说家里收拾屋子，我看到账单，OK，这是一个私人物品，我要把这个账单放在抽屉里。如果看到一本书，那书是比较 public 的东西，那我可能把它就整理好，放在，呃，书桌上面。然后第三点就是泛化能力。比如说我碰到一些没有见过的物体，我也能

非常自如操作，然后碰到一些新的任务，我也能成功操作，但这些任务的物理规律必须是在以前训练数据里 cover 过的，这是我们第一版的一个目标。

Koji杨远骋13:14

现在通过，啊，就咱们做因果的这个模型，已经看到了一些什么样的信号吗？让我们看到足够有信心的一些信号。

黄碧薇13:24

是的是的，举个简单例子啊，比如说我现在让机器人在训练数据里学会了 lift 这样一个任务，以及 pick and place 这样一个任务，就学会了这两个任务。然后 OK，我现在要测试它了，测试它一个完全新的任务，叫做 stacking，堆叠。它以前从来没做过这个任务。你想啊，如果一个模型它只是去死记硬背我过去习得的一些那些技能，而但没有

因果泛化13:26

黄碧薇13:52

真正理解背后的规律，背后的因果关系，那它会做 stacking 这个任务吗？显然是不会的。但我们的因果世界模型，在 -- 它在学会 lift、pick and place 这两个任务之后，它就可以把 stacking 完成得非常完美。

Koji杨远骋14:08

哦，但除了 stacking 呢，就其他的这个再复杂一点的任务，呃，也可以吗？

黄碧薇14:13

只要是一些物理规律是 share 的，它就可以。相对来说您可以理解一下，它不是我只看表层的这个任务一步步的步骤是怎么样的，而是它理解背后真正的物理规律。比如说我现在这个任务是由十条物理规律堆叠起来的，如果我这些物理规律是 share 的，它就可以做得很好。但当然你出现了一些完全没见过的物理规律，那它也需

要再去探索学习一下，像我们人一样。

Koji杨远骋14:42

所以咱们刚才说到的这个 lift 的任务，然后 pick and place 的任务，这个训练好了之后，为什么 stack 可以？他们之间共享的物理规律是哪几条呀？

黄碧薇14:52

对，你，你想一下 stacking 有几个，几个过程。Stacking 的话，我要 pick and place，是吧，然后 lift 把它上移。对，所以 stacking 其实相当于是 lift 和 pick and place 这些物理规律加和。

Koji杨远骋15:07

啊咱们刚才说的这些部分有发哪些比较重要的 paper 呀？啊大家如果感兴趣可以去深入地学习和了解。

黄碧薇15:14

对，大家可以看一下我们最近发的一些 paper，包括其中一篇是发表在今年的 ICML 上的，它的 title 叫做 Learning Task-sufficient World Models by Strategic Agent Exploration and Structured Modeling，以及 AddDiffuser：Latent-aware Adaptive Diffusion for Decision Making 等等几篇文章。

Koji杨远骋15:36

刚才咱们提到的这个效果啊，它是以什么样的数据以及什么样的数据量给训出来的？

黄碧薇15:44

数据的话，它就是那篇 paper 里做的模拟环境任务，包括 lift 和 pick and place，然后 stacking 这些等等这些任务。数据量的话，嗯，我，我印象那篇 paper 数据量它不是很大，大概是上百个小时。

Koji杨远骋15:59

那咱们所有的这个训练，包括最后的泛化实践，是在一个这个模拟器里面是吗？是在真实世界里面有开始做这样的训练和最后的验证吗？

黄碧薇16:09

在之前的 paper 里面，我们主要围绕在模拟器里，呃，去测试。

Koji杨远骋16:13

那咱们在真实世界的这个实验的计划是什么？

黄碧薇16:16

我们预期今年吧，肯定会去如类似真机的 demo，然后要显示出机器人这种做长程任务的泛化性和推理能力。然后我从 14 年进入这个领域之后，我开始想一个问题啊，就是以前那两套范式非常完美的情况下，可以做得非常好，但是一旦到真实的物理世界，它可能有很多很多叫不完美的问题。比如说你可能有很多隐变量，你不

能观测到所有的变量，你的数据可能有 bias，可能有 missing value，可能 distribution shifts，在等等这些问题出现的情况下，我应该怎么样真正能找到背后的因果关系，先从理论上证明，用在算法层面导出来。这也是我 PhD 阶段，就是在我进入这个领域后，我主要，呃，主要的一些贡献。

Koji杨远骋17:08

就在一个非常不完美的世界里面，我们仍然想办法去归纳出里面的因果关系。

黄碧薇17:14

是的是的。嗯，对。

Koji杨远骋17:17

说到因果的时候，这也是一个这个有蛮久的历史的一个这个，呃，学术领域嘛。但在这里面会有学派之分吗？就是这里面人家会有几个很不一样的主流路线吗？

黄碧薇17:29

大概有三个门派，早期的时候是相互不太对付的，包括我们因果发现的话，是 CMU 派，就 Clark Glymour、Pearl S.

Buck，Causal inference 又分为两派，一派是以图为核心的，来去 estimate 我这个 causal effect 是多少。它的核心人物是 Judea Pearl，UCLA 的教授，也是图灵奖获得者。然后另外一派不以图的，叫做 potential outcome framework，这一派是以哈佛的那个 Donald Rubin 教授为核心的。他们几个都是差不多年纪，都是现在八十多岁，非常德高望重啊。但他们早期的时候就有点三国鼎立、相互不服谁那种状

态。

Koji杨远骋18:09

那咱们呢？咱们是站在这三派当中的哪一派，或者在什么样的中间地带？

黄碧薇18:14

嗯，我们其实主要是 CMU 派，因为我自己毕业于 CMU 嘛，然后就直接师承了那个 Clark Glymour、Pearl S. Buck 教授，那还有坤章教授。然后以及我在麻省所的时候，核心的那个领导是 Ben Sholk 嘛，然后 Ben Sholk 他也是师承的是 CMU 门派。然后当然我们其实很多，当然很多一些 high level idea 也是被 Judea Pearl 影响了非常非常多。

Koji杨远骋18:39

可以请黄教授分享一下，就当初你是怎么走上因果 AI 这条道路的吗？这是在我想象当中，呃，很多人的这个学术路线，有可能是一开始就对一个事情产生了强烈的这个热情啊，就主动去寻找各种资源和机会，但也有些时候其实是一些这个巧合，是一些这个命运的安排。就也很好奇，就是，呃，您是怎么走上这条路的。

黄碧薇19:05

我更像那种你说的第二种，是非常巧合的这一个场合。我当时是在，呃，德国读我的研究生，计算神经科学。我当时一开始想的是我怎么样从人的大脑里面去给 AI 带来诸如一些，呃，新的 idea。然后那，那年暑假，我恰巧去听了就是一个 summer school 的课，然后当时去的一个 lecture 是就是我们 Ben Sholk 教授去讲授的，然后他讲了 discovery，那是我第

一次听到这个 topic，虽然当时感觉也没有完全听懂，都 -- 但冥冥之中就感觉，诶，这个问题特别核心，是真正有意义的一个问题。然后我就去找了实验室相关老师，就开始进入到这个领域。

Koji杨远骋19:51

就还是说那个 lecture 给了你一个这种震撼，就是你发现，哇，这个是一个非常重要的学术问题。

黄碧薇19:59

我发现从就是因果这个底层去看问题的时候，它可能不仅对你的科研有帮助，甚至对你的日常生活它也给你一个新的视角，或者说能够直击到一些问题的本质。

Koji杨远骋20:12

这大概是哪一年呢？

黄碧薇20:14

2013 年。

Koji杨远骋20:15

所以从那个时候到现在快过去了十三年。

黄碧薇20:18

对，然后进一步的啊，随着就是 AI 的发展，我们意识到原本的那一套 machine learning task，它完全是基于相关性去做预测嘛。然后我们，那一自然而然就会想，我怎么样把因果这一套可以更好地去解决 machine learning 以 AI 的任务。然后我们因此做了一系列的任务啊，包括，呃，因果 causality for 强化学习、分类聚类、非稳态预测，呃，表征学习，呃，迁

移学习。你会发现基本上所有的这种 machine learning task 都可以 get benefit from causal understanding，从因果角度来说，都能够给他们带来 performance 上提高，泛化性的增强，以及数据更高效地利用。然后大模型来了嘛，它是基于相关性的，是吧？那我们就想了，就是理论上来说，因果 AI 这一套，它一定是更 make sense，更合理的。但为什么让这个相关性大语言模型反而有一

些非常好的应用呢？然后，呃，我也是在自己独立之后，CMU 毕业之后开始想这种问题，开始着力于 -

Koji杨远骋21:25

嗯。

黄碧薇21:26

...... 怎么把这个因果理论和这个大模型大数据结合起来，然后去开创我们下一代的这个 AI 范式，以因果智能为核心。

Koji杨远骋21:35

这里正好我就也很感兴趣哈，就是其实大语言模型到现在，呃，因果上面的学术成果，它有如何帮到大语言模型吗？

黄碧薇21:44

有的，就是关于因果在过去如何帮到大语言模型啊，它主要分以下两点。第一个，我们是在外部通过传统的因果发现的方法找到变量之间的因果关系，然后我可以把这种因果关系通过一种 RG 的形式，或者你叫做 prompt 的形式给大模型，从而让大模型的回答可以更加 reliable，减少 hallucination，这是第一种。第二种方法就是通过改变我大模型里

边的一些架构，让它在里面就可以真正学到因果关系。就内外两部分。

Koji杨远骋22:22

在我们熟知的 OpenAI、Anthropic 或者 Google，呃，在这样的这个大厂里面哈，他们有用刚才那两个方式吗？最后他们有 ship 出这个真的给大家的产品吗？还是目前这是实验室里面的一些前沿探索。

黄碧薇22:38

我觉得大厂也是有些一路寄依赖的，因为毕竟对于 OpenAI、Anthropic 来说，他们是 LLM 这条范式的开创者嘛，他们还是以围绕 LLM 这条在走，还没有真正的就是走到因果这条道路上来。

Koji杨远骋22:56

嗯。诶，那其实我理解这个黄教授你创业有两个选择吧，一个选择呢，就是用因果去做更好的 LLM，那另外一套呢，是用因果去到世界模型去影响具身。就这个您是怎么选的呀？

黄碧薇23:14

咱们现在对于 AI 大语言模型，在语言任务和在 coding 任务上，它相对来说已经做得很不错了，已经达到了九十分。对具身来说呢，它基本上是十分的状态。就我更想把这个十分推到九十分。

Koji杨远骋23:32

可不可以稍微往回退一点啊，给我们介绍一下，就是因果 AI 这一整条学术脉络的历史。

黄碧薇23:39

我从最早开始讲啊，就是最早就是其实因果是在哲学领域被大家探索了两千年的。西方从亚里士多德开始，中国更早从易经开始，就是哲学家们都开始在探索我到底应该怎么样定义这个因果。在哲学上定义了两千多年，他们直到近代才有一个明显的结论。近代因果定义是基于相关性的。A causes B，如果当且仅当，当我改变 A

或者说 intervene on A 的时候，我 B 的概率发生变化，那我就 make conclusion A causes B。这是现在就是用的关于因果的定义。然后因果最早应用其实是在临床医学上，随机对照实验，或者说也叫双盲实验，就是大家想知道到底某药对你某疾病是不是有效果，我随机地把这些 Subjects 分成两组，一组是给药，一组是给安慰剂，然后我看这个药到底是对

那个对这个疾病有没有效果，就是最早通过做实验的方式来找背后因果关系。但大家想想，做实验的方式非常贵，然后有的时候你没法做实验，你也没法真正做 intervention。所以在八十年代末的时候，CMU 的三位教授就意识到，OK，那仅仅通过做 RCT 随机对标实验这种方法，它很多时候是不可取的。但另一方面，我们又有很多观测数据，那

我们能不能从观测数据里面去挖掘到背后的因果关系呢？CMU 的教授啊 Clark Lemon、Piers Foster and Richard Scheines，他们三个第一次提出了这个 PC 算法。PC 算法，也就是说我怎么样从观测数据里通过更复杂的统计的方法，它 more than correlation 呢，找到背后的这个因果结构是什么样子的。这一套方法的话，大概从，呃，八九年发展到九七年左右，对，然后这块发展非常

好啊，然后涌现出了包括我们 CMU 出了一些非常厉害的人物。当然九七年之后这个结大家发现，诶可能很难做下去了。因此九七年到，呃，零六年吧，中间其实是比较空白的一段时间，然后直到，直到零六年，芬兰的科学家就发现了一些更深层的性质，他们发现在高斯的时候，我有一些额外的性质可以找到任何两个变量

之间的因果方向，到底是 A cause B 还是 B cause A，仅仅从观测数据里。然后这套方法关键性人物包括我以前的 PhD 导师 Kun Zhang、Bonner Shaliz 等等。对。

Koji杨远骋26:18

咱们刚才说到四类数据，哈，这个方不方便讲一讲目前对于这四类数据大概是一个什么样的配比，啊，我们目前已经开始有一些最佳实践了吗？

黄碧薇26:28

嗯，配比是这样子的，大概，呃，前三类啊，模拟数据加 ecological 数据加 video 数据大概占了百分之八十，然后遥操数据大概占百分之二十。

Koji杨远骋26:39

诶，其实刚才咱们在提到我们的第一网模型想要实现的目标的时候，呃，听起来这个和这个 World Action Model 就今天另外，呃，可能更多人在做的事情是，呃，相同的目标，嗯，但你会怎么看大家最后，呃，分别的优势和劣势是什么呢？

黄碧薇26:59

嗯，我觉得，呃，现在的 World Action Model 它是比较像这个 VOA 的一个变体，一个加强版。对，但是为什么我们短期内会看到 World Action Model 有一些比较好的效果呢？是因为我们的 video 数据比较多，所以它 Video Action Model 实际上是这样做的，它通过先 predict 预测下一帧的 video 是什么样子的，然后再去反向去推背后动作是什么样子的。对于我们的因果世界模型

来，来说的话，它是更符合这个世界运行规律的，它是更，呃，更合理说我们应该是一个 action condition 的 world model 加上一个 policy model。

Koji杨远骋27:38

你从这个 World Action Model 或者之前更早的 VOA 等等得到的这个最重要的对您的工作的启发是什么？

黄碧薇27:46

对于 VOA model 的话，我在 VLM 上加了一个 action head，但其实我觉得它那其实那个方法也不是很完美，因为大家还是在想着就是从 language 角度去做这个问题，但其实看 action 的时候应该从 time series 角度去看。

Koji杨远骋28:02

可能我们听到更多的都是人在讲 WLM 怎么好，VOA 怎么不好，也想听你分享一下对 VOA 对 WLM 的看法。

黄碧薇28:10

我从 VOA 起源来说，大家为什么会一开始选 VOA 这条路呢？其实因为就是大家就是看到 ALM 在自然语言上成功，大家觉得，比如说桌面我高了两厘米，它可能，呃，就就这个任务就失败了。核心的原因还是因为 action 那一端，它是个连续空间，但是你很难在训练数据里把这所有连续空间可能的这种，呃，状态都，呃，收集到，这

是就是 VOA 为什么没有泛化能力的，为什么在真实世界它表现不太好的一个核心的原因。然后第二个，现在大家开始都转向 WAM 了，我觉得 WAM 算作一个中间态，它会比，现阶段它会比 VOA 好一些，核心的原因还是因为就是我们的 video 数据更多，因此它可以就是先通过预测下一帧的视频是怎么样的，然后反过来通过，啊，IDM，Inverse Dynamic Model 去

学习这两帧之间 action 是怎么样子的。所以您可以看到它其实不是一个自然的这个状态迁移过程啊，自然状态迁移是怎么样子的，我在现在在状态 t，我先给一个 action，然后看，看它达到下一个状态，在 t 加 1 时刻状态是怎么样的。所以，呃，就总结一下我，我，我的回答，比如说咱们总分是十分，我觉得 VOA 天花板可能是比如说

五分，WAM 的话可，可能是能够达到六点五分，但它一定是个中间路线，达不到我们最后想实现的目标。所以我觉得 finally 我们的模型形式它一定是一个 action condition 的 world model，然后再加上 policy model。

路线打分29:50

Koji杨远骋29:50

那你给因果这条路线打几分？

黄碧薇29:53

首先就是谈到因果的时候，其实你有很多层，要不同层面，每个层面都去实现因果，如果在每个点上都实现了，我觉得就是十分。当然对我们公司来说，我们也是一步步就是，呃，一步步就是加入，在各个层面加入因果，不会说一下特别激进的，我就直接冲那个十分。

Koji杨远骋30:14

换一个角度啊，如果今天 World Action Model 的朋友们来看咱们的路线，你觉得他们对咱们目前最大的质疑，呃，或者这个批评，你觉得会是什么呢？就如果当他们来点评因果 AI 的时候。

黄碧薇30:30

我觉得就首先啊，其实市场上普遍认为因果一定是一个我们要实现目标，这是就毋庸置疑的，大家是有共识的。但质疑点就是在于怎么样实现这个因果世界模型。其实这还是特别难的一个问题。真正懂因果的其实在这个市场上或是在学术界都不是很多。

Koji杨远骋30:54

LLM 是让大家看到了这个堆数据对吧，会出现 scaling law，但在因果这边大家是会怀疑并不是靠足够多的数据就会出现这样的结果吗？还是说对路线有别的一些这样的这个担心。

黄碧薇31:08

他们在担心怎么实现。我们要实现三点，就是对任何的输入数据，比如说 video 也好，time series 也好，或一些，一些 sensor signal 也好，我怎么从这些数据 raw data 里面提取出背后的因果变量，同时学习因果结构，以及学习这个因果系统如何随着时间变化。大家，呃，不太确定到底怎么实现。

Koji杨远骋31:33

诶，所以大家不认为这个 scaling law 一定就能够实现，是吗？

黄碧薇31:37

我们现在说这个 scaling law 它也是比较，比较 weak，比较虚的。我们应该这样看 scaling law，它一定要和数据质量、模型去绑定，而不是仅仅说我能不能体现 scaling law。比如说我们 LLM，我加一百万条数据，然后我们能增加百分之二十的 performance。但如果真正一个懂因果、懂核心底层规律的模型，它可能只需要，啊二十万条数据就可以达到一样的 performance。

创业决定32:09

Koji杨远骋32:09

那咱们现在出来创业，我觉得这又是一个非常大的这个人生的决定吧。那这一次创业有什么样的 trigger 吗？你是有看到比如说某个具体的信号，或者被一个什么样的事情所激发。

黄碧薇32:23

对，我觉得这个还是有一些内外的 trigger 的。首先让我说一下，就是一直以来我觉得科研和创业一直是我唯一想做事情啊，就是必须要做两件事情。对，然后对于科研来说的话，在我 AI 这个领域探索十二三年，我们已经把一些非 -- 非常复杂的问题都解决差不多了。所以说从内在讲的话，我觉得就 ready for 在商业层面，在应用层

面去实现。然后外部来说的话，你可以看到就是这些年 AI 发展特别迅猛嘛，从大语言模型这套范式可以做得很好，没有问题。但是具身智能就 VLA 这条路线显然是已经碰壁了，但还是在想着能不能通过堆数据来解决这个问题。所以我觉得在这个时间点上，就是我一定要把我学了这么多年的这个因果相关的东西应用出来，

然后一起去和大家一起去解决我这个机器人大脑这个难题。

Koji杨远骋33:23

哎，你刚才有说这个科研和创业是你觉得自己一定要做的两件事情，是什么原因让你觉得创业是一定要做的事情呢？

黄碧薇33:32

科研它是从 idea 到一个 paper 为成果。然后创业呢，它是要把这个简单的 paper 层面的成果，是算法，是个小模型这样的成果，然后真正转化为一个系统性的可以商业化的这样的成果，然后可以服务到更多人。在 paper 层面，它可能服务的只是少部分我的科研群体，当你把它真正做成产品之后，你服务的可能就是千家万户，可以让机

器人可以给大家来服务，可以给大家比如说，呃，整理 -- 做家务啊，给大家做菜啊等等。

Koji杨远骋34:05

因为其实不是每个人都觉得自己一定要创业的。而且我觉得其实在人群里面觉得我一定要创业的人，应该是可能比百分之一甚至千分之一还要低。然后再到学术领域，我想想啊，可能这个比例会再低一点。呃，因为如果想创业，可能就更早就耐不住寂寞开始去做生意了。但是学术其实还是一个挺需要耐心，需要这个相

信，慢慢地去这个，呃，打磨一个东西的一个这样的人生状态。就是，呃，在你看来，你是有没有人生的某一个阶段或者某一个时刻，你意识到自己其实不只是一个教授，不只是一个学者，而是，呃，我也是要去做一个企业家，做一个创业者的。

黄碧薇34:46

我觉得突然转机是 25 年初的时候和朋友聊起这个事情，聊到具身智能，聊到具身智能现状，聊到现在 AI 现状，然后突然就 trigger 了我这个 -- 我现在一定要做创业这个想法。

Koji杨远骋34:59

是一个什么样的朋友，然后他是以什么样的方式点燃了你的这个创业激情。

黄碧薇35:04

我当时的一个朋友跟我聊，就是现在这工厂里机器人和自动化的这状况。当时机器人已经进厂打工了嘛，但是发现就是测试了一阵子之后，机器人又被退回去了，就因为它没法真正地就替代人类去做这件事情，反而成了一个工厂里的一个负担。因为他们缺了一个非常智慧大脑。所以我觉得，嗯，那不是就是因果 AI 最擅

长的事情嘛。那我就觉得这是一个 right time for me，我应该要去 -- 要开始做这件事情。

Koji杨远骋35:37

确实最近哈，教授和 PHD 的创业是一大股热潮，但这里面我理解还是有受到大语言模型的这个成功所带来的激发。呃，但在你看来，你觉得自己现在更像是一个科学家在创业，还是一个企业家在做学术，呃，以及这两者它的这个不同是什么？

黄碧薇35:57

我觉得应该这两者在我身上都是有所体现的。一，我肯定是一个就是科学家，然后在做创业这件事情。同时呢，因为我们是更 fundamental 的一个技术的革新嘛，我们要开创这个下一代以因果智能为核心的这样的 AI 范式。所以创业对于我们来说，它又和科研不可区分，因为我们的公司它更像是一个 frontier lab 的这种形式，我们要通过对

底层技术的这种发明创造，然后从而机器人大脑真正可以得到突破，从而可以服务，呃，服务于大家。

Koji杨远骋36:32

因为我们的这个播客的观众里面其实有蛮多都是 PHD 或者都是这个在学术领域的朋友啊。然后我觉得在今天前所未有地出现了一个这个教授和 PhD 创业的热潮。但另一方面呢，我觉得其实大家也会呃，有一些困惑或者迷茫。就是说在今天，你看 AI 已经那么厉害了，它可以写代码，甚至可以写论文。呃，所以我也很好奇，就

是黄教授你会怎么看？就是做科研的这件事情，在今天它有发生一些本质的变化吗？就科研的门槛在你看来是升高了还是降低了？

黄碧薇37:08

嗯，这是一个特别好的问题啊。首先我觉得就是你要做真正核心、真正开创性的科研的门槛还是没有变的。但如果只是做一些简单的科研，确实它的门，门槛变得很低，因为你可以快速地比如说写 code、写文章。我们要拥抱 AI，但不晚依赖 AI。就是你要去 make use of AI，而不是让 AI 来控制你的思维。

Koji杨远骋37:33

这里可以稍微具体一点吗？就比如说你自己在工作的过程中，有什么时候是你觉得你自己在用 AI，而是这个有没有被 AI 控制，这中间这种微妙的这个区别在哪里？

黄碧薇37:45

首先，你的核心的思想，一些创造性思想一定是得是自己的。对于 researcher 来说，我觉得最宝贵的就是一些 creative idea，一些批判性的意见。

Koji杨远骋37:56

对于今天一个年轻的学生，他要怎么去更好地训练这样的能力啊？

黄碧薇38:00

首先还是需要一些时间的积累的。在生活当中，你工作当中、科研当中有意识地去思考，比如说我这篇文章，这个方法为什么这样做，如果我想换一种想法，是吧，它是不能够更好的。年轻的研究者啊，可能也不要就是完全 follow 现在的潮流，因为什么叫潮流？潮流就是现在已经相对来说已经比较成熟的，我们要去跨过潮

流，看到下一个潮流在哪里，然后往那个方向去努力。

Koji杨远骋38:32

在这个大语言模型这么如火如荼的过去几年，就在因果的这个学术圈子里面，大家的心情是什么？

黄碧薇38:42

我觉得是分两派啊，一派的研究者，特别是那些，呃，比较资深的研究者，他们还是心如止水，就是做我自己觉得更有意义的理论上的科研工作。然后一些年轻的研究者的话，他们也涉及到找工作，所以他们也是希望去把这个因果和现在流行趋势去，去结合起来，然后既能出很好的文章，然后又至少能找到很好的工作

。

Koji杨远骋39:11

那黄教授您自己呢？就是从比如说你看到 ChatGPT 发布的那一刻，你还记得那是一个什么样的 moment 吗？你自己有一些什么样的这个想法、感受，然后以及后面的这四年时间，就你自己的一些心路历程。

黄碧薇39:25

我当时印象是特别深啊，我是做了深刻反思的。我在反思，明明因果 AI 这一套东西它是更合理的，为什么是 LLM 吸引了所有人的注意力？其实我当时就是在 LLM 火之前，我的一个就是一个思路，就是如果我们能够把，把因果发现背后的假设降得非常非常弱，也就是说不需要很强的假设，我就能找到背后因果关系。比如说你

允许有很多隐变量存在，允许数据里有 bias，distribution shifts，missing value 等等各种问题，那我们自然而然就可以把就是因果发现这个任务完全解决了。但后来大语言模型出现，让我在沉思，我以前没有意识到一个问题，数据，就是数据量堆叠它是有用的。你要这样想，虽然说我们现在 LLM 它仅仅是一套大数据，然后抽取表层很简单信息，它已经能

够做得很不错了。但如果我们在这些大数据的基础上，我有更深入的方法去挖掘背后更深层的信息，把两者兼顾一下，达到更好的一个效果。

Koji杨远骋40:35

所以你看到 ChatGPT 发布，就是 LLM 如日中天，你是有，呃，刚才提到的深刻反思。那还有一些其他后面的这个阶段吗？比如说，呃，从看到它到今天自己决定创业，这中间有没有几个典型的阶段，这些阶段中间有没有一些典型的这个转折事件？

黄碧薇40:54

典型阶段就是我自己从开始反思这件事情啊，有意识地往这个研究方向走，包括如何从因果角度更好解决现，现有的语言模型，比如说一些 hallucination，提高它一些 performance。刚才你已经提到为什么我选具身呢？不选 LLM 去落地呢？因为我反，我觉得就是随着 LLM 一代一代的更新替换，确实它的能力涨得非常快，所以只往 LLM 领域走，可能它的

增益非常有限。接着我就开始有意识地往具身，往物理 AI 这个领域走，因果世界模型，想要去把物理世界 AI 能够真正解决。我觉得就是差不多这两个阶段，一个早期的在 LLM 阶段，然后转换到我，我要建立我自己因果世界模型，在具身领域。

Koji杨远骋41:43

咱们如果自己做这个因果世界模型数据我们要完全自己采吗？还是就是你会觉得这个今天已经有不错的数据的供应商，我们可以从第三方来采。

黄碧薇41:53

大部分都是我们自己就是产生的数据，包括刚才说的模拟数据，因为我们对于模拟数据的话，可以不限量地采集。最后一公里的那个遥操数据的话，我们是就是自己采小部分，供应商那里去定制一些数据。

博士选择42:08

Koji杨远骋42:08

就如果今天有一个本科生来问你说，黄教授，嗯，那这个世界都这样了，我们应该非常快地去产业界，应该这个不要再读 PhD 了。那遇到这样的问题，你会怎么回答？就是什么样的人应该继续读 PhD，什么样的人现在应该就可以不用读了，赶紧去产业界。

黄碧薇42:26

嗯，这是一个特别好的问题。其实我对 PhD 的认知，对它的理解一直都没有变化，我一直觉得就是只有真正对研究有渴望的人才应该来读 PhD。如果只是想要获得个学位，就是不用花个五六年时间来读 PhD，你可能错失很多赚钱的机会。

Koji杨远骋42:49

那一个人要怎么识别自己对于研究的这个欲望是真的欲望啊？

黄碧薇42:53

可能比较理想化的人会更适合读 PhD 一些。现在 AI 时代每天都是热点，就不应该被那些热点带着跑，而它有自己的一套思想、一套理论，我应该走怎样的道路。对于一个真正想读 PhD 的人来说，需要识别外面到底哪些是噪声，哪些是真正自己需要的。

Koji杨远骋43:15

其实这个听起来很容易，但是做起来我相信是非常难的，尤其是可能你的同学们，啊，他们没有做科研，他们去了 OpenAI，他们现在已经一年三千万美金了。呃，这是，你有什么建议吗？在这样的一个时代，要，要怎么做？就是真的想静下心来做科研。

黄碧薇43:32

确实可能如您所说，在做，真正做科研之前，可能很多人都不能非常好地认识到自己到底是需要什么。对于那些能认识到自己真正喜欢的是科研，想去探索人类未知的那块领域的话，那肯定是就毫无疑问就该读 PhD。然后对于那些可能并不是太完全清楚自己需要什么的话，可能可以，嗯，可以其实尝试一下，你先比如说选

择读 PhD，或者先选择去业界，然后比如说感觉不太适合了再换。因为现在业界和学术界 gap 更低了。

Koji杨远骋44:09

所以大家更自由更灵活了，也可以这个 -

黄碧薇44:11

对。

Koji杨远骋44:11

不是说选一条路就得走到黑了。

黄碧薇44:13

是。

Koji杨远骋44:14

嗯。诶，就你们认为大语言模型的天花板可能会在什么样的时候以什么样的形式出现吗？

黄碧薇44:21

嗯，我觉得这是看任务的，其实在具体任务上面，大语言模型天花板已经出现了。我不知道 Koji 你有没有注意到，就是最近大家其实越来越开始提到因果这个词了，这是让我觉得非常欣慰的地方。大家最起码开始意识到了，就是我们目标一定是要学一个真正懂因果结构，懂背后的底层规律的这样的模型，而不是通过简单

的这个 pattern matching 的模式。

Koji杨远骋44:46

那最近提到这个聊因果的人越来越多，可以具体讲一讲吗？比如说，尤其是这个在咱们因果学术圈之外，比如说有谁以什么样的方式提到了因果，让你感觉，嗯，很好，终于有更多人开始关注因果这个重要路线了。

黄碧薇45:00

就包括咱们署志杨乐坤，他其实在最近的一些访谈中，其实都是就强调从 high level 去讲述到了这个因果，然后以及因果能够实现的 performance 层面提高。然后包括其实李飞飞老师她的一些我觉得 high level idea 也是和因果有关的。虽然有的时候他们可能没有直接提因果这个词，比如说中国的产业界，我们也经常听到一些加上因果这个词的模

型，比如说 DeepSeek 之前的模型也加了因果这个词。虽然说我觉得现阶段大多数团队做因果的探索，可能要么到 high level 有这个意识，要么可能只在一些比较简单的点上真正做到因果，比如说过去去预测未来。但是就是真正能从一个一些本质点，比如说刚才提到的世界模型要实现三大部分，就是一是你要学习因果变量，第二学习

因果结构，第三学习因果动力学。真正走，走，走到这一层呢，应该是，呃，我觉得应该是我们团队是仅有的。班主，三巨头图灵奖的获得者之一啊，他曾经也是对我们的就是因果模型这一套非常上头，就非常感兴趣啊。我们其实有过一些非常深度的，深度的这种，呃，去怎么解决这个因果，呃，因果发现这种，这种

，呃，问题的一些，一些探讨。对，然后他也，也就是 cite 我很多 paper。

Koji杨远骋46:30

诶，你和杨乐坤教授，包括和这个李飞飞教授有过交流吗？就是因果这个事情。

黄碧薇46:38

呃，我和，呃，杨乐坤教授是之前有过交流的。有一次我想邀请他来我们，呃，参加我们举办的一个 workshop，然后虽然说他那一次在巴黎有一个就是一个 conflict 会议没有过来，但是他当时在邮件里就表达了他对就是这个路线的一些肯定。

Koji杨远骋46:55

就咱们这一次融资，这个融了两千万美金啊，是还是这个，呃，很大的一笔金额，然后你会打算这笔钱投到什么地方去啊？

黄碧薇47:04

有三大块：算力、数据、加盟的人才招聘。

Koji杨远骋47:08

你有从学术圈融资吗？就你有除了这个从 VC，有从这个比如说教授们或学术大佬那边就进行融资吗？

黄碧薇47:15

大部分的融资肯定是从 VC 那边来的，然后小部分的话就是友情，啊，友情赞助，像相当于说我 trust 你这个方向，我肯定不能要他们太多钱嘛。

Koji杨远骋47:25

我们刚才也提到，除了算力和数据，还是希望有更多的这个人才可以加入嘛，对吧？这也是融资的资金要去重点花的地方。那可以讲一讲咱们目前最需要哪些方面的人才吗？

黄碧薇47:37

我们非常需要广纳贤才啊，人才包括一是你对 AI 算法，特别是因果这块算法抱有很大热情以及有些，呃，有经验的。第二，你在模型训练方面，特别是在视频生成模型方面有很强的训练，呃，训，训练的经验，然后以及第三个，you build full stack，就是你不仅精通我传统的机前控制算法以及硬件，又对我们当下的 AI 的进展，比如说

模型算法有比较了解的。就这些人才都是我们非常急需的。如果，呃，你是这块的专家，欢迎联系我。

Koji杨远骋48:12

呃，如果听我们播客的这个朋友们感兴趣，可以这个去联系黄教授啊。再一个问题是，我想知道，如果在五年之后啊，我们回头看 2026 年，今天这个世界模型，是吧，就是锣鼓震天，就是全世界好像都在关注。呃，你觉得五年后回头看，在今天有哪些可能是错的？

黄碧薇48:33

嗯，其实我觉得就是也不能严格地说错吧，就是在探索路上总归是一步步来的，就每一步它会留下一些东西，但肯定现在的一些模型范式它不会是终局。比如说，呃，VLA 不是终局，但是它带来了 action head 的一些建模方式。WAM 可能也不是终局，但它代表了怎么样从我，我视频生成模型变为这个世界模型的中间的产物。所以我觉得

就是，呃，它存在还是都是有道理的。

因果哲学49:05

Koji杨远骋49:05

我们假设有一个上帝，呃，就是他无所不能，他预知未来。啊，如果你可以问他一个关于 AI、关于世界模型的问题，你会想问他什么？

黄碧薇49:16

OK，我，我可能想问他就是，呃，因果是客观存在呢，还是说，呃，它是可能人基于这个理解，他可以更好地去 understand 这个世界，就像时间一样，其实时间是否存在，这大家有的时候也不是完全确定的事情。像一个问题就是因果到底是否真实存在的。

Koji杨远骋49:42

啊，这是一个非常深刻的问题。嗯，如果因果不存在，我觉得我们会集体陷入存在主义的巨型危机。

黄碧薇49:51

对，这个我觉得大家就是在，在茶余饭后跟朋友闲聊的时候可以 argue 一下，但是我觉得大家就是还是在平时生活当中的时候可以务实一点，就是假设时间存在，我们物理世界真实存在，因果真实存在。

Koji杨远骋50:08

OK，好呀，今天很开心请到黄教授来做这一期播客。好，谢谢你的时间。我们，呃，争取有机会等你的 demo 出来之后可以再聊一次，可以给大家再讲一讲在因果上面的一些新进展。好，谢谢。

黄碧薇50:21

好的，谢谢 Koji，谢谢十字路口，谢谢大家。

Koji杨远骋50:25

嗯，好，拜拜。

黄碧薇50:26

好，拜拜。

Topics

Mentioned

Transcript