A8体育app2026世界杯中国官方下载独家|ChatGPT中枢孝顺者归国创业: 把LLM的Scaling带到具身智能

发布日期：2026-05-24 21:52 点击次数：116

姜旭（Roger Jiang）此前很少认真对外发声。

姜旭是少数完整参与过 OpenAI 大模子中枢本领演进的华东说念主创业者之一。2019 至 2023 年间，他经历了 GPT 系列才调爆发最关节的阶段，职责横跨底层西宾 infra、大领域预西宾、RLHF 对王人算法与数据构建等中枢链路。

他不仅是 GPT-4 本领证明的中枢孝顺者之一，亦然 InstructGPT 的主要作家之一。后者奠定了 ChatGPT 教唆罢黜与东说念主类偏好对王人才调的迫切基础。如今，他选用回到中国创业，并把下一次 AI Scaling 的赌注押在了物理寰宇。

2024 年他在深圳诞生了亮源新创 (Light Origins，lightorigins.com)，投身具身基础模子。但公司诞生于今一直保持低调，外界对它的了解并未几。

咫尺他决定第一次完整地把我方的想考讲出来。

姜旭对具身智能的中枢判断，可以详细为一句话：具身智能开始需要我方的预西宾。

在他看来，现时行业对遥操数据和真机强化学习的醉心是必要的，但这并不及以撑持具身基础模子确切走向 scaling。真机数据更像是高价值的对王人、考据和闭环迭代数据，而不是预西宾阶段最主要的领域来源。受限于采集成本、场景掩饰和数据各样性，只是依靠机器东说念主在真实环境中的遥操和试错，很难赢得肖似大语言模子预西宾所需要的数据密度和诀别广度。

姜旭认为，具身智能确切尚未被充想法锁的，是互联网表率的东说念主类通达、空间迁徙和物理交互数据。就像语言模子从海量文本中学习寰宇学问和推理结构，具身模子也需要从大领域物理寰宇数据中学习通达先验、空间清爽、物体 affordance 和交互规则。换句话说，具身智能的关节问题不是“能不行再多采一些真机数据”，而是能不行找到一套可领域化的具身预西宾方法，把物理寰宇中的举止阅历转换为模子才调。

沿着这套逻辑，他作念出了几个与主流旅途不完全相通的判断。

亲历过 GPT 系列从无东说念主看好到引爆全球的全过程，他对这套方法论有一种近乎笃定的信心，并信赖具身智能会沿着大模子走过的旅途再走一遍。他说，他特地享受被质疑、并最终被解说正确的阿谁过程。

以下是 DeepTech 和姜旭的对话。

咱们也曾进入了 Scaling 的阶段

DeepTech：你咫尺在哪个城市？最近主要在忙什么？

姜旭：我咫尺主要在深圳，这里算是咱们的大本营。同期咱们在北京和新加坡也有研发团队，但愿能够尽量诱骗不同区域的东说念主才。

图丨亮源新创的深圳办公室位于深圳湾后海（来源：受访者）

创业其实永远都绕不开三件事：东说念主、钱、事。只是不同阶段，重点会不一样。最运转差未几一年期间，咱们主要如故在料理“事”和“东说念主”。一方面是搭团队，另一方面是考据通盘模子西宾和算法研发的旅途，包括产物落地和模子应用的标的。

已往一年，咱们聚焦在考据通盘本领旅途。因为对于具身智能来说，确切艰苦的是找到一条能够像大语言模子一样不息 scaling 的旅途。已往几个月，咱们在这件事上也曾探索出了清醒的标的，同期中枢模块咫尺也都有了相比老到的负责东说念主和体系。是以本年对咱们来说，会是一个从“探索”运转进入“scaling”的阶段。

DeepTech：这是你第一次认真收受媒体采访吗？之前有媒体发过你创业的音问，但你莫得复兴，我还以为你是不太可爱和媒体打交说念的东说念主。

姜旭：算是第一次认真收受采访。之前如实有过一篇对于咱们的报说念，但那篇并不是咱们主动对外讲的，是以严格说，这是第一次完整地把咱们的事情讲出来。

DeepTech：那为什么决定咫尺出来作念一些曝光？

姜旭：每个东说念主、每家公司的元气心灵、带宽、期间都是有限的。我作念事情有一个利害的倾向，便是在职何一段期间，我我方和通盘公司会把大部分元气心灵，聚焦在少数几个 ROI 最高的模块和领域上。

在此之前咱们开始要搞清醒的是要作念什么，搭一个实足强的团队。咱们咫尺也曾到了准备好要去 scale 的阶段，接下来要作念的事情，便是去 scale。况兼要进一步引入经久老本和产业资源，把这件事情快速往下一阶段鼓吹。

GPT-3 能说出几句完整的话，咱们就很激昂

DeepTech：你在 OpenAI 四年，从 GPT-3 到 GPT-4，从 InstructGPT 到 ChatGPT。你刚加入的时候，团队多大？你被分到哪个组、作念什么？

姜旭：我刚加入 OpenAI 的时候领域还很小，概况一百东说念主傍边。阿谁时候 OpenAI 还跟其他的 research lab 差未几，分红一个一个小的 team，team 之间莫得特地细巧的耦合和深度合作，每个 team 都在作念前沿学术和发表著述。但 OpenAI 的文化，在我在的通盘期间，里面恒久长短常灵通、摆脱的。

是以我很有幸，在 OpenAI 期间换过概况四五个 team，在大语言模子这块有一个全栈的经历。我基本上是从大语言模子最底层的 infra 作念起，然后到中间的预西宾差未几作念了一到两年，临了又花了一两年期间作念对王人。

我刚加入料理的第一个问题，是 FP8，也便是 8 比特浮点数西宾模子，这项本领今天也曾在悉数前沿的大模子西宾推理过程中被大范围使用了。我差未几花了一年期间把它探索清醒。OpenAI 我方不作念硬件，是以咱们只是在算法层面把它探索清醒，会有一些推理上的效力提高，但对西宾莫得本质变化。西宾如果想加快，还要从硬件层面原生去扶持。咱们其时就把戒指给了 NVIDIA，劝服了 NVIDIA 从 H100 系列运转，原生扶持 FP8。

DeepTech：阿谁时候 GPT-3 是什么水平？

姜旭：我加入的时候，GPT-3 刚刚启动西宾。那时候每两周开一次全员会，负责 GPT-3 西宾的团队，主淌若 Dario 他们，会在会上分享西宾进展。其时语言模子的水平，是 GPT-3 偶尔能说出那么几句完整的话，语法上莫得特地涌现的装假，阿谁时候咱们全员悉数东说念主都会非常激昂。

咫尺记忆一下，从我 2019 年加入到咫尺六七年期间，AI 本领果真是突飞大进，发生了天崩地裂的变化。

DeepTech：这些经历里，你印象最深的是哪一段？

姜旭：通盘 OpenAI 四年是一段非常压缩的期间线，发生了太多的事情，作念过的好多神情印象都非常深切。

第一段便是 21 年头，Dario 他们走了之后，我加入新组的团队去作念预西宾。其时的配景是，原来负责预西宾的团队便是 Dario 他们，20 年底到 21 年头，他们陆续离创举立了 Anthropic。那是一个灾难的离婚过程，每周都有几个熟悉的共事去职，剩下的东说念主又开阔莫得预西宾的阅历，寰球心里如故有点慌的。然后 Greg Brockman 带队组建了一个不到 10 东说念主的团队去接办预西宾。

图丨姜旭在 OpenAI 任职期间拍摄于旧金山（来源：受访者）

开始，那几个月期间职责强度极大，我每天早上醒过来跟打了鸡血一样荒诞地职责一直到更阑，Greg 以至有时候融会宵写代码，第二天只睡一两个小时再连接职责，临了从数据到 infra 到优化算法都发现了非常多的问题，最终，折腾了好几个月用了几千卡，也莫得训出来好的模子成果。那是一个挺灾难的迭代经历，不外预西宾失败在头部大模子公司也并不荒凉，我经历过的就有过两次。

自然，见效的预西宾，深信便是 GPT-4了，是预西宾的集大成者，从模子架构到优化算法到 infra，都是超越期间的， GPT-4 最终完成西宾的期间，以至比咱们一运转推断的还提前了好多。这种情况在大模子西宾里并不常见，泛泛都是一直延长以至最终也西宾不出来。

还有一些神情，它的迫切性最终是需要被期间解说的。

比如咱们作念的 InstructGPT，用东说念主类反映作念强化学习的 RLHF，是对王人算法的奠基职责。这个职责在 2021 年头刚完成的时候并莫得受到实足的醉心，因为其时的成果还不够好，但后头算法的开导和数据迭代并莫得住手，最终它成为了 ChatGPT 西宾里非常迫切的一个技艺。

大模子西宾中枢便是两步，第一步预西宾，第二步对王人，只须把对王人作念好了，预西宾的模子才会变得很好用。跟预西宾不同的是，对王人需要的是缓缓的迭代和提高，直到最终打破一个阈值。回头看有一个深切的领悟是，如果一个标的第一性道理上是正确的，就一定要宝石作念下去，一定能作念成也一定要作念成。

DeepTech：那 ChatGPT 的走红呢？

姜旭：其实 ChatGPT 发布的时候，OpenAI 里面并莫得东说念主确切领悟到，通盘寰宇会这样快发生变化。

其时产物上线的期间点，赶巧赶上一个迫切的 AI 学术会议（NeurIPS 2022），好多共事在新奥尔良参会。通盘发布自己其实非常普通，完全莫得那种自后寰球想象中的“历史时刻”氛围。它更像一次宽泛的产物上线。

但接下来的几天，通盘事情运转赶紧发酵。

我印象特地深，一运转是星星点点有东说念主在接头 ChatGPT。自后接头的东说念主越来越多。再自后，通盘会场简直悉数东说念主都在聊它。那种嗅觉很奇怪。你会瞬息领悟到，一项原来只属于 research lab 的本领，运转以一种失控的速率进入现实寰宇。自后回到公司之后，概况流畅一两周，我每天大开 Twitter，通盘 feed 简直都被 ChatGPT 刷屏了。

但我自后回头看，确切窜改一切的，其实不单是模子才调自己。

GPT-3 期间，模子也曾非常强了，但阿谁阶段的大模子更像一种“荫藏的 intelligence”—它存在，但普通东说念主感受不到。更多如故酌量东说念主员和开导者在用 API、写复杂的 prompt、作念 demo。ChatGPT 第一次把这种智能变成了一种简直莫得学习门槛的产物。

用户不需要清爽本领道理，不需要学习 prompt 工程，也不需要知说念 transformer 是什么。你只需要像和另一个东说念主语言一样，去跟它interact。

我自后领悟到，一个很迫切的事情是：好多时候，东说念主对 intelligence 的感知就取决于 interaction 的姿首，获取智能的容易进度是智能水平的中枢体现。

错过了物理，赶上了 AI

DeepTech：既然你在 OpenAI 收货这样多，为什么 2023 年会选用离开？

姜旭：一个很迫切的原因是，我一直更享受创举新范式的阶段。我在 OpenAI 亲历了大模子从一个简直没东说念主信赖的标的，逐渐变成窜改通盘寰宇的主流本领范式。阿谁过程对我影响非常大。

但 ChatGPT 爆发之后，我会涌现嗅觉到，大模子运转逐渐进入一个“共鸣化”的阶段。

本领路子越来越清醒，行业也运转快速 scale。好多问题自然仍然非常难，但它们越来越像工程和资源问题，而不是新的范式问题。我我方一直更想作念的，是那种还莫得被确切料理、还莫得被行业酿成共鸣的事情。

自后我花了很经久间去想考，证据具身智能便是这样一个标的。我合计今天的具身智能，很像 2019 年之前的大模子。行业里有好多探索，但还莫得确切找到阿谁能够 scale intelligence 的中枢旅途。

这件事对我来说非常有诱骗力。

DeepTech：为什么是 2023 年这个期间点？有什么机会吗？

姜旭：ChatGPT 爆发之后，老本市集变得非常活跃，创业环境和氛围变得很好，是有条目去创业、撬动老本和资源作念一件更大更有影响力的事情的。

其次，我在阿谁期间点就认为大模子行业接下来要发生什么，相对来说是相比明确和详情的。当一个行业进入这种高度详情趣的景况，个东说念主在里面阐述的作用相对就会弱好多，更多是一个堆资源问题，公司去 scale up 资源，去践诺既有的路子图。是以大模子对我来说就不再那么 exciting，不再有从 0 到 1 打破新范式的鼎沸和配置感。

DeepTech：问一个稍许八卦的问题，你离开 OpenAI 和 2023 年那些悠扬联系系吗？

姜旭：莫得，我是在那之前离开的。

DeepTech：你的本科和博士读的都是物理。其时为什么会进入 AI 行业？

姜旭：我读博士期间其实在物理学里作念了多数尝试，如果你看我发表的著述，早些年我发过各式标的的学术著述，跟我临了作念的博士课题以至都不相关。我如实是一个相比可爱探索、尝试新东西的东说念主。

记忆起来，在通盘探索的过程中，我一直在找一个确切有出息的标的。我合计东说念主生是要去坐一次火箭的，见效的奇迹糊口，一定要有机会经历一段爆发式的成长。

我读博士的时候很快发现一个问题：对作念物理学酌量来说，我可能晚出身了差未几一百年。物理学的黄金期间是 20 世纪初的那几十年，在那段期间二流的物理学家都能作念一流的职责。其实今天的 AI 领域也肖似，随地都是黄金，二流的选手也可以作念一流的职责。

其时我有一个很迫切的不雅察：科学里那些浮浅的规则，差未几到 20 世纪中世都也曾被发现结束，剩下的都是硬骨头，特地难啃。但这些留传问题有一个共同规则，都波及到在多数复杂的数据里找 pattern，在高度非线性的征象上作念拟合。但其时我并莫得一个谜底，不知说念何如解这类问题。

直到 2016 年春天，AlphaGo 下围棋的新闻劈头盖脸，传播得非常广，那亦然我东说念主生第一次了解到深度学习这个本领。我随即领悟到，这未便是一个无缺的本领来解科学里留传的难题吗？那时候我快要博士毕业了，就坚毅要往这个标的转。

自后我运转自学 Python 编程，自学 machine learning，上的第一门课是吴恩达在 Coursera 上的公开课。我自学了一些东西，作念了一些开源神情，相比容易地在硅谷找到了AI标的的第一份职责，一年之后又加入了 OpenAI。

DeepTech：你作念物理出身，又想在多数数据里找 pattern，听起来更像是该去作念 AI for Science，为什么是去作念大模子？

姜旭：你说得很对，其时进入这个行业最大的驱能源、最诱骗我的，便是最终去料理那些科学问题。那是起点。

但 AI 才调的演进是有一定的规则的。大模子的爆发是从数据量最多、数据最容易获取的文本领域先运转的，之后才向各式其他领域扩散。AI for science 今天正处在爆发的过程中，好多细分标的也曾扫尾了打破或者处于打破的前夕。

另外，language 自己仍然是最迫切的 backbone，它不单是是东说念主类交流的绪论，同期亦然东说念主想考、推理的非常迫切的绪论，科学最终如故要构建在东说念主类推理基础之上。

DeepTech：那为什么临了又选用去作念机器东说念主？

姜旭：我离开 OpenAI 是要去扫尾一件影响力更大的事。选用机器东说念主这个标的有几点原因。

开始，机器东说念主背后代表的其实是 physical AGI，是 AGI 非常迫切的一部分，是其中的一半。如果能解锁 physical AGI、通用机器东说念主，这件事的经济价值和历史真理真理都非常要紧，是一个实足大、实足道理的问题。

其次，我刚离开 OpenAI 的时候，对机器东说念主这个标的了解得不够多。自后我花了一段期间去想考和学习，最终发现这件事的本质，跟我之前解过的悉数大模子问题莫得互异。

它本质上便是一个多模态模子的问题。把机器东说念主的输入和输出，都通过多模态模子数据表征的姿首行止理，那机器东说念主的问题随即就调换成一个多模态问题。多模态模子何如西宾、何如 scale，这些都是也曾被充分酌量过的问题。从第一性道理上，这个问题在我看来是势必可解的。

正因为如斯，我信赖我方已往在大模子领域丰富的经历和配景，会为具身这个领域带来特有的价值。

DeepTech：从离开 OpenAI 到认真创业，中间快要一年。这段期间你在干什么？

姜旭：那段期间便是在想考和迭代标的。刚离开的时候，脑海里有几个我合计值得作念的想法。对我来说相比自然的，是连接作念大模子，我在这个方朝上也作念过一些探索和尝试。

但最终我得出一个论断：在纯模子的赛说念里，我很难找到一件实足大、实足道理，况兼头部模子公司不会作念、或者我有王人备上风的事情。

按我对本领演进趋势的清爽，模子的才调规模会无穷拓展，头部模子公司的业务规模也会无穷拓展，是以终极景况下，模子便是端到端去稳定东说念主悉数的作事和内容需求，东说念主把需求给到模子，模子把东说念主需要的作事或内容复返回来。中间可能就莫得特地多创业公司的大机会。

是以其时一个很迫切的想考是：我要作念的事情里一定要有一些部分是这些模子公司不擅长的。那就一定要带上供应链和硬件，这是中国特有的上风，悉数的模子公司都不太具备这方面的基因。

DeepTech：这个论断是你我方独自想考得出的，如故也从别东说念主那里得到了什么启发？

姜旭：开始我有一个我方的直观。有了这样一个直观和标的感之后，就会作念好多 research，然后去找这个行业里最顶尖的 researcher 交流和我方去酌量，最终酿成论断。

我一运转离开 OpenAI 之后奏凯归国了，2023 年底又从头回到好意思国，跟其时最顶尖的 robotics 领域的一些 researcher 交流，像 Google、伯克利、斯坦福的一些东说念主。很难说是某一个非常具体的东说念主，更多的是我对这件事有一套我方的想法框架，框架里有一些其时嗅觉相比蒙胧的所在，我去酌量和跟这些东说念主聊，再去证据那些点。

大部分公司都在重叠苦涩的教授

DeepTech：那咫尺让咱们聊聊你所选用的这条路，大语言模子见效，是因为找到了领域化压缩语言的姿首。在具身智能领域，对应的打破是什么？物理寰宇的步履何如变成可以领域化西宾的数据？

姜旭：具身智能的打破，会跟大语言模子非常肖似。大语言模子最关节的点是压缩了全东说念主类互联网的文本数据，也便是伊利亚说的压缩即智能。

银河国际游戏平台官网

我在创业之前想清醒的，是架构层面的事情：机器东说念主问题本质上是一个多模态模子问题，这是架构层面的期间延续性。这个期间的大主题，便是用同样一套框架、同样一套方法论，去一个一个打破垂直的模态，从文本到语音到视频到图像。对具身智能来说，这是一个相比自然的延续。

但里面有一个中枢问题：这套框架到底何如用到具身智能领域。更具体的最中枢的问题是，用什么样的数据来预西宾模子。这亦然咱们创业第一年最中枢去探索的问题。最终咱们得到的谜底，跟大语言模子非常肖似：最 scalable 的姿首，便是去效法、去压缩互联网级别的东说念主类视频里的 human actions。

DeepTech：你在 OpenAI 作念的是预西宾和 RLHF。咫尺作念这件事，这套想路具体何如平移？哪些奏凯能用，哪些得从头发明？

姜旭：这需要先记忆一下大模子通盘西宾的旅途。已往几年大模子爆发以来，主要出现了三次范式级别的创新。

第一次是预西宾，你可以把它想象成完成了学问的压缩。其次，在预西宾模子的基础上作念对王人，有点像学问的索求。只须这两步都完成，模子才实足智谋、实足泛化、实足好用，对王人中枢料理的是好用这个问题。临了，差未几一两年前出现了 reasoning，赋予了模子深度想考的才调。

对应到具身智能领域，咱们开始要料理的便是学问压缩的问题。这是这个领域里到咫尺为止好多公司都莫得料理好的少许：当模子才调不够强的时候，它到底是预西宾的瓶颈，如故对王人的瓶颈？相对应地，咱们到底是要料理学问压缩的问题，如故学问索求的问题？

我认为大部分公司都在走弯路。具身智能正在经历我方的 bitter lessons，大部分公司正在重叠 NLP 当年的弯路，都聚焦在了学问索求这一步，跳过了预西宾，奏凯在作念对王人。是以咱们中枢要为这个领域孝顺和料理的，便是东说念主类步履的压缩。这个压缩是通过预西宾完成的，在以东说念主类为中心的数据上，把东说念主类的数据压缩进预西宾的模子里。

DeepTech：说到数据，你们预西宾的数据主要来源是那儿？

姜旭：咱们主要使用了互联网领域的东说念主类动作数据。

DeepTech：有不雅点认为，纯互联网视频有一些问题是完全无法料理的，还需要真机数据等其他数据来补充。你何如看？

姜旭：这是一个非常好的问题。大模子能 work，一定是需要两步：通过互联网数据完成学问的压缩，再通事后西宾完成学问的索求。对于学问压缩这一步，只须互联网数据才有可能完成。

但只是用互联网数据作念预西宾是不够的。互联网数据的平正是量非常大、实足低廉，能掩饰到各式各样的长尾场景、各式 corner case；它的坏处亦然这个，里面有各式各样不真实的数据、杂音、装假的数据。这些问题，一定要通过高质料的后西宾数据才能消撤除。是以一定是这两个汇聚起来。

这条旅途的中枢上风在于：如果你的预西宾作念得实足好，你就不需要那么多真机数据来作念对王人，最终也能西宾出一个实足通用和浩瀚的模子。

我举个例子，在 ChatGPT 的通盘西宾历程里，预西宾阶段咱们用到几万亿个 token，后西宾推行上只用到了不到 10 亿个 token，中间差了好几个数目级。这亦然今天这个领域大部分已有玩家没想清醒、没料理好的问题，寰球都在后西宾阶段、在真机数据上作念了非常多的职责。

DeepTech：互联网数据质料错杂不王人，数据清洗是不是这里面很迫切的一部分？

姜旭：对，使用互联网数据一个中枢的挑战，便是数据的清洗和处理。

我我方在 OpenAI 期间也部分参与过预西宾模子的文本数据处理，是以我知说念这件事的迫切性和复杂进度。而且很关节的是，我知说念，是有可能通过一套方法，把非常复杂、杂音很大的数据处理好，变成可用的数据的。咱们把同样的想想和方法用到了视频数据上头。

这亦然咱们已往一年探索出新范式过程中很迫切的一个里程碑，其中差未几有一半以至更多的元气心灵，都花在研发数据处理和清洗的管线上，这是一个非常复杂的过程。

DeepTech：这算是你们的一个特有壁垒吗？

姜旭：可以这样说。它需要实足强的东说念主，实足多的 know-how，再花实足多的期间和成本在上头，才能把它作念好。

DeepTech：那么在模子架构上你们作念了什么选用？比如 Physical Intelligence（Pi）用的是 flow matching，也有其他用自总结的。你们走的是哪条路？

姜旭：我先说一个判断。我认为具身大脑通盘的框架应该跟今天 agent 收受的框架相比肖似：底层有多个模子去具体践诺，顶层是一套 model harness 的框架，把这些模子合理地组织、串起来。最底层的模子都是端到端的模子。是以咱们西宾的是端到端的模子。

咱们其实更把具身 foundation model 动作一种面向物理寰宇的多模态大模子。它学习的不单是语言，而是视觉、动作、交互以及真实寰宇中的流畅步履。

从行业咫尺的发展来看，确切 scalable 的路子梗概如故两类：自总结（autoregressive）和 flow matching。咱们会把自总结更多清爽成一种对大领域时序步履数据的压缩与表征学习，而 flow matching 更接近流畅动作空间里的生成建模。两者对应的是不同的 inductive bias。

咫尺行业里收受 flow matching 的团队会更多一些，但并不是某一种架构王人备最优，纯自总结自己完全是可以诞生的。

咱们里面其实两条路子都也曾跑通了。现阶段会更多聚焦在自总结上，因为它在大领域预西宾阶段西宾效力更高，也更安妥快速 scale。

但直爽讲，咱们并不认为模子架构自己是这个阶段最中枢的壁垒。对具身智能来说，更关节的问题如故数据，尤其是大领域预西宾数据。咱们咫尺更中枢的事情，其实是先用一套相对浮浅、褂讪、也曾被考据 scalable 的架构，把数据领域和步履掩饰度确切作念起来。

DeepTech：自总结有一些短处，比如精度亏本、推理速率慢。这些何如料理？

姜旭：这里面好多问题，其实并不是自总结自己的问题。像精度亏本、西宾不褂讪这些，更多如故一些关节算法细节莫得确切作念好。包括 tokenization、永劫序建模、西宾计谋这些，大模子领域其实也曾积存了好多老到阅历，A8体育app2026世界杯中国官方下载都是咱们也曾反复料理过屡次的问题。

推理速率亦然肖似的。咫尺好多 flow matching 模子之是以显得更快，一个很迫切的原因是它的 action head 还相比小，本质上还莫得进入确切 scale 的阶段。异日如果具身模子连接往更大领域发展，推理优化最终如故会变成一个非常系统性的工程问题。

而且咱们合计，自回退回有一个很大的上风，便是它能够自然承袭通盘 foundation model 领域已往几年积存下来的本领红利。不管是诡计效力、长程操心、RL 范式，如故通盘西宾基础设施，其实都也曾非常老到了。

是以咱们咫尺更中枢的事情，如故先把数据领域、预西宾和真实寰宇交互确切作念起来。

DeepTech：我了解到你们的模子是跨实质的，咫尺推行跑通了哪几种形态？

姜旭：先解释一下，因为咱们的模子效法的是东说念主类的动作，压缩的是 human actions，而 human 是一个非常高摆脱度、动作非常丰富的实质。以这样的实质为基础，咱们事实上可以把东说念主体作念出来的各式动作，map 到各式其他形态的硬件实质上。

到咫尺为止，咱们有两款全自研的硬件实质，一款东说念主形机器东说念主，另一款是摆脱度低好多的轮式产物，都可以搭载咱们的模子，咱们也尝试过宇树的实质。如果是一个低摆脱度的实质，咱们就把东说念主体的动作作念一个更低摆脱度的近似就可以了。举个例子，咱们最终扫尾了东说念主在物理寰宇里通用的举止才调、take action 的才调之后，可以把它简化成东说念主的重点点的迁徙，这时候出来的就相配于是一个迁徙模子。

DeepTech：你提到你们扫尾了初步的 scaling，这个“初步”具体是什么情况？

姜旭：咱们咫尺所处的研发阶段，如果对标 OpenAI 的 GPT 系列，相配于是 GPT-2.5 的水平。这个对标有两个层面的真理真理。

第一个层面，奏凯从数据量上看，咱们咫尺的数据量也曾突出了当年 GPT-2 西宾用的数据体量，模子大小也比 GPT2 稍许大一些。自然模子大小在这个阶段对咱们来说不那么关节，因为何如 scale 模子，这件事在大模子领域也曾解过了，中枢是莫得东说念主解过何如 scale 具身的数据。

第二个层面，从咱们咫尺能扫尾的、从数据处理到模子西宾的整条管线来看，咱们也曾能作念到：偶然拿来一段视频数据，只须里面有东说念主，就可以把它变成咱们的西宾数据源，能有用地从视频里学习到东说念主的通达信息、视觉信息。

DeepTech：那离上限还有多远？

姜旭：咱们算过按这个旅途最终能达到的上限。咱们在数据量上还可以引申好几个数目级，差未几有四个数目级的引申空间。从 GPT-2 到 GPT-4，数据上差未几是引申了三个数目级。是以信赖咱们的模子才调还会有屡次质的飞跃。

DeepTech：到了阿谁数目级的上限，就足以扫尾通用才调了吗？

姜旭：我信赖到阿谁级别，就足以扫尾初步的通用机器东说念主。对标 GPT 系列，应该至少能达到 GPT-3.5 那种初步可用的景况。

中枢原因是，今天咱们西宾出来的模子，教唆随从才调也曾推崇得可以了，也曾远远突出咱们当年西宾 GPT-3 时的景况。咱们那时候看到能说几句完整的话、语法上莫得涌现装假，就很鼎沸了。在这个基础上再有四个数目级的提高空间，我信赖一定会有一个通达智能、具身智能上的飞跃。按照 GPT系列对模子版块迭代的界说，每一代模子要比上一代强一百倍，那提高四个数目级，差未几能扫尾两代模子的迭代。

DeepTech：我传说，在你们看来，物理寰宇的通达泛化可能比语言泛化容易好多。这个论断你们是何如得出来的？

姜旭：Scaling law是咱们酌量何如 scale 模子的一个很迫切的器具，它中枢讲的是模子才调会跟着数据量、西宾算力的干预和模子大小详情趣地变化。这三条趋势线是直线，就会有斜率。咱们咫尺看到的是，具身的斜率可能比语言的斜率还要大一些。这是一个非常特真理的发现，意味着这个问题可能比语言要浮浅一些。

另外一个是自然进化的例证。掌抓了高档语言才调的只须东说念主类，但其他悉数动物都具备通达的才调，具备跟物理寰宇交互、窜改物理寰宇的才调。说白了，连蚂蚁都有一个夹爪，可以作念 pick and place。是以，这件事可能莫得语言那么难。

DeepTech：这个论断还挺反共鸣的。之前看到的好多说法，都是说真实寰宇的泛化更难。

姜旭：我认为今天寰球合计它反共鸣，一个很迫切的原因是，寰球作念的姿首可能都不合，莫得果真领路大模子那套想想方法论的精髓。

已往三年，通盘具身智能赛说念一个很迫切的进展，是寰球逐渐酿成共鸣，要收受大模子那套想路。但这里面有一个很大的 gap：好多创始东说念主、好多团队之前莫得作念过大模子，在想法层面、knowhow 层面有一些误区，诬陷了大模子里一些很中枢的点。好多团队在这方面是有学问盲区的。

DeepTech：嗅觉你对这个判断很有自信。

姜旭：因为我我方在大模子标的作念过太多神情，有见效的，也踩过好多坑。我在 OpenAI 四年，也见过太多周围的共事用肖似的想想方法论去解其他领域的问题。这通盘过程，帮我建造起了对这条本领路子非常深切的审好意思。

DeepTech：那你合计这个判断会被质疑吗？我个东说念主合计，这篇著述发出来之后，可能会有不少东说念主质疑你。

姜旭：可能会吧，但我其实特地享受被质疑、且最终被解说是正确的这样一个过程。

DeepTech：你会何如看待这些质疑？

姜旭：我可以分享一段我的经历。我刚加入 OpenAI 的前两周，读的第一篇 paper 便是 Scaling Law 那篇，其时如故 draft，还没发表出来。我读完大受震憾，很确信我赶上了一次本领改进。

By the way，我一直合计我方的本领 taste 如故相比可以的，在一个本领早期的时候，我就能相比精确地看到它的异日和后劲。阿谁时候 OpenAI 在外界看起来如故一家相比奇怪的公司，但里面其实也曾发生了天崩地裂的变化，外界并不知说念。我出去跟别东说念主聊天，泛泛有东说念主问我 OpenAI 是作念什么的，我说 OpenAI 是要去作念 AGI 的。这个时候我会看着对方的目光，泛泛对方的目光和色调传达出来的是质疑，仿佛在说，这是一家骗子公司。

我是很享受这个过程的。大模子被证实了，这家公司作念的事情也被证实了。

我合计最终有价值的事情，都是要反共鸣且正确，be contrarian and right。如果是一件强共鸣的事情，它的相对价值要小好多。这亦然为什么我在 2023 年阿谁期间点选用离开 OpenAI，我认为阿谁时候大模子也曾变成一件强共鸣的事了。

交互会从头界说机器东说念主

DeepTech：你认为具身智能的终端是什么？

姜旭：我合计好多东说念主咫尺清爽具身智能，如故一种“替代东说念主”的逻辑。比如扫地、作念饭、搬东西，本质上如故在复刻东说念主也曾会作念的事情。但我合计具身智能确切特真理的所在，是好多新的才息争价值，可能会从经久 interaction 里自然长出来。

前提是，它得先确切进入现实寰宇。

而这背后最中枢的问题，其实如故：何如 scale intelligence。可以这样清爽，大模子这几年确切见效的所在，本质上是第一次把好多本领用一个正确的步调组合了起来。先通过预西宾，在全互联网数据上完成大领域的效法学习；之后再通过强化学习、对王人、reasoning，把这些才调一步一步确切开释出来。

好多已往失败的探索，并不是算法自己错了，而是步调错了。在预西宾这套范式确切被走通之前，好多 AGI 的探索其实都聚首在强化学习，前大模子期间的 NLP 本质上在作念对王人。

今天具身智能领域，其实也很像阿谁阶段。真机数据、遥操、真机强化学习这些标的自然有价值，但它们更安妥“后西宾”。这个行业到今天为止，其实还莫得确切料理“具身预西宾”这个问题。

穷乏一个实足强的预西宾基座，模子就很难确切赢得对物理寰宇的泛化清爽，也很难经久在真实寰宇里不息迁徙、不雅察、interaction。

真松懈的变化，会发生在这之后。当 intelligence 能够经久存在于现实寰宇，并不息 interaction，它会逐渐酿成对环境、对东说念主、对生活自己的清爽。好多今天还不存在的 intelligence、interaction，以至新的价值形态，可能都会从这里运转出现。

DeepTech：那这个终端，跟东说念主的关系会是什么样的？

姜旭：从才调演进的角度，我合计具身智能临了会和大语言模子很像。它会先去效法东说念主，然后逐渐超越东说念主的才调。今天的代码模子，也曾能看到非常涌现的迹象了，它也曾不单是辅助东说念主写代码，而是在进入一种新的协调景况。具身智能以后也会是肖似的过程。

但我合计更迫切的少许是，当具身智能经久存在于真实寰宇里，经久和东说念主分享空间、分享环境，这里最关节的变化是：interaction 的期间表率变了。

当 interaction 从几秒钟的一次调用，变成经久共存之后，它和东说念主的关系也会发生本质变化。它不再只是“践诺一个任务”，而会运转逐渐清爽东说念主的习尚、环境的变化、空间里的隐含规则，安然酿成一种对真实寰宇的“具身直观”（embodied intuition）。

到阿谁时候东说念主和 AI 可能会一说念创造出好多已往压根不存在的新价值、新步履，以至新的生活姿首。

DeepTech：要扫尾你说的这种机器东说念主，它需要具备哪些才调？何如排优先级？

姜旭：通盘大模子的研发想路，并不是从需求开赴去倒推说咱们要作念什么，它是反过来的，是从数据红利开赴。咱们看这个寰宇上存在最多数的数据是什么，就从这些数据里把它蕴含的丰富信息作念一个深度挖掘，这是大模子范式的本质。

是以沿着咱们的想路，开始是能够全面地效法和学习东说念主的各式各样的才调，这取决于现存的存量数据里包含了哪些东说念主的步履和动作。

对于本领演进的旅途，咱们跟这个领域有一些不太一样的不雅点。我认为最运转能够解锁出来的，是通用迁徙的才调，是 mobility。它会起初在模子才调上打破，况兼能最快酿成交易闭环、最快商用。下一步才是通用 manipulation，模子才调上才实足强，并找到合适的应用落地场景，酿成交易闭环。步调上是先通过 mobility，让具身智能安全地进入物理寰宇，下一步再去谈怎样用手段窜改物理寰宇。

mobility 和 manipulation 这两个，对应到大语言模子的发展历史，相配于是 language 和 coding 之间的关系。一运转 language 的存量数据最大，才调上率先打破，找到一个合适的产物形态，便是 ChatGPT。跟着模子研发的进展、language 才调的提高以及 coding 自己才调的提高，最终才解锁出 Claude Code 和 Codex 这种全新的产物形态，大领域阐述经济价值。

DeepTech：也有点像东说念主类，先从爬行、步碾儿运转，再去学各式才调。

姜旭：对，它开始要能在灵通的物理寰宇里安全地迁徙。

DeepTech：你之前在小红书上提到你们领先的产物要先作念一些好玩的东西，那么第一款产物具体会是什么样的？

姜旭：我合计“好玩”其实是一个很迫切的词。因为好多东说念主会默许，机器东说念主最迫切的是“完成任务”。但如果你回头看大模子的发展过程，会发现确切让 AI 爆发的，其实并不是一运转就去料理分娩力问题，而是 interaction。

ChatGPT 最早窜改寰宇，也不是因为它先替东说念主完成了什么复杂职责，而是它第一次让大领域用户运转自然地和 AI 交互。具身智能好多新的才息争价值，未必是一运转被遐想出来的，而可能是在经久与东说念主共存和交互中长出来的。是以咱们第一代产物从才调上来说，它会具备通用的 mobility，以及通用的想考和 interaction 才调。

DeepTech：会是之前一些报说念提到的那种随同型机器东说念主吗？

姜旭：“随同”自己并不是一种产物类型，它更像是经久共存和交互之后自然产生的一种戒指、一种心情上的价值。但咱们确切感兴味的，并不单是激情价值。

更迫切的是，当 intelligence 运转经久存在于真实寰宇，并不息 interaction 之后，它会不会运转产生好多额外的新价值。因为如果你仔细不雅察，东说念主类在现实寰宇里绝大部分期间，其实都不是在“操作”。更多时候，咱们是在迁徙、不雅察、想考。

按照之前的推演，咱们会把率先能够解锁出来的迁徙才调去交易化，让机器东说念主能够在物理寰宇里面主动地迁徙、不雅察和交互，把数字寰宇的 agent 延迟到物理寰宇，扫尾 embodied agent。

DeepTech：我嗅觉咫尺不少东说念主对你们的了解，可能还停留在“随同机器东说念主”上。

姜旭：咱们本质上如故一家基模公司，只不外作念的是具身基础模子。基模赛说念有一种说法叫作念“模子即是产物”，在具身领域应该是基模+硬件实质便是产物，异日咱们的模子会有各式形态的“壳”，开始从一个轻巧的 embodied agent 运转，异日会有搭载咱们模子的各式形态机器东说念主产物。

DeepTech：这款产物概况多久之后能见到？

姜旭：再保留点阴事感，但深信不会是两年之后了！

DeepTech：你们定位是具身大模子公司，硬件实质策划我方造吗？

姜旭：咱们暂时是我方造。背后中枢的原因是，通盘行业还处在非常早期，还莫得酿成表率和共鸣。自然存在具身智能这样一个大赛说念，但寰球西宾模子的姿首、算法旅途、产物落地的标的、应用的场景，事实上林林总总，每家公司都有我方的谜底。这个期间点，很难找到险峻游的供应商来配合咱们，去 exactly 打造一个能适配咱们模子才调的硬件。

咱们这套想路最中枢的，是围绕模子才调的变化来想考：在什么期间点能解锁出什么样的模子才调，咱们就怎样打造一款合适形态的产物。跟大模子研发和迭代的想路非常像，并不是一个传统的、去作念虚耗级机器东说念主的想路。是以暂时咱们只可端到端地既作念模子西宾，又去界说和打造我方的硬件。

但长期看，咱们会但愿把模子变成一个灵通的生态，去跟领域里各式各样形态的硬件完成适配。

最终依赖的如故东说念主

DeepTech：你团队的领域咫尺有多大？

姜旭：咫尺全职概况六十东说念主傍边。

DeepTech：你的团队配景很各样，来自 OpenAI、大疆、微软、华为、字节。你刚才也提到，OpenAI 早期团队是相比割裂的。在组建团队时，你会有领悟地去幸免这个问题吗？

姜旭：非常好的问题。我认为 OpenAI 见效一个很中枢的原因，是它后头酿成的扁平文化和非常高效的组织。

我的判断是，本质上咱们便是一家多模态大模子公司，一定要收受最顶尖大模子公司的组织模式：保持一个小的团队，保持非常高的东说念主才密度，打造一个扁平、高效的组织。

从创立运转一年多，我也作念了蛮多探索和想考。对 OpenAI 来说有一个相对容易的点，它需要的主要便是作念算法的东说念主，相似的东说念主想法更容易调节，想考问题、作念事情的姿首更容易接近。对咱们来说，一个中枢挑战是，团队里既有作念硬件的，又有作念软件算法的，算法这边又分红机器东说念主算法、大模子，还有传统的软件工程，是配景非常不一样的一群东说念主。

最终我摸索下来，发现谜底其实蛮浮浅的。这样一个扁平的组织，最终不依赖于组织的结构和章程来作念事情，更多依赖于东说念主。

DeepTech：是以中枢难点是筛选东说念主？

姜旭：对，悉数料理的难度都放到了筛选东说念主这一步。筛选东说念主又包含两种类型。一种是也曾有一些职责阅历、在职场里酿成了工魄力俗的东说念主，对这些东说念主，咱们一定要按咱们的表率去斟酌，看他是否能安妥、是否安妥咱们想打造的扁平文化组织的要求。另一种是可塑性更强、更白纸的，刚毕业以至还没毕业的学生，这些东说念主可以在咱们团队文化磨合得相比好的情况下，在里面培养和西宾。

DeepTech：识别东说念主这件事，是不是也需要一种 taste？

姜旭：完全是的。我在 OpenAI 期间也见过多数非常优秀的东说念主，优秀体咫尺不单是是手段、业务水平层面，更迫切的是 ownership。OpenAI 招东说念主的时候非常可爱招有创业经历的东说念主，这可能也跟 Sam Altman 的配景联系，他之前是 YC 的 president，OpenAI 也有多数东说念主之前是 YC 的 founder。这些东说念主除了业务才调以外，泛泛会有非常强的主东说念主翁精神，会把公司的事情当成我方的事情来作念。

DeepTech：那么你招东说念主时，最垂青的特色是什么？

姜旭：主淌若三个方面。第一个是最基本的业务才调，他在所处的模块上，手段要达到一定水平。其次是 ownership，主东说念主翁精神，他是不是能把这些事情当成我方的事情来作念。这个非常迫切，因为一个扁平文化的组织本质上是莫得料理的，要每个东说念运用理我方，同期料理神情，以至料理其他东说念主，是以对东说念主的要求极其高。第三个方面，是一个东说念主作念选用的才息争 taste。

这三个方面如果都很优秀，这个东说念主便是一个很好的 manager。是以咱们咫尺在公司里选了好多优秀的 manager，关联词寰球都莫得 manager 的 title，寰球在这样一个文化里共同料理、共同治理公司。

DeepTech：咫尺的团队，在这个阶段够了吗？

姜旭：咱们举座的团队膨大速率如故相比慢的，招东说念主一直保持着相比高的筛选表率，很克制，是以咱们简直悉数岗亭都有空白。

现阶段尤其是大模子标的，咱们大模子团队招的东说念主开阔都是大模子公司配景的。这一定进度上跟我我方之前的经历和 OpenAI 的光环联系，这个光环也能帮咱们诱骗到大模子领域一些顶尖的选手，加入咱们一说念西宾具身的 foundation model。

事实上，咱们西宾的这个具身 foundation model 从通盘体量到挑战，也曾不亚于西宾任何其他领域的 foundation model 了。也借这个机会说一句，咱们咫尺一直在招东说念主。如果你身上有我刚说的这三点特色，又信赖从预西宾开赴去作念具身基础模子这条旅途，想跟咱们一说念把具身的 foundation model 训出来，宽饶你来找咱们聊。

DeepTech：海表里的同业里，你合计作念得相比好、相比有代表性的有哪些？

姜旭：我会相比热心那些大模子公司下场去作念这件事，比如我的老东家 OpenAI，我会热心他们的进展。Google 不太好说，Google 和 OpenAI 如故两码事，两家公司在组织文化上其实有非常大的互异。

大公司里有非常多职责的东说念主，但穷乏 owner，大公司恒久有这样一个逆境，Google 也恒久会有这个挑战。

今天要在这个领域扫尾打破，需要的方法和手段，exactly 便是大模子那套东西。我更信赖会有一些大模子公司在这个领域里相比早地作念出打破。如果一个团队里坚苦实足多的大模子阅历和 knowhow，会遇到相比多的挑战。

DeepTech：2026 年以来这几个月，国内具身智能赛说念也曾有好几家上百亿估值的公司了。你何如看这个赛说念如今的热度？

姜旭：一个蕃昌发展的行业，早期一定会有一些泡沫，泡沫自己是一个宽泛的征象。

稍许不太合理的所在在于，一些公司可爱对标同业，坚苦沉寂的探索和创造，也坚苦对行业前沿的更有劲的打破和推动。

DeepTech：你一运转说，你们本年一个很迫切的主题亦然融资，那你们进展怎样？

姜旭：咱们正在 close 新的一轮融资。咱们在融资节拍上，也作念了一个有点反共鸣的选用。

旧年上半年咱们融结束一轮，其时市集如故蛮火热的。但我信赖具身智能、AI 是这个期间的大主题，是全社会、全寰宇会 all in 的大标的。在 AI 期间大波澜里，资源并不是最稀缺的，一个顶尖的团队和一条果真能扫尾智能打破的研发旅途，才是最稀缺的。咱们旧年一年都在打造团队、探索模子研发旅途和产物落地标的。本年咱们除了融资外，还会有更多的对外发声；要推动范式级别的窜改一定是需要更多东说念主的参与。

咱们就活在科幻里面

DeepTech：你说你们的模子咫尺到了 GPT-2.5 的时刻。那距离确切的 ChatGPT 时刻，还有多远？

姜旭：按照咱们这条旅途，咱们在年底之前应该能够扫尾，相配于从 2.5 到 3.5，突出一代模子。突出一代要有一百倍的提高。对咱们来说，以咫尺的水平为基础，再提高一百倍应该不会是一个根人性的挑战。

DeepTech：这个谜底有点出乎我的猜测，我以为会更慢少许。

姜旭：我对咱们咫尺所走的这条旅途，极其乐不雅，极其有信心。

DeepTech：本年年底有点太近了，咱们再来预测更远少许的事吧，在本年以外，你异日三到五年乃至以后的宗旨是什么？

姜旭：我的大判断是，具身智能会沿着大模子走过的旅途，把大模子迫切的那些里程碑再走一遍。

开始是完成预西宾，预西宾的打破和 3.5 时刻会是行业的拐点，具身智能产物才会运转大领域地落地应用，出咫尺咱们的生活里，进一步汇集到全新的、真实寰宇的数据。这有点像今天的 Coding Agent，当大模子作念长程任务、写代码的才调打破到一定进度，运转能完整地委派职责，进入到用户的电脑这样一个更复杂、全新的环境，而那些数据是之前模子见不到、互联网上也不存在的。由此就酿成了数据飞轮。

大模子是要在数字寰宇里效法和超越东说念主的才调，具身是要在物理寰宇里效法和超越东说念主，三到五年傍边，概况率会全面地超越东说念主的才调。

DeepTech：在这个过程中，你咫尺最期待的一件事是什么？

姜旭：具身智能的 ChatGPT 时刻，模子才调强到可以大领域地进入到物理寰宇，进而出现第一个 PMF 的产物之后，数据飞轮和交易飞轮都会转起来。在这个基础之上，通用具身智能将会看起来不再那么远处和不可想象。

DeepTech：那你相比操心的问题有哪些？

姜旭：我以前在 OpenAI 的四年期间，前后差未几有一年多期间都在对王人的团队里。对王人中枢要料理的一个非常关节的问题，便是安全。

具身智能存在非常肖似的问题。它的本领演进旅途会跟大模子非常像，存在的风险也会跟大模子非常肖似。安全问题是急需通盘领域去热心、提前想考、酌量和布局的标的。

看得更远少许，当代时髦社会是东说念主创造的，但当这个星球上出现了一个从才息争膂力上都全面超越东说念主的全新群体之后，是否会影响到咱们今天的时髦，咱们的时髦会怎样演变，是每个东说念主都要去想考的问题。

DeepTech：这是一个听起来非常科幻、又非常现实的问题。

姜旭：是的。当智能运转经久存在于物理寰宇，它就不再只是一个被调用的器具、而是可以通过不息不雅察、不息学习、不息交互和操作反过来影响现实寰宇自己。

那时候，东说念主类面临的就不再只是一次本领升级，而是一种新的“存在”。

咱们其实也曾活在科幻里了。

运营/排版：何晨龙

注：封面/首图由 AI 辅助生成A8体育app2026世界杯中国官方下载

A8体育app2026世界杯中国官方下载独家|ChatGPT中枢孝顺者归国创业: 把LLM的Scaling带到具身智能

热点资讯

推荐资讯

A8体育app2026世界杯中国官方下载 独家|ChatGPT中枢孝顺者归国创业: 把LLM的Scaling带到具身智能

热点资讯

推荐资讯

A8体育app2026世界杯中国官方下载独家|ChatGPT中枢孝顺者归国创业: 把LLM的Scaling带到具身智能