130多天后再谈AI！李想透露实现VLA的三个阶段，回应“智驾”是否该叫停

AI（人工智能）工具可划分为信息工具、辅助工具和生产工具三个层级。我觉得人工智能变成生产工具，才是真正人工智能爆发的时刻。理想汽车董事长、CEO李想在5月7日晚的《理想AI Talk第二季》中，分享了他对于人工智能的最新思考，VLA司机大模型的作用、训练方法和挑战，这距离他上一季谈及人工智能已经过去了130多天。

图片来源：企业供图

李想表示：判断Agent（智能体）是否真正智能，关键在于它是否成为生产工具。只有当人工智能变成生产工具，才是其真正爆发的时刻。就像人类会雇用司机，人工智能技术最终也会承担类似职责，成为真正的生产工具。

就理想汽车而言，其研发的VLA司机大模型则是以司机Agent的产品形态呈现。用户可通过自然语言与司机Agent沟通，跟人类司机怎么说，就跟司机Agent怎么说。简单通用的短指令由端侧的VLA直接处理，复杂指令则先由云端的VL基座模型解析，再交由VLA处理。理想汽车方面表示。

此外，李想还回应了有人觉得辅助驾驶应该被叫停的问题。经过多年，从规则算法到端到端+VLM（视觉语言），再到现在真正迈入VLA阶段，现在比较像‘黎明前的黑暗’。我觉得黎明马上就要来了。但是会先经历一个黑暗的过程，之所以有黑暗是因为要迎来黎明。李想说。

VLA是端到端+VLM的合体

所谓VLA，即视觉语言动作模型（Vision-Language-Action Model）。最早由DeepMind于2023年提出，应用在机器人领域，输入给定的文本和视觉数据，输出机器人可执行的动作，天然便带有AI与物理世界交互的基因。

与当前理想汽车使用的着重于图像和场景的理解，作为智驾决策规划输入，让车辆行为更合理的VLM模型不同，VLA模型会将端到端与多模态大模型结合得更彻底，能够根据感知直接生成车辆的运动规划和决策，更加接近图像输入、控制输出的端到端智驾理想状态。

在业内看来，VLA模型可看成是端到端+VLM的合体，其遇到一些复杂的交通规则、潮汐车道、长时序推理等特殊场景时，会比过往理解、应对得更好。对于理想汽车而言，VLA是一个司机大模型，像人类的司机一样去工作的一个模型。李想说。

据悉，就推理时长而言，在传统rule-based（基于规则）方案下，智能辅助驾驶只能推理1秒钟路况信息然后做出决策控制；端到端1.0阶段系统能够推理出未来7秒的路况，而VLA模型则能对几十秒路况进行推理。

李想透露，达到VLA模型阶段并非突变的过程，而是进化的过程，经历了三个阶段：第一阶段，理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶，类似昆虫动物智能。第二阶段，理想汽车自2023年起研究，并于2024年正式推送的端到端+VLM辅助驾驶，接近哺乳动物智能。

在端到端的基础上，到第三阶段，VLA将开启‘人类智能’阶段。它能通过3D和2D视觉的组合，完整地看到物理世界，而不像VLM仅能解析2D图像。同时，VLA拥有完整的脑系统，具备语言、CoT（Chain of Thought，思维链）推理能力，既能看，也能理解并真正执行行动，符合人类的运作方式。李想说。

有观点认为，伴随着VLA模型的出现，理想汽车或放弃端到端技术。对此，李想表示：没有放弃，端到端是VLA的基础。如果你把端到端想象成一个个具身智能执行的环节，那它其实就是VLA的A（action行动）的部分。只是我要多语言的部分，还要更多更强的3D vision和高清2D vision的部分。

现阶段VLA是能力最强的架构

值得注意的是，VLA近来一直受到自动驾驶领域的热捧，除理想汽车外，元戎启行等企业也在该领域进行布局。有行业人士表示，VLA模型对智能辅助驾驶的演进意义重大，在L2辅助驾驶到L4自动驾驶的飞跃中，VLA可能会成为关键跳板；另一方面，VLA模型也可能成为智能驾驶走向更广阔的具身智能行业的连接点。

目前的L2、L2+组合驾驶辅助仍属于辅助工具阶段，而VLA能够让AI真正成为司机，成为交通领域的专业生产工具。对理想汽车而言，未来的VLA就是一个像人类司机一样工作的司机大模型。李想说，我自己认为VLA（司机大模型）能够解决全自动驾驶，至于VLA是否是效率最高的方式还要打个问号。但现阶段VLA是能力最强的架构。

值得一提的是，行业也存有共识，VLA模型的上车难度不小——将端到端与VLM模型二合一后，车端模型参数变得更大，既要有高效实时推理能力，同时还要有大模型认识复杂世界并给出建议的能力，对车端芯片硬件有相当高的要求。

理想汽车有编译团队，有芯片的能力，有板子设计能力，有操作系统能力。所以我们是能够把两个Orin-X带宽做到足够的大，它同样可以跑同等规模的VLA的模型。李想表示，我自己还是认为，规模小的时候可能无所谓，规模大的时候基本功和能力永远是无法逾越的。

值得注意的是，李想的这番言论也折射出当前智能辅助驾驶行业的一个现状——技术路径的快速迭代升级与竞争态势的加速转变，对那些尚未在端到端解决方案领域建立优势的企业而言，形成了更高的准入壁垒，使得后来者居上的可能性显著降低。

今天很多企业做端到端都很吃力，是因为在规则算法的时候都没做好。李想说，如果你规则算法都做不好，你根本不知道怎么去做端到端；如果你端到端没有做到一个非常极致的水平，你连VLA怎么去训练都不知道。

美国很多顶级的公司，像苹果、特斯拉，他们基本功特别扎实，这个是我们真正要去学的。尤其是在今天这种内卷环境下，包括外部不确定的环境下，这时候更是每个企业扎扎实实练基本功最好的时候。而且到了人工智能时代，基本功就更是不可跳跃的。李想补充道。

文章来源于网络。发布者：每日电讯网，转转请注明出处：https://www.jnlts.cn/12941.html

130多天后再谈AI！李想透露实现VLA的三个阶段，回应“智驾”是否该叫停

发表回复

联系我们

400-800-8888

130多天后再谈AI！李想透露实现VLA的三个阶段，回应“智驾”是否该叫停

相关推荐

“高位买金，把我害惨了”

德国新政府，人事玄机多

特朗普，害怕了？

拆解A股上市农商行去年业绩：多家银行投资收益同比翻倍！常熟银行聚焦“小本生意”，2.71%净息差领跑

港股周一低开 恒生科技指数跌超1%

发表回复

联系我们

400-800-8888

港股周一低开恒生科技指数跌超1%