130多天后再谈AI!李想透露实现VLA的三个阶段,回应“智驾”是否该叫停

AI(人工智能)工具可划分为信息工具、辅助工具和生产工具三个层级。我觉得人工智能变成生产工具,才是真正人工智能爆发的时刻。理想汽车董事长、CEO李想在5月7日晚的《理想AI Talk第二季》中,分享了他对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,这距离他上一季谈及人工智能已经过去了130多天。

130多天后再谈AI!李想透露实现VLA的三个阶段,回应“智驾”是否该叫停
图片来源:企业供图

李想表示:判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇用司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。

就理想汽车而言,其研发的VLA司机大模型则是以司机Agent的产品形态呈现。用户可通过自然语言与司机Agent沟通,跟人类司机怎么说,就跟司机Agent怎么说。简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。理想汽车方面表示。

此外,李想还回应了有人觉得辅助驾驶应该被叫停的问题。经过多年,从规则算法到端到端+VLM(视觉语言),再到现在真正迈入VLA阶段,现在比较像‘黎明前的黑暗’。我觉得黎明马上就要来了。但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。李想说。

VLA是端到端+VLM的合体

所谓VLA,即视觉语言动作模型(Vision-Language-Action Model)。最早由DeepMind于2023年提出,应用在机器人领域,输入给定的文本和视觉数据,输出机器人可执行的动作,天然便带有AI与物理世界交互的基因。

与当前理想汽车使用的着重于图像和场景的理解,作为智驾决策规划输入,让车辆行为更合理的VLM模型不同,VLA模型会将端到端与多模态大模型结合得更彻底,能够根据感知直接生成车辆的运动规划和决策,更加接近图像输入、控制输出的端到端智驾理想状态。

在业内看来,VLA模型可看成是端到端+VLM的合体,其遇到一些复杂的交通规则、潮汐车道、长时序推理等特殊场景时,会比过往理解、应对得更好。对于理想汽车而言,VLA是一个司机大模型,像人类的司机一样去工作的一个模型。李想说。

据悉,就推理时长而言,在传统rule-based(基于规则)方案下,智能辅助驾驶只能推理1秒钟路况信息然后做出决策控制;端到端1.0阶段系统能够推理出未来7秒的路况,而VLA模型则能对几十秒路况进行推理。

李想透露,达到VLA模型阶段并非突变的过程,而是进化的过程,经历了三个阶段:第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似昆虫动物智能。第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端+VLM辅助驾驶,接近哺乳动物智能。

在端到端的基础上,到第三阶段,VLA将开启‘人类智能’阶段。它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。李想说。

有观点认为,伴随着VLA模型的出现,理想汽车或放弃端到端技术。对此,李想表示:没有放弃,端到端是VLA的基础。如果你把端到端想象成一个个具身智能执行的环节,那它其实就是VLA的A(action行动)的部分。只是我要多语言的部分,还要更多更强的3D vision和高清2D vision的部分。

现阶段VLA是能力最强的架构

值得注意的是,VLA近来一直受到自动驾驶领域的热捧,除理想汽车外,元戎启行等企业也在该领域进行布局。有行业人士表示,VLA模型对智能辅助驾驶的演进意义重大,在L2辅助驾驶到L4自动驾驶的飞跃中,VLA可能会成为关键跳板;另一方面,VLA模型也可能成为智能驾驶走向更广阔的具身智能行业的连接点。

目前的L2、L2+组合驾驶辅助仍属于辅助工具阶段,而VLA能够让AI真正成为司机,成为交通领域的专业生产工具。对理想汽车而言,未来的VLA就是一个像人类司机一样工作的司机大模型。李想说,我自己认为VLA(司机大模型)能够解决全自动驾驶,至于VLA是否是效率最高的方式还要打个问号。但现阶段VLA是能力最强的架构。

值得一提的是,行业也存有共识,VLA模型的上车难度不小——将端到端与VLM模型二合一后,车端模型参数变得更大,既要有高效实时推理能力,同时还要有大模型认识复杂世界并给出建议的能力,对车端芯片硬件有相当高的要求。

理想汽车有编译团队,有芯片的能力,有板子设计能力,有操作系统能力。所以我们是能够把两个Orin-X带宽做到足够的大,它同样可以跑同等规模的VLA的模型。李想表示,我自己还是认为,规模小的时候可能无所谓,规模大的时候基本功和能力永远是无法逾越的。

值得注意的是,李想的这番言论也折射出当前智能辅助驾驶行业的一个现状——技术路径的快速迭代升级与竞争态势的加速转变,对那些尚未在端到端解决方案领域建立优势的企业而言,形成了更高的准入壁垒,使得后来者居上的可能性显著降低。

今天很多企业做端到端都很吃力,是因为在规则算法的时候都没做好。李想说,如果你规则算法都做不好,你根本不知道怎么去做端到端;如果你端到端没有做到一个非常极致的水平,你连VLA怎么去训练都不知道。

美国很多顶级的公司,像苹果、特斯拉,他们基本功特别扎实,这个是我们真正要去学的。尤其是在今天这种内卷环境下,包括外部不确定的环境下,这时候更是每个企业扎扎实实练基本功最好的时候。而且到了人工智能时代,基本功就更是不可跳跃的。李想补充道。

文章来源于网络。发布者:每日电讯网,转转请注明出处:https://www.jnlts.cn/12941.html

(0)
每日电讯网的头像每日电讯网
上一篇 2025年5月8日
下一篇 2025年5月8日

相关推荐

  • 最新!胖东来发布和田玉、翡翠退货说明:顾客如需退货,不扣手续费及税费等任何费用

    据胖东来抖音官方账号,5月8日,胖东来官方发布和田玉、翡翠退货说明。 说明中提到:顾客在胖东来珠宝部自营区购买的和田玉、翡翠商品只要对价格、品质有任何质疑,可到第三方权威鉴定机构及相关行政部门进行评估。如有退货需求,可到胖东来珠宝部柜台办理退货,不扣手续费及税费等任何费用。(退货时商品无人为损坏的断裂、裂纹;持购物凭证、商品标签、鉴定证书等购买凭证即可办理退…

    2025年5月8日
    200
  • 速腾聚创公布2024全年财报:全年收入16.5亿元,毛利率约为17.2%

    3月31日,速腾聚创(2498.HK)发布了2024年业绩财报。财报显示,2024年全年公司总收入约为16.5亿元,同比增长47.2%;全年整体毛利率约为17.2%,其中第四季度毛利率提升至22.1%。经调整净亏损约为3.96亿元,较上一年下降约8.9%。 在出货量方面,2024年,速腾聚创激光雷达总销量约为54.4万台,同比增长约109.6%。其中,用于A…

    2025年4月1日
    1600
  • 港股小幅高开 泡泡玛特创新高

    3月27日早盘,港股市场小幅高开。截至发稿前,恒生指数报23557点,上涨0.32%;恒生科技指数报5582点,上涨0.17%。 泡泡玛特昨日公布2024年全年财报,财报显示,2024年泡泡玛特实现营收130.4亿元人民币,同比增长106.9%;经调整净利润34.0亿元,同比增长185.9%。泡泡玛特在海外市场线上渠道同样表现不俗,全年营收14.6亿元,同比…

    2025年3月27日
    3600
  • 紧急提醒!

    中国驻伊朗大使馆4月27日发布安全提醒: 4月26日,伊朗南部沙希德拉贾伊港发生爆炸事件,造成多人伤亡,阿巴斯港市内震动感明显。中国驻阿巴斯总领馆第一时间启动领保应急响应机制,向伊方有关部门核实中国公民受伤情况,要求伊方全力保障中方人员生命财产安全。 中国驻伊朗大使馆再次提醒在伊同胞切实增强安全意识,避免前往危险敏感地区和人员密集场所,确保人身和财产安全。如…

    2025年4月27日
    1100
  • 䨻、弜、炁,为什么现在的运动鞋都要用生僻字?

    这年头,不认识几个生僻字都不好意思买鞋了。 最近有网友在社交媒体吐槽,自己想买双运动鞋,却意外被一些生僻字难住了。不少运动品牌在自家跑鞋的详情页上介绍鞋底运用的科技时,纷纷上难度,玩起了生僻字大比拼。 比如李宁的专业跑鞋中底(鞋身和外底之间的夹心部分)科技名为“䨻”和“弜”,鸿星尔克的跑鞋中底科技叫“炁”,特步的是“騛”,中乔体育则叫“巭”。 图源:淘宝李宁…

    2025年4月18日
    2200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信