130多天后再谈AI!李想透露实现VLA的三个阶段,回应“智驾”是否该叫停

AI(人工智能)工具可划分为信息工具、辅助工具和生产工具三个层级。我觉得人工智能变成生产工具,才是真正人工智能爆发的时刻。理想汽车董事长、CEO李想在5月7日晚的《理想AI Talk第二季》中,分享了他对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,这距离他上一季谈及人工智能已经过去了130多天。

130多天后再谈AI!李想透露实现VLA的三个阶段,回应“智驾”是否该叫停
图片来源:企业供图

李想表示:判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇用司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。

就理想汽车而言,其研发的VLA司机大模型则是以司机Agent的产品形态呈现。用户可通过自然语言与司机Agent沟通,跟人类司机怎么说,就跟司机Agent怎么说。简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。理想汽车方面表示。

此外,李想还回应了有人觉得辅助驾驶应该被叫停的问题。经过多年,从规则算法到端到端+VLM(视觉语言),再到现在真正迈入VLA阶段,现在比较像‘黎明前的黑暗’。我觉得黎明马上就要来了。但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。李想说。

VLA是端到端+VLM的合体

所谓VLA,即视觉语言动作模型(Vision-Language-Action Model)。最早由DeepMind于2023年提出,应用在机器人领域,输入给定的文本和视觉数据,输出机器人可执行的动作,天然便带有AI与物理世界交互的基因。

与当前理想汽车使用的着重于图像和场景的理解,作为智驾决策规划输入,让车辆行为更合理的VLM模型不同,VLA模型会将端到端与多模态大模型结合得更彻底,能够根据感知直接生成车辆的运动规划和决策,更加接近图像输入、控制输出的端到端智驾理想状态。

在业内看来,VLA模型可看成是端到端+VLM的合体,其遇到一些复杂的交通规则、潮汐车道、长时序推理等特殊场景时,会比过往理解、应对得更好。对于理想汽车而言,VLA是一个司机大模型,像人类的司机一样去工作的一个模型。李想说。

据悉,就推理时长而言,在传统rule-based(基于规则)方案下,智能辅助驾驶只能推理1秒钟路况信息然后做出决策控制;端到端1.0阶段系统能够推理出未来7秒的路况,而VLA模型则能对几十秒路况进行推理。

李想透露,达到VLA模型阶段并非突变的过程,而是进化的过程,经历了三个阶段:第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似昆虫动物智能。第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端+VLM辅助驾驶,接近哺乳动物智能。

在端到端的基础上,到第三阶段,VLA将开启‘人类智能’阶段。它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。李想说。

有观点认为,伴随着VLA模型的出现,理想汽车或放弃端到端技术。对此,李想表示:没有放弃,端到端是VLA的基础。如果你把端到端想象成一个个具身智能执行的环节,那它其实就是VLA的A(action行动)的部分。只是我要多语言的部分,还要更多更强的3D vision和高清2D vision的部分。

现阶段VLA是能力最强的架构

值得注意的是,VLA近来一直受到自动驾驶领域的热捧,除理想汽车外,元戎启行等企业也在该领域进行布局。有行业人士表示,VLA模型对智能辅助驾驶的演进意义重大,在L2辅助驾驶到L4自动驾驶的飞跃中,VLA可能会成为关键跳板;另一方面,VLA模型也可能成为智能驾驶走向更广阔的具身智能行业的连接点。

目前的L2、L2+组合驾驶辅助仍属于辅助工具阶段,而VLA能够让AI真正成为司机,成为交通领域的专业生产工具。对理想汽车而言,未来的VLA就是一个像人类司机一样工作的司机大模型。李想说,我自己认为VLA(司机大模型)能够解决全自动驾驶,至于VLA是否是效率最高的方式还要打个问号。但现阶段VLA是能力最强的架构。

值得一提的是,行业也存有共识,VLA模型的上车难度不小——将端到端与VLM模型二合一后,车端模型参数变得更大,既要有高效实时推理能力,同时还要有大模型认识复杂世界并给出建议的能力,对车端芯片硬件有相当高的要求。

理想汽车有编译团队,有芯片的能力,有板子设计能力,有操作系统能力。所以我们是能够把两个Orin-X带宽做到足够的大,它同样可以跑同等规模的VLA的模型。李想表示,我自己还是认为,规模小的时候可能无所谓,规模大的时候基本功和能力永远是无法逾越的。

值得注意的是,李想的这番言论也折射出当前智能辅助驾驶行业的一个现状——技术路径的快速迭代升级与竞争态势的加速转变,对那些尚未在端到端解决方案领域建立优势的企业而言,形成了更高的准入壁垒,使得后来者居上的可能性显著降低。

今天很多企业做端到端都很吃力,是因为在规则算法的时候都没做好。李想说,如果你规则算法都做不好,你根本不知道怎么去做端到端;如果你端到端没有做到一个非常极致的水平,你连VLA怎么去训练都不知道。

美国很多顶级的公司,像苹果、特斯拉,他们基本功特别扎实,这个是我们真正要去学的。尤其是在今天这种内卷环境下,包括外部不确定的环境下,这时候更是每个企业扎扎实实练基本功最好的时候。而且到了人工智能时代,基本功就更是不可跳跃的。李想补充道。

文章来源于网络。发布者:每日电讯网,转转请注明出处:https://www.jnlts.cn/12941.html

(0)
每日电讯网的头像每日电讯网
上一篇 2025年5月8日
下一篇 2025年5月8日

相关推荐

  • “高位买金,把我害惨了”

    今年以来,黄金总是重复以两种方式登上热搜:大涨与大跌。 尤其进入5月,这种趋势更为明显,屡创历史新高的金价开启了波动更为剧烈的过山车模式。过去两周内,国际金价逐渐跌破每盎司3500美元、3400美元和3300美元关口。曾经一夜之间靠黄金“赚翻”的投资者,经此震荡纷纷感叹“亏麻了”。 而最近几天,黄金再次强势,5月21日国际金价再度飙涨突破3350美元/盎司,…

    2025年5月27日
    1300
  • 德国新政府,人事玄机多

    当地时间5月6日,经历过山车般的一天后,默茨从德国总统施泰因迈尔手中接过任命书,正式成为德国新一任总理。随后,其内阁成员也依次宣誓就职。 德国这一任政府,走过了一段极其坎坷的旅程。2024年深秋,“交通灯”熄灭,朔尔茨成了看守总理。随后的组阁谈判,遵循了史无前例的严格保密程序。19个工作组,全体不得向外界透露分毫,连自拍都不允许。 就在当天的联邦议院首轮投票…

    2025年5月15日
    1700
  • 特朗普,害怕了?

    “这是自废武功,是现代美国历史上最具自毁性质的行为。” 当地时间4月16日,在美国加利福尼亚州中央谷地的一处杏仁农场,民主党籍州长加文·纽森宣布就关税问题起诉联邦政府,称特朗普无权征收这些关税。 4月初,特朗普以贸易逆差为由,宣布美国进入国家紧急状态,并援引1977年颁布的《国际紧急经济权力法案》对数十个贸易伙伴征收高额关税,引发全球股市剧烈动荡。此后,特朗…

    2025年4月23日
    2400
  • 拆解A股上市农商行去年业绩:多家银行投资收益同比翻倍!常熟银行聚焦“小本生意”,2.71%净息差领跑

    截至4月26日,除了苏农银行外,其余9家A股上市农商行均已发布完整的2024年业绩报告。 在已公布财报的9家银行中,渝农商行与沪农商行在营收和净利润方面继续名列前茅。同时,从近年的趋势来看,这两名冠亚军的差距在进一步缩小。 常熟银行在A股上市农商行中格外引人注目,其净息差不仅领跑所有农商行,在所有A股上市银行中也同样是翘楚。 此外,债牛行情下,农商行2024…

    2025年4月27日
    5400
  • 港股周一低开 恒生科技指数跌超1%

    3月31日早盘,港股市场低开调整。截至发稿前,恒生指数报23266点,下跌0.68%;恒生科技指数报5451点,下跌1%。 盘面上,科网股普遍下跌,哔哩哔哩跌超3%,美团、百度集团跌超2%,小米集团、阿里巴巴、联想集团、快手等跌超1%;机器人概念股普跌,地平线机器人跌超2%。 碧桂园高开2%,公司公布2024年年报,公司总收入约2528亿元,权益合同销售金额…

    2025年3月31日
    7800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信