登录
首页 > 轩逸汽车 > VLA首发上车,理想汽车勇闯“技术无人区”

VLA首发上车,理想汽车勇闯“技术无人区”

发布时间:2025-08-14 20:32:19 发布用户: 18855551234

买车送私人司机”,正在由理想照进现实。

日前,理想汽车“五年磨一剑”的辅助驾驶新阶段性成果——VLA司机大模型,在其重磅新车i8产品发布会上正式出鞘。

i8上市当晚,知名相声演员岳云鹏(小岳岳)的一条“刁难”辅助驾驶系统的短片,实力破圈。只见其在发出“你快点、加速、慢一点”“环岛第二个路口出”“并线”“前边靠边停车”等语音指令后,车辆就立即理解并执行复杂动作。

发布会结束后,买理想送“司机”登上了微博热搜,最高位置去到榜单第16位。

那么,何为VLA?即视觉语言行动模型(Vision Language Action Model),它不仅具备思维、沟通、记忆,以及自主学习四大核心能力,还将带来防御驾驶、平稳舒适、三点掉头、连续任务、地库行驶五大体验升级。

“今年VLA上车之后,就会让大家有非常好的、安心的司机体验,有安全感,有舒适性,并且是越开越好。”理想汽车自动驾驶研发高级副总裁郎咸朋日前受访时指出,“再往后,有了VLA模型的加持,辅助驾驶会往更好的,一个移动空间的思路去发展,这个车它能在安心、安全的基础上,帮你去做其他的事情,我相信那天很快就会到来。”

从模仿到强化学习:做正确的事,不做容易的事

在国内辅助驾驶江湖上,理想汽车可以说是个“后起之秀”。但其仅用五年时间,便实现了硬件平台和技术的快速迭代,上演了“由追赶到超越”的戏码,如今又一举闯入“技术无人区”。

究其背后原因,与理想汽车在产品和技术研发过程中,始终秉持“第一性原理”有关。其强调回归事物的本质,以“解决问题”为导向实现创新,而不是盲目关注竞争、依赖现有的经验。

在以规则算法为核心的“人工时代”,理想汽车从最早的2D、3D感知开始研发,到BEV(鸟瞰图)、NPN(先验网络)、无图等技术架构,一步一个脚印,奋起直追。就像其董事长兼CEO李想所言“没有葵花宝典,我也不是吃第10个包子的人”。

基于“规则算法”的特点,人工时代辅助驾驶性能提升的核心,关键在于工程师的能力和经验。但在郎咸朋看来,人都有不足,很多场景需要“堆人”去研发才能解决;且很多场景是按下葫芦起来瓢,“把这个规则弄完了,那个规则又不行了”。

为了解决人工时代无法解决所有corner case极端场景的问题,理想汽车开启自研“端到端+VLM架构”之路,实现了从人工时代到AI时代的跨越。

“端到端+VLM架构”是理想汽车首次用AI的方式做辅助驾驶,也是两个时代的“分水岭”。这一架构的本质是“模仿学习”,指的是用人类驾驶数据训练模型,数据数量和质量决定性能。

但伴随技术研发的深入,理想汽车又看到了“端到端+VLM架构”面临的痛点。

比如当训练数据量到达一定水平时,端到端模型性能提升速度会变慢。理想在去年7月发布“端到端+VLM架构”时,MPI接管里程超过12公里。经过7个月的迭代,训练数据从100万Clips(视频片段)增长到1000万Clips,MPI接管里程超过120公里,性能提升速度实现10倍增长。但训练数据量达到1000万Clips后,今年5个月的时间,其模型MPI接管里程仅增长2倍左右。

再比如,端到端的模仿学习本身不具备深度的逻辑思维能力,这会导致三个问题:违反常理的行为;开车不够聪明,做决策时没有深度思考;安全感不足,不能根据场景做出预防性判断。

用李想的话来说,端到端模型像猴子开车,它能够学习人类行为,但并不理解物理世界。

延续“上一代技术能力的上限,是下一代技术能力的起点”这一原则,理想汽车开始自研VLA司机大模型。如今的VLA,本质是强化学习,用生成数据结合仿真环境训练模型。仿真迭代的效率决定性能,解决了端到端+VLM现存的挑战。

“做正确的事,不做容易的事。”这句话被写入理想汽车的行为准则,是其企业文化的内核。在上半场的电动化比拼中,理想汽车看到了补能设施不足、消费者续航焦虑的痛点,未随大流,也不惧争议,让增程式路线上演“真香定律”;基于对家庭用户需求的深入分析,理想从刚需出发,注重实际使用场景的需求,开创了“冰箱彩电大沙发”的产品形态,让其走向行业标配等。

迈入智能化下半场,理想汽车则在辅助驾驶技术演进道路上,走出了一条清晰的路径,以“生产一代、研制一代、预研一代、探索一代”的研发节奏,在辅助驾驶领域构建起难以逾越的竞争壁垒。

VLA司机大模型率先上车,将“梯队”拿掉

那么,VLA首发上车,将带来怎样的用户体验颠覆呢?

今年6月底,郎咸朋曾在微博上转发李想的言论“理想汽车牢牢站稳辅助驾驶等多方面的第一梯队”称,VLA司机大模型交付后,理想可以把“梯队”拿掉。

这番话背后的底气,源于VLA架构的技术能力,以及背后的体验提升。据悉,理想自研的VLA,拥有强大的3D空间理解能力、逻辑推理能力和行为生成能力,让车辆具备感知、思考和适应环境的能力。它让AI由信息工具、辅助工具,进化为交通领域的专业生产工具,真正让AI成为“司机”。

拆解VLA技术架构,主要分为几个部分。

首先是“V”,即空间智能(Spatial Intelligence),代表模型对空间的理解能力,例如远距空间感知和全局语义理解能力。各类传感器(主要是视觉传感器)以及导航信息输入模型,让模型具备精细化感知和理解空间的能力。

其次是“L”,即语言智能(Linguistic Intelligence),代表模型的思维能力和沟通与记忆能力。其指的是用语言生成对空间的理解,模型把在空间内感知到的所有内容,用高度压缩的编码表达出来,输出决策。模型不仅可以在内部通过CoT思维链生成决策,人类也可以在外界直接给模型决策。

最终来到“A”,即行为策略(Action Policy)。其根据对场景高度压缩的描述进行推理,并生成最终的行为。与端到端最大的不同是,VLA使用了Diffusion扩散模型规划轨迹。

Copyright 2017-2026 趣味课堂 版权所有