智能輔助駕駛能力突飛猛進(jìn)背后,智能座艙智是開始 AI 能力的不斷涌現(xiàn),它在智能座艙上同樣受到熱捧,變革標(biāo)配甚至因?yàn)樽搶ρ訒r和算力的長城車端要求更低,應(yīng)用門檻也相應(yīng)降低。新車
特斯拉用 "Grok+FSD" 組合已經(jīng)給出了驚人表現(xiàn)。智能座艙智用戶除了可以體驗(yàn)特斯拉 FSD 的開始流暢領(lǐng)航輔助駕駛,還能和 Grok 進(jìn)行了擬人、變革標(biāo)配善解人意的長城車端對話,甚至用 Grok 實(shí)現(xiàn)模糊指令下的新車導(dǎo)航。
因此,智能座艙智AI 智能體上車,開始成為熱潮。變革標(biāo)配
長城汽車等國內(nèi)車企率先捕捉到了這一點(diǎn)。長城車端今年的新車消費(fèi)電子盛宴 CES 上,長城汽車除了展出標(biāo)志性的 V8 發(fā)動機(jī)、HI4 混動技術(shù),還發(fā)布了空間與語言智能體 ASL。
" 它是以 3D 視角感知世界的智能體,覆蓋車內(nèi)外場景,如人類般直觀,是懂傾聽、會學(xué)習(xí)、能溝通的出行伙伴。" 長城汽車 CTO 吳會肖說。
去年 12 月,長城汽車推出了智能輔助駕駛系統(tǒng) VLA。今天 ASL 推出后,與 VLA 智駕系統(tǒng),顯然構(gòu)成了長城汽車的智能化雙擎。
長城汽車技術(shù)專家佘士東表示,傳統(tǒng)座艙更關(guān)注 " 功能實(shí)現(xiàn) " ——比如加熱、開空調(diào)、調(diào)座椅等操作。而長城的 ASL 關(guān)注的是 " 交互升級 "," 它本質(zhì)上是把人與車的關(guān)系,從人機(jī)接口 "(HMI),進(jìn)化為人機(jī)共處。ASL 帶來的核心體驗(yàn)變化,是你不再是在控制一個機(jī)器,而是在與一個智能體對話。"
以 " 打開第二排右側(cè)座椅加熱 " 為例,佘士東,在傳統(tǒng)系統(tǒng)中,用戶得清楚說出指令,這其實(shí)是用戶在思考如何操作設(shè)備,而在智能體時代,只需說 " 幫我女兒打開座椅加熱 ",甚至只說 " 讓她舒服點(diǎn) ",系統(tǒng)就能自動理解她是誰、坐在哪、當(dāng)前開關(guān)狀態(tài)是什么,并完成操作。
ASL1.0 是圍繞自然語言下的 " 意圖識別 " 和 " 主動理解 " 來構(gòu)建。雖然去年長城汽車已頻繁提及,但受限于工程周期,長城直到今年才正式推出這套系統(tǒng)。在長城汽車內(nèi)部,其被稱之為 Coffee OS 3.5,首批搭載車型將在 2026 年上半年(3~4 月)上市,最終交付用戶大概在 5~6 月。
雖然增強(qiáng)了座艙交互體驗(yàn),但 ASL 不只是 " 座艙 AI",而是整車級、OS 級的全棧式智能架構(gòu)。
" 要實(shí)現(xiàn)剛才那個’給我女兒打開座椅加熱’的體驗(yàn),不只是語音識別那么簡單。你必須打通電子電氣架構(gòu)、融合多模態(tài)感知、調(diào)動整車控制鏈路,還要建立用戶畫像、記憶系統(tǒng)、意圖識別、推理能力等多維支撐,才能真正落地。" 佘士東說。
理想汽車基于自己的基座模型 MindGPT,已經(jīng)推出了車端的 AI 產(chǎn)品理想同學(xué),也在推動更多 agent 產(chǎn)品上車。而據(jù) 36 氪了解,大量沒有基座模型能力的車企,都在尋找外部大模型公司進(jìn)行合作,熱門標(biāo)的則是字節(jié)跳動旗下的豆包汽車版。
業(yè)內(nèi)人士告訴 36 氪,在市面上,這類優(yōu)秀的 AI 產(chǎn)品很多,有 Deepseek,阿里的千問,但考慮到汽車工程支持能力和 C 端交互能力,還是豆包更為適合,"Deepseek 幾乎沒有汽車業(yè)務(wù),豆包基于抖音的數(shù)據(jù)訓(xùn)練,對消費(fèi)者體驗(yàn)更友好。"
但在座艙里部署大模型,除了找到合適的 AI 產(chǎn)品,還要加強(qiáng)算力資源投入。不少車企在已有座艙 SOC 基礎(chǔ)上,采用外加 AI Box 的策略,也就是額外增加一顆 AI 處理器。例如,小鵬汽車的第三顆圖靈芯片,就主要負(fù)責(zé)座艙 AI 模型的計(jì)算。
而從 2026 年開始,大量車企開始采用高通的最新座艙產(chǎn)品驍龍 8797,可直接獲取 300Tops 算力。但成本也相應(yīng)提升,"8797 的域控加上音響等整套系統(tǒng),成本要到萬元以上。"
從特斯拉 2013 年引領(lǐng)座艙大屏化到今天,行業(yè)花了十多年;但 AI 智能體化的變革,行業(yè)判斷只需 2~3 年,就能看到市場雛形。
發(fā)力整車 AI,又是一場資源角力賽。
以下是 36 氪等與長城汽車 CTO 吳會肖、技術(shù)專家佘士東等對話,略經(jīng)編輯:
問:長城汽車去年提出的 ASL1.0,外界討論相對較少。如今大家看到的座艙大模型 + VLA 的組合,是不是就是 ASL1.0?它與現(xiàn)階段做座艙大模型的業(yè)務(wù)架構(gòu),核心區(qū)別在哪里?
佘士東:要回答這個問題,還是要回到人和車之間最基本的 " 交互 " 需求上來。傳統(tǒng)座艙更關(guān)注 " 功能實(shí)現(xiàn) " ——比如加熱、開空調(diào)、調(diào)座椅等操作。但 ASL 關(guān)注的是 " 交互升級 ",它本質(zhì)上是把人與車的關(guān)系,從 " 人機(jī)接口 "(HMI),進(jìn)化為 " 人機(jī)共處 "。
ASL 帶來的核心體驗(yàn)變化,是你不再是在控制一個機(jī)器,而是在與一個 " 智能體 " 對話。就像《霹靂游俠》那樣,車不再是冷冰冰的設(shè)備,而是一個能理解你意圖的 " 助理 " 或 " 管家 "。
比如你想幫后排右側(cè)的孩子打開座椅加熱。在傳統(tǒng)系統(tǒng)中,你得清楚說出 " 打開第二排右側(cè)座椅加熱 "。這其實(shí)是你在思考如何操作設(shè)備。
而在智能體時代,你只需說 " 幫我女兒打開座椅加熱 ",甚至只說 " 讓她舒服點(diǎn) ",系統(tǒng)就能自動理解她是誰、坐在哪、當(dāng)前開關(guān)狀態(tài)是什么,并完成操作。
ASL1.0 就是圍繞這種自然語言下的 " 意圖識別 " 和 " 主動理解 " 來構(gòu)建的。雖然去年我們已頻繁提及,但受限于工程周期,長城直到今年才正式推出這套系統(tǒng)。我們內(nèi)部稱之為 Coffee OS 3.5,首批搭載車型將在 2026 年上半年(3~4 月)上市,最終交付用戶大概在 5~6 月。
問:所以 ASL1.0 的核心,其實(shí)是座艙側(cè) AI 應(yīng)用的全面開發(fā)?
佘士東:可以這么說,但它不只是 " 座艙 AI",而是整車級、OS 級的全棧式智能架構(gòu)。要實(shí)現(xiàn)剛才那個 " 給我女兒打開座椅加熱 " 的體驗(yàn),不只是語音識別那么簡單。你必須打通電子電氣架構(gòu)、融合多模態(tài)感知、調(diào)動整車控制鏈路,還要建立用戶畫像、記憶系統(tǒng)、意圖識別、推理能力等多維支撐,才能真正落地。
ASL1.0 本質(zhì)上是一個從 0 到 1 的系統(tǒng)性構(gòu)建工程。大模型只是 " 冰山一角 ",其下隱藏著大量底層工程投入。這也是我們?yōu)槭裁椿艘徽辏艑⑵錅?zhǔn)備上線。
問:這套系統(tǒng)的芯片算力如何分布?
佘士東:在 Coffee OS 3.5 所面向的上半年車型中,我們采用的是超頻版 8295 芯片,擁有 60T 的端側(cè)算力,但也需要液冷散熱系統(tǒng)支撐整體穩(wěn)定性。而到了 ASL2.0 階段,隨著 8797、8397 等新平臺的普及,車端算力將提升到 300T+ 的級別。這樣的平臺能力,才能支撐多智能體在多場景下的實(shí)時推理與響應(yīng)。
問:目前在智能化方向,車企的基礎(chǔ)路線和戰(zhàn)略方向似乎都趨于一致,長城汽車如何做出差異化?
佘士東:確實(shí),路線 " 相似 " 在某種程度上是一個階段性 " 必然 "。這背后是行業(yè)認(rèn)知的同步和技術(shù)周期的共振。比如,去年成都車展、廣州車展,走進(jìn)很多展車你會發(fā)現(xiàn),車內(nèi)形態(tài)幾乎一致:多屏分布、左邊信息右邊地圖、中央大屏承載 APP 入口這說明,整個行業(yè)正在圍繞 " 人車交互 " 建立一種共識。
但也正是在這個 " 趨同 " 過程中,我們發(fā)現(xiàn)了真正的差異化機(jī)會:很多所謂的 " 更好交互 ",其實(shí)還是用戶主動發(fā)起—車端被動響應(yīng)的傳統(tǒng)模式,而我們進(jìn)一步觀察用戶使用行為時發(fā)現(xiàn)了一個重要現(xiàn)象:用戶其實(shí) " 傾向于不交互 "。
為什么這么說?舉個例子。四年前,我們的語音交互系統(tǒng),用戶平均每小時喚醒不到 0.4 次。而到了今年,已經(jīng)是每小時喚醒 4~5 次,且每次喚醒后會產(chǎn)生二十多次連續(xù)交互。表面上看,用戶好像越來越愛 " 說話 " 了,但我們深入分析后發(fā)現(xiàn),這種行為更多是源于 **" 便利性提升帶來的使用頻率增加 ",而非 " 真實(shí)意圖數(shù)量的增長 "。** 換句話說,用戶真正的需求可能只有三四個,只是因?yàn)楹糜?,所以多說了幾句。
由此我們判斷:當(dāng)交互本身足夠流暢,下一階段的核心就不再是 " 交互 " 本身,而是 " 主動服務(wù) "。為什么用戶一上車還要調(diào)座椅、調(diào)空調(diào)、點(diǎn)語音、開導(dǎo)航……這些都可以通過智能體自動識別、自動達(dá)成,甚至靜默完成。這正是我們探索 " 智能體化 " 路徑的核心邏輯。
這也是吳總(吳會肖)在 CES 發(fā)布的 ASL 2.0 智能體系統(tǒng)的由來——之所以叫 "2.0",是因?yàn)?"1.0" 已經(jīng)完成并即將量產(chǎn),而行業(yè)內(nèi)多數(shù)品牌的 "1.0" 可能要到 2026 年才能看到落地產(chǎn)品。
在 2.0 階段,ASL 系統(tǒng)已經(jīng)覆蓋了五大智能場景:智駕出行體驗(yàn)、車內(nèi)多人的空間娛樂與舒適交互、長途自駕游場景、健康管理與車內(nèi)監(jiān)測、買用養(yǎng)車全生命周期服務(wù)。
而 " 智能體化 " 的核心是三個關(guān)鍵詞:一是 AIGC 生成能力,界面不再是代碼 " 寫死 " 的控件,而是可以根據(jù)用戶、場景、習(xí)慣動態(tài)生成,實(shí)現(xiàn)柔性界面與可變動的服務(wù)內(nèi)容。
二是真正的自然對話,就像和人交流一樣,持續(xù)、順暢、有上下文。很多用戶體驗(yàn)過特斯拉的對話能力,起初覺得驚艷,但長時間駕駛中你會發(fā)現(xiàn),它的實(shí)際表現(xiàn)還有很大進(jìn)步空間。這說明自然語言理解與上下文管理依舊是一個關(guān)鍵挑戰(zhàn),也是我們的核心突破點(diǎn)。
三是主動服務(wù)的三步分級實(shí)現(xiàn),相識:不只是賬號識別,而是能通過攝像頭系統(tǒng),實(shí)現(xiàn)對車內(nèi)每一個人的身份識別,無論是誰、坐在哪個位置,都能 " 認(rèn)識你 "。相知:不僅知道你是誰,還知道你喜歡什么、習(xí)慣什么、預(yù)計(jì)接下來要干什么。相助:基于對你的了解,提前一步完成你想做的事情,甚至無需你發(fā)出指令。
所以我們說,真正的智能體,不是 " 功能的堆砌 ",而是對 " 你 " 的理解和對 " 你想要什么 " 的預(yù)判。如黃仁勛所說,AI 元年不是說說而已—— " 今年才是物理 AI 的真正起點(diǎn) ",因?yàn)槲覀兘K于開始動手干了。
從特斯拉 2013 年引領(lǐng)座艙大屏化到今天,行業(yè)花了十多年;但 AI 智能體化的變革,我們判斷只需 2~3 年,就能看到市場雛形。計(jì)劃今年 6 月,我們的首款搭載 ASL 1.0 智能體系統(tǒng)的量產(chǎn)車型就將正式上市,同時我們也在努力通過 OTA 為老車型提供部分體驗(yàn)升級。
當(dāng)然,老車型受限于芯片的端側(cè)算力,可能會存在體驗(yàn)上的差異。但從今年開始的新一代車型起," 車端智能體 " 將成為新標(biāo)配,主動服務(wù)將成為新的行業(yè)門檻。
問:長城汽車對于 VLA 和世界模型是怎么理解的?
吳會肖:這個話題我們內(nèi)部也討論了很多次?,F(xiàn)在行業(yè)里對 "VLA" 和 " 世界模型 " 的定義還沒有完全統(tǒng)一,但在我們看來,它們的核心區(qū)別是部署位置和能力側(cè)重點(diǎn)不同。
VLA 是部署在端側(cè)的模型,重點(diǎn)在于提升端側(cè)的本地能力。它既能用于防御性駕駛,也能與語音控車打通,還可以通過更清晰的思維鏈展示其判斷過程,讓用戶更信任車輛的決策。而 " 世界模型 " 在我們公司是指基于云端訓(xùn)練的大模型或大場景系統(tǒng)。它并不和 VLA 對立,而是互補(bǔ)的。開發(fā)智駕功能時,云端的訓(xùn)練能力和端側(cè)的算法能力都缺一不可。
有些觀點(diǎn)認(rèn)為只要用世界模型,把它蒸餾壓縮后放在端側(cè),也可以覆蓋端側(cè)的功能。但我們在內(nèi)部的定義是,云側(cè)的叫世界模型,端側(cè)的叫 VLA,各有其位、各司其職。
問:有一個說法認(rèn)為,VLA 的核心問題在于它依然沿用了語言鏈的思維模式。但在多模態(tài)趨勢下,理解時空、識別手勢這些場景,未必都需要轉(zhuǎn)化為語言鏈條。也有觀點(diǎn)認(rèn)為 VLA 未來也會逐步回歸多模態(tài)路徑。那現(xiàn)在你們的 VLA 是什么形態(tài)?
吳會肖:我們現(xiàn)在的端側(cè)模型并不是完全基于語言鏈。因?yàn)檎Z言鏈的信息處理路徑較長,所以我們在考慮人機(jī)交互時確實(shí)會引入語言模