端到端VLA是具身智能的曙光嗎？這項(xiàng)被Figure AI帶火的關(guān)鍵技術(shù)有中國(guó)團(tuán)隊(duì)更早提出并應(yīng)用

來源：今日熱點(diǎn)網(wǎng)時(shí)間：2025-03-03 15:17:51

Figure AI 在與 OpenAI 終止合作后,果然發(fā)布了大新聞,這家人形機(jī)器人公司從外接大模型的方式,轉(zhuǎn)入本地具身大模型來完成機(jī)器人的感知、交互與操作,充分展現(xiàn)了本體具身大模型與外接互聯(lián)網(wǎng)大模型的優(yōu)勢(shì)。

根據(jù) Figure AI 有限的技術(shù)分享,他最新推出的 Helix 系統(tǒng)是基于視覺-語(yǔ)言-行動(dòng)(VLA)端到端整體架構(gòu)演進(jìn)的一套快慢系統(tǒng)。

借助 Helix,Figure AI 將端到端 VLA 模型運(yùn)行到自家的雙足人形機(jī)器人 Figure 02 上,實(shí)現(xiàn)了面向場(chǎng)景任務(wù)的泛化性。

在 Figure AI 官方展示視頻中,機(jī)器人一邊用頭部追蹤手部,一邊調(diào)整軀干姿勢(shì),同時(shí)能夠精確抓取物體。

這種多自由度協(xié)調(diào)在高維動(dòng)作空間中極具挑戰(zhàn)性,而 Helix 可以做到完美平衡。

究其本質(zhì),Helix 是一個(gè)能夠?qū)φ麄€(gè)人形上身(包括手腕、軀干、頭部和各個(gè)手指)進(jìn)行高速率連續(xù)控制的 VLA 模型,作為 Figure AI 的超級(jí)大腦,它完成了所有事情:

像人類一樣用眼睛觀察、用耳朵聽、用手操作,并在沒有特別訓(xùn)練的情況下完成全新的任務(wù),有精準(zhǔn)的控制能力。

這在視頻中得到了充分展現(xiàn):Helix 驅(qū)動(dòng)的機(jī)器人成功抓取數(shù)千種新物體,僅需一句「拿起 [X]」,當(dāng)指令為「拿起沙漠物品」時(shí),它能識(shí)別玩具仙人掌并完成抓取。

「Helix 表現(xiàn)出了強(qiáng)大的物體泛化能力,只需用自然語(yǔ)言詢問,就能撿起數(shù)千種形狀、大小、顏色與材料特性各異的新奇家居用品,而這些物品在此前的訓(xùn)練中從未見過?！笷igure AI 的創(chuàng)始人兼 CEO 布雷特·艾德考克認(rèn)為。

Figure AI 此番高舉高打的端到端 VLA 架構(gòu),實(shí)際在硅谷也是非常新的技術(shù)。

伯克利機(jī)器人行業(yè)的頂級(jí)團(tuán)隊(duì)創(chuàng)辦的 PI,在 2024 年 6 月、10 月分別發(fā)表了 OpenVLA、PI-0,奠定了端到端 VLA 的圣杯標(biāo)準(zhǔn),當(dāng)時(shí)獲得極大反響。

但這個(gè)技術(shù)不只是硅谷頂級(jí)團(tuán)隊(duì)的專利,中國(guó)科研力量也在端到端 VLA 舞臺(tái)上展露過實(shí)力。

2024 年 6 月,比 PI 早發(fā)表的,針對(duì)操作機(jī)器人的 RoboMamba 端到端具身大模型,由北大,智平方等合力推出。

這一模型不僅比 PI 的 OpenVLA 更早公開應(yīng)用,還在未見任務(wù)(Unseen Task)的泛化能力上顯著超越 Google 的 RT 系列模型,進(jìn)一步鞏固了中國(guó)在大模型原創(chuàng)力上的國(guó)際聲譽(yù)。

這是業(yè)界能看到的,唯一初創(chuàng)公司參與的端到端 VLA 工作被國(guó)際專家認(rèn)可。

圖注:圖源 RoboMamba 論文

圖注:論文介紹了一個(gè)名為 RoboMamba 的多模態(tài)狀態(tài)空間模型,旨在提高機(jī)器人的推理和操作能力,同時(shí)保持高效的微調(diào)和推理

論文創(chuàng)新性地將視覺編碼器與高效的 Mamba 語(yǔ)言模型集成,構(gòu)建了全新的端到端機(jī)器人多模態(tài)大模型。

端到端的背后,是對(duì)量產(chǎn)的深入理解。在場(chǎng)景多變的情況下,如何用數(shù)據(jù)驅(qū)動(dòng)的方式完成系統(tǒng)升級(jí)迭代,如何對(duì)數(shù)據(jù),模型結(jié)構(gòu),訓(xùn)練方法實(shí)現(xiàn)系統(tǒng)級(jí)別 AI 突破。這些關(guān)鍵問題困住了大量具身智能領(lǐng)域的入局者。

小鵬、OPPO前首席科學(xué)家,微軟總部研究員,國(guó)家級(jí)創(chuàng)新領(lǐng)軍人才郭彥東,是首次提出端到端 VLA 架構(gòu)的人,這來自于他在產(chǎn)業(yè)、行業(yè)多年的深耕積累,以及他在 AI 原創(chuàng)領(lǐng)域的硬核研發(fā)能力。依托技術(shù)的先發(fā)布局,和大量人工智能軟硬一體化結(jié)合的量產(chǎn)經(jīng)驗(yàn),幫助智平方率先做到了這一點(diǎn),成為國(guó)內(nèi)最早進(jìn)行真正商業(yè)落地的通用智能機(jī)器人公司。

本質(zhì)上,能做好 VLA 端到端的公司具備對(duì)大模型前沿技術(shù)的硬核創(chuàng)新能力,其間的點(diǎn)滴積累如能應(yīng)用到整個(gè) AI+硬件行業(yè),會(huì)成為極具價(jià)值的存在。

免責(zé)聲明：市場(chǎng)有風(fēng)險(xiǎn)，選擇需謹(jǐn)慎！此文僅供參考，不作買賣依據(jù)。

標(biāo)簽：

責(zé)任編輯：FD31

上一篇：中國(guó)飲品超級(jí)路演秀圓滿落幕，2025十大星飲品引爆渠道！

下一篇：最后一頁(yè)