九九热精品视频,亚洲s久久久久一区二区,ysl蜜桃色成人,爱爱精品,国产精品人妻久久毛片高清无卡

一村資本研究社|硅軀慧心:人工智能的具身覺醒之路

來源:今日熱點網(wǎng)時間:2024-12-07 19:11:49

一村淞靈專注于早中期投資,致力于構(gòu)建一個強大的AI生態(tài)朋友圈。AI與具身智能的結(jié)合一直是行業(yè)領(lǐng)域研究和探索的重要方向。本篇文章作為《航海日志》系列的延續(xù),結(jié)合探討了具身智能可能存在的表現(xiàn)形式,探索AI與具身智能在現(xiàn)實世界相互融合演進的可能性。

從圖靈測試到深度學習,從專家系統(tǒng)到大語言模型,AI的每一次進化都在拓展著人類對智能的理解邊界。AI與具身智能的結(jié)合,一直是行業(yè)領(lǐng)域研究探索的重要方向。

上篇文章《航海日志|慧智硅基靈巧手》我們點明,“所有模型算法將下沉到具身智能這個“大殺器”中,具身智能能讓軟硬件、AI、外部環(huán)境(包括人文環(huán)境)‘同頻共振’! ”。今日,我們便與大家共同探索AI與具身智能的“雙生之旅”。

在人工智能發(fā)展的漫長河流中,我們見證了從簡單的計算到復雜的認知系統(tǒng)的演變。如今,一個新的篇章正在開啟——具身智能(Embodied AI)的崛起。這不僅是技術(shù)的進步,更是人工智能向著真正"智能"邁進的重要一步。機器人,作為具身智能最重要、最復雜的載體,一直是我們深度探索的核心。讓我們踏上這段探索之旅,一起揭開其中的神秘面紗。

01、從虛擬走向現(xiàn)實:具身智能的誕生

想象一下,如果給予ChatGPT一個機器人身體,讓它不只能與我們對話,還能實際行動,會發(fā)生什么?這就是具身智能要探索的領(lǐng)域。具身智能不再滿足于在虛擬世界中運算和思考,而是要通過物理實體與現(xiàn)實世界直接互動。就像嬰兒需要通過觸摸、抓握、行走來認識世界一樣,AI也需要一個"身體"來真正理解和適應(yīng)這個立體的世界。

具身智能的概念源于認知科學的一個基本觀點:智能的產(chǎn)生離不開身體的參與。人類的智能發(fā)展就是一個很好的例證。我們的認知能力不是與生俱來的,而是在與環(huán)境的持續(xù)互動中逐步形成,同理,具身智能技術(shù)演進的一個重要邏輯就是基于大模型在現(xiàn)實環(huán)境下的高泛化性(需要應(yīng)對從未見過的場景)以及思維鏈能力(需要拆解復雜任務(wù)以及根據(jù)環(huán)境變化調(diào)整動作)。如幼兒通過抓、摔、摸等各種方式探索物體,在這個過程中建立起對物理世界的基本認知,而具身智能作為“新物種”參與到我們客觀物理世界,也需要經(jīng)過物體感知(視覺感知、觸覺感知、數(shù)據(jù)感知) 、 腦部認知(語義分析、運動控制、多模態(tài)基礎(chǔ)模型)、行動范式(智能交互、任務(wù)規(guī)劃、具身執(zhí)行)的持續(xù)迭代升級。

感知之門:具身智能的眼與手

如果說傳統(tǒng)AI系統(tǒng)是"淺嘗即止"的數(shù)字隱者,那么具身智能則是要讓AI真正"走出象牙塔"的物理探索者。這場突破始于感知系統(tǒng)的革新,它賦予了AI前所未有的感知維度。

視覺感知,具身智能的"火眼金睛"。它不僅配備了能捕捉細膩色彩的高清相機,還裝備了能夠洞察深度的3D傳感器。激光雷達就像其"第三只眼",能夠在黑暗中繪制精確的環(huán)境地圖。這些視覺系統(tǒng)相互配合,讓AI能夠比人類看得更遠、更清、更全面。

視覺語言模型生成的結(jié)果到機器人動作的映射方式,主要取決于該預(yù)測結(jié)果的層級。之前模型中預(yù)測結(jié)果處于高級別設(shè)計層級:以Google PaLM-E和微軟ChatGPT for Robotics為例,PaLM-E實現(xiàn)了對具身任務(wù)的決策方案預(yù)測,但不涉及機器人動作的實際控制,需要依賴低級別的現(xiàn)成策略或規(guī)劃器來將決策方案“翻譯 ”為機器人動作。微軟默認提供控制機器人的低層級API,ChatGPT輸出是更高層級的代碼,需調(diào)用到機器人低層級的庫或API,從而實現(xiàn)對機器人動作的映射和控制。RT-2和VoxPoser預(yù)測結(jié)果已經(jīng)到了低級別動作層級,不需要再經(jīng)過復雜的翻譯即可將高層級設(shè)計映射到低層級動作。

視覺感知的三個關(guān)鍵領(lǐng)域包括:視覺SLAM、3D場景理解、主動探索:

VSLAM & SLAM技術(shù)已在智能汽車、消費級機器人(配送機器人、掃地機器人等)等領(lǐng)域靈活運用,是一項發(fā)展較為成熟的技術(shù)。

3D場景理解:視覺領(lǐng)域的發(fā)展路徑,不僅是在點云算法的結(jié)構(gòu)布置及技術(shù)成熟,更是在生成的3D場景上的深度理解,并基于視覺信息預(yù)測和執(zhí)行復雜任務(wù)。

因此,(1)要求模型具備快速將2D平面圖轉(zhuǎn)化為3D結(jié)構(gòu)的生成能力。(2)要求模型需要具備理解物體的基本屬性及事態(tài)發(fā)展的時序變化(x、y、z、t四維空間)。

除了視覺感知之外,我們關(guān)注觸覺感知系統(tǒng)。通過遍布"身體"各處的壓力傳感器和觸覺傳感器,具身智能系統(tǒng)能夠感受到與物體接觸時的力度、紋理和溫度。這種觸覺反饋對于精確操作至關(guān)重要,就像人類需要通過手指的觸覺來判斷抓握的力度一樣。

在上篇文章《慧智硅基靈巧手》中我們也提到,我們關(guān)注GELSIGHT這種視觸覺傳感器的不斷演進發(fā)展,“視覺”+“觸覺”的構(gòu)造原理使它能夠與深度學習算法融合,相比于其他觸覺感知方式,其能夠完成更為精細化的操作,我們認為它將會是未來機器人靈巧手上的“珍珠”。

02、智慧之源:具身智能的腦部模型

感知系統(tǒng)收集的信息需要經(jīng)過腦部模型的處理才能轉(zhuǎn)化為智能行為。腦部模型就像一個精密的指揮中心,需要同時處理多個層面的問題。LLM、VLM(視覺語言模型)等基礎(chǔ)模型的最新進展,特別是ChatGPT、PaLM等模型在具身智能中的應(yīng)用,有效增強了其感知和決策能力,推動大模型成為具身智能實現(xiàn)“感知-推理-預(yù)測-行動”能力的主流架構(gòu),業(yè)界已經(jīng)有多款模型發(fā)布,并在各類復雜任務(wù)中取得了顯著的進展,且這些模型仍在快速迭代與優(yōu)化中,例如RT-1、RT-2、RT-H、PaLM-E、VoxPoser等,點亮了機器人的慧能。

RT-2/VoxPoser的一大突破是使機器人可以理解自然語言指令,無需復雜的編程語言便可完成人機交互。RT-2模型建立在視覺-語言模型(VLM)的基礎(chǔ)上,賦予機器人語義理解和基本推理能力,使其可以聽懂并自主推理出已滅絕動物(恐龍)和哪種飲料最適合疲憊的人(能量飲料);李飛飛團隊VoxPoser模型只需接收到“打開上面的抽屜,小心花瓶!”類似的指令即可執(zhí)行任務(wù);在前華為天才少年彭志輝創(chuàng)業(yè)公司智元機器人所發(fā)布的視頻中,機器人也可根據(jù)簡單的文字或語音指令對桌面上不同顏色的方塊進行選取、調(diào)位和疊放等操作。

無需訓練即可完成復雜指令且產(chǎn)生涌現(xiàn)能力,未知場景下RT-2模型泛化能力翻倍。 新模型的另一大突破是無需預(yù)定義的運動原語或額外的數(shù)據(jù)和訓練,模型泛化能力增強,加速機器人通用化。過去算法下實現(xiàn)機器人扔垃圾的動作需訓練機器人區(qū)分、撿起、扔掉垃圾 各個步驟, 而RT-2可以將網(wǎng)絡(luò)相關(guān)知識傳給機器人,使其無需明確的訓練即可學會扔垃圾。面對之前從未見過的任務(wù)情形,RT-2成功率達到62%,泛化性能較RT-1提高一倍。

而VoxPoser用大模型指導機器人如何與環(huán)境進行交互,達到在無需額外數(shù)據(jù)和訓練的情況下完成各種任務(wù),并且涌現(xiàn)出了4種行為能力,可以自主分步完成任務(wù),掌握評估方法,根據(jù)最新要求做出判斷進而調(diào)整輸出動作。

腦部模型有三大重要任務(wù)

1. 環(huán)境理解:模型需要將各種感知信息整合起來,構(gòu)建對當前場景的完整認知。比如,在搬運物體時,需要同時考慮物體的形狀、重量、材質(zhì)等特性,以及周圍環(huán)境的空間布局。

RT-2泛化能力還體現(xiàn)在其思維鏈(CoT)助其進行多階段語義推理,完成更復雜任務(wù)。DeepMind研究團隊展示了將思維鏈推理納入RT-2中使其能夠進行多階段語義推理,他們用少量的“增強”數(shù)據(jù)微調(diào)一個RT-2-PaLM-E變種,增強數(shù)據(jù)中加入了“Plan”步驟, 使得VLM首先用自然語言描述機器人將要采取的動作的目的,然后再給出預(yù)測的機器人動作標記。通過實驗結(jié)果可以觀察到,具有思維鏈推理的RT-2能夠回答更復雜的命令。

2. 任務(wù)規(guī)劃:模型需要根據(jù)目標制定詳細的執(zhí)行計劃。這個過程涉及到語義解析、路徑規(guī)劃、動作序列生成等多個環(huán)節(jié)。比如,要拿起桌子上的水杯,系統(tǒng)需要規(guī)劃手臂的移動軌跡,考慮避開障礙物,并設(shè)計合適的抓取姿態(tài)及動作代碼。

RT-2動作控制采用的方法是將機器人動作表示為另一種語言,即文本token,并與Web規(guī)模的視覺-語言數(shù)據(jù)集一起訓練。代表機器人動作的文本字符串可以是機器人動作token編號的序列,例如「1 128 91 241 5 101 127 217」,該字符串以一個標志開始,該標志指示機器人是繼續(xù)還是終止當前情節(jié),然后機器人根據(jù)指示改變末端執(zhí)行器的位置和旋轉(zhuǎn)以及機器人抓手等命令。由于動作被表示為文本字符串,因此機器人執(zhí)行動作命令就像執(zhí)行字符串命令一樣簡單。這種表示方式允許谷歌對現(xiàn)有的視覺-語言模型進行微調(diào),并將其轉(zhuǎn)換為視覺-語言-動作模型。

Voxposer的動作控制實現(xiàn)過程是首先給定環(huán)境信息(用相機采集RGB-D圖像)和自然語言指令,之后LLM(大語言模型)根據(jù)這些內(nèi)容編寫代碼,所生成代碼與VLM(視覺語言模型)進行交互,指導系統(tǒng)生成相應(yīng)的操作指示地圖(3D Value Map),之后動作規(guī)劃器將生成的3D地圖作為目標函數(shù),直接合成最終操作軌跡。在用LLM和VLM將語言指令映射為3D地圖的過程中,系統(tǒng)利用“感興趣的實體(entity of interest)”來引導機器人進行操作,也就是通過3D Value Map中標記的值來反應(yīng)哪個物體是對它具有“吸引力”的,哪些物體是具有“排斥性”,比如在打開抽屜的例子中,抽屜就是“吸引”的,花瓶是“排斥”的。

3. 實時調(diào)整:在執(zhí)行過程中,系統(tǒng)需要根據(jù)反饋不斷優(yōu)化行為。就像人類在提起一個未知重量的物體時會根據(jù)觸覺反饋調(diào)整施力一樣,具身智能系統(tǒng)也需要這種動態(tài)適應(yīng)能力。

目前基于具身智能腦部大模型的技術(shù)路線還遠未開始收斂,隨著后續(xù)各類大模型的持續(xù)發(fā)展,具身智能底層架構(gòu)同樣有變化的可能。

03、SIM 2 REAL:具身智能的“修羅場”

在具身智能的進化之路上,SIM2REAL(從仿真到現(xiàn)實)技術(shù)扮演著獨特的"道場"角色。想象一個可以隨心所欲重啟的平行宇宙,這里不存在硬件損耗,不需要擔心安全風險,每一次嘗試都是成長的養(yǎng)分。通過構(gòu)建高度逼真的三維仿真環(huán)境,系統(tǒng)能夠精確模擬物理規(guī)律、材料特性和環(huán)境變化。

國內(nèi)已有優(yōu)秀的團隊在進行虛擬訓練場的搭建與集成,即空間快速構(gòu)建3D場景,提供物理正確的仿真環(huán)境,并快速低成本生成3D合成數(shù)據(jù)。他們基于OpenUSD,無縫連接各種DCC、CAD、CAE,通過實時協(xié)作提升現(xiàn)有工作流的協(xié)作效率,提高沉淀在各個工具上的3D資產(chǎn)的流動性。通過低成本現(xiàn)有方案組合AIGC應(yīng)用,提升3D場景構(gòu)建效率,包括2D生3D、大語言模型交互生成3D場景等。

在這個虛擬訓練場中,一臺機器人可以同時化身成千上百個分身,并行訓練不同的技能。比如,一個抓取任務(wù)可以在不同的光照條件、不同的物體位置、不同的干擾因素下反復練習。這種訓練方式的效率遠超現(xiàn)實世界,幾小時的仿真訓練可能相當于現(xiàn)實世界中數(shù)月的練習。

然而,從仿真環(huán)境遷移到現(xiàn)實世界并非易事。這就像職業(yè)選手在電子游戲中再厲害,到了真實賽場也需要重新適應(yīng)。仿真環(huán)境永遠無法完美復制現(xiàn)實世界的所有細節(jié),這種差異被稱為"現(xiàn)實鴻溝"(Reality Gap)。為了解決這個問題,研究者們開發(fā)了一系列創(chuàng)新方法。域隨機化(Domain Randomization)就是其中最有效的策略之一。這種方法通過在仿真環(huán)境中隨機改變物理參數(shù)、視覺外觀、環(huán)境條件等要素,迫使系統(tǒng)學習更加魯棒的策略。

這里不可避免的要提到機器人的運控系統(tǒng),運動控制系統(tǒng)主要通過控制關(guān)節(jié)電機的扭矩以實現(xiàn)行走、奔跑、跳躍、搬箱子等與運動有關(guān)的任務(wù)。這種運動控制系統(tǒng),通俗來說,可以被稱為“小腦”。目前的機器人運動控制系統(tǒng),需要針對不同型號的機器人進行適配,完成適配之后的量產(chǎn),則可以批量化復制?;谏疃葟娀瘜W習方案的運控效果在魯棒性上一般遠超基于傳統(tǒng)控制的方案,主要體現(xiàn)在:抗沖擊性更強、運動速度更快、復雜地形適應(yīng)性更強。

從研究和體會來說,基于強化學習尋找的最優(yōu)路徑屬于無監(jiān)督,拓展能力較強,因此含金量也體現(xiàn)在其他多型機器的運控兼容及穩(wěn)定方面。

想象一下,如果要訓練一個機器人抓取咖啡杯,仿真系統(tǒng)會隨機改變杯子的大小、重量、材質(zhì),甚至添加各種干擾因素。經(jīng)過這種"大風大浪"的訓練、系統(tǒng)學到的策略以及機器人不斷精進的運控系統(tǒng)就能更好地適應(yīng)現(xiàn)實世界的變化。

同時,通過混合現(xiàn)實訓練,將虛擬環(huán)境和真實環(huán)境結(jié)合起來,也大大提高了訓練效果。

總體而言,Sim 2 Real技術(shù)通過使用合成數(shù)據(jù)來模擬真實世界的場景,并將這些數(shù)據(jù)應(yīng)用于真實物理環(huán)境中,以此來縮小模擬與真實世界之間的差距,具有明顯的成本優(yōu)勢,并且在隱私保護方面也有很大的作用,但對于模擬器的要求更高,Reality Gap以及遷移過程造成的性能下降等問題仍需要進一步研究解決。

04、行業(yè)情況及業(yè)內(nèi)翹楚

在科技變革的浪潮中,具身智能正以令人矚目的速度重塑產(chǎn)業(yè)版圖。據(jù)數(shù)據(jù)顯示,市場規(guī)模從2018年的2,923億元躍升至2023年的7,487億元,年復合增長率高達20.7%。這一增長軌跡背后,是中國科技的快速迭代、數(shù)字化轉(zhuǎn)型的全面推進,以及人工智能技術(shù)的持續(xù)突破。就像一個正在覺醒的巨人,具身智能產(chǎn)業(yè)正在彰顯其無限潛力,預(yù)示著一個充滿想象力的未來正在到來。

在具身智能的世界中,每一個構(gòu)成要素如同交響樂中的樂章,共同譜寫出人形機器人獨特的智能表現(xiàn),每個構(gòu)成要素,也是團隊研究挖掘標的的切入點。其中,環(huán)境感知模塊為機器人提供了“眼睛”和“耳朵”,使其能夠感知周圍環(huán)境的細微變化。決策控制模塊則擔當“頭腦”的角色,負責決策和規(guī)劃。運動控制模塊好比“小腦”,確保機器人的靈活和平衡。機械本體模塊則是其“骨骼和肌肉”,支撐其每一個動作····

在具身智能的產(chǎn)業(yè)版圖上,一批創(chuàng)新企業(yè)正在書寫著行業(yè)發(fā)展的新篇章。我們一直實時跟蹤、學習國內(nèi)外優(yōu)秀企業(yè),挖掘潛在優(yōu)質(zhì)標的。

05、感悟與體會

具身智能代表了人工智能發(fā)展的一個重要方向。它讓AI從虛擬世界走向現(xiàn)實世界,從單一的信息處理走向綜合的物理交互。目前RT-2和Voxposer等大模型泛化能力仍在提升過程中,未來能否達到商用所需的泛化性能標準存在不確定性。淞靈團隊結(jié)合不斷的行業(yè)體會,將繼續(xù)在感知、認知、行動層布局、研究。

SIM 2 REAL不是具身重點。回顧之前我們團隊提出的一個觀點:具身智能最終的表征方式可能不僅僅是人形。這里需要有一個延伸的邏輯,即SIM 2 REAL會讓具身智能理解環(huán)境;REAL 2 SIM會讓具身影響環(huán)境。這樣一個完美的閉環(huán),將迎來AI更高階的發(fā)展。其中必不可少的是再次對AI基礎(chǔ)建設(shè)的改造,以上可能又將是一波AI及其基礎(chǔ)建設(shè)發(fā)展的周期。

隨著中美科技競賽的“軍備化”預(yù)演趨勢,我們認為模型層中國可能會在一定階段處于追趕、跟隨的狀態(tài);數(shù)據(jù)豐富的優(yōu)勢讓 “中國涌現(xiàn)能力”后,我國可能會在AI Agent及具身領(lǐng)域展現(xiàn)特色優(yōu)勢。具身領(lǐng)域的“手”、“眼”、“腦”、“模型”等都將是我們關(guān)注及學習的重點。我們將持續(xù)不斷深耕研究,挖掘最先進、前沿的的賽道資訊,希望和感興趣的朋友多多交流探討。正如著名科學家所說:"智能不僅存在于頭腦中,也存在于身體里。"具身智能的發(fā)展,正在讓這句話變成現(xiàn)實。讓我們拭目以待,見證這場改變的發(fā)生。

關(guān)于一村淞靈

一村淞靈是一村資本位于深圳的全資子公司,專注AI早中期投資,打造淞靈AI生態(tài)朋友圈。

關(guān)于深圳一村淞靈私募創(chuàng)業(yè)投資基金管理有限公司(簡稱“一村淞靈”或“公司”)一村淞靈成立于2013年,是一家位于深圳的長期聚焦人工智能、數(shù)字經(jīng)濟的私募股權(quán)投資管理機構(gòu)。自成立以來,以其深植產(chǎn)業(yè)的投資邏輯、成熟專業(yè)的投資能力,公司先后發(fā)起并受托管理了國家科技部、國家發(fā)改委、深圳市引導基金、青島市經(jīng)信委、深圳市天使引導基金、前海引導基金等多支政府參股基金,在管資產(chǎn)規(guī)模達20億元。

通過踐行產(chǎn)融結(jié)合的投資策略和管理模式,經(jīng)典案例包括:生命科學智造企業(yè)華大智造、醫(yī)藥數(shù)字化臺“藥師幫”、光電半導體企業(yè)“縱慧芯光”、全球領(lǐng)先的AI視覺服務(wù)商“視比特機器人”、全棧式3D視覺解決方案提供商“光鑒科技”、致力于顛覆式創(chuàng)新的AI芯片設(shè)計商“墨芯科技”、專注于云計算和數(shù)據(jù)中心數(shù)據(jù)處理器芯片(DPU)和解決方案的領(lǐng)先半導體公司“云豹智能”。

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。

標簽:

責任編輯:FD31
上一篇:“萬峰成林處 陽光黔西南”2024黔西南州冬春文旅推介會在滬盛大舉行,開啟兩地文旅合作新篇章
下一篇:最后一頁

精彩圖集(熱圖)

熱點圖集

最近更新

信用中國

  • 信用信息
  • 行政許可和行政處罰
  • 網(wǎng)站文章