華泰證券:人形機器人需要怎樣的大模型?

2023-12-8 70 12/8

华泰证券:人形机器人需要怎样的大模型?

智通財經APP獲悉,華泰證券發佈研報稱,機器人大模型的最終目標是提高人形機器人在不同場景和任務下執行的成功率。對於限定的應用場景和任務,從決策層、感知層和執行層三個角度出發,大模型需要具備自主可靠決策能力、多模態感知能力和實時精準運控能力;爲了拓展到多樣複雜的應用場景和任務,大模型還需要具備泛化能力和涌現能力。

目前大模型不斷迭代,已出現包含多種能力的“全能選手”,但仍存在感知模態不足、實時性差和泛化能力弱等問題。未來需要不斷優化訓練模型結構、訓練方法和數據集,將多模態感知信息納入模型,同時提高控制指令的生成速度和大模型的泛化和涌現能力。

華泰證券主要觀點如下:

人形機器人長期存在高需求+低供給矛盾,通用性受限爲核心原因

人形機器人長期存在高需求+低供給矛盾。1)高需求:人形機器人的潛在應用場景廣泛,包括工業生產、日常生活和災難救援等;2)低供給:覆盤人形機器人發展史,從早稻田大學的Wabot到波士頓動力Altas,機器人運動性能大幅提升,但未實現大規模商業化應用。該行認爲,人形機器人追求極致的運動性能意義有限,其未能大規模商用的核心原因是通用性受限,通用性受限體現在用戶主體要求高和應用場景侷限兩方面。通用性受限帶來的商業化落地困難,也使得硬件成本難以在規模效應下顯著下降。

大模型充當大腦實現任務級交互,可大幅提升通用性

波士頓動力Atlas通過多種硬件設備實現了跳躍、後空翻等高難度動作,運動能力遠超近年發佈的人形機器人,但這些動作源自提前創建的行爲庫。該行認爲,硬件不是掣肘,軟件阻礙了通用性的提升,軟件升級後可以打通“軟硬件升級-商業化應用-研發投入增多”正循環。機器人的控制軟件分多個層級,其中任務級爲最高層級,實現任務級交互可以大大提高人形機器人通用性,一方面用戶主體可由工程師轉變爲普通用戶;另一方面應用場景可由限定場景轉變爲開放式場景。而大模型的能力恰好與任務級交互的需求相匹配,爲人形機器人理想“大腦”。

機器人大模型需具備3+2種能力,迭代升級後初現全能選手

對於限定的應用場景和任務,大模型需要具備自主可靠決策、多模態感知和實時精準運控能力;拓展到多樣複雜的應用場景和任務,大模型需要具備泛化能力和涌現能力。現有大模型不斷迭代升級,拓寬能力圈,該行按照發布時間依次對各種大模型進行分析:SayCan爲實現自主可靠決策做出貢獻;Gato爲實現多模態感知做出貢獻;RT-1爲實現實時精準運控作出貢獻;PaLM-E將自主可靠決策和多模態感知相結合;RoboCat最重要的貢獻是可以自主生成訓練數據集;RT-2將3+2種能力全面結合;RT-X在經過多個數據集訓練後,多種能力全面提升。

感知模態/實時性/泛化能力問題需依靠訓練模型/方法/數據集共同解決

目前大模型存在感知維度不足、實時性差和泛化能力弱等問題。感知方面,現有大模型主要包含視覺感知,以學習雕刻爲例,僅依靠觀摩而不動手操作,很難徹底掌握這門工藝,因此多模態感知是必然趨勢;運控方面,現有大模型的指令生成速度較慢、生成結果簡單,短期來看,底層運控仍需依靠傳統機器人算法;泛化能力方面,RT-2在未知複雜環境中的執行成功率僅爲35%。該行認爲,未來需依靠訓練模型結構、訓練方法和數據集的改進,將更多模態感知模態納入模型,同時提高運控指令的生成速度和泛化能力。

風險提示:
大模型多模態數據融合不及預期、大模型指令生成速度不及預期、大模型泛化及涌現能力不及預期。