今日,有新聞報道稱:加州大學伯克利分校的研究團隊打造了一個兩條腿的機器人Cassie,通過AI的催動強化學習后它自己竟然學會了走路,并不是通過直接編程和模仿來學習的,它是通過AI學習框架讓機器人Cassie以試錯的方式進行自主學習走路。這種試錯的訓練方式如同嬰兒學走路一般,主動的適應環境,逐漸執行穩定,敏捷以及多樣化的走路動作。除此之外,機器人還會不斷學習跑步,跳躍等動作,敏捷度也會通過自動調速功能逐漸實現。
未來,基于AI強化學習這一技術,運動機器人也將更為敏捷。
一、AI模擬訓練學走路,無需嬰兒般跌倒重來
雙足機器人Cassie類似我們的腿部外形,因此相比其他形狀的機器人更容易進入為人類設計的城市環境之中。
為幫助Cassie像人類一樣學會自主行走,研究團隊將這個過程想象為如嬰兒學走路一般。嬰兒雖然不會直接學會站立行走,但他們能通過一次次的站立、跌倒、邁步中記住步行的步驟,最終學會直立行走。
Cassie學走路也是如此。但為防止機器人在學習過程中跌倒損壞實際硬件,研究團隊利用模擬到真實的傳輸技術,在模擬環境中訓練,在高保真度的模擬器中進行評估,最終部署到Cassie機器人上。
在模擬中,機器人接受了描述直立行走等目標的信息后,AI引擎可以幫助其記住步行步驟,以此為基礎添加更多信息,最終學會直立行走。此外,它還可以學會如何在輕微滑倒時防止摔倒,或從側面被推倒時如何恢復。
一旦機器人在模擬中學會走路,研究人員便將此知識移植給Cassie,進行實際操作。后續實踐中,研究人員計劃繼續在機器人中進行強化學習,看看它能走多遠。
二、步態庫中強化學習,讓步伐更靈活穩健
研究團隊基于強化學習( Reinforcement Learning;RL)方法,希望讓Cassie通過系統學習法學會更敏捷的行走。強化學習又稱增強學習、評價學習,是智能體以“試錯”的方式進行學習,在環境交互中達成特定目的。
在此之前,研究者往往通過機械建模控制雙足機器人行走,然而這種方式難以對復雜地面進行建模,機器人缺乏適應環境變化的能力和運動穩定性。基于強化學習的步行控制器,RL方法訓練策略可以讓機器人模擬步態庫中的步態,通過隨機訓練增加其行為的多樣性。這種多樣性的增加,能夠讓Cassie應對以往無法建模的地面摩擦變化等環境因素,在隨機環境下保持靈活穩健性。
三、AI追蹤行走環境,步行速度、高度自動調
基于RL方法,研究人員建立了一種自適應調速步行控制器。這種控制器能夠通過AI追蹤Cassie的步行環境,并給其適當的行走策略。Cassie在不同場景下的行走策略,在實驗中,Cassie能夠執行各種敏捷行為,如快進和后退行走、側身行走、改變行走高度,還能夠在偏航時進行轉身操作。
此外,Cassie還能夠從路障等外界隨機擾動中恢復。AI強化學習助機器人運動更敏捷,基于步態庫的參考運動,AI強化學習可以幫助兩足機器人學習步行、轉彎、下蹲等運動狀態,跟蹤其行走環境以達到自動調速、轉彎等功能,讓機器人在運動中更好的達到靈活性和穩健性。
以上我們分享了AI機器人自己學習走路的全過程,未來AI強化學習還將在此基礎上,助力兩足機器人及其他機器人學習更多動態,敏捷的行為,如果您想了解更多相關信息,請您繼續關注中培偉業。