新聞 > 科教 > 正文

Figure機器人進廠打工:8小時速成大師

Figure公司繼推出自研VLA模型Helix後,再度發力!最新展示的機器人包裹分揀技術,僅用8小時訓練數據,就實現了超越人類的效率和精度。通過一系列架構優化,包括立體視覺、多尺度特徵、自我校準和運動模式,Figure機器人展現了驚人的學習和適應能力。

踹掉OpenAI之後,Figure的疊代堪稱神速!

幾天前才發布了第一款自研視覺-語言-動作(VLA)模型Helix,統一了感知、語言理解和學習控制。

就在剛剛,他們又在一個全新場景中實現了機器人應用的落地——物流包裹操作和分揀。

而且,只用了短短30天。

為了達到人類級別的速度、精確度和適應性,Figure對自研模型Helix的系統1(S1),也就是底層視覺運動控制策略,做出了全面的改進:

隱式立體視覺(implicit stereo vision):Helix系統1現在具有豐富的3D理解能力,實現更精確的深度感知運動。

多尺度視覺表徵(Multi-scale visual representation):底層策略可以捕捉精細細節,同時保持場景層面的理解,實現更準確的操作。

學習式視覺本體感知(learned visual proprioception):每個Figure機器人現在都可以自我校準,使跨機器人遷移變得無縫。

運動模式(sport mode):使用簡單的測試時加速技術,Helix達到了比示範者更快的執行速度,同時保持高成功率和靈巧度。

結果顯示,在這個特定場景中,僅需8小時精心策劃的示範數據,就能產生靈活多變的操作策略。

只見,Figure機器人軍團同時走向自己的工位,站成一排,同步開啟打工模式。

看它靈活的雙手,拿起包裹後,識別物流碼逐一分揀。

整條流水線上,全由Figure完成,無需人類插手。

值得一提的是,它們還會自我校準。

對此網友紛紛表示,「工廠工人將被迅速取代!」

還有網友感慨道,「將現有勞動力轉換為機器人會比我們想像的要快得多。」

極具挑戰性的物流場景

包裹處理和分揀是物流中的基本操作。這通常涉及將包裹從一條傳送帶轉移到另一條傳送帶,同時確保運輸標籤正確朝向以便掃描。

這項任務面臨幾個關鍵挑戰:包裹的尺寸、形狀、重量和剛性(如硬盒或軟袋),都各不相同。

為此,系統必須能夠:

確定抓取移動物體的最佳時機和方法,並重新調整每個包裹的朝向使標籤可見

跟蹤持續移動的傳送帶上眾多包裹的動態流動,並保持高吞吐量

實現自我調整,因為環境無法被完全預測

而這些,在仿真環境中是很難進行復刻的。

值得注意的是,解決這些挑戰不僅是Figure業務的關鍵應用,它還為Helix系統1帶來了全新的通用改進,從而使所有其他用例都從中受益。

對Helix視覺-運動策略(系統1)的架構改進

視覺表徵

此前的系統1依賴於單目視覺輸入,而現在的新系統採用了立體視覺主幹網絡,結合多尺度特徵提取網絡來捕捉豐富的空間層次結構。

新系統不再單獨處理每個攝影頭的圖像特徵token,而是會在token化之前將兩個攝影頭的特徵在多尺度立體網絡中合併,這樣保持了輸入到交叉注意力Transformer的視覺token總數不變,同時避免了額外的計算開銷。

多尺度特徵使系統能夠同時識別精細細節和更廣泛的上下文信息,共同提升了基於視覺的控制可靠性。

跨機器人遷移

在多個機器人上部署同一策略時,需要解決因個體機器人硬體細微差異導致的觀測和動作空間分布偏移問題。

這些差異主要包括傳感器校準差異(影響輸入觀測)和關節響應特性(影響動作執行),若不進行適當補償,將會顯著影響策略性能。

尤其是在涉及高維度的整個上半身動作空間時,傳統的手動機器人校準方法難以適用於大規模機器人群組。

為解決這一問題,Figure訓練了一個視覺本體感知模型,該模型完全基於每個機器人自身的視覺輸入來估計末端執行器的六自由度(6D)姿態。

這種在線「自我校準」機制使得跨機器人策略遷移能夠高效進行,同時將停機時間降至最低。

數據篩選

數據方面,Figure在篩選時排除了那些速度較慢、失誤或完全失敗的人類示範。

但有意保留了一些自然包含糾正行為的示範,前提是造成失敗的原因是環境的隨機因素,而非操作者的錯誤。

與遠程操作者密切合作,可以改進和統一操控策略,並帶來顯著的性能提升。

推理階段操作加速

為了讓系統能夠接近並最終超越人類操作速度,Figure應用了一種簡單但有效的測試階段技術,從而實現了比示範者更快的學習行為——對策略動作塊輸出進行插值(「運動模式」)。

其中,S1策略輸出動作「塊」,即以200Hz頻率執行的一系列機器人動作。

在實踐中,可以在不修改訓練程序的情況下實現20%的測試階段加速。

方法是,將一個[T x action_dim]的動作塊(表示一個T毫秒的軌跡)線性重採樣為一個更短的[0.8* T x action_dim]軌跡,然後以原始的200Hz控制率執行這個更短的動作塊。

結果與討論

使用標準化有效吞吐量* T_eff來衡量系統性能,可以反映系統處理包裹的速度與訓練數據中演示者速度的比值。(這一指標考慮到了系統重置所花費的時間)

例如,當T_eff>1.1時,表示系統操作速度比訓練所用的專家軌跡快10%。

立體視覺的重要性

圖2(a)展示了多尺度特徵提取器和立體視覺輸入對系統T_eff的影響。

其中,多尺度特徵提取和隱式立體輸入顯著提升了系統性能,立體視覺也顯著增強了系統處理各種尺寸包裹的穩健性。

相比於非立體基線模型,立體模型實現了高達60%的吞吐量提升。

圖2:(a)不同視覺表示方法對系統性能影響的消融研究

此外,配備立體視覺的S1系統能夠成功處理系統從未訓練過的平信封,表現出良好的泛化能力。

機器人可以將信封分揀出來。

可以看出機器人的手部活動十分靈活。

質量勝於數量

Figure發現,對於單個應用場景,數據質量和一致性比數據數量更為重要。

如圖2(b)所示,盡避訓練數據量減少了三分之一,但使用精心篩選的高質量示範數據訓練的模型仍然實現了40%更高的吞吐量。

圖2(b):數據篩選對有效吞吐量的影響

運動模式

通過線性重採樣技術(即「運動模式」)加速策略執行,在提速不超過50%的範圍內表現出奇地有效。這可能歸功於動作輸出塊的高時間解析度(200Hz)。

然而,當速度提高超過50%時,有效吞吐量開始大幅下降,因為動作變得過於不精確,系統需要頻繁重置。

圖3顯示,在速度提高50%的情況下,策略能夠實現比其訓練所基於的專家軌跡更快的物體處理速度(T_eff>1)。

圖3:通過動作塊重採樣實現測試階段加速。在測試階段速度提高50%的情況下,S1系統實現了比示範數據更高的有效吞吐量(T_eff>1)

跨機器人遷移

最後,通過利用學習型校準和視覺本體感知模塊,Figure成功將最初僅在單個機器人數據上訓練的策略應用到多台不同機器人上。

盡避各機器人間存在傳感器校準差異和細微硬體不同,系統在所有平台上仍保持了相當一致的操作性能水平。

這種一致性凸顯了學習型校準在減輕數據分布偏移方面的有效性,大大減少了繁瑣的單機器人重新校準需求,使大規模部署變得更加實用。

總結

綜上,Figure展示了如何通過高質量數據集,結合立體多尺度視覺、實時校準和測試階段加速等架構優化,在實際物流優先級分揀場景中實現超越示範者速度的靈巧機器人操作——這一切僅使用了相對適量的示範數據。

研究結果表明,端到端視覺-運動控制策略在速度和精度至關重要的複雜工業應用中具有巨大的擴展潛力。

責任編輯: 王和  來源:新智元 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/0228/2182400.html