機器人的下一步：達到了ChatGPT的顛覆時刻嗎？

Posted on 29 Jan,2024
國際新聞
By Empower Labs

來源：Empower Labs

最近機器人進展有點大？

最近，智能機器人的研究進展如火如荼，新的演示層出不窮。

特斯拉在12月中旬發布了第二代Optimus。這個機器人並非工業產品，而是一個純粹的原型，但是它的完成度很好。在演示中，這個宇航員外形的Optimus展示了精巧的運動能力。馬斯克表示，之所以把它設計成人類的大小和形狀，就是爲了無縫取代人類勞動力，去執行任何人類不愿意做的事情。

特斯拉的機器人一身濃濃的科幻工業風，造價不菲的樣子，也許正是這個形象帶給了它“一切都理所當然”的預期。事實上，特斯拉並未展示太多它的應用場景，所以人們似乎對它也就是“哦”了一聲。但是，接下來1月份相繼公布的兩個機器人則讓許多人發出了情真意切的“啊？”

首先亮相的是斯坦福大學研究團隊公布的Mobile Aloha項目。這一項目之所以能引起廣泛興趣，可能在於它給機器人找的場景比較實用：做菜、逗貓、洗衣服。實際上，這一項目的主要創新之處在於它利用低成本的硬件（三萬多美元，對於家用還是超貴的）實現了一個自主移動的雙手操作機器人（雖然它外形不那么像人），並且它可以學會人的技能。這個學習過程顯得有點中二，以做菜爲例，你得先操作它做一遍菜，然後它就記住了大概動作。此時它不可能一下子就拿得穩鍋，但奇妙之處在於，它會再通過手臂上的攝像頭進行幾十次自主訓練，就能真正拿得穩了。

緊接着，Figure公司公布了他們的人形機器人Figure 01做咖啡的視頻。這個機器人聽到人的語音指令“給我做杯咖啡”，就能熟練使用膠囊咖啡機制作了一杯咖啡。Figure公司把這個成就稱爲“人形機器人的ChatGPT時刻”，這倒不是因爲它使用大語言模型理解了人類語音指令，而是因爲這個制作咖啡的技能僅僅是通過觀察人類動作而模仿學會的，這個成就帶給人的震撼程度堪比ChatGPT。Figure 01通過視覺觀察人類使用咖啡機的行爲，建立了對任務行爲的理解，然後通過若幹次的自主訓練糾錯，掌握了這一技能。這展現了AI驅動的通用型人形機器人的廣闊前景。

比爾蓋茨的A robot in every home

2007年的第一期《科學美國人》雜志上，曾經刊登過一篇比爾蓋茨的署名文章，我記得是封面頭條。文章的標題是“A robot in every home”。

在文章中，比爾蓋茨對機器人行業的機會表示非常激動，因爲這像極了30年前他創辦微軟公司的時候：行業出現了突破性技術，但是專業級的商用機器依然被壟斷在少數幾個大公司手中。初創公司和極客們雖然也不斷創造出來一些有趣的東西，但是高度分散，以至於沒有任何通用的標准和开發工具。所以，比爾蓋茨大膽預言：只要解決了這個問題，機器人必將走進千家萬戶。

所以，微軟當時果斷投資推動了這個事情，成立了Robotics部門，推出了Microsoft Robotics Studio，准備復刻當年微軟在PC時代取得的成功。

在文章中，比爾蓋茨引用了經典的DARPA 2004越野挑战賽。對，就是發明了互聯網的那個傳奇DARPA，它贊助這項比賽的目標是讓完全自主導航的車輛穿越140多英裏的莫哈維沙漠。在第一年的比賽中，最優秀的參賽者也只艱難行駛了7英裏，第二年就有5輛車成功完成比賽，而且簡直是一路狂奔着完成的。這項比賽極大的體現了機器人技術的進化速度。這也是比爾蓋茨的信心所在。

微軟當時努力的方向是开發工具層面。傳感器、馬達、伺服機構等硬件的能力在飛速提升，價格在不斷下降，但是在开發層面，你不得不給每一個硬件專門寫程序驅動它。而且，怎樣讓當時孱弱的處理器能實時處理多個傳感器的數據也是一大挑战。微軟的解決方案一是給驅動程序建立標准，二是提供多线程能力。微軟甚至推出了.NET Micro Framework。了解.NET技術的同學們應該能想到，把這樣的大殺器下放到機器人开發工具裏，簡直是降維打擊。機器人开發者甚至連內存和线程調度都不需要頭疼了，直接寫邏輯就行。

但是後來是事實我們已經知道了，微軟在機器人領域的努力並沒有成功，整個Robotics部門也在2014年的一次重組中被徹底解散。在筆者自己斷斷續續的觀察裏，感覺到的主要原因可能一是成本，二是應用。畢竟，直到今天，我們想在家裏攢一個機械臂也得不少錢，而且不知道拿它來幹什么。

機器人的ChatGPT Moment？

把時間軸拉回現在，無論是Mobile Aloha還是Figure 01，都展示了這樣一種能力：通過傳感器（不論是攝像頭還是遠程操作關節）來學習一種動作，並且通過自主的訓練反饋來真正掌握這個動作。不僅如此，這套動作還可以形成一項技能，然後通過自然對話來調用。這樣的技能可以隨時復制到同類的機器人身上，完全不用編寫程序。

看起來，機器人的能力果真到了一個新高度。這也讓許多人不約而同的發出了驚呼：“機器人也到了ChatGPT那種顛覆時刻嗎？”

相比十幾年前比爾蓋茨發出預言的時候，如今的機器人有了這樣幾個新的長足進展：

1。更加通用。比爾蓋茨眼裏的機器人可以是任何形狀，只要能完成某項任務就行。筆者自己當年溜去Robotics組混开會的時候，見到他們的演示也都是會跑會爬就行了。但是現在的機器人已經可以擁有家用場景的技能，這些技能是可以復制傳播的。而且機器人本身的設計更趨向於人形，也是爲了代替人執行各種通用任務。

2。自然交互方式。有了多模態的LLM加持，現在的機器人技術可以理解人的語音指令，也可以從攝像頭等輸入進行學習，這是機器學習領域極大的進步，顯著降低了开發和使用難度。

3。成本進一步降低。雖然Mobile Aloha公布的硬件成本仍然高達三萬多美元，但這是包括了一個移動底座的。如果只算機械臂，似乎也能勉強當做一個高端家電。移動底座這個東西可能是下一個熱點之一，比如近期一些投資特斯拉的邏輯就是“不要把它當做電動車，要把它當做下一代的通用移動底座”。

Jim Fan是這個領域最大的KOL之一，他本人是英偉達的高級科學家，也曾是OpenAI的第一個實習生。他在前不久的一則推文裏闡述了他爲什么認爲機器人將是2024年最大的熱點。