以下是本次直播實錄“具身智能”部分——

3合

Genji:關于具身智能,大家有很多好奇的領域,大家接觸最多的是人形機器人,那么,現在人形機器人和各位研究的領域有哪些差異?

周博士:現在大家經常可以看到雙足人形機器人的展示,行業(yè)里也有非常優(yōu)秀的公司,如在春晚上火爆的宇樹科技,這類公司更多的是側重于機器人本體設計、機電系統(tǒng)以及運動控制,這是讓機器人穩(wěn)定、可靠動起來的基礎,也是讓大眾能快速領略到機器人魅力的很好的切入點。例如,我們可以讓機器人模仿人類跳一段舞蹈,或讓機器人穿過一段崎嶇的山路。在機器人能很好的動起來之后,還有一個更大的挑戰(zhàn),是如何讓機器人聰明的行動。比如像人一樣,讓機器人可以通過看說明書,技能組裝起一套復雜的家具,或是使用手機導航就能找到想去的咖啡廳,購買一杯咖啡并帶回家等。這些能力需要機器人對3D空間有非常深刻的理解,能夠執(zhí)行長序的物理推理,能預測其采取的行動,將對物理世界產生什么樣的影響。這些是我們當前更關注的技術。但是這還不是我們最終的目標,當前,還存在許多類似于礦井下的高危工作環(huán)境,也存在可能導致塵肺病等職業(yè)病的惡劣工況,所以我們非常希望將機器人應用到這些場景中,讓機器人超越人,解難題、做難事,體現科技的價值。

王博士:不同于業(yè)界通常展示一些家居生活場景的應用演示,華為云更加關注如何讓具身智能技術深入各個工業(yè)制造領域中,幫助工業(yè)產線提高效率。但工業(yè)場景相比于家庭場景有一些特殊的地方,首先,因為大多數工件都比較精密,裝配冗余孔隙僅有毫米級甚至更小,這對機器人操作的控制精度要求非常高;其次,工業(yè)場景對于整個任務完成效率也有非常高的要求,因為一旦成功率過低或速度較慢,都將影響產品的出貨周期;最后,從機器人本體形態(tài)來看,家用場景未來可能會收斂到人形機器人,但工業(yè)場景應用的機器人形態(tài)可能會非常多樣,有可能是單個機械臂,或者一輛小車,甚至挖掘機都有可能成為具身智能技術的載體。所以如何讓不同類型的本體都能夠適配我們的技術,是非常重要的挑戰(zhàn),也是我們需要攻克的問題。

Genji:請四位詳細介紹一下,在具身智能開發(fā)落地的過程中,我們現在正面對哪些難題,以及最難的是什么?

周博士:在我看來,現在具身智能沒有最難,只有更難。其實提到智能,大家可能會想到經典的AI三要素,即算力、數據和算法。但面對具身智能,這是需要探索的AI的下一跳,我覺得三要素需要稍微做一些轉變,更需要大家關注數據、算法以及機器人的本體。如果這三個要素不能協(xié)同,整個具身智能系統(tǒng)就無法擴展,也就談不上對算力的巨大的需求。6月20日的HDC主題大會上,華為常務董事、華為云計算CEO張平安專門強調,我們不做機器人的本體,目前更加關注具身智能的數據、算法以及對應的平臺能力,下面這一頁幻燈片,剛好也展示了我們現在正在做的具身智能從數據到算法迭代的平臺原型,這一套原型現在已經交付給了我們的部分伙伴使用,并通過在他們工作現場收集的反饋持續(xù)優(yōu)化。這個平臺的整體理念,就是讓機器人在數字世界中學習,在物理世界中調優(yōu)和運行。具體來說,先通過Real2Sim的技術,讓物理世界快速數字化,隨后借助數字世界中仿真引擎合成、生成式AI等技術,大量生產多樣化的數據,而這些數據的多樣性問題在物理世界是幾乎不可能被解決的。有了這些數據之后,通過一套完備的數據工程管線,將所有數據處理成具身智能VLA模型訓練所需的狀態(tài),并在云上完成具身模型的訓練。最后,我們進一步挖掘云仿真的價值,通過算法構建成百上千的測試用例,對模型能力進行測試調優(yōu),再通過端云協(xié)同機制,講最優(yōu)的模型能力推送到機器人的端側運行。

張博士:數據難題我有切身體會,我經常與客戶聊,每個客戶反映的問題都是,數據從哪里來,怎么樣構建數據。這里為不熟悉具身的同學介紹一下,目前來說大部分客戶采集數據的方式都是人工的:通過穿動捕設備采集數據,或者遙控機器人讓機器人執(zhí)行動作,在這個過程中采集數據。但大家應該能夠想象這樣的人工采集方式,它是有瓶頸的,取決于機器人數量的多少,以及數采員采集效率的高低。傾全國產能來說,一年大概只能采集千萬級別的數據量,而這個數據量用來訓練模型顯然是遠遠不夠的;另外,實采數據還有缺乏多樣性的問題。比如,訓練機器人倒茶這一動作,比如讓機器人在這個木質的桌面上反復倒茶、收集數據,而這些訓練出來的模型,或許換一張大理石桌,就不一定會執(zhí)行成功了,因為在訓練數據中沒有見過這樣的場景。而這類問題恰好很適合仿真合成數據解決,因為在仿真環(huán)境里,我們可以輕松改變桌子的材質、環(huán)境光照、物品布置等等,這樣采集的數據和訓練的機器人技能都將更具備泛化性,另外這樣通過仿真合成構建數據的速度也會比人工采集的方式快很多,所以我們也在真實的客戶項目中廣泛應用了這樣的技術。同時,最近我也注意到一個新的方向,有客戶問我,最近生成視頻很火,有沒有可能將生成視頻這個技術應用到具身數據積累和模型訓練里,那我知道王博士最近就在研究這個方向。

王博士:是的。剛才說到視頻生成技術非?;?,具身智能數據又非常短缺,所以目前我們正在探索如何利用基于可控條件的視頻生成技術生成符合我們要求的具身智能數據。視頻生成當前存在的一個難題是它生成視頻中的機器人動作不符合實際需求,例如不滿足基礎的物理約束條件。為了解決這個問題,我們探索將深度圖像作為視頻生成模型的可控輸入條件,通過視頻生成模型做視覺渲染,來保證生成視頻中的機械臂運動軌跡符合我們的要求。此外,合成的數據還存在仿真到真實的遷移差異較大的問題,我們通過直接在真實視頻數據的基礎上,做一些光照背景變換,或者修改被操作物體等少量元素的編輯,從而盡可能緩解這一問題;

馬博士:總結來說,我們?yōu)槭裁匆瞥鼍呱矶嗄B(tài)技術,其實就是為了降本增效。首先是降本,我們的生成技術可以減少仿真環(huán)境搭建的成本,實現短時間內不去改變原本的仿真環(huán)境,就可以增加許多不同紋理、不同背景的數據;其次是增效,因為在真實場景中,真實數據采集是非常有限的,視頻生成技術可以極大程度分成它的數據集,從而讓我們的模型越來越泛化。

Genji:我分享一下自己的想法,人工智能發(fā)展是在1956年美國達特茅斯會議時產生的。人工智能從笨到變聰明的過程,經歷過很多卡點和細節(jié),這可以概括成兩種動物,一是鸚鵡學舌,給木桌上的杯子倒上水,鸚鵡只知道這個動線;二是烏鴉,聊人工智能繞不開的一個詞是涌現,涌現是復雜學科里的詞,無論人的大腦如何協(xié)作,多項神經元如何傳遞信號,到具身智能里面,這個情況都會更加復雜,因為在烏鴉的能力中,它對現實世界的理解相對深刻,如烏鴉觀測到汽車能夠撞開堅果,汽車也能撞到自己,而紅綠燈能夠控制汽車,發(fā)現這三件事以后,它就可以在亮紅燈的時候叼堅果,把堅果丟到車群中,讓汽車開堅果,亮綠燈的時候飛起來,所以烏鴉就具備推理和思考的能力。我們從鸚鵡到烏鴉,這是一個逐漸學習或者是讓它理解、思考世界的過程,讓機器人變聰明指的就是這一過程,而這個過程一定會面臨非常多的挑戰(zhàn)和紛紜復雜的協(xié)作。所以請教一下各位,在這一過程中,技術上是如何實現讓機器人工作的?

張博士:我舉一個真實的案例,客戶是如何與華為一起,讓機器人變得更聰明的。這是我們在上海的客戶——國地人形機器人創(chuàng)新中心。該創(chuàng)新中心希望達到的目的是構建具身的數據,并且基于具身數據訓練具身模型,引領行業(yè)發(fā)展。為此,創(chuàng)新中心搭建一個大型的物理訓練場,并購買了很多機器人,讓其在真實的物理訓練場里執(zhí)行各種任務采集數據,但很快,客戶發(fā)現通過這一方式采數據、積累數據太慢了,于是找到了華為云。我們進入項目組后,開始與客戶聯(lián)合創(chuàng)新,并試用我們的方案,詳細來說就是我們先通過重建的方式,快速幫助客戶將物理訓練場數字化,構建了物理訓練場數字孿生體,我們通過隨機化使得訓練場的場景變得多樣化,并讓機器人在這樣的環(huán)境中執(zhí)行導航和操作任務,繼而積累大量的數據,當數據量積累到一定量的時候,就會涌現出“烏鴉躲避汽車”這個智能。

Genji:在這里面還有什么其他的案例可以分享嗎?

周博士:接著張博士提到的上海人形伙伴,我們還聯(lián)合孵化了針對工業(yè)轉運任務的具身智能創(chuàng)新方案。工業(yè)轉運是工廠里非常常見的任務,工人需要找到對應的貨架,并且找到對應的料框、揀選對應的物料,然后將這些物料匯總到產線上。由于需要揀選的物料種類和數量都不確定,所以這個過程的非常柔性且長序的,按照傳統(tǒng)的機器人開發(fā)方法,很難解決這種問題。我們現在的方案是基于上海人形采集的雖然少量但是高質量的數據,通過引擎合成和生成技術,以十倍到百倍不等的量級生產更加多樣化的合成數據。因為不同的數據配方會導致不同的模型效果,所以將不同來源數據,以不同配比進行模型訓練與評估測試是至關重要的。我們通過一套數據配方的研究,把不同的數據配比、模型訓練、模型在數字世界里的多樣化測試與調優(yōu),整個過程借助Agent機制自動化的聯(lián)通,這樣用戶就可以快速拿到最好的模型。最后,我們再通過端云協(xié)同的形式把能力推送到本體,這樣就可以在物理世界中進行空間理解、物料揀選、自主導航等任務,最終完成工業(yè)轉運需求。

馬博士:以華為手機打包場景為例,這里涉及了20多種操作步驟,10多種操作對象,以及包括推、拉、抓、吸等6種操作技能,面對這樣復雜且長的任務,我們首先借助具身規(guī)劃模型,即剛才所說的“烏鴉大腦”,去做自主的規(guī)劃以及任務拆解,把任務分解成一個一個子步驟,同時在模型運行過程中,萬一發(fā)生各種報錯,規(guī)劃模型也能夠根據真實場景重新規(guī)劃,保證任務的順利進行;此外還有一個具身執(zhí)行模型以及性能庫,它們需要做的是接收子任務文本指令并完成整個動作,我們的具身執(zhí)行模型需要在位置不固定、光線光源無法預測、不清楚背景等情況下,依舊魯棒的完成任務。另一個例子是水浸線的理線場景,機械臂需要將水浸線依次扣入卡扣中,在這個場景中,我們使用VLA模型融合3D點云信息,3D點云信息能夠更好地解決線懸空時的情況,精準識別高度,提升任務成功率。此外,我們也能夠做到在一定的干擾之下順利完成任務,包括遮擋的干擾、光線的干擾、人為錯誤干擾等。

Genji:HDC主題演講中,平安總發(fā)布CloudRobo平臺服務的用戶是誰?做哪些工作?請科普一下。

王博士:我們更多面向的是工業(yè)場景。工業(yè)應用的一大特性是場景非常分散,且每個細分場景的專業(yè)化程度很高,所以工業(yè)應用中有很多只聚焦在自己垂直領域的中小型企業(yè),且這些企業(yè)大多自動化能力很強,但智能化水平不足。此外,他們并不需要通用的具身智能,他們只希望針對自己的產線需求開發(fā)相應的具身智能技術,用以解決他們產線的問題,達到降本增效的目的。對于這類玩家,如果想自己完全獨立開發(fā)具身智能技術,則需要搭建平臺底座,成本高難度大。因此,我們基于這樣的需求因素,開發(fā)了CloudRobo具身智能平臺,它能夠提供包含數據處理、模型開發(fā)、云端部署等一整套面向具身智能解決方案的開發(fā)工作平臺,我們希望借此賦能不同的機器人廠家和行業(yè)應用場景。另外也可以看到,我們還有R2C協(xié)議,平臺面對不同的機器人本體,涉及的關節(jié)、傳感器類型都是不一樣的,為了讓我們的平臺和不同類型本體有效對接,就需要設計一套統(tǒng)一的標準,同時我們也在倡導與聯(lián)合各個機器人本體伙伴,共同構建R2C協(xié)議,即Robo to Cloud協(xié)議,構建通信接口、數據接口和指令接口,使得平臺能夠無縫對接機器人本體,賦能各種各樣的伙伴。

Genji:請問四位對整個具身智能在未來發(fā)展趨勢有什么思考和洞見?

王博士:接著CloudRobo平臺來說,當前具身智能發(fā)展尚處于初期階段,大家都是圍繞一些零散的點做探索,有的做一些模型網絡結構改進,有的探索不同傳感器的組合能夠帶來什么樣的效果。未來,隨著具身智能數據的逐步增多,我相信整個技術路線會逐步走向收斂。到了這一階段,大家在基礎場景下的能力都相差無幾,更為關注的是一些難例場景下的挑戰(zhàn),如何解決一個又一個的難例場景,這就需要一整套高效的數據閉環(huán)能力來幫助模型實現快速迭代,快速適配特定的問題和特定的場景。CloudRobo平臺也是基于這樣一個目的。我們構建各種各樣的工作流,并且把這些工作流進行有效連接,包括數據的自動化標注、有效數據的挖掘等,模型訓練后可以進行自動化評估,從而幫助模型實現快速迭代,使得未來模型競爭力越來越強,也能夠實現模型和應用場景的正向閉環(huán)。

張博士:由于我接觸的客戶和實際應用較多,所以在這里我稍微拆一拆周博士的臺。剛才提到的揀選和轉運的工業(yè)部件案例,我在實驗室里見過各種各樣五花八門的失敗,在我看來,具身智能還處于很初期的發(fā)展階段,但它的未來一定是非常光明的,只是這個過程會是螺旋式上升,需要經歷不斷的演進。這里我特別想引用我喜歡的音樂劇《漢密爾頓》的歌詞:這個世界是如此的寬廣。具身世界如此寬廣,它容得下本體廠商,也容得下華為云這樣為本體廠商賦能的企業(yè),更容得下提供各類解決方案的集成商。我們希望所有人都能夠在CloudRobo平臺,共同為具身智能行業(yè)發(fā)展做出自己的貢獻。

Genji:剛才張博有提到一個詞,叫做“千行百業(yè)”,最開始B端找的是千行百業(yè),C端找的是千家萬戶,所以是否將來會達到這樣一個時刻,這個時刻又是如何邁進的?

周博士:拿千行百業(yè)來說,剛剛我們提到的工業(yè)場景、礦山特種場景,都是值得關注的方向。但這個方向里的區(qū)間特別大,比如說,相對結構化的工業(yè)領域,未來一到兩年,就能夠陸續(xù)有落地成果展現;而更加復雜的礦井環(huán)境,則需要3年,甚至更長時間才有落地可能。與此同時,像商超零售、酒店整理、餐廳后廚等商業(yè)服務領域,也會在未來的1-3年,陸續(xù)有落地成果被看到,但這些都是B端。你剛才還提到千家萬戶,這就是一條C端的線,比如機器人進入家庭陪伴,甚至養(yǎng)老。家庭陪伴這個會很快,行業(yè)里已經有不少優(yōu)秀的公司正在朝這個方向做商業(yè)化探索。而真正意義上可以照顧老人的機器人,幾乎能算具身智能領域的圣杯問題之一了,5年是一個非常樂觀的估計,大概率需要更長的時間。

馬博士:補充一點,在To C端,真正走進千家萬戶之前,我認為主要面臨兩個問題,即安全與倫理。比如,機器人是否會傷人、如何建立機器人安全監(jiān)督機制,以及倫理,在機器人代替人類工作后,人的價值將體現在哪里,人類又應該從事怎樣的工作,這些問題是包括我們、我們的伙伴,以及每位具身行業(yè)的從事者,都需要持續(xù)思考的問題。

Genji:關于未來的發(fā)展趨勢,各位還有什么補充嗎?

周博士:關于CloudRobo平臺的愿景,因為物理世界的各種探索,很多情況下后果是不可承受的,所以我們通過在數字世界中,發(fā)揮強智能和大數據的優(yōu)勢,先把問題解決到90分,再遷移能力去機器人本體,在物理世界繼續(xù)調優(yōu)。這是我們對具身智能如何最終走進千行百業(yè)、千家萬戶的一點思考與策略。

王博士:CloudRobo平臺最上面一層是安全監(jiān)督,我們希望通過云端賦予強大的安全監(jiān)控,一方面有效制止機器人在實際的應用中出現任何可能會損害周圍環(huán)境的行為,另一方面,希望在仿真環(huán)境中對可能會發(fā)生的事情做出一些預測,達到提前干預的效果。

Genji:請各位博士分享一下對具身智能的未來有哪些比較好玩或比較有意思的展望。

馬博士:在我看來,目前我們的用戶期待值還是非常高的。實際上在真正工作中會發(fā)現,目前我們的機器人還處于非常初期的階段,對我們來說它還是一個小嬰兒,我們要不斷的教它學習各種技能,至于未來它會做什么樣的事情,還需要通過我們的平臺、數據一起去構建。我個人非常想要的是,機器人未來有一天可以代替我上班。

周博士:剛剛大家也提到這個行業(yè)還處于非常早期的階段,但從技術的角度出發(fā),積極的信號同樣存在。比如,雖然現在具身智能的技術投入百花齊放,但基本是沿著多階段VLA的路線在發(fā)展。已經被實踐證明,復用大語言模型中非常成熟的訓練鏈條是有效且遠沒有觸達上限的。也走出了像π0.5這樣非常優(yōu)秀的具身模型,在垂直領域展現出優(yōu)秀的泛化性。這給出了一條能不斷延展具身智能體能力的路徑。今天,我們討論的所有話題,無論是數據、模型、本體,都會參考這條路徑的指引向前探索。

張博士:我個人來說,倒是希望機器人是更通用的形態(tài),不僅幫我們去上班,還能在家里幫我們做家務,甚至等我老了以后,還可以幫我養(yǎng)老,這雖然是很遠的愿景,但還是充滿期待的。

王博士:具身智能的前景非常光明。大家都說AI是工業(yè)革命,一直停留在互聯(lián)網上或只帶來少量的生產力提升,并沒有促進社會生產力突破性的發(fā)展,但具身智能就是這樣的技術,能夠真正把AI運用到提升社會生產效率等各個方面,會給人類社會帶來質的發(fā)展。道路是曲折的,前景是光明的,所以我們要朝著這個目標不斷努力。

Genji:最近,我剛讀了一本OpenAI研究員寫的書,為什么偉大不可復制。當初OpenAI發(fā)明出來時,里面涉及到了一個基本問題,最開始在解決迷宮難題時,起初讓線條把所有的路線都走出來,最后找到一調最短線條,這件事情聽起來特別像是急功近利探索人生或路線最優(yōu)解的過程,最后提到,為什么偉大不可被復制,就是這不是目的,而是探索過程,不預設非常強功力性的目的,就只是讓線條和點進入迷宮瞎轉悠,這種松馳的機制反而能夠產生更多聰明的感覺,或許它晃著晃著便能解決更為復雜的問題。

周博士:您提到的這個觀點恰好印證了我們的一些觀察,在具身智能往前演進過程中,需要哪些學習范式。我剛才提到的VLA,本質上還是模仿學習,也就是說,它的上線實際上是人類喂給它多少數據,它就有望學到怎樣的能力。那機器人究竟要怎樣超越人?其實就不應該給它設限,讓機器人通過自己的探索找到最適合自己的工作方式。這種情況下,我們依然希望發(fā)揮數字世界的優(yōu)勢,提供多樣的交互式環(huán)境,讓機器人可以在里面隨機交互探索,并及時獲得反饋與獎勵,這種強化學習+VLA的方式是探索機器人真正超越人的一條路徑。

張博士:我見過周博士在實驗里做的機器人,它沒用夾爪將想要的東西抓起來,而是用吸盤。在仿真里進行學習的時候,我們沒有設限,結果機器人的吸盤在手腕關節(jié)的位置進行了360度以上的旋擰,而我們人的手腕因為旋轉角度的受限,往往需要多次旋轉,機器人卻可以連續(xù)旋擰、達到比人更高的效率。我當時眼前一亮,原來這也可以?我想這就很好的回答了您剛才問到的問題,當沒有設限的時候,機器人反而變得更加聰明。

馬博士:剛才說的就是探索與利用,我們通過這樣的方法模仿學習后,再進行強化學習,讓它在環(huán)境中不斷的自主探索。目前,在工業(yè)場景中,它能夠非常好的提升成功率,包括離線場景,我們都采用了這樣的技術。

Genji:我比較好奇,機器人在各種電影、小說里面,會與人類產生更強的交互,機器人可以為人帶來情感上的陪伴和依賴,也會和人類戰(zhàn)斗,所以各位覺得這種時刻是否會到來?什么時候機器人會像人一樣產生各種念頭,當機器人足夠強大的時候,這個念頭是否會爆發(fā),從而產生倫理安全問題?

王博士:剛才提到了強化學習,隨著強化學習的發(fā)展,一定出現這樣的情況。模仿學習讓機器人只能從這些知識學習中抽象總結一些知識,或者進行歸納演繹推理。但在強化學習中,我們不會設置它什么步驟是正確的,什么是錯誤的,只有一個模糊的獎勵目標。它將通過自己的探索,自主去發(fā)現什么是正確,什么是錯誤。如此一來,它便會產生一個更加涌現的情況,不是我們人所能預期的。我們所有的目標都是在探索,就像在生活中,我們會自己給自己一些規(guī)定,機器人同樣。

張博士:還是需要有倫理邊界,就像我們原始人也是自由發(fā)展,但到了人類文明社會就開始有邊界,如我們的法律、道德共識等,機器人說不定也會有共識,從最早的三定律,到后面演變出機器人法律,機器人監(jiān)獄等,雖然我只能設想,但我認為強化學習過程中,為了讓機器人能夠在物理世界里與人和諧共處,還是應該給它設置一些基本的道德和法律邊界。

Genji:引用周博士最開始提到的一個詞匯回答這個問題,就是科技向善。其實無論是機器人還是人,或是真實世界里出現的所有物體,我們都需要給它相對收斂的規(guī)則和邊界,就像法律是道德的底線一樣。在啟蒙運動時,哲學家萊辛提到人生毫無意義,人探索的過程就是意義本身。我們看到人工智能、具身智能的發(fā)展,其實就是無邊界探索,但它本身就足夠有意義、有內涵。

由數字化仿真、數據合成,以及模型等關鍵技術出發(fā),以“科技向善”為落點,華為云正通過CloudRobo具身智能平臺為起點,不斷探索具身智能在工業(yè)等更多場景下的應用。展望未來,以華為云為代表的科技企業(yè)將持續(xù)探索人工智能與機器人的結合,合力共識共建,為人類的長遠發(fā)展服務。

分享到

zhupb

相關推薦