下面是項之初的演講摘錄:

算力與文明的關(guān)系

我們先來看下算力發(fā)展的歷史,在遠古時代,人類不但會利用工具去拓展體力,也會利用工具去拓展人的智力。古代人類能利用的算力只有自己的大腦,逐漸地人們開始會用小繩子、小木棍,去做一些計算,擴充人腦的算力,算盤是中國古代人機結(jié)合算力的一個頂點,至此之后就沒有再出現(xiàn)一個更大的變化,它只是衍生了更多類算盤的衍生品。而西方就走了一個完全不同的道路,它從計算尺,機械式計算機到差分機、解析機,那個時候和算盤計算沒有太大的差距,但是從1945年馮諾依曼的第一臺現(xiàn)代意義上的計算機開始,就拉開了雙方的差距,至此一發(fā)不可收拾,出現(xiàn)了個人計算機、手機,以及到現(xiàn)在的超算中心。美國從1945年第一臺馮諾依曼計算機開始,就奠定了其在第三次工業(yè)革命中的領(lǐng)導(dǎo)地位,到今天不管是個PC還是手機,都是沿著原來計算機的模型繼續(xù)延伸,未來不知道會再延伸出怎樣的新的事物,但從現(xiàn)在看來,還是沒有跳脫原來的框架。

在這個過程中,我們發(fā)現(xiàn)一個很有意思的現(xiàn)象,在東方計算的過程中,不管是算盤還是算籌,都是人的手高度參與計算過程。但西方從很早開始,就不希望人力參與計算過程,你只需有一個輸入,得到一個結(jié)果,這個可能是西方產(chǎn)生現(xiàn)代意義上的計算機的重要一點。當(dāng)電子系統(tǒng)成熟的時候,它就完全可以依靠外力去完成更大算力的計算,人如果要參與的話,計算瓶頸就變成人手的速度,而人手速度永遠無法實現(xiàn)百萬億次的計算量級。

另外一個角度,文明的發(fā)展,其實是會讓算力變得更強大,更強大的算力,就可以處理更多的信息,讓整個社會運行得更高效,去回哺文明的發(fā)展,我覺得在算力和文明之間,是互相交互促進的關(guān)系。

存算一體:解鎖“算力”和“功耗”難題的金鑰匙

數(shù)據(jù)中心、自動駕駛,物聯(lián)網(wǎng)等應(yīng)用場景,都對算力產(chǎn)生了一個極大的需求。首先,新的算法模型對算力的需求每3.5個月就翻一倍,摩爾定律只能每18個月翻一番,正在逐漸失效。另外,因為存儲的發(fā)展速度一直小于計算的發(fā)展速度,存儲墻的存在限制了真實有效的算力提升,我們預(yù)測在未來很長一段時間內(nèi),算力的供給,會遠遠小于算力的需求。其次,當(dāng)前的芯片能效比,遠不能支撐算力繼續(xù)大步往前發(fā)展。比如著名的李世石與AlphGo下棋案例,雖說李世石輸給了AlphGo,但是李世石的大腦能效比AlphGo要高很多,他下一盤棋大概需要2碗米飯的能量,但是AlphGo下一盤棋需要2萬美元的電費,兩者完全不在一個量級上。如果要用更多AI取代人腦計算,就不能是現(xiàn)在的能效比水平,所需要的能效比,至少是更接近于人腦的水平。

存算一體,是目前能夠解決算力和功耗問題的金鑰匙。存算一體的原理,大家也都比較了解了,它可以在電路層面把存儲和計算融合在一起,同時解決這兩個問題,我們發(fā)現(xiàn)它一系列的優(yōu)勢,也非常適用于自動駕駛領(lǐng)域。

自動駕駛的三個要素,第一是強智能,它是由算力、算法、數(shù)據(jù)三個要素決定的,會提升駕車及乘車的體驗。第二是安全性,包括器件的功能安全,以及可靠性,低延時。第三是低成本,如英偉達最近發(fā)布的H100,功耗達到700 W,并采用HBM等封昂貴的封裝方案,讓芯片的成本動輒上千美元,這在自動駕駛端無法普及。

這些要素也對自動駕駛芯片提出了更高的要求,需要更大的算力去映射強智能,需要更低的功耗去映射安全性以及更低的成本。

下面介紹一個存算一體的具體實現(xiàn)案例,大家都知道,自然風(fēng)冷是整車廠最喜歡的散熱方式。一般在15W以下,可以用自然風(fēng)冷,但是到80W以上就需要液冷,15W—80W會用風(fēng)扇的散熱。對整車廠的工程師來說,最喜歡自然散熱,不管是本身散熱系統(tǒng)的成本、可靠性,以及維護成本,它都是最優(yōu)的方式。如采用自然風(fēng)冷,在傳統(tǒng)的馮諾依曼架構(gòu)下,算力只能達到約20TOPS(16nm工藝),如果用存算一體技術(shù),可以做到超過60TOPS以上的算力。這個對于傳統(tǒng)架構(gòu)的產(chǎn)品,會有一個碾壓性的優(yōu)勢。

后摩智能的落地與展望

后摩智能成立于2020年,經(jīng)過一年多時間,首款存算一體芯片今年年初點亮后成功跑通了一些經(jīng)典的自動駕駛算法模型,這款芯片可實現(xiàn)幾十TOPS的算力,能效比高達20TOPS/W。這是全球意義上的首款存算一體大算力芯片,它是完全按照商業(yè)量產(chǎn)的精度、容量,以及良率去設(shè)計的。后摩智能第一代芯片基于SRAM實現(xiàn),它與傳統(tǒng)馮諾依曼架構(gòu)芯片相比有約10倍的能效比優(yōu)勢,算力可以突破到大幾百TOPS的范疇。到2025年以后,隨著先進存儲MRAM、RRAM等落地,我們會進一步提升算力的上限,同時能效比還可以做得更高,最終實現(xiàn)單芯片1000-2000TOPS的水準(zhǔn)。

很多朋友會問我,存算一體芯片因為在底層做了顛覆性的架構(gòu)創(chuàng)新,它的使用成本是否會很高,或者不好用?這個其實是一個錯誤的理解,對工程師來說,底層芯片架構(gòu),是透明的,你不用在乎它是存算一體、近存,還是馮諾依曼架構(gòu),你在乎的是工具鏈軟件層是不是好用。因此,我們特地自研了編譯器和工具鏈,它是一個更像英偉達的開放的平臺,可以適應(yīng)不同的算法,比如在 TensoFlow、PyTorch上訓(xùn)練的模型,都可以在我們的芯片上得到支持。所以對工程師來說,他不需要改變原有的編程習(xí)慣,也沒有額外的學(xué)習(xí)成本,我們也會提供一個類CUDA的編程模式,讓工程師使用起來更偏向于他們原來的習(xí)慣。

中國汽車在電氣化和智能化時代的崛起,將帶動優(yōu)秀本土供應(yīng)鏈公司做大做強

我們發(fā)現(xiàn)一個很有趣的規(guī)律,也是對產(chǎn)業(yè)的一個思考,在一個國家或區(qū)域發(fā)生大的產(chǎn)業(yè)變革的時候,通常都會孵化出很好的上游供應(yīng)鏈公司。比如上世紀80年代的日本消費電子時代,Walkman,攝像機和照相機等風(fēng)靡全球,這種繁榮拉動了本土產(chǎn)業(yè)鏈上游公司的崛起,誕生了松下,索尼等優(yōu)秀的半導(dǎo)體公司。美國主導(dǎo)的PC產(chǎn)業(yè),戴爾、蘋果等個人PC熱賣也帶動了Intel,AMD等公司成長為世界級的半導(dǎo)體公司。同樣在歐洲,汽車領(lǐng)域的強勢,也使得汽車電子芯片的主要供應(yīng)商也主要集中在歐洲。

這一系列的案例,都指向了今天的中國,今天的中國已經(jīng)成為了最大的消費電子以及新能源車的市場,我們判斷,它一定會誕生出世界級的半導(dǎo)體公司,不止一個,應(yīng)該會有數(shù)個世界級的半導(dǎo)體公司。本地化的需求,本地公司會有更快的相應(yīng)時間,其次,它會對于本土的需求更敏感。現(xiàn)在國內(nèi)的新能源車企競爭非常激烈,大家都希望用差異化的供應(yīng)鏈,去提供差異化的用戶體驗,因此他們非常有愿意去使用創(chuàng)新供應(yīng)鏈產(chǎn)品。這對于一個半導(dǎo)體公司來說,是非常友好的一個環(huán)節(jié),大家都會給你機會試用初創(chuàng)公司的產(chǎn)品。我們也希望在這樣一個天時地利人和的時代把產(chǎn)品做好,可以更好地去fit in這些供應(yīng)鏈,做產(chǎn)品的迭代。

后摩智能的愿景是成為AI時代的算力平臺

最后,再跟大家分享下能效比和計算形態(tài)演進的關(guān)系。在人類計算歷史上,能效比有千倍提升,通常會衍生出一種新的計算形態(tài),從最早的超算中心開始,到小型機、個人PC、手機,都是這個趨勢。手機的能效比大概是1P/W的水準(zhǔn),但是這個水準(zhǔn)不足以支撐萬物智能的時代,今天的數(shù)據(jù)量,已經(jīng)到了大幾十ZB的量級,未來當(dāng)數(shù)據(jù)量變得更大,會用什么樣的架構(gòu)去適應(yīng)這個變化,我們覺得存算一體是個解決方案,后摩智能也希望在這個過程中貢獻自己的一份力量。

我們的愿景是希望成為AI時代的算力平臺,從無人車、機器人落地,到乘用車,到人型機器人、元宇宙等。再到未來能效比變得更高的時候,會出現(xiàn)什么樣的應(yīng)用場景以及怎樣的一個強人工智能,讓我們拭目以待!

希望未來更快到來!

【關(guān)于后摩智能:后摩智能創(chuàng)立于2020年底,由吳強博士與多位國際頂尖學(xué)者和芯片工業(yè)界資深專家聯(lián)合組建,是國內(nèi)首家專注于存算一體技術(shù)的大算力AI芯片公司。后摩智能以國際前瞻的存算一體技術(shù)和存儲工藝,致力于突破智能計算芯片性能及功耗瓶頸,加速人工智能普惠落地。其提供的大算力、低功耗的高能效比芯片及解決方案,可應(yīng)用于智能駕駛、泛機器人等邊緣端,以及云端推理場景?!?/p>

分享到

xiesc

相關(guān)推薦