知存科技創(chuàng)始人王紹迪,作為百易傳媒(DOIT)特邀嘉賓和論壇出品人榮譽(yù)擔(dān)綱主持人,并發(fā)表精彩演講。
據(jù)了解,存算一體技術(shù)是最近幾年才出現(xiàn)的一種新的架構(gòu)。
在未來(lái)10年、20年,由于很難再看到摩爾定律持續(xù)向前發(fā)展,很多新技術(shù)的瓶頸無(wú)法再通過(guò)摩爾定律以縮小芯片尺寸工藝解決問(wèn)題。比如做大算力,數(shù)據(jù)量很大的運(yùn)算的時(shí)候發(fā)現(xiàn),存儲(chǔ)器和計(jì)算之間的數(shù)據(jù)瓶頸占了資源運(yùn)算90%以上,而運(yùn)算過(guò)程中傳感器和芯片的數(shù)據(jù)通路占了其他90%以上的運(yùn)算資源、運(yùn)算時(shí)間、運(yùn)算功耗。也就是說(shuō),在先進(jìn)工藝的情況下,運(yùn)算瓶頸不再是計(jì)算本身,而是在各個(gè)不同模塊之間的數(shù)據(jù)搬運(yùn)上,比如傳感器到存儲(chǔ)器到存儲(chǔ)機(jī)到計(jì)算單元都有各種的數(shù)據(jù)瓶頸。
這種情況下,存算一體和感存算一體應(yīng)運(yùn)而生。
存算一體和感存算一體作為新型架構(gòu),是非常前沿和個(gè)性的技術(shù),需要產(chǎn)業(yè)和學(xué)術(shù)界共同推廣和發(fā)展。最近一兩年內(nèi),很多的創(chuàng)業(yè)公司以及大公司進(jìn)入這個(gè)領(lǐng)域,也為未來(lái)十年二十年以后的主流存算一體和感存算一體做了非常好的鋪墊,更多公司上下游協(xié)作將會(huì)完成這樣的壯舉。
以無(wú)限算力改變世界:后摩智能異軍突起于存算一體解鎖超大算力
后摩智能聯(lián)合創(chuàng)始人兼戰(zhàn)略及市場(chǎng)、商務(wù)副總裁項(xiàng)之初以“無(wú)限算力 改變世界——存算一體解鎖超大算力”為題,介紹了后摩智能以及近期從事的超大算力方面的研究。
算力是國(guó)家之間的戰(zhàn)略級(jí)別的競(jìng)爭(zhēng),代表智能水平的指標(biāo)是TOPS,接近通用人工智能水平的數(shù)值是5000TOPS。國(guó)外領(lǐng)先企業(yè)從2018年的1TOPS發(fā)展到今天已經(jīng)254TOPS,兩年后的下一代芯片將會(huì)達(dá)到1000TPOS。
算力正在快速增長(zhǎng),越來(lái)越接近人類的認(rèn)知。面向這個(gè)擁有萬(wàn)億級(jí)規(guī)模的廣闊市場(chǎng),后摩智能也提出了這樣的目標(biāo)。
為什么要涉足存算一體?后摩智能的信心從何而來(lái)?后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項(xiàng)之初進(jìn)行了闡述。
存算一體技術(shù)是最近幾年才出現(xiàn)的一種新的架構(gòu)。據(jù)項(xiàng)之初介紹,存算一體及其優(yōu)勢(shì)在于以下三個(gè)方面:一是存算一體功耗低。有數(shù)據(jù)預(yù)測(cè),全球數(shù)據(jù)中心2025年的耗電量將達(dá)到總耗電量20%,而L5級(jí)無(wú)人駕駛所需的4000 TPOS算力水平,一年需要3萬(wàn)多億度電,占全球發(fā)電量12%。又如AlphaGo下一盤棋打敗了人類,但人類只用了20瓦的大腦能耗,而AlphaGo是2萬(wàn)瓦,這還不算無(wú)數(shù)的傳感器都與數(shù)據(jù)加總支持的算力所耗費(fèi)的能量。只有低功耗基礎(chǔ)上的大算力才是可持續(xù)的,這也是國(guó)際國(guó)內(nèi)共同關(guān)注的話題。二是存算一體減少了數(shù)據(jù)遷移,降低了延時(shí)。在自動(dòng)駕駛賽道,低延時(shí)可能意味著挽回生命。三是存算一體做大算力芯片可以更簡(jiǎn)單,它的工程不像原來(lái)馮諾伊曼存儲(chǔ)和計(jì)算分離架構(gòu)下總線結(jié)構(gòu)復(fù)雜相連。國(guó)外龍頭企業(yè)團(tuán)隊(duì)實(shí)力雄厚,研發(fā)時(shí)間長(zhǎng),積累了強(qiáng)大的工程經(jīng)驗(yàn),形成了知識(shí)產(chǎn)權(quán)壁壘。采用同樣的技術(shù)路徑,直道追趕極其困難,而存算一體繞開(kāi)了巨頭壁壘,實(shí)現(xiàn)換道超車。
后摩智能是一家在南京、上海、北京都有研發(fā)中心的,年輕但實(shí)力強(qiáng)大的公司,其研發(fā)能力覆蓋從存算一體底層的器件層,電路設(shè)計(jì)到架構(gòu)全棧:在AI Core設(shè)計(jì)方面,有20年設(shè)計(jì)經(jīng)驗(yàn);在SoC層級(jí),涉足從0.18微米和6納米芯片;軟件編譯器、AI算法到應(yīng)用場(chǎng)景有全棧的成熟和豐富的經(jīng)驗(yàn)。基于自主研發(fā)的存算一體和先進(jìn)工藝,面向無(wú)人終端以及邊緣及云端的訓(xùn)練和推理打造出效率高出10倍乃至數(shù)10倍以上的算力芯片。
項(xiàng)之初認(rèn)為,存算一體大算力芯片潛在的市場(chǎng)有兩個(gè):邊緣端的推理和云端推理市場(chǎng)。無(wú)論是邊緣端的推理和云端推理市場(chǎng),它們共同的痛點(diǎn)都是散熱和功耗。在數(shù)據(jù)中心,如果功耗降到1/10,可以多插90%的卡,那數(shù)據(jù)中心的計(jì)算密度就會(huì)成倍增加。這正是存算一體的芯片競(jìng)爭(zhēng)力:大算力的芯片可以提升無(wú)人車和機(jī)器人的智能化,芯片的高能效比可以降低成本,滿足散熱等需求,甚至提升安全性。
可以說(shuō),AI時(shí)代為很多公司用另外一種方式超越國(guó)際領(lǐng)先水平提供了機(jī)會(huì)。
感知世界,傾聽(tīng)未來(lái): 每刻深思的近傳感模擬計(jì)算芯片
在傳統(tǒng)的方案里,手機(jī)CPU里面都有一個(gè)功能一直開(kāi)著的,可以在前端鏈接各種不同的傳感器進(jìn)行大量的監(jiān)測(cè)和交互,比如語(yǔ)音的識(shí)別和喚醒,觸覺(jué)視覺(jué),但它最大的問(wèn)題是因?yàn)樗闹黝l率一直開(kāi)著,所以對(duì)整個(gè)系統(tǒng)產(chǎn)生數(shù)量級(jí)的功耗需求。
采用近傳感計(jì)算方式,意味著可以把功耗降低50到100倍,可以支持更多的應(yīng)用。總體而言,帶來(lái)的是1/3以上的成本下降。
這就是每刻深思最獨(dú)特優(yōu)勢(shì)的技術(shù)——近傳感模擬計(jì)算架構(gòu),最大化模擬計(jì)算功耗,消除了邊緣計(jì)算中,除了存儲(chǔ)器和處理器之間的瓶頸、傳感器和計(jì)算芯片之間的瓶頸,還降低了把數(shù)據(jù)從傳感器遷移到到處理器過(guò)程中能量的損耗。
2012年成立以來(lái),每刻深思不斷基于具體的場(chǎng)景為手機(jī)廠商,傳感器廠商設(shè)計(jì)芯片,今年第一季度做了一款數(shù)?;旌?、直接面向客戶IoT應(yīng)用需求的MKA1031芯片。每刻深思CEO鄒天琦表示,公司面向多傳感器集成的通用模擬計(jì)算IP平臺(tái),其技術(shù)優(yōu)勢(shì)極具競(jìng)爭(zhēng)力:
一是支持不同的傳感器的集成。為了做到這一點(diǎn),每刻深思把自己平臺(tái)分為三大計(jì)算平臺(tái),其一是基于連續(xù)時(shí)間信號(hào)處理的TDSP平臺(tái),無(wú)論是做音頻還是做加速度傳感器,連續(xù)時(shí)間信號(hào)都可以在該平臺(tái)上處理;其二是陣列信號(hào)SDSP平臺(tái),可以處理ToF、毫米波在陣列信號(hào),其三是在2019年驗(yàn)證過(guò)的Fusion的平臺(tái),可以把前面兩種信號(hào)在一款芯片上實(shí)現(xiàn)。另外,每刻深思還提供了完整的SDK工具,以使得用戶可以很好的沿用以往的使用習(xí)慣來(lái)開(kāi)發(fā)他自己的算法、進(jìn)行參數(shù)的調(diào)優(yōu)。當(dāng)然,這個(gè)SDK同時(shí)是支持傳統(tǒng)的MySQL算法與大部分DNN深度學(xué)習(xí)。
第二大優(yōu)勢(shì)是可拓展性,為將來(lái)往大算力場(chǎng)景擴(kuò)展做好準(zhǔn)備,第三大優(yōu)勢(shì)就是大幅降低功耗,這是解決客戶最核心的痛點(diǎn)的特性。
談到每刻深思未來(lái)的規(guī)劃,鄒天琦表示計(jì)劃分三步走:明年客戶基于Q4流片小規(guī)模量產(chǎn),之后基于兩種產(chǎn)品形態(tài)不斷推高出貨量,到2024年達(dá)到月出貨量超過(guò)3KK的目標(biāo),實(shí)現(xiàn)億元營(yíng)收;到2026年之前以兩種產(chǎn)品形態(tài)復(fù)制和應(yīng)用到大量的場(chǎng)景,實(shí)現(xiàn)規(guī)?;膽?yīng)用。
每刻深思在視覺(jué)領(lǐng)域也展開(kāi)了大量的工作,在光學(xué)處理過(guò)程中加載了基于陣列信號(hào)的處理,在2019年把連續(xù)時(shí)間信號(hào)和糾正時(shí)間信號(hào)兩種類型都融合在一塊芯片上,實(shí)現(xiàn)了融合感知。
“希望和各位一起合作建立全時(shí)域智能感知服務(wù)平臺(tái),整合產(chǎn)業(yè)上下游,充分挖掘數(shù)據(jù)的價(jià)值,解決信息安全和隱私問(wèn)題,以更低的成本服務(wù)于我們的客戶?!?鄒天琦說(shuō)。
感存算一體:犀靈視覺(jué)的智能視覺(jué)傳感器
犀靈視覺(jué)致力于智能視覺(jué)傳感器開(kāi)發(fā),以解決感存算一體的問(wèn)題,在智能視覺(jué)方面有很深度的積累。通過(guò)圖片傳感器上增加運(yùn)算功能,使得傳感器能輸出精簡(jiǎn)關(guān)鍵的信息,直接輸出神經(jīng)網(wǎng)絡(luò)推理結(jié)果,幫助整個(gè)AI提升運(yùn)算效力。犀靈視覺(jué)核心技術(shù)包括矩陣式CMD、處理單元、感存算一體等業(yè)界領(lǐng)先的關(guān)鍵技術(shù),實(shí)現(xiàn)高速與低功耗的芯片,芯片將于2022年2月份實(shí)現(xiàn)產(chǎn)品量產(chǎn)。
犀靈視覺(jué)創(chuàng)始人冉亮在演講中指出,將傳感、存儲(chǔ)、運(yùn)算都放在一起的感存算的架構(gòu),解決了兩個(gè)問(wèn)題:一個(gè)是馮諾伊曼架構(gòu)的數(shù)據(jù)來(lái)回搬運(yùn)的功耗瓶頸,因?yàn)楹蛡鞲胁糠质且惑w化的,所以同時(shí)也解決了傳感器本身和邊緣AI之間的傳輸速度的瓶頸,實(shí)現(xiàn)超高速以及超低功耗的運(yùn)行能力。
一個(gè)用180納米做的芯片,處理器的像素量65536,雖然是比較老的工藝節(jié)點(diǎn),但是性能也可以每瓦535GOPS的算力,這個(gè)算力不能和AI芯片的算力劃等號(hào),但和28納米的處理器做的簡(jiǎn)單的手寫字符的神經(jīng)網(wǎng)絡(luò)的對(duì)比可以看到,推理的時(shí)間和推理的功耗數(shù)據(jù)并不差,體現(xiàn)了這樣的架構(gòu)的處理優(yōu)勢(shì)。
另外,犀靈視覺(jué)支持的算法比較豐富,包括計(jì)算機(jī)視覺(jué)算法CV和卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法,都可以在這樣一個(gè)陣列式的上面來(lái)實(shí)現(xiàn)。
目前的應(yīng)用場(chǎng)景比較豐富,包括手持的設(shè)備,家用的監(jiān)控機(jī)器人、工業(yè)相機(jī)以及自動(dòng)駕駛,都有一些意向客戶在做前期的算法開(kāi)發(fā)。
“經(jīng)常會(huì)有投資人或者客戶提出把邊緣AI一起做進(jìn)去??紤]到自己定位于一個(gè)傳感器的公司,以超低功耗、超高速以及超高效率的特點(diǎn)來(lái)解決專門應(yīng)用場(chǎng)景的問(wèn)題,不一定要把所有事情都包在傳感器上做,這并不是我們的目的?!?犀靈視覺(jué)創(chuàng)始人冉亮 說(shuō)。
談到后續(xù)的規(guī)劃。目前第一顆產(chǎn)品還是用平面式的工藝,感光以及運(yùn)算都在一張晶圓上。今年年底量產(chǎn)產(chǎn)品會(huì)用堆棧式的方式,也就是說(shuō)上面是感光、下面是運(yùn)算,通過(guò)堆棧式的方式來(lái)做芯片。這樣芯片的尺寸會(huì)做的比較小,分辨率也可以做得相對(duì)高一些。后續(xù)技術(shù)擴(kuò)展性也比較高,可以通過(guò)用不同的memory的介質(zhì)做新的存和算,以及加一層硬件加速,來(lái)完成更多更加復(fù)雜的任務(wù)也是有可能的。遠(yuǎn)期也在關(guān)注光子運(yùn)算、類腦等一些未來(lái)的技術(shù)。
在傳感器上來(lái)做運(yùn)算,業(yè)界蠻多公司都在做,剛才提到AISTORM是美國(guó)加州自一家公司,他們也在傳感器上做運(yùn)算,我們和他們不一樣,我們是用電流做運(yùn)算,他們是用電荷做運(yùn)算,他們分辨率做不上去,但我們可以一直往上做,沒(méi)什么問(wèn)題。所以我們認(rèn)為今后帶一定智能運(yùn)算的傳感器應(yīng)該更加大有可為。
存算一體化的路徑及知存科技的WTM2101存算一體芯片
從事存算一體、感存算一體,起步很早,但最近幾年才開(kāi)始真正做產(chǎn)業(yè)化,原因也是這些技術(shù)都涉及到模擬計(jì)算、存儲(chǔ)器這兩大難題,最重要的是在芯片設(shè)計(jì)中沒(méi)有針對(duì)存儲(chǔ)器、模擬計(jì)算很標(biāo)準(zhǔn)很成熟的經(jīng)驗(yàn)和工具去快速實(shí)現(xiàn)存算一體、感存算一體以及模擬計(jì)算。
知存科技創(chuàng)始人、CEO 王紹迪介紹說(shuō),公司創(chuàng)始團(tuán)隊(duì)2012年開(kāi)始做存算一體技術(shù),2016年完成7次流片,完成國(guó)內(nèi)第一個(gè)基礎(chǔ)FLASH存算一體的芯片驗(yàn)證,有了第一個(gè)驗(yàn)證成功的成果,但距離產(chǎn)品還很遠(yuǎn)。公司2017年創(chuàng)立, 2018年做了第一個(gè)存算一體芯片流片,2020年發(fā)布第一個(gè)產(chǎn)品,2021年第一代產(chǎn)品進(jìn)行量產(chǎn),第二代產(chǎn)品也發(fā)布即將量產(chǎn),現(xiàn)在已經(jīng)完成大部分測(cè)試。
存算一體的內(nèi)存墻挑戰(zhàn)。內(nèi)存墻就是數(shù)據(jù)在計(jì)算、存儲(chǔ)之間需要不停地搬運(yùn),需要花的計(jì)算功耗,是從內(nèi)存把數(shù)據(jù)搬到芯片上消耗的功耗的600多倍,也就是說(shuō),真正計(jì)算的功耗很低,但是數(shù)據(jù)搬運(yùn)的功耗是很高的。這些瓶頸一旦解決,芯片運(yùn)算效率和速度都有數(shù)量級(jí)的提升。
為了解決這個(gè)問(wèn)題,整個(gè)業(yè)界2010年開(kāi)始就在嘗試各種方案。
一類是解決存的問(wèn)題,一類是解決算的問(wèn)題。
很多人困惑3D Xpoint是不是存算一體?它可以叫做以存儲(chǔ)為中心計(jì)算,它還是一個(gè)存儲(chǔ)器產(chǎn)品,可以在存儲(chǔ)和內(nèi)存的角度去結(jié)合兩者的優(yōu)勢(shì),速度會(huì)比固態(tài)硬盤的SSD的FLASH快,密度會(huì)比內(nèi)存的DRAM大,所以它是基于中間的存儲(chǔ)器。整體來(lái)說(shuō),它一般叫內(nèi)容性存儲(chǔ)器,它還是存的問(wèn)題,是解決存儲(chǔ)、解決馮諾伊曼架構(gòu)當(dāng)中提高存儲(chǔ)運(yùn)算效率的方式。
另外一種是近存儲(chǔ)計(jì)算,比如CPU要做一個(gè)計(jì)算,去比較兩個(gè)很大的數(shù),在SSD里面,要把數(shù)據(jù)拿到CPU上,CPU要等1萬(wàn)個(gè)時(shí)鐘周期才能把數(shù)據(jù)拿過(guò)來(lái),而中間的一個(gè)計(jì)算只需要消耗一個(gè)時(shí)鐘,其實(shí)這個(gè)時(shí)間就白白浪費(fèi),整個(gè)芯片的效率和計(jì)算沒(méi)法做起來(lái)。所以近存儲(chǔ)的計(jì)算方式,就是說(shuō)要比較這兩千萬(wàn)個(gè)數(shù)和另外兩千萬(wàn)個(gè)數(shù)誰(shuí)大,與其把這個(gè)數(shù)據(jù)都拿到CPU中算,不如CPU把指令發(fā)到存儲(chǔ)的SSD里,SSD有了簡(jiǎn)單的比較之后,把結(jié)果發(fā)回來(lái)就可以,不需要把幾千萬(wàn)個(gè)數(shù)一個(gè)個(gè)搬過(guò)去,每搬過(guò)去一個(gè),GPU都要空白一萬(wàn)個(gè)核。所以近存儲(chǔ)計(jì)算也是解決存儲(chǔ)方面的事情。
存算一體中的算也有兩種方案。
一種是近內(nèi)存計(jì)算。內(nèi)存和CPU之間的數(shù)據(jù)搬運(yùn)很慢,帶寬不夠大,功耗很高,把兩者距離拉近能不能解決這樣的問(wèn)題?所以內(nèi)存和CPU之間就可以用先進(jìn)封裝的方式,把中間的帶寬提高100倍。這種方式在顯卡以及未來(lái)的三星以及國(guó)內(nèi)內(nèi)存廠都在提出這種的解決方案。
存算一體是另外一種。此處的存算一體和很多人口中的存算一體不一樣,它或者叫存內(nèi)計(jì)算,實(shí)際上是用存儲(chǔ)器完成預(yù)算,直接用存儲(chǔ)單元完成運(yùn)算,涉及到模擬預(yù)算。數(shù)字運(yùn)算必須要邏輯模塊,必須要在馮諾伊曼架構(gòu)下進(jìn)行,但存儲(chǔ)運(yùn)算可以采用模擬的方式去完成運(yùn)算,所大家都是在用模擬的運(yùn)算去提高運(yùn)算效率,去突破馮諾伊曼架構(gòu)中的內(nèi)存墻的瓶頸。
WTM2101是公司第二代產(chǎn)品,知存科技用它做端側(cè)運(yùn)算,相當(dāng)于芯片在現(xiàn)有馮諾伊曼架構(gòu)中的功耗或者說(shuō)相同成本的情況下,拓展更多的功能,算力也可以提高很多,比如語(yǔ)音識(shí)別、語(yǔ)音增強(qiáng)、聲紋識(shí)別、心電以及簡(jiǎn)單的物體檢測(cè)。
上面的芯片是五角硬幣芯片的大小對(duì)比,是一個(gè)WCSP的封裝,這個(gè)芯片非常小,可以放在很多端側(cè)設(shè)備當(dāng)中。
右邊是采用WTM2101芯片做典型的應(yīng)用場(chǎng)景。其實(shí)在跟市場(chǎng)場(chǎng)景對(duì)比來(lái)看,整體會(huì)有10倍到30倍的效率提升,算力可以有一定程度的增加,同時(shí)功耗有一定程度的降低。芯片的最大算力可以達(dá)到50Gops,但是同類型市場(chǎng)芯片一般算力就是在1Gops左右。
WTM2101芯片的架構(gòu),左邊是存算一體的NPU,NPU里面有1.8MB權(quán)重單元,這是一個(gè)單核的計(jì)算,中間沒(méi)有做并行,所以算力可以存儲(chǔ)1.8MB神經(jīng)網(wǎng)絡(luò)參數(shù)。這個(gè)存算一體的CPU可以做運(yùn)算,因?yàn)樗荈LASH介質(zhì),片上的代碼和系統(tǒng)也用這個(gè)存算一體去實(shí)現(xiàn)。所以,它可以做運(yùn)算又可以存參數(shù),還可以解決真正的代碼存儲(chǔ),同時(shí)芯片也帶有Risc-V的CPU,支持CMD的指令,同時(shí)支持三個(gè)比較大的算法在芯片上運(yùn)行起來(lái)。目前支持多個(gè)傳感器的輸入。當(dāng)然,最主要的優(yōu)勢(shì)還是存算一體的NPU部分,相對(duì)來(lái)說(shuō)它在AI計(jì)算當(dāng)中可以把端側(cè)算力提高20-50倍左右。
芯片真正怎么用?有個(gè)MITIN Mapper工具,一個(gè)簡(jiǎn)單的工具或者編譯器。存算一體的編譯器比起馮諾伊曼架構(gòu)的編譯器,區(qū)別是很大的,因?yàn)轳T諾伊曼的CPU由指令集構(gòu)成,一般一個(gè)乘法運(yùn)算可能需要四五個(gè)指令實(shí)現(xiàn),像一個(gè)大的深度學(xué)習(xí)網(wǎng)絡(luò)可能需要幾千萬(wàn)個(gè)指令去實(shí)現(xiàn),挑戰(zhàn)難度很大。存算一體的編譯很大程度上是粗粒度的編譯,因?yàn)槭怯么鎯?chǔ)器完成矩陣運(yùn)算,所以真正做的編譯過(guò)程,就是把神經(jīng)網(wǎng)絡(luò)的運(yùn)算轉(zhuǎn)化成矩陣,把矩陣映射到存儲(chǔ)器上。比如一個(gè)神經(jīng)網(wǎng)絡(luò)可以轉(zhuǎn)化成五個(gè)比較大的矩陣乘法運(yùn)算,把五個(gè)矩陣優(yōu)化,占最小的面積,放到大的存儲(chǔ)器陣列上面,只需要5次操作就可以完成運(yùn)算。比如說(shuō)第一次選擇L1,這是一個(gè)大矩陣,可以直接用一次周期完成一層網(wǎng)絡(luò)的運(yùn)算,第二次選擇第二層,第三次選擇第三層?,F(xiàn)在存算一體芯片里面同時(shí)可以支持最大896×1024的矩陣,小的矩陣也可以比它小,可以做配置,所以大小矩陣都可以通過(guò)配置的形式存在存儲(chǔ)器。真正去運(yùn)算的時(shí)候,就是依次調(diào)用第一、第二、第三、第四、第五層,做五次存儲(chǔ)器讀取,五層網(wǎng)絡(luò)就完成了。目前在也映射30多層網(wǎng)絡(luò),就是做30多次或者到60多次存儲(chǔ)器讀寫。當(dāng)然,有一些網(wǎng)絡(luò)現(xiàn)在做到一百多次的矩陣。
舉一個(gè)例子,在做語(yǔ)音識(shí)別、喚醒、聲音檢測(cè)的時(shí)候,經(jīng)過(guò)芯片有一個(gè)特征提取,之后傳到存算一體里面,網(wǎng)絡(luò)一般會(huì)映射兩三個(gè)算法,比如說(shuō)簡(jiǎn)單的聲音檢測(cè)和語(yǔ)音識(shí)別,語(yǔ)音識(shí)別詞最多支持300個(gè)詞做識(shí)別,功耗一般都是在毫安級(jí)別,去做幾百個(gè)詞的識(shí)別。完成深度學(xué)習(xí)運(yùn)算之后,再把運(yùn)算的結(jié)果放出來(lái)。而幾百個(gè)詞的識(shí)別,一般在1毫安、2毫安功耗下,在傳統(tǒng)芯片只能完成10個(gè)左右的詞的識(shí)別,所以沒(méi)法做到這么多的詞的識(shí)別。所以存算一體在低功耗情況下,可以完成很大算力的運(yùn)算。
另外,存算一體在完成深度學(xué)習(xí)運(yùn)算時(shí)候的延遲很低。比如說(shuō)做一個(gè)同樣大小的深度學(xué)習(xí)網(wǎng)絡(luò),假如涉及到幾百萬(wàn)個(gè)參數(shù),它光讀存儲(chǔ)器就要讀5萬(wàn)多次才能把數(shù)據(jù)讀取出來(lái),時(shí)間很長(zhǎng)。換算到存算一體,可能讀幾十次存儲(chǔ)器就把運(yùn)算完成了,這樣延遲就可以做得很低。有了低延遲,就可以完成很多很復(fù)雜的深度學(xué)習(xí)運(yùn)算,并且功耗很低。目前用的是FLASH,運(yùn)算完了之后就可以斷電了,數(shù)據(jù)不會(huì)丟失。所以,可以用它以完成降噪類的計(jì)算。
存算一體的應(yīng)用場(chǎng)景可以很廣,針對(duì)不同場(chǎng)景有這樣的預(yù)測(cè)。因?yàn)榇嫠阋惑w跟傳統(tǒng)的計(jì)算特點(diǎn)區(qū)別是它的算力正比芯片的存儲(chǔ)空間,也就是說(shuō)芯片中的存儲(chǔ)單元數(shù)量越多,它的算力就越大。美國(guó)一家MEcike的公司可以做到單芯片110多兆的存儲(chǔ)空間,單個(gè)芯片可以達(dá)到35TOPS的算力,這個(gè)還是僅僅在40納米工藝下完成的,想要達(dá)到單芯片35TOPS算力,一般都需要在12納米的芯片。
所以存算一體不同應(yīng)用場(chǎng)景需要的算力,包括算法容量大小,其實(shí)都在進(jìn)行很多的改變。比如在移動(dòng)終端,需要算力至少達(dá)到30TOPS以上,在AR/VR眼鏡上,這是挑戰(zhàn)最大的場(chǎng)景,因?yàn)樗姵睾苄?,散熱很小,但是它需要的存?chǔ)容量又很大,一般像本地的手勢(shì)識(shí)別、自然語(yǔ)言理解都要在本地理解,所以一般需要的存儲(chǔ)空間都需要在100TOPS左右,像自動(dòng)駕駛、服務(wù)器需要的存儲(chǔ)空間就更大,需要上GB的存儲(chǔ)空間。
對(duì)于存儲(chǔ)器,這是很容易實(shí)現(xiàn)的,因?yàn)榇蠹沂掷锏腢盤都有幾百個(gè)G的存儲(chǔ)。如果未來(lái)能夠把U盤這么大小里面的幾百個(gè)G都轉(zhuǎn)化成運(yùn)算,它就可以達(dá)到上千TOPS的算力,超越現(xiàn)在所有的計(jì)算芯片能提供的最大算力。這也是一個(gè)發(fā)展的過(guò)程。
存算一體、感存算一體未來(lái)還有5-10年左右的發(fā)展,運(yùn)算效率還會(huì)比現(xiàn)在再提高10-20倍,應(yīng)用場(chǎng)景也會(huì)越來(lái)越廣。隨著越來(lái)越多的人加入,越來(lái)越多的客戶試用存算一體、感存算一體的技術(shù),更多的場(chǎng)景就會(huì)把它用起來(lái)。
存算一體第一代量產(chǎn)的是40納米以上,目前做了小批量,在22、28納米上都有技術(shù)規(guī)劃,包括未來(lái)在Trplite和RRAM都有一些技術(shù)的驗(yàn)證。
一個(gè)很強(qiáng)大的正向的生態(tài),對(duì)存算一體臚其實(shí)是非常重要的。因?yàn)榇嫠阋惑w的需求就是顛覆現(xiàn)有馮諾伊曼架構(gòu)芯片,而現(xiàn)有馮諾伊曼架構(gòu)的芯片已經(jīng)被大家用了七八十年的時(shí)間了。一個(gè)新的架構(gòu)去顛覆傳統(tǒng),不僅說(shuō)要把算力提升一百倍、一千倍,同時(shí)還需要整個(gè)生態(tài)區(qū)用起來(lái),包括客戶場(chǎng)景使用,去驅(qū)動(dòng)這個(gè)芯片越做越好,在這個(gè)芯片基礎(chǔ)上開(kāi)發(fā)更多的系統(tǒng)、更多的應(yīng)用、更多的算法,挑戰(zhàn)還是很大的。不是一個(gè)公司、幾個(gè)公司做的事情。
未來(lái)50%的場(chǎng)景甚至50%以上的場(chǎng)景都可以用到存算一體,所以它是非常大的市場(chǎng)。真正把這件事情做完,可能需要到400家公司,在未來(lái)的市場(chǎng)才夠大家分,因?yàn)槲磥?lái)可能有幾千億美元的最大的市場(chǎng)。所以目前每年可都有更多的指數(shù)級(jí)的玩家,包括客戶、上下游以及公司加入其中。預(yù)計(jì)未來(lái)5-10年存算一體包括感存算一體就可以分布到50%以上的AI以及大家使用的場(chǎng)景當(dāng)中。
當(dāng)天下午,來(lái)自后摩智能、 犀靈視覺(jué)、每刻深思和知存科技公司的四位嘉賓分別介紹了存算一體及相關(guān)技術(shù),浙江大學(xué)的四位教授也應(yīng)邀參與對(duì)話。
【以上內(nèi)容根據(jù)演講速記整理,未經(jīng)本人審定】