(二)擴(kuò)展悖論
128卡集群在16K/32BS場(chǎng)景下,吞吐量反而比64卡下降7%,這一擴(kuò)展悖論進(jìn)一步凸顯了H20芯片在集群部署方面的困境。這表明H20芯片在大規(guī)模集群部署時(shí),無(wú)法充分發(fā)揮其性能優(yōu)勢(shì),甚至?xí)霈F(xiàn)性能下降的情況,無(wú)法滿足大模型對(duì)高并發(fā)、高吞吐的需求。
四、幻方的選擇與H20的算力瓶頸
(一)幻方的部署方案
幻方為實(shí)現(xiàn)更大的吞吐、更低的延時(shí),采用了大規(guī)模專家并行的方案來(lái)部署DeepSeek推理。在這個(gè)方案中,幻方選用了32張H800來(lái)部署Prefill節(jié)點(diǎn),用了144張H800來(lái)部署Decoding推理節(jié)點(diǎn),最終實(shí)現(xiàn)了在50ms的時(shí)延下,每張H800達(dá)到了令人震驚的1800+tokens/秒的推理性能。
(二)H20的算力瓶頸分析
通過(guò)不同時(shí)延要求場(chǎng)景的計(jì)算,可以清晰地看到H20芯片的算力瓶頸。在輸入長(zhǎng)度2k,輸出長(zhǎng)度2k,Decode時(shí)延100ms的場(chǎng)景下,MLA計(jì)算部分在18路并發(fā)下即達(dá)到算力bound,超過(guò)18路并發(fā)會(huì)出現(xiàn)明顯的單路性能下降;MoE計(jì)算部分最多支持20Batch,達(dá)到算力bound后超過(guò)20路并發(fā)也會(huì)出現(xiàn)性能下降;其他部分計(jì)算在超過(guò)48路并發(fā)后完全達(dá)到算力bound,超過(guò)48路之后幾乎無(wú)法再做任何有效處理。在Decode時(shí)延要達(dá)到50ms的場(chǎng)景下,H20在24Batch并發(fā)即出現(xiàn)算力完全瓶頸,無(wú)法再提升任何吞吐,超過(guò)9batch并發(fā)之后,單路的性能也會(huì)出現(xiàn)明顯下降。這充分證明H20芯片的算力無(wú)法支撐大模型部署所需的更高并發(fā)路數(shù),無(wú)法有效提升單卡吞吐。
五、H20芯片的戰(zhàn)略隱患
英偉達(dá)借助H20芯片營(yíng)造出一種“可用且實(shí)用”的假象,誘導(dǎo)國(guó)內(nèi)企業(yè)對(duì)其產(chǎn)生依賴。如果企業(yè)長(zhǎng)期沉浸在這種依賴中,很可能會(huì)放緩自主研發(fā)的腳步,忽視對(duì)核心技術(shù)的攻堅(jiān)突破。從長(zhǎng)遠(yuǎn)來(lái)看,這將給企業(yè)的技術(shù)升級(jí)之路設(shè)置重重障礙,使企業(yè)在全球科技競(jìng)爭(zhēng)中處于被動(dòng)地位。
(二)對(duì)產(chǎn)業(yè)發(fā)展的阻礙
從產(chǎn)業(yè)發(fā)展的宏觀層面分析,對(duì)H20芯片的過(guò)度依賴,會(huì)使中國(guó)人工智能產(chǎn)業(yè)在全球競(jìng)爭(zhēng)中陷入被動(dòng)局面。核心技術(shù)無(wú)法通過(guò)購(gòu)買或借用輕易獲取,唯有堅(jiān)定不移地走自主創(chuàng)新之路,才是推動(dòng)產(chǎn)業(yè)持續(xù)發(fā)展的核心動(dòng)力與關(guān)鍵所在。倘若中國(guó)企業(yè)沉迷于H20芯片帶來(lái)的短暫便利,那么很可能會(huì)錯(cuò)失技術(shù)創(chuàng)新的黃金機(jī)遇期,在全球人工智能產(chǎn)業(yè)的激烈角逐中被越甩越遠(yuǎn)。
H20芯片在性能、架構(gòu)適應(yīng)性、集群部署和算力等多方面存在著難以克服的缺陷,已無(wú)法滿足客戶部署大模型的需求。在科技快速發(fā)展的今天,企業(yè)應(yīng)清醒地認(rèn)識(shí)到這一現(xiàn)狀,積極尋求更先進(jìn)、更適配的芯片解決方案,加大自主研發(fā)力度,擺脫對(duì)性能受限芯片的依賴,推動(dòng)人工智能產(chǎn)業(yè)的健康、可持續(xù)發(fā)展。只有這樣,才能在全球人工智能產(chǎn)業(yè)的競(jìng)爭(zhēng)中占據(jù)一席之地,實(shí)現(xiàn)技術(shù)的自主可控和產(chǎn)業(yè)的繁榮昌盛。
文/李祥敬