根據(jù)測評(píng)數(shù)據(jù),六款大模型APP在iOS和Android平臺(tái)的兼容測試平均測試通過率分別為67.58%和76.19%,而行業(yè)均值分別為73.09%(iOS)和77.71%(Android)??梢钥闯觯竽P虯PP的兼容性水平整體低于行業(yè)均值,尤其是在iOS平臺(tái)的表現(xiàn)上,差距較為明顯,大模型廠商需要加大投入力度,提升行業(yè)整體兼容性水平,尤其重視在iOS端的優(yōu)化完善。
在iOS平臺(tái)上,本次測試的六款A(yù)PP平均測試通過率為67.58%低于Android平臺(tái)的76.19%測試通過率,大模型APP在Android端的表現(xiàn)整體更為穩(wěn)定。這表明,大模型APP在Android端的整體體驗(yàn)優(yōu)于iOS端,可能由于 Android 系統(tǒng)具有開源特性,這種特性使得安卓系統(tǒng)的開放性允許開發(fā)者進(jìn)行更多定制和優(yōu)化,促使安卓平臺(tái)兼容性表現(xiàn)更佳。而 iOS 系統(tǒng)相對(duì)封閉,開發(fā)者可定制的空間有限,難以針對(duì)應(yīng)用進(jìn)行深度優(yōu)化,影響了 iOS 平臺(tái)的兼容性表現(xiàn)。
無論是iOS還是Android平臺(tái),大模型APP的主要兼容性問題都集中在功能異常和UI異常上。功能異常率方面,iOS平臺(tái)為20.26%,Android平臺(tái)為9.33%,高于行業(yè)均值(iOS為7.62%,Android為8.27%)。UI方面,iOS平臺(tái)的UI異常率平均為28.30%,而Android平臺(tái)為20.06%,亦均高于行業(yè)均值(iOS為19.04%,Android為13.69%)。這可能與大模型APP的研發(fā)周期較短、更新頻率較快的行業(yè)特性有關(guān),在此背景下往往測試方面的工作不夠充分細(xì)致,導(dǎo)致兼容相關(guān)的功能異常、UI異常等問題多發(fā)。
在iOS平臺(tái)的測試上,豆包的測試通過率最高,達(dá)到88.24%。其功能異常率和UI異常率均為8.82%,表現(xiàn)較為穩(wěn)定。安裝失敗率、啟動(dòng)失敗率、運(yùn)行失敗率均為0,整體呈現(xiàn)較好的兼容性狀態(tài)。豆包兼容性狀態(tài)良好可能得益于其背后豐富的終端生態(tài),火山引擎與 OPPO、vivo、榮耀、小米等成立了智能終端大模型聯(lián)盟,通過與眾多智能終端品牌合作,豆包 APP 在開發(fā)過程中能提前了解不同設(shè)備的技術(shù)特點(diǎn)和需求,在兼容性方面進(jìn)行針對(duì)性優(yōu)化,使 APP 可以在各類品牌設(shè)備上順暢運(yùn)行,擴(kuò)大了其適用范圍 。
在Android平臺(tái)上,訊飛星火的測試通過率最高,達(dá)到98.17%,且功能異常率為0,UI異常率僅為1%,數(shù)據(jù)表現(xiàn)出色,為同批測試APP的最優(yōu)水平。值得關(guān)注的是,訊飛星火的安裝時(shí)間為30.98秒,屬于本次測試APP安裝所需時(shí)間最長的APP,可能是由于其功能豐富和模型數(shù)據(jù)龐大,在安裝時(shí)需要進(jìn)行大量的文件解壓、配置以及模型加載等操作,導(dǎo)致耗時(shí)增加。而兼容性較好,則可能由于其運(yùn)用了自主研發(fā)的深度學(xué)習(xí)算法、自然語言處理算法等,這些算法經(jīng)過了大量數(shù)據(jù)的訓(xùn)練和優(yōu)化,在面對(duì)不同系統(tǒng)版本時(shí),底層算法能夠智能識(shí)別系統(tǒng)特性,自動(dòng)調(diào)整運(yùn)行參數(shù)和策略 ,確保 APP 穩(wěn)定運(yùn)行,保持良好的兼容狀態(tài)。
盡管這次測試的幾款大模型APP在兼容性方面存在一些問題,但值得一提的是,六款大模型APP在整體啟動(dòng)時(shí)間指標(biāo)上表現(xiàn)優(yōu)異。在Android平臺(tái)上,六款A(yù)PP的平均啟動(dòng)時(shí)間為0.74秒,遠(yuǎn)低于行業(yè)均值的1.99秒。其中,智譜清言的啟動(dòng)時(shí)間最短,為0.55秒,這可能與大模型APP的安裝包較小、功能相對(duì)簡單有關(guān),使得啟動(dòng)速度得以優(yōu)化,用戶能在短時(shí)間內(nèi)快速體驗(yàn)。
異常情況示例
從測評(píng)數(shù)據(jù)來看,大模型APP整體上還有較大的優(yōu)化空間,例如,在Android平臺(tái)上,文小言兼容性有待優(yōu)化,測試通過率為39.17%,功能異常率和UI異常率分別達(dá)到21.50%和60.67%,安裝時(shí)間較長需要27.35秒,團(tuán)隊(duì)?wèi)?yīng)重視兼容性方面存在問題,將APP進(jìn)一步優(yōu)化,提升綜合性兼容水平。
盡管大模型 APP 在移動(dòng)端提供了便捷的交互方式,但從本次整體測評(píng)來看,大模型 APP 端的表現(xiàn)遜于網(wǎng)頁端。網(wǎng)頁端通常具有更高的穩(wěn)定性和更低的兼容性問題,而 APP 端受限于移動(dòng)設(shè)備的硬件和系統(tǒng)差異,更容易出現(xiàn) UI 異常和功能異常。APP 端往往需要適配多種設(shè)備型號(hào)、屏幕分辨率和操作系統(tǒng)版本,而網(wǎng)頁端通常基于統(tǒng)一的瀏覽器環(huán)境,兼容性問題較少,此外,APP 端更新頻率較高的行業(yè)特性,可能導(dǎo)致測試不充分,進(jìn)一步影響用戶體驗(yàn)。
通過本次測評(píng)可以看出,大模型APP在兼容性方面整體表現(xiàn)低于行業(yè)均值,尤其是在iOS平臺(tái)上,兼容性問題更為突出。UI異常和功能異常則是當(dāng)前大模型APP面臨的主要問題,可能與其背后研發(fā)周期短、更新頻率快、測試不充分等因素有關(guān)。各大模型研發(fā)團(tuán)隊(duì)?wèi)?yīng)在以下維度加大投入,不斷優(yōu)化提升APP質(zhì)量效果,提升產(chǎn)品綜合競爭力:
強(qiáng)化測試覆蓋與投入:尤其關(guān)注iOS平臺(tái)端的優(yōu)化,確保APP在不同端口類型設(shè)備上的良好兼容性。
優(yōu)化UI設(shè)計(jì):針對(duì)UI異常問題,加強(qiáng)UI設(shè)計(jì)的適配性,確保在不同分辨率和屏幕尺寸下的顯示效果保持穩(wěn)定水平。
提升功能穩(wěn)定性:針對(duì)功能異常問題,進(jìn)一步加強(qiáng)功能測試,尤其是在高頻更新時(shí)著重關(guān)注,確保新功能上市后的兼容穩(wěn)定性。
借鑒行業(yè)最佳實(shí)踐:參考行業(yè)均值,進(jìn)一步優(yōu)化啟動(dòng)時(shí)間、內(nèi)存占用等性能指標(biāo),提升用戶端整體體驗(yàn)。