Compass Arena由上海人工智能實驗室OpenCompass司南評測體系與魔搭社區(qū)聯合建設,前者負責組織評測,后者負責開源模型引入及社區(qū)打造。據上海人工智能實驗室OpenCompass團隊介紹,Compass Arena力求體現社區(qū)用戶的真實反饋,評測機制借鑒Chatbot Arena,采用Elo評分系統(tǒng),即國際象棋等對弈活動評估的權威標準。在這種模式下,大模型競技類似“在游戲中打排位”,勝率成為評估模型水平的關鍵指標,同時隨著排位變高,系統(tǒng)也會自動匹配高段位選手進行對戰(zhàn)。
與Chatbot Arena相比,Compass Arena更聚焦中文大模型,主流國產大模型全覆蓋,同時評測用戶大多使用中文,可以充分評估國產大模型的性能。
目前,Compass Arena已匯聚超20款商業(yè)及社區(qū)模型,包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等國內頭部廠商的旗艦款大模型,并引入了Llama3、Mixtral等海外標桿模型進行參照。更多模型及廠商還在不斷加入中。
上線不到一周,已有上萬人訪問魔搭Compass Arena頁面。魔搭社區(qū)表示,歡迎廣大開發(fā)者和網友參與大模型排位賽的投票,共同促進國產大模型的進步和趕超。后續(xù),Compass Arena首期排行榜將揭曉,并將定期公布更新。
魔搭社區(qū)Compass Arena鏈接:https://www.modelscope.cn/studios/opencompass/CompassArena
Compass Arena首批大模型名單:
Abab6.5-Chat (MiniMax)
Baichuan 4 (百川智能)
C4AI Command R+ (Cohere)
DBRX-Instruct (DataBricks)
Deepseek-LLM-67B-Chat(深度求索)
Deepseek-MoE-16B-Chat(深度求索)
Doubao-Pro-4K (字節(jié)豆包)
ERNIE-4.0-8K (百度文心一言)
GLM4 (智譜AI)
Hunyuan-Pro (騰訊混元)
InternLM2系列(上海AILab書生?浦語)
Llama3系列(Meta)
Mixtral 8x22B Instruct (Mistral)
MoonShot-V1-32K (月之暗面)
Qwen1.5系列 (阿里通義千問)
Qwen-Max (阿里通義千問)
Spark3.5-Max (訊飛星火)
Yi-34B-Chat (零一萬物)
Yi-Large (零一萬物)