從總成績來看,元寶在文科考試中拿下首先,獲得667. 5 分的高分,以 2024 年遼寧省高考錄取分數(shù)線為參考,已經(jīng)可以沖刺“清北”。緊隨其后的豆包、訊飛星火拿下來 655 分和 652 分的高分,也可以輕松就讀 985 先進院校。
而在理科考試中,和往年一樣,理科成績會整體會弱于文科。拿到首先的豆包獲得了 635 分,緊隨其后元寶和kimi拿到了632. 5 分和 629 分,都可以沖刺985。但對比文科,無緣先進大學。
具體來看,語數(shù)英三門主科中,豆包拿下了語文首先,緊隨其后元寶、kimi拿下了并列第二。各家在語文主觀題上都表現(xiàn)比較平均,而豆包、元寶、kimi在作文上都拿到了50+的高分,使整體成績更佳。數(shù)學測試則是由元寶拿下了首先,獲得了 149 分的高分。只在最后一道解答題中,因答題過程稍不完整,遺憾丟失 1 分。在英語測試中,各家大模型在主觀題都表現(xiàn)的比較平均,都能拿到滿分,差異主要出現(xiàn)在英語作文。
大模型在文綜方面也都表現(xiàn)不錯。對于文綜的客觀題,表現(xiàn)好一些的大模型,如元寶、豆包能拿到接近滿分,這也體現(xiàn)了大模型在知識理解和覆蓋上較為出色。但在主觀題中,文綜對于解答題的“得分點”有比較高的要求,而大模型似乎對此不那么熟悉。比如地理解答題對知識點和推導過程要求嚴格,大模型可以給出最終答案,但會缺少1- 2 個知識點的推導。而在政治題上,則更加要求知識點的完整性,在閱讀題的部分,大模型經(jīng)常會遺漏部分知識點導致失分。閱卷老師也特別提到,元寶正是對這些“得分點”把握的比較準確,拿到了更好的成績。
而在理綜方面,大模型在數(shù)學邏輯推理上還存在一定短板,另外理科試題存在比較多圖像、符號,大模型對這部分內(nèi)容理解不足,也會導致整體偏弱。閱卷老師提到,比如物理答卷中,針對解答題,大模型大多能匹配到正確的公式,但在計算過程中也會出現(xiàn)不同程度的問題,導致答案偏離。而在化學考試的填空題中,往往一道大題會包含5- 6 個小題,各家大模型都沒法在這類題型中拿到滿分。生物題也同樣出現(xiàn)這樣的狀況。
但總體來看,對比去年大模型比較嚴重的“偏科”情況,成績只能達到“文科能上一本,理科只能上二本”的水平。今年大模型整體的能力有很大的提升,不僅在文科上能沖刺清北,理科上 985 也不是問題。這也源于過去一年人工智能領(lǐng)域、以及國產(chǎn)大模型的飛速發(fā)展。
相信在未來,發(fā)展速度會越來越快,也期待看到模型不僅不再“偏科”、在分數(shù)上有跨躍性的進步,還能實際運用到各個學科發(fā)展上,攻克更多挑戰(zhàn)。