由馬斯克創(chuàng)辦的xAI公司在本周推出了Grok-2測試版,包括Grok-2和Grok-2 mini,這兩款產(chǎn)品提供圖像生成能力,并且已經(jīng)向X平臺的訂閱用戶開放使用。
在LMSYS平臺的盲測中,Grok-2的表現(xiàn)優(yōu)于Claude 3.5 Sonnet和GPT-4-Turbo,但在社群評比中排名第三,僅次于ChatGPT-4o和Gimini-1.5 Pro。不過,即便Grok-2在多個學(xué)術(shù)標(biāo)準(zhǔn)評估中表現(xiàn)良好,但用戶發(fā)現(xiàn)其安全機(jī)制存在缺陷,會生成不當(dāng)內(nèi)容,例如允許生成特朗普持槍畫面。
xAI曾以sus-column-r為名在LMSYS聊天機(jī)器人平臺上進(jìn)行測試,在1.2萬名社群成員的投票中取得了第三名的成績。Grok-2在研究生水平科學(xué)知識、常識和數(shù)學(xué)競賽問題等領(lǐng)域的表現(xiàn)與GPT-4 Turbo、Claude 3 Opus及Gemini Pro 1.5等模型相當(dāng),并在視覺數(shù)學(xué)推理和基于文檔的問題上提供了高性能。
目前,付費的X Premium和Premium+用戶可以率先體驗Grok-2和Grok-2 mini。xAI表示,Grok-2在各種任務(wù)上更為直觀、通用且易于操作,同時整合了X平臺上的即時信息。Grok-2 mini是精簡版模型,在速度和品質(zhì)之間進(jìn)行平衡。xAI計劃在8月通過新的企業(yè)API平臺發(fā)布Grok-2和Grok-2 mini。
不過還是安全方面的問題,The Verge的測試發(fā)現(xiàn),盡管Grok-2承諾做了安全設(shè)置,可以避免生成色情、暴力、仇恨或危險圖片,但很多無理生成請求不可避免,這也是我們未來需要思考的問題——如何去嘗試解決此類危機(jī)。