由馬斯克創(chuàng)辦的xAI公司在本周推出了Grok-2測(cè)試版,包括Grok-2和Grok-2 mini,這兩款產(chǎn)品提供圖像生成能力,并且已經(jīng)向X平臺(tái)的訂閱用戶開放使用。
在LMSYS平臺(tái)的盲測(cè)中,Grok-2的表現(xiàn)優(yōu)于Claude 3.5 Sonnet和GPT-4-Turbo,但在社群評(píng)比中排名第三,僅次于ChatGPT-4o和Gimini-1.5 Pro。不過,即便Grok-2在多個(gè)學(xué)術(shù)標(biāo)準(zhǔn)評(píng)估中表現(xiàn)良好,但用戶發(fā)現(xiàn)其安全機(jī)制存在缺陷,會(huì)生成不當(dāng)內(nèi)容,例如允許生成特朗普持槍畫面。
xAI曾以sus-column-r為名在LMSYS聊天機(jī)器人平臺(tái)上進(jìn)行測(cè)試,在1.2萬(wàn)名社群成員的投票中取得了第三名的成績(jī)。Grok-2在研究生水平科學(xué)知識(shí)、常識(shí)和數(shù)學(xué)競(jìng)賽問題等領(lǐng)域的表現(xiàn)與GPT-4 Turbo、Claude 3 Opus及Gemini Pro 1.5等模型相當(dāng),并在視覺數(shù)學(xué)推理和基于文檔的問題上提供了高性能。
目前,付費(fèi)的X Premium和Premium+用戶可以率先體驗(yàn)Grok-2和Grok-2 mini。xAI表示,Grok-2在各種任務(wù)上更為直觀、通用且易于操作,同時(shí)整合了X平臺(tái)上的即時(shí)信息。Grok-2 mini是精簡(jiǎn)版模型,在速度和品質(zhì)之間進(jìn)行平衡。xAI計(jì)劃在8月通過新的企業(yè)API平臺(tái)發(fā)布Grok-2和Grok-2 mini。
不過還是安全方面的問題,The Verge的測(cè)試發(fā)現(xiàn),盡管Grok-2承諾做了安全設(shè)置,可以避免生成色情、暴力、仇恨或危險(xiǎn)圖片,但很多無(wú)理生成請(qǐng)求不可避免,這也是我們未來需要思考的問題——如何去嘗試解決此類危機(jī)。