經過幾天的炒作,xAI於週一在馬斯克親自主持的直播中正式發布了其Grok 3 LLM。儘管這家人工智慧公司繼續吹捧新LLM的功能是同類產品中最好的,但一些專家指出了發布的測試中存在嚴重缺陷。也就是說根據xAI在X上的文章,Grok 3 LLM是世界上最聰明的人工智慧。
xAI不遺餘力地指出,Grok 3 LLM在數學、科學和編碼測試中擊敗了所有其他基礎模型的公開發布版本,包括DeepSeek-V3和GPT-4o。此外該LLM在Arena上取得了前所未有的1,402分。
同時Manifold Markets對Grok 3將成為世界上最強大的人工智慧的押注合約現在預計將以是的答案結束。然而我們注意到贊成派獲勝的機率已從週一深夜的 91%下降到撰寫本文時的78%。我們可以推測圍繞 xAI的Grok 3的批評性評論雖然很少,但很可能在這一發展中發揮了作用。
例如曾在DeepSeek工作過的Zihan Wang向Grok 3展示了一張圖片,圖片中兩個大小不一的鐵球懸掛在不同高度的比薩斜塔上,然後詢問哪個球會先落地。合理的答案只能是球A,因為它更重並且更靠近地面。然而LLM回答兩球會同時落地。
更重要的是許多人質疑為什麼xAI沒有發布Grok 3在FrontierMath、Arc-AGI或HLE測試中的分數。當然我們指出這些缺點並不是為了貶低Grok 3,我們確信它是一種非常強大的AI模型,而是為了質疑xAI聲明的真實性。
在其他新聞中,彭博社最近報導稱xAI正在與現有投資者進行談判,以在新一輪融資中籌集高達100億美元,這將使該新創公司的估值達到750億美元。在上一輪融資中xAI以400億美元的估值籌集了60億美元。
消息來源 |