新智元報(bào)道
編輯:犀牛
(資料圖片)
【新智元導(dǎo)讀】 Gemini 3一日霸榜數(shù)學(xué)、物理兩個(gè)頂級(jí)基準(zhǔn)測(cè)試!與此同時(shí),陶哲軒用Gemini DeepThink十分鐘便搞定了一道埃爾德什難題。
繼續(xù)領(lǐng)跑!
Gemini 3本周一發(fā)布,便開(kāi)啟了橫掃各大基準(zhǔn)測(cè)試之旅,頻繁登上各種排行榜的榜首。
用現(xiàn)實(shí)證明了自己就是目前最強(qiáng)模型!
這不,就在昨天,知名研究機(jī)構(gòu)Epoch AI再添一力證——
Gemini 3 Pro在FrontierMath基準(zhǔn)測(cè)試中創(chuàng)下新紀(jì)錄:Tier 1-3準(zhǔn)確率達(dá) 38%,Tier 4達(dá)19%。
在綜合多項(xiàng)基準(zhǔn)測(cè)試的Epoch能力指數(shù)(ECI)中,Gemini 3 Pro獲得154分,超越了GPT-5.1此前保持的151分的最高紀(jì)錄。
FrontierMath是由Epoch AI聯(lián)合眾多職業(yè)數(shù)學(xué)家打造的一個(gè)高級(jí)數(shù)學(xué)基準(zhǔn)。
它由數(shù)百道原創(chuàng)、從未公開(kāi)的難題構(gòu)成,被設(shè)計(jì)成一塊專門測(cè)量AI高階數(shù)學(xué)推理能力的「試金石」。
這些題目幾乎覆蓋現(xiàn)代數(shù)學(xué)的主要分支:從需要大量計(jì)算的數(shù)論、實(shí)分析,到高度抽象的代數(shù)幾何、范疇論。
普通一道題就足以讓相關(guān)領(lǐng)域的研究者思考數(shù)小時(shí)甚至數(shù)天。
這些題目大概長(zhǎng)這樣,大家可以感受一下。
完整數(shù)據(jù)集包含350道題:其中300題構(gòu)成Tiers 1–3,難度大致對(duì)應(yīng)從高年級(jí)本科到初級(jí)研究生水平。
另外50題被歸入極端困難的Tier 4,接近乃至達(dá)到數(shù)學(xué)的前沿研究問(wèn)題。
為便于社區(qū)實(shí)驗(yàn),F(xiàn)rontierMath只開(kāi)放了少量公開(kāi)子集,其余題目則嚴(yán)格保密,用于評(píng)測(cè)。
在評(píng)測(cè)時(shí),模型必須為每道題提交一個(gè)Python函數(shù)answer,返回整數(shù)(通常)或SymPy等Python對(duì)象,由系統(tǒng)自動(dòng)運(yùn)行與校驗(yàn)。
這一設(shè)計(jì)既允許模型調(diào)用代碼深度推理,又用程序化判分確保結(jié)果客觀可重復(fù),使FrontierMath成為當(dāng)前衡量AI數(shù)學(xué)前沿能力最嚴(yán)苛、也最具說(shuō)服力的基準(zhǔn)之一。
截至目前,F(xiàn)rontierMath排行榜上的領(lǐng)先模型,都是由Gemini和GPT系列占據(jù)。
從「跑分最強(qiáng)」到「實(shí)戰(zhàn)破題」
雖說(shuō)Gemini 3確實(shí)很強(qiáng),但只是一味的霸榜基準(zhǔn)測(cè)試,還是差點(diǎn)意思。
至少,缺少點(diǎn)說(shuō)服力。
還好,Gemini 3很快就在實(shí)戰(zhàn)中證明了自己。
就在昨天,數(shù)學(xué)大神陶哲軒發(fā)帖表示,!
簡(jiǎn)單說(shuō)就是把每個(gè)整數(shù)拆成積木,凡是只出現(xiàn)1次的積木丟掉,只留下能成對(duì)出現(xiàn)、能拼成平方的那一部分,叫B?(n)。
比如12=2×2×3,只留2×2,所以B?(12)=4。
現(xiàn)在看一小段連續(xù)整數(shù)n,n+1,…,n+k-1,對(duì)每個(gè)數(shù)算出B?,再把這些B?全部相乘。
埃爾德什問(wèn)題的問(wèn)題是:不管這段連續(xù)整數(shù)多長(zhǎng),這個(gè)乘積是不是都不會(huì)比n2增長(zhǎng)得更快?
也就是說(shuō):整數(shù)里「平方因子扎堆」的程度,天花板究竟在哪里?
為了更方便理解,我用最近最火的Nano Banana Pro畫了張信息圖。
大家看看怎么樣?
言歸正傳。關(guān)于這個(gè)問(wèn)題,陶哲軒在帖子中給出了一條時(shí)間線。
11月20號(hào),Wouter van Doorn用AI提出了該問(wèn)題第二部分的反證,他的論證基于一個(gè)還未被證明的同余恒等式。
幾個(gè)小時(shí)后,陶哲軒將這個(gè)不等式交給了Gemini Deepthink。
只用了大概十分鐘,Gemini Deepthink便解決了這個(gè)證明。
太夸張了!
陶哲軒還附上了整個(gè)的論證過(guò)程。
論證地址: https://gemini.google.com/share/81a65aecfd70
看來(lái)這種問(wèn)題對(duì)于Gemini 3還真算不上什么。
隨后,陶哲軒手動(dòng)把證明轉(zhuǎn)化為了一個(gè)更加基礎(chǔ)的版本,花費(fèi)了他半個(gè)小時(shí)的時(shí)間。
兩天后,Boris Alexeev最終完成了這個(gè)證明的Lean形式化,耗時(shí)2、3個(gè)小時(shí)。
陶哲軒用Gemini 3來(lái)研究埃爾德什難題,厲害之處不只是「AI 超會(huì)算」。
更重要的是:世界頂級(jí)數(shù)學(xué)家,真的把大模型當(dāng)成工作伙伴了。
以后做數(shù)學(xué),不再只是一個(gè)人苦苦推導(dǎo)。
而是把枯燥的枚舉、嘗試、檢驗(yàn)丟給AI,人類集中精力抓核心思路、做關(guān)鍵判斷。
誰(shuí)先學(xué)會(huì)和這類工具高效協(xié)作,誰(shuí)就等于多了一個(gè)「超級(jí)合作者」。
數(shù)學(xué)之外的物理「試金石」
在登頂數(shù)學(xué)基準(zhǔn)測(cè)試的同時(shí),Gemini也霸榜了一項(xiàng)最新的物理基準(zhǔn)測(cè)試——CritPt。
CritPt的誕生基于研究者們開(kāi)始追問(wèn)一個(gè)問(wèn)題:大模型真的能像物理學(xué)家那樣,完整推進(jìn)一場(chǎng)前沿研究嗎?
其全稱為 「Complex Research using Integrated Thinking – Physics Test」,要測(cè)的,正是 AI 從「像樣回答」跨越到「真正推理」的那道臨界線。
目前已在Artificial Analysis平臺(tái)上線。
與以往基于教科書或公開(kāi)題庫(kù)的物理題庫(kù)不同,CritPt是首個(gè)專門面向「未公開(kāi)、真研究級(jí)」物理問(wèn)題的大模型基準(zhǔn)。
它由來(lái)自阿貢國(guó)家實(shí)驗(yàn)室、伊利諾伊大學(xué)厄巴納-香檳分校等三十多家機(jī)構(gòu)的五十余位活躍物理學(xué)者共同打造,涵蓋凝聚態(tài)、量子、原子分子與光學(xué)、天體物理、高能物理等現(xiàn)代物理的十一大分支。
每道題目都像是交給一名優(yōu)秀物理學(xué)博士新生的一次獨(dú)立小課題:需要建模、推導(dǎo)、近似與跨領(lǐng)域聯(lián)想,卻又保證答案可機(jī)讀、可自動(dòng)嚴(yán)格判分。
CritPt測(cè)試的挑戰(zhàn)示例如下圖所示。
不出意外,Gemini 3 Pro再次霸榜該項(xiàng)物理研究測(cè)試。
同樣的,GPT-5.1緊隨其后。
看來(lái),這兩模型還真是代表了當(dāng)前最前沿的模型水平。
不過(guò),雖然登頂了CritPt,Gemini 3 Pro的成績(jī)也才有9.1%,與滿分表現(xiàn)還有些距離。
參考資料:
https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-3/overview
秒追ASI
關(guān)鍵詞: 整數(shù) 陶哲軒 Tier 模型 問(wèn)題 Epoch 數(shù)學(xué) 小時(shí) 研究 Gemini 埃爾德什 CritPt 陶哲