您的位置：首頁(yè) >正文

當(dāng)前聚焦：谷歌Gemini 3殺瘋了！陶哲軒親測(cè)：10分鐘干翻百年數(shù)學(xué)難題

來(lái)源：新智元時(shí)間：2025-11-24 08:55:59

新智元報(bào)道

編輯：犀牛

(資料圖片)

【新智元導(dǎo)讀】 Gemini 3一日霸榜數(shù)學(xué)、物理兩個(gè)頂級(jí)基準(zhǔn)測(cè)試！與此同時(shí)，陶哲軒用Gemini DeepThink十分鐘便搞定了一道埃爾德什難題。

繼續(xù)領(lǐng)跑！

Gemini 3本周一發(fā)布，便開(kāi)啟了橫掃各大基準(zhǔn)測(cè)試之旅，頻繁登上各種排行榜的榜首。

用現(xiàn)實(shí)證明了自己就是目前最強(qiáng)模型！

這不，就在昨天，知名研究機(jī)構(gòu)Epoch AI再添一力證——

Gemini 3 Pro在FrontierMath基準(zhǔn)測(cè)試中創(chuàng)下新紀(jì)錄：Tier 1-3準(zhǔn)確率達(dá) 38%，Tier 4達(dá)19%。
在綜合多項(xiàng)基準(zhǔn)測(cè)試的Epoch能力指數(shù)（ECI）中，Gemini 3 Pro獲得154分，超越了GPT-5.1此前保持的151分的最高紀(jì)錄。

FrontierMath是由Epoch AI聯(lián)合眾多職業(yè)數(shù)學(xué)家打造的一個(gè)高級(jí)數(shù)學(xué)基準(zhǔn)。

它由數(shù)百道原創(chuàng)、從未公開(kāi)的難題構(gòu)成，被設(shè)計(jì)成一塊專門測(cè)量AI高階數(shù)學(xué)推理能力的「試金石」。

這些題目幾乎覆蓋現(xiàn)代數(shù)學(xué)的主要分支：從需要大量計(jì)算的數(shù)論、實(shí)分析，到高度抽象的代數(shù)幾何、范疇論。

普通一道題就足以讓相關(guān)領(lǐng)域的研究者思考數(shù)小時(shí)甚至數(shù)天。

這些題目大概長(zhǎng)這樣，大家可以感受一下。

完整數(shù)據(jù)集包含350道題：其中300題構(gòu)成Tiers 1–3，難度大致對(duì)應(yīng)從高年級(jí)本科到初級(jí)研究生水平。

另外50題被歸入極端困難的Tier 4，接近乃至達(dá)到數(shù)學(xué)的前沿研究問(wèn)題。

為便于社區(qū)實(shí)驗(yàn)，F(xiàn)rontierMath只開(kāi)放了少量公開(kāi)子集，其余題目則嚴(yán)格保密，用于評(píng)測(cè)。

在評(píng)測(cè)時(shí)，模型必須為每道題提交一個(gè)Python函數(shù)answer，返回整數(shù)（通常）或SymPy等Python對(duì)象，由系統(tǒng)自動(dòng)運(yùn)行與校驗(yàn)。

這一設(shè)計(jì)既允許模型調(diào)用代碼深度推理，又用程序化判分確保結(jié)果客觀可重復(fù)，使FrontierMath成為當(dāng)前衡量AI數(shù)學(xué)前沿能力最嚴(yán)苛、也最具說(shuō)服力的基準(zhǔn)之一。

截至目前，F(xiàn)rontierMath排行榜上的領(lǐng)先模型，都是由Gemini和GPT系列占據(jù)。

從「跑分最強(qiáng)」到「實(shí)戰(zhàn)破題」

雖說(shuō)Gemini 3確實(shí)很強(qiáng)，但只是一味的霸榜基準(zhǔn)測(cè)試，還是差點(diǎn)意思。

至少，缺少點(diǎn)說(shuō)服力。

還好，Gemini 3很快就在實(shí)戰(zhàn)中證明了自己。

就在昨天，數(shù)學(xué)大神陶哲軒發(fā)帖表示，！

簡(jiǎn)單說(shuō)就是把每個(gè)整數(shù)拆成積木，凡是只出現(xiàn)1次的積木丟掉，只留下能成對(duì)出現(xiàn)、能拼成平方的那一部分，叫B?(n)。

比如12=2×2×3，只留2×2，所以B?(12)=4。

現(xiàn)在看一小段連續(xù)整數(shù)n,n+1,…,n+k-1，對(duì)每個(gè)數(shù)算出B?，再把這些B?全部相乘。

埃爾德什問(wèn)題的問(wèn)題是：不管這段連續(xù)整數(shù)多長(zhǎng)，這個(gè)乘積是不是都不會(huì)比n2增長(zhǎng)得更快？

也就是說(shuō)：整數(shù)里「平方因子扎堆」的程度，天花板究竟在哪里？

為了更方便理解，我用最近最火的Nano Banana Pro畫了張信息圖。

大家看看怎么樣？

言歸正傳。關(guān)于這個(gè)問(wèn)題，陶哲軒在帖子中給出了一條時(shí)間線。

11月20號(hào)，Wouter van Doorn用AI提出了該問(wèn)題第二部分的反證，他的論證基于一個(gè)還未被證明的同余恒等式。

幾個(gè)小時(shí)后，陶哲軒將這個(gè)不等式交給了Gemini Deepthink。

只用了大概十分鐘，Gemini Deepthink便解決了這個(gè)證明。

太夸張了！

陶哲軒還附上了整個(gè)的論證過(guò)程。

論證地址： https://gemini.google.com/share/81a65aecfd70

看來(lái)這種問(wèn)題對(duì)于Gemini 3還真算不上什么。

隨后，陶哲軒手動(dòng)把證明轉(zhuǎn)化為了一個(gè)更加基礎(chǔ)的版本，花費(fèi)了他半個(gè)小時(shí)的時(shí)間。

兩天后，Boris Alexeev最終完成了這個(gè)證明的Lean形式化，耗時(shí)2、3個(gè)小時(shí)。

陶哲軒用Gemini 3來(lái)研究埃爾德什難題，厲害之處不只是「AI 超會(huì)算」。

更重要的是：世界頂級(jí)數(shù)學(xué)家，真的把大模型當(dāng)成工作伙伴了。

以后做數(shù)學(xué)，不再只是一個(gè)人苦苦推導(dǎo)。

而是把枯燥的枚舉、嘗試、檢驗(yàn)丟給AI，人類集中精力抓核心思路、做關(guān)鍵判斷。

誰(shuí)先學(xué)會(huì)和這類工具高效協(xié)作，誰(shuí)就等于多了一個(gè)「超級(jí)合作者」。

數(shù)學(xué)之外的物理「試金石」

在登頂數(shù)學(xué)基準(zhǔn)測(cè)試的同時(shí)，Gemini也霸榜了一項(xiàng)最新的物理基準(zhǔn)測(cè)試——CritPt。

CritPt的誕生基于研究者們開(kāi)始追問(wèn)一個(gè)問(wèn)題：大模型真的能像物理學(xué)家那樣，完整推進(jìn)一場(chǎng)前沿研究嗎？

其全稱為「Complex Research using Integrated Thinking – Physics Test」，要測(cè)的，正是 AI 從「像樣回答」跨越到「真正推理」的那道臨界線。

目前已在Artificial Analysis平臺(tái)上線。

與以往基于教科書或公開(kāi)題庫(kù)的物理題庫(kù)不同，CritPt是首個(gè)專門面向「未公開(kāi)、真研究級(jí)」物理問(wèn)題的大模型基準(zhǔn)。

它由來(lái)自阿貢國(guó)家實(shí)驗(yàn)室、伊利諾伊大學(xué)厄巴納-香檳分校等三十多家機(jī)構(gòu)的五十余位活躍物理學(xué)者共同打造，涵蓋凝聚態(tài)、量子、原子分子與光學(xué)、天體物理、高能物理等現(xiàn)代物理的十一大分支。

每道題目都像是交給一名優(yōu)秀物理學(xué)博士新生的一次獨(dú)立小課題：需要建模、推導(dǎo)、近似與跨領(lǐng)域聯(lián)想，卻又保證答案可機(jī)讀、可自動(dòng)嚴(yán)格判分。

CritPt測(cè)試的挑戰(zhàn)示例如下圖所示。

不出意外，Gemini 3 Pro再次霸榜該項(xiàng)物理研究測(cè)試。

同樣的，GPT-5.1緊隨其后。

看來(lái)，這兩模型還真是代表了當(dāng)前最前沿的模型水平。

不過(guò)，雖然登頂了CritPt，Gemini 3 Pro的成績(jī)也才有9.1%，與滿分表現(xiàn)還有些距離。

參考資料：

https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-3/overview

秒追ASI

關(guān)鍵詞：整數(shù) 陶哲軒 Tier 模型問(wèn)題 Epoch 數(shù)學(xué) 小時(shí) 研究 Gemini 埃爾德什 CritPt 陶哲

資訊

中綠電2025半年報(bào)披露：營(yíng)收利潤(rùn)雙增顯韌性裝機(jī)發(fā)電雙線領(lǐng)跑新能源賽道
航天品質(zhì)，精準(zhǔn)護(hù)航——星邁科技XM105助力“星跡源一號(hào)”問(wèn)鼎蒼穹 2025年5月21日，星跡源一號(hào)衛(wèi)星在酒泉衛(wèi)星發(fā)射中心成功升空，開(kāi)啟空間在軌服務(wù)新篇章。在這場(chǎng)探索宇宙的征程中，沈陽(yáng)星邁科技有限公司自主
山水之間，意蘊(yùn)悠長(zhǎng)——從一幅畫評(píng)王保起山水畫作 在當(dāng)代中國(guó)畫壇，王保起作為商丘市美術(shù)家協(xié)會(huì)主席，以其深厚的藝術(shù)造詣和獨(dú)特的創(chuàng)作風(fēng)格備受矚目。他的山水畫作，如這幅呈現(xiàn)于眼前的作品，
破解外貿(mào)增長(zhǎng)密碼！中企跨境×36氪研究院白皮書首發(fā)：B2B采購(gòu)行為巨變，你跟上了嗎？ 在全球貿(mào)易數(shù)字化浪潮下，跨境B2B行業(yè)正迎來(lái)前所未有的機(jī)遇與挑戰(zhàn)。為助力中國(guó)企業(yè)搶占海外市場(chǎng)先機(jī)，中企跨境攜手36氪研究院將在近期聯(lián)合
河南三博張旭光主任面肌痙攣門診：根治“臉抽”的黃金機(jī)會(huì) 醫(yī)生簡(jiǎn)介：3000例手術(shù)經(jīng)驗(yàn)，患者心中的定心丸張旭光，首都醫(yī)科大學(xué)附屬河南三博腦科醫(yī)院神經(jīng)外科副主任，深耕面肌痙攣領(lǐng)域20年，累計(jì)完成顯
你與氛圍感美女只差一個(gè)唇，關(guān)于潤(rùn)致斐然的Q&A不容錯(cuò)過(guò) 唇部，作為我們面部表情最為豐富的部位，每一次的吃飯、說(shuō)話、微笑都會(huì)使其靈動(dòng)起來(lái)。因此，盡管豐唇看似是小小的改變，但卻能帶來(lái)極大的美

文章排行

最新圖文

當(dāng)前聚焦：谷歌Gemini 3殺瘋了！陶哲軒親測(cè)：10分鐘干翻百年數(shù)學(xué)難題

熱門資訊

文章排行

最新圖文

當(dāng)前聚焦：谷歌Gemini 3殺瘋了！陶哲軒親測(cè)：10分鐘干翻百年數(shù)學(xué)難題