最快的模型剛剛成為了最好的搜尋者。在檢索任務中,思考得快比思考得深更重要。
我花了一年時間對每個 AI 搜尋引擎進行了同樣的測試——事實查詢、多源複雜查詢、時間敏感的突發新聞,以及旨在引發幻覺的對抗性陷阱。我以為我已經了解了它們的層級。然而在一月下旬,Google 的輕量級 Flash 模型——我一直視其為預算選項的模型——悄然在 搜尋競技場 中奪得了第一名。這一結果經過了數千次盲測和正面交鋒的驗證。一個為速度而生的模型,擊敗了所有為深度而生的模型。這單一結果改變了我對 AI 搜尋應有樣貌的心智模型。在分析了完整的 19 個模型排名後,我認為它也應該改變你的看法。
搜尋排行榜
以下的完整排名反映了截至 2026 年 1 月 29 日每個 AI 搜尋模型的地位。來自七個組織的十九個模型,每一個都在真實使用者選擇更好答案的盲測正面交鋒中接受了測試。我已經將每個模型連結到了它的官方文件——你可以親自測試它們。
| 排名 | 模型 | 得分 | 票數 | 組織 |
|---|---|---|---|---|
🥇 | Gemini 3 Flash Grounding | 1224 | 11,062 | |
🥈 | Gemini 3 Pro Grounding | 1219 | 18,839 | |
🥉 | Gpt 5.2 Search | 1218 | 12,157 | OpenAI |
#4 | Gpt 5.1 Search | 1207 | 14,152 | OpenAI |
#5 | Gpt 5.2 Search Non Reasoning | 1189 | 5,510 | OpenAI |
#6 | Grok 4 1 Fast Search | 1185 | 14,111 | xAI |
#7 | Claude Opus 4 5 Search | 1179 | 4,293 | Anthropic |
#8 | Grok 4 Fast Search | 1170 | 31,388 | xAI |
#9 | O3 Search | 1144 | 21,056 | OpenAI |
#10 | Gemini 2.5 Pro Grounding | 1143 | 36,828 | |
#11 | Ppl Sonar Reasoning Pro High | 1143 | 29,825 | Perplexity |
#12 | Grok 4 Search | 1142 | 19,628 | xAI |
#13 | Claude Sonnet 4 5 Search | 1142 | 4,348 | Anthropic |
#14 | Claude Opus 4 1 Search | 1139 | 36,199 | Anthropic |
#15 | Gpt 5 Search | 1133 | 21,212 | OpenAI |
#16 | Ppl Sonar Pro High | 1133 | 29,379 | Perplexity |
#17 | Claude Opus 4 Search | 1132 | 32,002 | Anthropic |
#18 | Diffbot Small Xl | 1024 | 6,473 | Diffbot |
#19 | Api Gpt 4o Search | 1008 | 3,399 | OpenAI |
Flash 革命
Gemini 3 Flash Grounding 位居第一,超越了位居第二的 Gemini 3 Pro Grounding。一個為速度設計的輕量級模型,超越了全量級的推理模型。這並非統計學上的異常——這是構成優秀搜尋引擎要素的範式轉變。
多年來,人們的假設很簡單:擁有更深推理鏈的更大模型會產生更好的結果。這在程式設計、數學和複雜分析中是成立的。但搜尋的核心並非推理任務——它是檢索任務。當我問「昨天簽署了什麼行政命令?」時,我不需要一個模型花 30 秒構建複雜的推理鏈。我需要一個能迅速識別最權威來源、提取相關資訊並在瞬間傳遞給我的模型。Flash 正是為這種速度而生,競技場的結果證實了它的有效性。
證據不僅僅在於 Google 的產品線。看看第 5 名:GPT-5.2 Search Non-Reasoning — OpenAI 自己的搜尋模型,剝離了思維鏈機制。它的排名超過了幾個具有完整推理能力的模型。兩家不同的公司,兩種不同的架構,都得出了相同的結論:對於搜尋而言,更精簡、更快速即為贏家。這是數據中最重要的趨勢,我預計到 2026 年中期,每家主要實驗室都會對此採取行動。
事實之戰:深度解析
Google:當速度成為智慧
Google 在此排行榜上佔據了三個位置,其內部層級講述了一個值得理解的故事。Flash 領跑第一。Pro 緊隨其後。老牌的 Gemini 2.5 Pro Grounding 位於第 10 位,擁有榜單上所有模型中最大的票數,作為久經考驗的可靠性基準穩固了 Google 的陣營。
Google 的優勢
Google 花了二十多年時間索引網際網路。當我搜尋學術論文、政府文件或技術標準時,Gemini 始終提供原始來源,而不是次級摘要或部落格文章。這種機構記憶——數十億頁面的編目、排名和交叉引用——是單靠更好的 Transformer 架構無法複製的。這是一條隨著時間推移而加深的複利數據護城河。
我的預測:Google 將積極投入 Flash 級模型用於搜尋,同時重新定位 Pro 用於深度研究任務——多步驟分析、文獻綜述和推理鏈能增加真正價值的複雜比較。搜尋和研究正在分裂成獨特的產品類別,而 Google 是唯一一家有能力同時在這兩個領域處於領先地位的公司。
OpenAI:六次衝擊王座
OpenAI 在 19 個席位中佔據 6 席,擁有所有組織中最廣泛的搜尋產品組合。GPT-5.2 Search 位於第 3 位,僅落後 Gemini Pro 一分。GPT-5.1 Search 佔據第 4 位。它們共同代表了 OpenAI 最強有力的論點:沒有人比我們更懂搜尋查詢。
OpenAI 始終表現出色的地方:查詢理解。你可以親自測試一下——問一個細微的問題,比如「為什麼有些經濟學家支持關稅,而另一些人稱其具有破壞性?」Gemini 會找到關於關稅的權威來源。GPT-5.2 則理解你想要對比的觀點並據此構建答案。它解讀的是意圖,而不僅僅是關鍵字。
位於第 5 位的 非推理變體 是 OpenAI 最具說明性的條目。通過移除審慎的思維鏈循環,他們創造了一個擅長直接檢索的模型——快速、乾淨、專注的答案,沒有顯式推理的開銷。對於快速事實核查和直接問題,它的效率驚人。與此同時,位於第 9 位的 O3-Search 代表了相反的哲學:將重型推理能力引入搜尋。它表現良好,但排名差距表明市場在大多數搜尋任務中更偏好速度。
OpenAI 合乎邏輯的下一步將是推出專門的 Flash 競爭對手。數據表明商業案例顯而易見,如果他們在 2026 年第三季度之前不推出一款,我會真的很驚訝。
Anthropic:安靜的崛起
這是最少被討論的大新聞。Anthropic 從我上次評測中的兩個搜尋模型增加到了四個。Claude Opus 4.5 Search 以第 7 名首次亮相——這是他們在該榜單上的最高排名。Claude Sonnet 4.5 Search 進入第 13 位。Opus 4.1 保持在第 14 位,而 Opus 4 Search 穩居第 17 位。四個模型覆蓋了廣泛的價格和能力層級——這表明一家公司非常認真地將搜尋作為一個產品類別來看待。
認知謙遜作為一種特性
是什麼讓 Anthropic 的搜尋方法有著根本的不同?經過校準的不確定性。當我測試邊緣情況時——來源衝突的查詢、數據不完整的主題、處於既有知識邊界的問題——Claude 是唯一一個可靠地說「關於這方面的證據不一」的模型,而不是生成一個聽起來合理但沒有依據的答案。對於醫學、法律、金融或新聞領域的任何人來說,這不僅是哲學偏好。這是一種防止代價高昂錯誤的風險緩解工具。
我預計 Anthropic 將繼續攀升。他們對搜尋可靠性的系統性方法解決了 AI 搜尋中最大的單一失敗模式:自信的幻覺。隨著企業採用率在 2026 年加速,誠實的「我不知道」答案的溢價只會增加。請密切關注這個領域。
xAI:即時優勢
三個模型,全部進入前 12 名。Grok 4.1 Fast Search 位於第 6 位,Grok 4 Fast Search 位於第 8 位,以及 Grok 4 Search 位於第 12 位。請注意,兩個「Fast」變體都優於標準模型——這又是一個證實貫穿整個排行榜的速度優先論點的數據點。
Grok 真正與眾不同之處在於即時社交情報。如果你需要了解人們現在正在討論什麼——新出現的爭議、突發事態發展、即時展開的文化時刻——Grok 與 X 的深度整合使其能夠存取其他模型無法比擬的即時人類話語流。我在突發新聞事件期間反覆測試過這一點,Grok 與其他所有產品之間的相關性速度差距是顯而易見的。
局限性與我一直指出的相同:社群媒體反映的是對話,不一定是真相。公眾情緒和經過驗證的事實是兩回事。對於突發新聞感知,Grok 是我的首選。對於經過驗證的結論,在寫下來之前,我會與 Gemini 或 Perplexity 進行交叉核對。xAI 的長期軌跡取決於他們如何有效地擴展到社交數據之外——如果他們在保持即時優勢的同時建立傳統的網路索引,他們可能會挑戰前三名。
Perplexity:字字有據
Perplexity Sonar Reasoning Pro 位於第 11 位,Sonar Pro 位於第 16 位,這可能不是最耀眼的位置,但背景很重要:這兩個模型都擁有整個榜單上最高的票數之一。這不是一個依靠虛高的早期分數的新手。這是一個經過大規模實戰檢驗並站穩腳跟的工具。
Perplexity 的哲學保持著優雅的簡單:每個答案都附帶來源。沒有例外。對於學術研究、法律簡報、調查性新聞——任何「相信我」不是可接受引用的領域——Perplexity 並非可選項。這是你展示資訊出處的方式。每當我不僅需要找到答案,還需要證明答案來自哪裡時,我都會使用它。
Perplexity 的未來不在於攀升原始排名。它在於深化引用生態系統——更好的來源驗證、學術資料庫整合以及資訊出處追蹤。隨著 AI 生成的內容充斥開放網路,來源驗證變得至關重要,他們已經開闢了一個隨著時間的推移而變得更有價值的防禦性利基市場。
搜尋的未來
數據中的模式清楚地指向了 AI 搜尋在 2026 年剩餘時間裡的走向。基於我一直在追蹤的軌跡,以下是我確信的事情。
Flash 級模型將成為搜尋的標準。數據是明確的。對於檢索任務,速度最佳化型模型優於重推理型模型。每個主要提供商都將在幾個月內推出專門的搜尋輕量級模型。「搜尋模型」和「研究模型」之間的區別將像網路搜尋和學術資料庫之間的區別一樣自然。
非推理搜尋成為一個公認的類別。GPT-5.2 在第 5 位的非推理變體驗證了這一概念。從搜尋模型中剝離思維鏈並非降級——這是針對特定任務配置的最佳化。預計會有專門的搜尋模型完全跳過審慎推理,專注於快速來源識別和提取。
Anthropic 將挑戰前五名。他們的軌跡——從兩個模型翻倍到四個,並在第 7 位取得了有史以來的最高排名——標誌著重點投入。Claude 的認知謙遜使其在企業採用方面處於獨特地位,在企業中,過度自信會帶來真正的財務和法律責任。
多模型編排成為主流。看看中段排名的緊湊程度:第 9 名到第 17 名之間僅相差 12 分。九個模型,在綜合表現上幾乎無法區分,每個都有意義深遠的獨特優勢。與我共事的專業人士已經將不同的查詢類型路由到不同的模型。自動化這種編排的工具將作為獨立的產片類別出現。
引用驗證成為下一個戰場。隨著 AI 生成的內容繼續滲透網路,證明你的來源是真實的——並且你的答案可以追溯到可驗證的人類撰寫的文件——將從可有可無變為基本期望。Perplexity 開創了這種方法,但每個嚴肅的搜尋產品都需要它。
我的搜尋工具箱
權威事實
Gemini 3 Flash Grounding — 二十年的索引加上速度。成為新晉第一名是有原因的。
複雜綜合
GPT-5.2 Search — 解讀意圖,而非關鍵字。構建對比觀點的能力優於其他任何產品。
高風險查詢
Claude Opus 4.5 Search — 當過度自信會造成金錢損失時,選擇承認不確定性的模型。
即時脈搏
Grok 4.1 Fast Search — 人們現在正在討論什麼,在任何人寫文章之前。
展示來源
Perplexity Sonar Reasoning Pro — 當你需要證明它,而不僅僅是說說而已。
快速事實核查
GPT-5.2 Non-Reasoning Search — 快速、乾淨的答案,沒有推理開銷。
我認識的最好的研究員不使用一個搜尋引擎。她使用五個 — 每一個都針對不同類型的真相進行了調整。這不是低效。這就是專業。 「一個搜尋引擎統治一切」的時代已經結束。掌握這種組合。
數據來源:排名來自 搜尋競技場排行榜,2026 年 1 月 29 日。
討論
0 條評論留下評論
成為第一個分享您想法的人!