Model terpantas baru sahaja menjadi pencari terbaik. Dalam pengambilan maklumat, berfikir lebih pantas mengalahkan berfikir lebih keras.
Saya telah menghabiskan tahun lalu menjalankan setiap enjin carian AI melalui bateri ujian yang sama — carian fakta, pertanyaan pelbagai sumber yang bernuansa, berita terkini yang sensitif masa, dan helah musuh yang disengajakan yang direka untuk mencetuskan halusinasi. Saya fikir saya tahu hierarkinya. Kemudian pada akhir Januari, model Flash ringan Google — yang selalu saya anggap sebagai pilihan bajet — secara senyap menuntut tempat #1 di Search Arena. Disahkan melalui ribuan perlawanan bersemuka buta. Model yang dibina untuk kelajuan, mengalahkan setiap model yang dibina untuk kedalaman. Hasil tunggal itu mengubah model mental saya tentang bagaimana carian AI sepatutnya. Selepas menganalisis kedudukan penuh 19 model, saya fikir ia juga harus mengubah model mental anda.
Papan Pendahulu Carian
Kedudukan penuh di bawah mencerminkan kedudukan setiap model carian AI setakat 29 Januari 2026. Sembilan belas model dari tujuh organisasi, masing-masing diuji dalam perbandingan bersemuka buta di mana pengguna sebenar memilih jawapan yang lebih baik. Saya telah memautkan setiap model ke dokumentasi rasminya — ujinya sendiri.
| Pangkat | Model | Skor | Undi | Organisasi |
|---|---|---|---|---|
🥇 | Gemini 3 Flash Grounding | 1224 | 11,062 | |
🥈 | Gemini 3 Pro Grounding | 1219 | 18,839 | |
🥉 | Gpt 5.2 Search | 1218 | 12,157 | OpenAI |
#4 | Gpt 5.1 Search | 1207 | 14,152 | OpenAI |
#5 | Gpt 5.2 Search Non Reasoning | 1189 | 5,510 | OpenAI |
#6 | Grok 4 1 Fast Search | 1185 | 14,111 | xAI |
#7 | Claude Opus 4 5 Search | 1179 | 4,293 | Anthropic |
#8 | Grok 4 Fast Search | 1170 | 31,388 | xAI |
#9 | O3 Search | 1144 | 21,056 | OpenAI |
#10 | Gemini 2.5 Pro Grounding | 1143 | 36,828 | |
#11 | Ppl Sonar Reasoning Pro High | 1143 | 29,825 | Perplexity |
#12 | Grok 4 Search | 1142 | 19,628 | xAI |
#13 | Claude Sonnet 4 5 Search | 1142 | 4,348 | Anthropic |
#14 | Claude Opus 4 1 Search | 1139 | 36,199 | Anthropic |
#15 | Gpt 5 Search | 1133 | 21,212 | OpenAI |
#16 | Ppl Sonar Pro High | 1133 | 29,379 | Perplexity |
#17 | Claude Opus 4 Search | 1132 | 32,002 | Anthropic |
#18 | Diffbot Small Xl | 1024 | 6,473 | Diffbot |
#19 | Api Gpt 4o Search | 1008 | 3,399 | OpenAI |
Revolusi Flash
Gemini 3 Flash Grounding di #1, di atas Gemini 3 Pro Grounding di #2. Model ringan yang direka untuk kelajuan, mengatasi model penaakulan berwajaran penuh. Ini bukan anomali statistik — ini adalah anjakan paradigma dalam apa yang menjadikan enjin carian hebat.
Selama bertahun-tahun, andaian adalah mudah: model yang lebih besar dengan rantaian penaakulan yang lebih mendalam menghasilkan hasil yang lebih baik. Itu benar untuk pengekodan, matematik, dan analisis kompleks. Tetapi carian bukan tugas penaakulan pada dasarnya — ia adalah tugas pengambilan. Apabila saya bertanya "Perintah eksekutif apa yang ditandatangani semalam?", saya tidak memerlukan model yang berunding selama 30 saat membina rantaian penaakulan yang rumit. Saya perlukan satu yang dengan pantas mengenal pasti sumber paling berwibawa, mengekstrak maklumat yang relevan, dan menyampaikannya sebelum momen berlalu. Flash dibina untuk kelajuan seperti ini, dan keputusan Arena mengesahkan ia berfungsi.
Buktinya lebih mendalam daripada barisan Google. Lihat #5: GPT-5.2 Search Non-Reasoning — model carian OpenAI sendiri dengan jentera rantaian pemikiran (chain-of-thought) dilucutkan. Ia mengatasi beberapa model dengan keupayaan penaakulan penuh. Dua syarikat berbeza, dua seni bina berbeza, kedua-duanya sampai pada kesimpulan yang sama: untuk carian, lebih ramping dan lebih pantas menang. Ini adalah trend paling penting dalam data, dan saya menjangkakan setiap makmal utama akan bertindak ke atasnya menjelang pertengahan 2026.
Perang Faktual: Analisis Mendalam
Google: Apabila Kelajuan Menjadi Kebijaksanaan
Google mengawal tiga kedudukan di papan pendahulu ini, dan hierarki dalaman menceritakan kisah yang patut difahami. Flash mendahului di #1. Pro mengikuti di #2. Veteran Gemini 2.5 Pro Grounding duduk di #10 dengan jumlah undian terbesar daripada mana-mana model di papan, melabuhkan barisan Google sebagai garis dasar kebolehpercayaan yang diuji pertempuran.
Kelebihan Google
Google telah menghabiskan lebih dua dekad mengindeks internet. Apabila saya mencari kertas akademik, fail kerajaan, atau piawaian teknikal, Gemini secara konsisten memunculkan sumber utama daripada ringkasan sekunder atau catatan blog. Memori institusi itu — berbilion halaman yang dikatalogkan, diberi kedudukan, dan dirujuk silang — tidak boleh ditiru dengan seni bina transformer yang lebih baik sahaja. Ia adalah parit data kompaun yang semakin mendalam setiap tahun.
Ramalan saya: Google akan bersandar agresif kepada model kelas Flash untuk carian sambil memposisikan semula Pro untuk tugas penyelidikan mendalam — analisis berbilang langkah, ulasan literatur, dan perbandingan kompleks di mana rantaian penaakulan menambah nilai tulen. Carian (search) dan penyelidikan (research) berpecah kepada kategori produk yang berbeza, dan Google adalah satu-satunya syarikat yang diposisikan untuk memimpin kedua-duanya secara serentak.
OpenAI: Enam Tembakan ke Takhta
Dengan enam model di 19 slot, OpenAI membariskan portfolio carian terluas daripada mana-mana organisasi. GPT-5.2 Search di #3 hanya ketinggalan satu mata di belakang Gemini Pro. GPT-5.1 Search memegang #4. Bersama-sama mereka mewakili hujah terkuat OpenAI: tiada siapa yang memahami pertanyaan carian dengan lebih baik.
Di mana OpenAI secara konsisten mengatasi: pemahaman pertanyaan. Uji ini sendiri — tanya soalan bernuansa seperti "Mengapa sesetengah ahli ekonomi menyokong tarif manakala yang lain menyebutnya merosakkan?" Gemini mencari sumber berwibawa mengenai tarif. GPT-5.2 memahami anda mahukan perspektif yang berbeza dan menstruktur jawapan dengan sewajarnya. Ia membaca niat, bukan hanya kata kunci.
Varian Bukan-Penaakulan di #5 adalah penyertaan OpenAI yang paling memberitahu. Dengan membuang gelung rantaian pemikiran yang deliberatif, mereka telah mencipta model yang cemerlang dalam pengambilan langsung — jawapan pantas, bersih, fokus tanpa overhed penaakulan eksplisit. Untuk pemeriksaan fakta pantas dan soalan terus, ia sangat cekap. Sementara itu, O3-Search di #9 mewakili falsafah yang bertentangan: membawa kuasa penaakulan berat kepada carian. Ia berprestasi baik, tetapi jurang kedudukan mencadangkan pasaran lebih suka kelajuan untuk kebanyakan tugas carian.
Langkah logik OpenAI seterusnya ialah pesaing Flash khusus carian. Data menjadikan kes perniagaan jelas, dan saya akan benar-benar terkejut jika mereka tidak menghantar satu menjelang S3 2026.
Anthropic: Lonjakan Senyap
Ini adalah cerita terbesar yang tidak cukup dibincangkan orang. Anthropic beralih daripada dua model carian dalam ulasan saya sebelum ini kepada empat. Claude Opus 4.5 Search debut di #7 — penempatan tertinggi mereka di papan ini. Claude Sonnet 4.5 Search masuk di #13. Opus 4.1 bertahan di #14, dan Opus 4 Search berlabuh di #17. Empat model meliputi pelbagai peringkat harga dan keupayaan — itu adalah syarikat yang mengambil carian dengan sangat serius sebagai kategori produk.
Kerendahan Hati Epistemik sebagai Ciri
Apa yang menjadikan pendekatan carian Anthropic berbeza secara fundamental? Ketidakpastian yang dikalibrasi. Apabila saya menguji kes tepi — pertanyaan di mana sumber bercanggah, topik dengan data tidak lengkap, soalan di sempadan pengetahuan yang mapan — Claude adalah satu-satunya model yang dengan andal mengatakan "bukti mengenai perkara ini bercampur" dan bukannya menjana jawapan yang kedengaran munasabah tetapi tidak disokong. Bagi sesiapa dalam perubatan, undang-undang, kewangan, atau kewartawanan, ini bukan keutamaan falsafah. Ia adalah alat pengurangan risiko yang mencegah kesilapan mahal.
Saya menjangkakan Anthropic akan terus mendaki. Pendekatan sistematik mereka terhadap kebolehpercayaan carian menangani mod kegagalan tunggal terbesar dalam carian AI: halusinasi yang yakin. Apabila penggunaan perusahaan semakin pantas sepanjang 2026, premium pada jawapan "Saya tidak tahu" yang jujur hanya akan berkembang. Perhatikan ruang ini dengan teliti.
xAI: Kelebihan Masa Nyata
Tiga model, semuanya dalam 12 teratas. Grok 4.1 Fast Search di #6, Grok 4 Fast Search di #8, dan Grok 4 Search di #12. Perhatikan bahawa kedua-dua varian "Fast" mengatasi model standard — satu lagi titik data yang mengesahkan tesis kelajuan-diutamakan yang menjalin seluruh papan pendahulu ini.
Di mana Grok benar-benar menonjol adalah dalam kecerdasan sosial masa nyata. Jika anda perlu memahami apa yang sedang dibincangkan orang sekarang — kontroversi yang muncul, perkembangan terkini, momen budaya yang berlaku dalam masa nyata — integrasi mendalam Grok dengan X memberikannya akses kepada aliran wacana manusia langsung yang tidak dapat ditandingi oleh model lain di papan ini. Saya telah menguji ini berulang kali semasa peristiwa berita terkini, dan jurang kelajuan-kepada-relevansi antara Grok dan segala-galanya ketara.
Hadnya adalah perkara yang sama yang selalu saya tandakan: media sosial mencerminkan perbualan, tidak semestinya kebenaran. Sentimen awam dan fakta yang disahkan adalah perkara yang berbeza. Untuk kesedaran berita terkini, Grok adalah panggilan pertama saya. Untuk kesimpulan yang disahkan, saya merujuk silang dengan Gemini atau Perplexity sebelum melakukan apa-apa secara bertulis. Trajektori jangka panjang xAI bergantung pada seberapa berkesan mereka berkembang di luar data sosial — jika mereka membina pengindeksan web tradisional sambil mengekalkan kelebihan masa nyata mereka, mereka boleh mencabar tiga teratas.
Perplexity: Membuktikan Setiap Perkataan
Perplexity Sonar Reasoning Pro di #11 dan Sonar Pro di #16 mungkin tidak menduduki kedudukan paling glamor, tetapi konteks penting: kedua-dua model membawa beberapa jumlah undian tertinggi di seluruh papan. Ini bukan pendatang baru yang menunggang skor awal yang melambung. Ia adalah alat yang telah diuji pertempuran pada skala besar dan memegang kedudukannya.
Falsafah Perplexity kekal ringkas dan elegan: setiap jawapan dihantar dengan sumbernya. Tiada pengecualian. Untuk penyelidikan akademik, ringkasan undang-undang, kewartawanan penyiasatan — sebarang domain di mana "percayalah padaku" bukan petikan yang boleh diterima — Perplexity bukan pilihan. Ia adalah cara anda menunjukkan bahawa maklumat anda mempunyai asal-usul. Saya menggunakannya setiap kali saya perlu bukan sahaja mencari jawapan, tetapi membuktikan dari mana jawapan itu datang.
Masa depan untuk Perplexity bukan tentang mendaki kedudukan mentah. Ia tentang memperdalam ekosistem petikan — pengesahan sumber yang lebih baik, integrasi pangkalan data akademik, dan penjejakan asal usul maklumat. Mereka telah mengukir niche yang boleh dipertahankan yang menjadi lebih berharga setiap bulan apabila kandungan yang dijana AI membanjiri web terbuka dan pengesahan sumber menjadi penting secara eksistensi.
Ke Mana Carian Pergi Seterusnya
Corak dalam data ini menunjukkan dengan jelas ke mana arah carian AI sepanjang baki tahun 2026. Inilah yang saya yakin berdasarkan trajektori yang telah saya jejaki.
Model kelas Flash akan menjadi standard untuk carian. Datanya tidak samar-samar. Untuk tugas pengambilan, model yang dioptimumkan kelajuan mengatasi model berat penaakulan. Setiap penyedia utama akan menghantar model ringan khusus carian dalam beberapa bulan. Perbezaan antara "model carian" dan "model penyelidikan" akan menjadi semula jadi seperti perbezaan antara carian web dan pangkalan data akademik.
Carian bukan-penaakulan menjadi kategori yang diiktiraf. Varian bukan-penaakulan GPT-5.2 di #5 mengesahkan konsep tersebut. Melucutkan rantaian pemikiran daripada model carian bukanlah penurunan taraf — ia adalah pengoptimuman untuk profil tugas tertentu. Jangkakan model carian khusus yang melangkau penaakulan deliberatif sepenuhnya dan menumpukan pada pengenalan dan pengekstrakan sumber yang pantas.
Anthropic akan mencabar lima teratas. Trajektori mereka — menggandakan daripada dua kepada empat model dengan penempatan tertinggi mereka di #7 — menandakan pelaburan tertumpu. Kerendahan hati epistemik Claude memposisikannya secara unik untuk penggunaan perusahaan, di mana keyakinan berlebihan membawa liabiliti kewangan dan undang-undang yang nyata.
Orkestrasi pelbagai model menjadi arus perdana. Lihat pada pemampatan papan tengah: kedudukan #9 hingga #17 dipisahkan hanya dengan 12 mata. Sembilan model, hampir tidak dapat dibezakan dalam prestasi agregat, masing-masing dengan kekuatan yang berbeza secara bermakna. Profesional yang bekerja dengan saya sudah menghalakan jenis pertanyaan yang berbeza kepada model yang berbeza. Alat yang mengautomasikan orkestrasi ini akan muncul sebagai kategori produk dengan hak mereka sendiri.
Pengesahan petikan menjadi medan pertempuran seterusnya. Apabila kandungan yang dijana AI terus menepu web, membuktikan bahawa sumber anda adalah nyata — dan bahawa jawapan anda menjejak kembali ke dokumen yang boleh disahkan yang dikarang oleh manusia — akan beralih daripada sesuatu yang bagus untuk dimiliki kepada jangkaan asas. Perplexity mempelopori pendekatan ini, tetapi setiap produk carian yang serius akan memerlukannya.
Kit Alat Carian Saya
Fakta Berwibawa
Gemini 3 Flash Grounding — dua dekad pengindeksan tambah kelajuan. #1 baharu bersebab.
Sintesis Kompleks
GPT-5.2 Search — membaca niat, bukan kata kunci. Menstruktur perspektif yang berbeza lebih baik daripada apa-apa pun.
Pertanyaan Berisiko Tinggi
Claude Opus 4.5 Search — apabila keyakinan berlebihan menelan belanja wang, pilih model yang mengakui ketidakpastian.
Denyut Masa Nyata
Grok 4.1 Fast Search — apa yang orang sedang bincangkan sekarang, sebelum sesiapa menulis artikel itu.
Tunjukkan Sumber Anda
Perplexity Sonar Reasoning Pro — apabila anda perlu membuktikannya, bukan hanya mengatakannya.
Pemeriksaan Fakta Pantas
GPT-5.2 Non-Reasoning Search — jawapan pantas dan bersih tanpa overhed penaakulan.
Penyelidik terbaik yang saya kenal tidak menggunakan satu enjin carian. Dia menggunakan lima — masing-masing ditala kepada jenis kebenaran yang berbeza. Itu bukan ketidakcekapan. Itu kepakaran. Era "satu enjin carian untuk menguasai mereka semua" sudah berakhir. Kuasai ensembel.
Sumber Data: Kedudukan dari Papan Pendahulu Search Arena, 29 Januari 2026.
Discussion
0 commentsLeave a comment
Be the first to share your thoughts on this article!