Mô hình nhanh nhất vừa trở thành người tìm kiếm giỏi nhất. Trong việc truy xuất thông tin, suy nghĩ nhanh hơn đánh bại suy nghĩ kỹ hơn.
Tôi đã dành cả năm qua để chạy mọi công cụ tìm kiếm AI qua cùng một loạt các bài kiểm tra — tra cứu thực tế, truy vấn đa nguồn phức tạp, tin tức nóng hổi nhạy cảm về thời gian và các thủ thuật đối kháng cố ý được thiết kế để gây ra ảo giác. Tôi nghĩ rằng tôi đã biết thứ bậc của chúng. Sau đó, vào cuối tháng 1, mô hình Flash nhẹ của Google — cái mà tôi luôn coi là lựa chọn ngân sách — đã âm thầm chiếm vị trí số 1 trong Đấu Trường Tìm Kiếm (Search Arena). Được xác thực qua hàng ngàn trận đấu đối đầu mù. Một mô hình được xây dựng cho tốc độ, đánh bại mọi mô hình được xây dựng cho chiều sâu. Kết quả duy nhất đó đã thay đổi mô hình tư duy của tôi về việc AI tìm kiếm nên là gì. Sau khi phân tích bảng xếp hạng đầy đủ 19 mô hình, tôi nghĩ nó cũng nên thay đổi suy nghĩ của bạn.
Bảng Xếp Hạng Tìm Kiếm
Bảng xếp hạng đầy đủ dưới đây phản ánh vị trí của mọi mô hình tìm kiếm AI tính đến ngày 29 tháng 1 năm 2026. Mười chín mô hình từ bảy tổ chức, mỗi mô hình được thử nghiệm trong các so sánh đối đầu mù, nơi người dùng thực sự chọn câu trả lời tốt hơn. Tôi đã liên kết mọi mô hình với tài liệu chính thức của nó — hãy tự mình kiểm tra chúng.
| Hạng | Mô Hình | Điểm | Phiếu Bầu | Tổ Chức |
|---|---|---|---|---|
🥇 | Gemini 3 Flash Grounding | 1224 | 11,062 | |
🥈 | Gemini 3 Pro Grounding | 1219 | 18,839 | |
🥉 | Gpt 5.2 Search | 1218 | 12,157 | OpenAI |
#4 | Gpt 5.1 Search | 1207 | 14,152 | OpenAI |
#5 | Gpt 5.2 Search Non Reasoning | 1189 | 5,510 | OpenAI |
#6 | Grok 4 1 Fast Search | 1185 | 14,111 | xAI |
#7 | Claude Opus 4 5 Search | 1179 | 4,293 | Anthropic |
#8 | Grok 4 Fast Search | 1170 | 31,388 | xAI |
#9 | O3 Search | 1144 | 21,056 | OpenAI |
#10 | Gemini 2.5 Pro Grounding | 1143 | 36,828 | |
#11 | Ppl Sonar Reasoning Pro High | 1143 | 29,825 | Perplexity |
#12 | Grok 4 Search | 1142 | 19,628 | xAI |
#13 | Claude Sonnet 4 5 Search | 1142 | 4,348 | Anthropic |
#14 | Claude Opus 4 1 Search | 1139 | 36,199 | Anthropic |
#15 | Gpt 5 Search | 1133 | 21,212 | OpenAI |
#16 | Ppl Sonar Pro High | 1133 | 29,379 | Perplexity |
#17 | Claude Opus 4 Search | 1132 | 32,002 | Anthropic |
#18 | Diffbot Small Xl | 1024 | 6,473 | Diffbot |
#19 | Api Gpt 4o Search | 1008 | 3,399 | OpenAI |
Cuộc Cách Mạng Flash
Gemini 3 Flash Grounding ở vị trí #1, trên Gemini 3 Pro Grounding ở vị trí #2. Một mô hình nhẹ được thiết kế cho tốc độ, vượt qua mô hình suy luận đầy đủ. Đây không phải là một sự bất thường về thống kê — đó là một sự thay đổi mô hình về những gì tạo nên một công cụ tìm kiếm tuyệt vời.
Trong nhiều năm, giả định rất đơn giản: các mô hình lớn hơn với chuỗi suy luận sâu hơn sẽ tạo ra kết quả tốt hơn. Điều đó đúng đối với mã hóa, toán học và phân tích phức tạp. Nhưng tìm kiếm không phải là một nhiệm vụ suy luận ở cốt lõi của nó — đó là một nhiệm vụ truy xuất. Khi tôi hỏi "Sắc lệnh hành pháp nào đã được ký ngày hôm qua?", tôi không cần một mô hình cân nhắc trong 30 giây để xây dựng một chuỗi suy luận công phu. Tôi cần một mô hình nhanh chóng xác định nguồn có thẩm quyền nhất, trích xuất thông tin liên quan và cung cấp nó trước khi khoảnh khắc trôi qua. Flash được xây dựng chính xác cho loại tốc độ này, và kết quả của Arena xác nhận rằng nó hoạt động hiệu quả.
Bằng chứng đi sâu hơn đội hình của Google. Hãy nhìn vào vị trí #5: GPT-5.2 Search Non-Reasoning — mô hình tìm kiếm của chính OpenAI với bộ máy chuỗi suy nghĩ (chain-of-thought) bị loại bỏ. Nó xếp hạng cao hơn một số mô hình có khả năng suy luận đầy đủ. Hai công ty khác nhau, hai kiến trúc khác nhau, cả hai đều đi đến cùng một kết luận: đối với tìm kiếm, gọn nhẹ hơn và nhanh hơn sẽ chiến thắng. Đây là xu hướng quan trọng nhất trong dữ liệu, và tôi hy vọng mọi phòng thí nghiệm lớn sẽ hành động theo xu hướng này vào giữa năm 2026.
Cuộc Chiến Sự Thật: Phân Tích Chuyên Sâu
Google: Khi Tốc Độ Trở Thành Trí Tuệ
Google kiểm soát ba vị trí trên bảng xếp hạng này, và thứ bậc nội bộ kể một câu chuyện đáng để tìm hiểu. Flash dẫn đầu ở vị trí #1. Pro theo sau ở vị trí #2. Cựu binh Gemini 2.5 Pro Grounding nằm ở vị trí #10 với số phiếu bầu lớn nhất so với bất kỳ mô hình nào trên bảng, neo giữ đội hình của Google như một tiêu chuẩn độ tin cậy đã được thử lửa qua trận chiến.
Lợi Thế Của Google
Google đã dành hơn hai thập kỷ để lập chỉ mục internet. Khi tôi tìm kiếm các bài báo học thuật, hồ sơ chính phủ hoặc tiêu chuẩn kỹ thuật, Gemini liên tục đưa ra nguồn chính thay vì bản tóm tắt thứ cấp hoặc bài đăng trên blog. Bộ nhớ tổ chức đó — hàng tỷ trang được lập danh mục, xếp hạng và tham chiếu chéo — không thể được sao chép chỉ bằng một kiến trúc transformer tốt hơn. Đó là một hào dữ liệu tích lũy sâu hơn theo từng năm trôi qua.
Dự đoán của tôi: Google sẽ dựa mạnh vào các mô hình lớp Flash cho tìm kiếm trong khi định vị lại Pro cho các nhiệm vụ nghiên cứu sâu — phân tích đa bước, đánh giá tài liệu và so sánh phức tạp nơi chuỗi suy luận thực sự mang lại giá trị. Tìm kiếm và nghiên cứu đang tách thành các danh mục sản phẩm riêng biệt, và Google là công ty duy nhất có vị thế để dẫn đầu cả hai cùng một lúc.
OpenAI: Sáu Phát Súng Nhắm Vào Vương Miện
Với sáu mô hình trên 19 vị trí, OpenAI sở hữu danh mục tìm kiếm rộng nhất trong bất kỳ tổ chức nào. GPT-5.2 Search ở vị trí #3 chỉ kém Gemini Pro một điểm. GPT-5.1 Search giữ vị trí #4. Cùng nhau, chúng đại diện cho lập luận mạnh mẽ nhất của OpenAI: không ai hiểu truy vấn tìm kiếm tốt hơn.
Nơi OpenAI liên tục vượt trội: hiểu truy vấn. Hãy tự mình kiểm tra điều này — đặt một câu hỏi sắc thái như "Tại sao một số nhà kinh tế ủng hộ thuế quan trong khi những người khác gọi chúng là phá hoại?" Gemini tìm các nguồn có thẩm quyền về thuế quan. GPT-5.2 hiểu rằng bạn muốn các quan điểm trái chiều và cấu trúc câu trả lời cho phù hợp. Nó đọc ý định, không chỉ là từ khóa.
Biến thể Non-Reasoning (Không Suy Luận) ở vị trí #5 là mục nhập đáng chú ý nhất của OpenAI. Bằng cách loại bỏ vòng lặp chuỗi suy nghĩ có chủ ý, họ đã tạo ra một mô hình xuất sắc trong việc truy xuất trực tiếp — nhanh chóng, sạch sẽ, câu trả lời tập trung mà không có chi phí suy luận rõ ràng. Để kiểm tra thực tế nhanh chóng và các câu hỏi thẳng thắn, nó cực kỳ hiệu quả. Trong khi đó, O3-Search ở vị trí #9 đại diện cho triết lý ngược lại: mang lại sức mạnh suy luận nặng nề cho tìm kiếm. Nó hoạt động tốt, nhưng khoảng cách xếp hạng cho thấy thị trường ưa thích tốc độ cho hầu hết các tác vụ tìm kiếm.
Bước đi hợp lý tiếp theo của OpenAI sẽ là một đối thủ cạnh tranh dành riêng cho Flash. Dữ liệu làm cho trường hợp kinh doanh trở nên rõ ràng, và tôi sẽ thực sự ngạc nhiên nếu họ không xuất xưởng một cái vào quý 3 năm 2026.
Anthropic: Sự Trỗi Dậy Thầm Lặng
Đây là câu chuyện lớn nhất mà không ai thảo luận đủ. Anthropic đã đi từ hai mô hình tìm kiếm trong bài đánh giá trước đây của tôi lên bốn. Claude Opus 4.5 Search ra mắt ở vị trí #7 — vị trí cao nhất từ trước đến nay của họ trên bảng này. Claude Sonnet 4.5 Search tham gia ở vị trí #13. Opus 4.1 giữ ở vị trí #14, và Opus 4 Search neo ở vị trí #17. Bốn mô hình bao gồm một loạt các tầng giá cả và khả năng — đó là một công ty đang thực sự coi trọng tìm kiếm như một danh mục sản phẩm.
Sự Khiêm Tốn Về Nhận Thức Như Một Tính Năng
Điều gì làm cho cách tiếp cận tìm kiếm của Anthropic khác biệt cơ bản? Sự không chắc chắn được hiệu chỉnh. Khi tôi kiểm tra các trường hợp biên — các truy vấn nơi các nguồn xung đột, các chủ đề có dữ liệu không đầy đủ, các câu hỏi ở ranh giới của kiến thức đã được thiết lập — Claude là mô hình duy nhất nói một cách đáng tin cậy rằng "bằng chứng về điều này là hỗn hợp" thay vì tạo ra một câu trả lời nghe có vẻ hợp lý nhưng không được hỗ trợ. Đối với bất kỳ ai trong y học, luật pháp, tài chính hoặc báo chí, đây không phải là một sở thích triết học. Đó là một công cụ giảm thiểu rủi ro ngăn ngừa những sai lầm tốn kém.
Tôi mong đợi Anthropic sẽ tiếp tục leo lên. Cách tiếp cận có hệ thống của họ đối với độ tin cậy của tìm kiếm giải quyết chế độ thất bại lớn nhất trong tìm kiếm AI: ảo giác tự tin. Khi việc áp dụng doanh nghiệp tăng tốc trong năm 2026, phần thưởng cho các câu trả lời trung thực "Tôi không biết" sẽ chỉ tăng lên. Hãy theo dõi không gian này cẩn thận.
xAI: Lợi Thế Thời Gian Thực
Ba mô hình, tất cả đều nằm trong top 12. Grok 4.1 Fast Search ở vị trí #6, Grok 4 Fast Search ở vị trí #8, và Grok 4 Search ở vị trí #12. Lưu ý rằng cả hai biến thể "Fast" đều vượt trội so với mô hình tiêu chuẩn — lại thêm một điểm dữ liệu xác nhận luận điểm ưu tiên tốc độ xuyên suốt bảng xếp hạng này.
Nơi Grok thực sự đứng riêng biệt là trí thông minh xã hội thời gian thực. Nếu bạn cần hiểu những gì mọi người đang thảo luận ngay bây giờ — những tranh cãi mới nổi, những diễn biến nóng hổi, những khoảnh khắc văn hóa đang diễn ra trong thời gian thực — sự tích hợp sâu sắc của Grok với X mang lại cho nó quyền truy cập vào một luồng dữ liệu đàm thoại trực tiếp của con người mà không có mô hình nào khác trên bảng này có thể sánh được. Tôi đã thử nghiệm điều này nhiều lần trong các sự kiện tin tức nóng hổi, và khoảng cách tốc độ đến sự liên quan giữa Grok và mọi thứ khác là đáng chú ý.
Hạn chế là điều tương tự tôi luôn gắn cờ: phương tiện truyền thông xã hội phản ánh cuộc trò chuyện, không nhất thiết là sự thật. Tình cảm công chúng và sự thật đã được xác minh là những thứ khác nhau. Để nhận thức về tin tức nóng hổi, Grok là cuộc gọi đầu tiên của tôi. Đối với các kết luận đã được xác minh, tôi tham chiếu chéo với Gemini hoặc Perplexity trước khi cam kết viết bất cứ điều gì. Quỹ đạo dài hạn của xAI phụ thuộc vào việc họ mở rộng hiệu quả như thế nào ngoài dữ liệu xã hội — nếu họ xây dựng việc lập chỉ mục web truyền thống trong khi vẫn giữ lợi thế thời gian thực của mình, họ có thể thách thức top ba.
Perplexity: Chứng Minh Từng Lời
Perplexity Sonar Reasoning Pro ở vị trí #11 và Sonar Pro ở vị trí #16 có thể không chiếm những vị trí hào nhoáng nhất, nhưng ngữ cảnh rất quan trọng: cả hai mô hình đều mang một số lượng phiếu bầu cao nhất trên toàn bộ bảng. Đây không phải là một người mới đến cưỡi trên một điểm số sớm bị thổi phồng. Đó là một công cụ đã được thử lửa ở quy mô lớn và giữ vững lập trường của mình.
Triết lý của Perplexity vẫn đơn giản một cách thanh lịch: mọi câu trả lời đều đi kèm với nguồn của nó. Không có ngoại lệ. Đối với nghiên cứu học thuật, tóm tắt pháp lý, báo chí điều tra — bất kỳ lĩnh vực nào mà "tin tôi đi" không phải là một trích dẫn chấp nhận được — Perplexity không phải là tùy chọn. Đó là cách bạn chứng minh thông tin của bạn có nguồn gốc. Tôi sử dụng nó bất cứ khi nào tôi cần không chỉ tìm câu trả lời, mà còn chứng minh câu trả lời đó đến từ đâu.
Tương lai cho Perplexity không phải là leo lên bảng xếp hạng thô. Đó là về việc làm sâu sắc thêm hệ sinh thái trích dẫn — xác minh nguồn tốt hơn, tích hợp cơ sở dữ liệu học thuật và theo dõi nguồn gốc thông tin. Họ đã tạo ra một thị trường ngách có thể bảo vệ được trở nên có giá trị hơn theo từng tháng trôi qua khi nội dung do AI tạo ra tràn ngập web mở và việc xác minh nguồn trở nên quan trọng sống còn.
Tương Lai Của Tìm Kiếm
Các mô hình trong dữ liệu này chỉ rõ ràng về nơi AI tìm kiếm đang hướng tới trong phần còn lại của năm 2026. Đây là những gì tôi tự tin dựa trên các quỹ đạo mà tôi đã theo dõi.
Các mô hình lớp Flash sẽ trở thành tiêu chuẩn cho tìm kiếm. Dữ liệu là rõ ràng. Đối với các tác vụ truy xuất, các mô hình tối ưu hóa tốc độ vượt trội hơn các mô hình nặng về suy luận. Mọi nhà cung cấp lớn sẽ xuất xưởng một mô hình nhẹ dành riêng cho tìm kiếm trong vòng vài tháng. Sự phân biệt giữa "mô hình tìm kiếm" và "mô hình nghiên cứu" sẽ trở nên tự nhiên như sự phân biệt giữa tìm kiếm web và cơ sở dữ liệu học thuật.
Tìm kiếm không suy luận trở thành một danh mục được công nhận. Biến thể không suy luận của GPT-5.2 ở vị trí #5 đã xác nhận khái niệm này. Việc loại bỏ chuỗi suy nghĩ khỏi các mô hình tìm kiếm không phải là hạ cấp — đó là một sự tối ưu hóa cho một hồ sơ nhiệm vụ cụ thể. Mong đợi các mô hình tìm kiếm chuyên dụng bỏ qua hoàn toàn suy luận có chủ ý và tập trung vào xác định và trích xuất nguồn nhanh chóng.
Anthropic sẽ thách thức top 5. Quỹ đạo của họ — tăng gấp đôi từ hai lên bốn mô hình với vị trí cao nhất từ trước đến nay của họ ở vị trí #7 — báo hiệu sự đầu tư tập trung. Sự khiêm tốn về nhận thức của Claude định vị nó một cách độc đáo cho việc áp dụng doanh nghiệp, nơi sự tự tin thái quá mang lại trách nhiệm pháp lý và tài chính thực sự.
Sự điều phối đa mô hình trở thành xu hướng chính. Hãy nhìn vào sự nén ở giữa bảng: các vị trí từ #9 đến #17 chỉ cách nhau 12 điểm. Chín mô hình, gần như không thể phân biệt được về hiệu suất tổng hợp, mỗi mô hình có những điểm mạnh khác nhau một cách có ý nghĩa. Các chuyên gia tôi làm việc cùng đã định tuyến các loại truy vấn khác nhau đến các mô hình khác nhau. Các công cụ tự động hóa sự điều phối này sẽ nổi lên như một danh mục sản phẩm theo đúng nghĩa của chúng.
Xác minh trích dẫn trở thành chiến trường tiếp theo. Khi nội dung do AI tạo ra tiếp tục bão hòa web, việc chứng minh rằng các nguồn của bạn là thật — và câu trả lời của bạn bắt nguồn từ một tài liệu do con người tạo ra có thể kiểm chứng — sẽ chuyển từ một thứ tốt-nên-có sang một kỳ vọng cơ bản. Perplexity đã tiên phong trong cách tiếp cận này, nhưng mọi sản phẩm tìm kiếm nghiêm túc sẽ cần nó.
Bộ Công Cụ Tìm Kiếm Của Tôi
Sự Thật Có Thẩm Quyền
Gemini 3 Flash Grounding — hai thập kỷ lập chỉ mục cộng với tốc độ. Số #1 mới có lý do.
Tổng Hợp Phức Tạp
GPT-5.2 Search — đọc ý định, không phải từ khóa. Cấu trúc các quan điểm trái chiều tốt hơn bất cứ thứ gì khác.
Truy Vấn Rủi Ro Cao
Claude Opus 4.5 Search — khi sự tự tin thái quá tốn tiền, hãy chọn mô hình thừa nhận sự không chắc chắn.
Nhịp Đập Thời Gian Thực
Grok 4.1 Fast Search — những gì mọi người đang thảo luận ngay bây giờ, trước khi bất kỳ ai viết bài báo.
Hiển Thị Nguồn Của Bạn
Perplexity Sonar Reasoning Pro — khi bạn cần chứng minh điều đó, không chỉ nói nó.
Kiểm Tra Thực Tế Nhanh
GPT-5.2 Non-Reasoning Search — câu trả lời nhanh, sạch sẽ mà không có chi phí suy luận.
Nhà nghiên cứu giỏi nhất mà tôi biết không sử dụng một công cụ tìm kiếm. Cô ấy sử dụng năm — mỗi công cụ được điều chỉnh cho một loại sự thật khác nhau. Đó không phải là sự kém hiệu quả. Đó là chuyên môn. Kỷ nguyên của "một công cụ tìm kiếm để thống trị tất cả" đã kết thúc. Hãy làm chủ sự kết hợp (ensemble).
Nguồn Dữ Liệu: Bảng xếp hạng từ Search Arena Leaderboard, ngày 29 tháng 1 năm 2026.
Thảo luận
0 bình luậnĐể lại bình luận
Hãy là người đầu tiên chia sẻ suy nghĩ của bạn!