Suy luận toán học không còn là chiến thắng của một nhà vô địch duy nhất nữa. Nó được chiến thắng bởi những người biết khi nào nên sử dụng mô hình nào cho vấn đề nào.
Tôi đã làm mới Đấu trường Toán học sáng nay và phải nhìn lại hai lần. Lần đầu tiên kể từ khi tôi bắt đầu theo dõi các bảng xếp hạng này, OpenAI không còn ngồi ở vị trí đầu bảng nữa. Gemini 3 Pro của Google đã chiếm lấy vương miện trong suy luận toán học, và câu chuyện chỉ trở nên kỳ lạ hơn từ đó. Một công ty khởi nghiệp có trụ sở tại Bắc Kinh tên là Moonshot vừa hạ cánh trên bục vinh quang với một mô hình mà hầu hết các nhà phát triển phương Tây thậm chí còn chưa thử. Sau nhiều tuần thử nghiệm căng thẳng các đối thủ hàng đầu về mọi thứ, từ tổ hợp olympic đến phân tích thực tế cấp độ sau đại học, đây là những gì dữ liệu tháng 2 cho chúng ta biết về việc AI toán học thực sự đang đi về đâu.
Bảng Xếp Hạng Toán Học
Toán học vẫn là thước đo trung thực nhất trong AI. Bạn không thể dùng sự quyến rũ để giải một phương trình vi phân hoặc ảo giác ra một chứng minh đúng. Một câu trả lời là đúng hoặc không. Sự rõ ràng nhị phân đó là điều khiến Math Arena trở thành thước đo mà tôi tin tưởng nhất khi đánh giá liệu một mô hình có thực sự biết suy luận hay không. Dưới đây là tất cả 60 mô hình được xếp hạng tính đến tháng 2 năm 2026.
| Xếp Hạng | Mô Hình | Điểm | Phiếu Bầu | Tổ Chức |
|---|---|---|---|---|
🥇 | Gemini 3 Pro | 1484 | 2,252 | |
🥈 | Gemini 3 Flash | 1475 | 1,616 | |
🥉 | Kimi K2.5 Thinking | 1475 | 413 | Moonshot |
#4 | Gpt 5.2 High | 1469 | 952 | OpenAI |
#5 | Claude Opus 4 5 20251101 | 1469 | 1,879 | Anthropic |
#6 | Gpt 5.1 High | 1467 | 1,862 | OpenAI |
#7 | Claude Opus 4 5 20251101 Thinking 32k | 1467 | 1,585 | Anthropic |
#8 | Gemini 3 Flash (thinking Minimal) | 1464 | 1,038 | |
#9 | Ernie 5.0 0110 | 1462 | 580 | Baidu |
#10 | Claude Sonnet 4 5 20250929 Thinking 32k | 1458 | 2,657 | Anthropic |
#11 | O3 2025 04 16 | 1453 | 3,885 | OpenAI |
#12 | Gemini 2.5 Pro | 1451 | 5,845 | |
#13 | Grok 4.1 Thinking | 1450 | 2,058 | xAI |
#14 | Claude Opus 4 1 20250805 Thinking 16k | 1446 | 3,059 | Anthropic |
#15 | Qwen3 Max Preview | 1442 | 1,539 | Alibaba |
#16 | Kimi K2 Thinking Turbo | 1440 | 1,949 | Moonshot |
#17 | Gpt 5 High | 1439 | 1,939 | OpenAI |
#18 | Gpt 5.2 | 1438 | 698 | OpenAI |
#19 | Grok 4 0709 | 1438 | 2,309 | xAI |
#20 | Claude Opus 4 1 20250805 | 1435 | 4,553 | Anthropic |
#21 | Qwen3 Max 2025 09 23 | 1434 | 586 | Alibaba |
#22 | Grok 4.1 | 1433 | 2,552 | xAI |
#23 | Glm 4.7 | 1433 | 720 | Z.ai |
#24 | Grok 4 Fast Chat | 1430 | 403 | xAI |
#25 | Deepseek V3.2 Exp Thinking | 1429 | 478 | DeepSeek |
#26 | Deepseek V3.2 | 1429 | 1,680 | DeepSeek |
#27 | Claude Sonnet 4 5 20250929 | 1427 | 2,681 | Anthropic |
#28 | Deepseek V3.2 Exp | 1426 | 785 | DeepSeek |
#29 | Glm 4.6 | 1425 | 2,132 | Z.ai |
#30 | Qwen3 235b A22b Instruct 2507 | 1424 | 4,158 | Alibaba |
#31 | Longcat Flash Chat | 1424 | 694 | Meituan |
#32 | Qwen3 Next 80b A3b Instruct | 1423 | 1,232 | Alibaba |
#33 | Deepseek V3.1 Thinking | 1421 | 673 | DeepSeek |
#34 | Gpt 5.1 | 1421 | 2,191 | OpenAI |
#35 | Claude Opus 4 20250514 Thinking 16k | 1421 | 2,355 | Anthropic |
#36 | O4 Mini 2025 04 16 | 1419 | 3,042 | OpenAI |
#37 | Deepseek V3.1 | 1419 | 1,010 | DeepSeek |
#38 | Glm 4.5 | 1418 | 1,455 | Z.ai |
#39 | Kimi K2 0905 Preview | 1417 | 763 | Moonshot |
#40 | Gpt 5 Chat | 1417 | 1,813 | OpenAI |
#41 | Deepseek V3.1 Terminus Thinking | 1416 | 203 | DeepSeek |
#42 | Gemini 2.5 Flash Preview 09 2025 | 1415 | 1,955 | |
#43 | Qwen3 Vl 235b A22b Instruct | 1415 | 714 | Alibaba |
#44 | Grok 4 Fast Reasoning | 1415 | 1,085 | xAI |
#45 | Grok 4 1 Fast Reasoning | 1415 | 1,677 | xAI |
#46 | Gemini 2.5 Flash | 1414 | 6,074 | |
#47 | Gpt 4.5 Preview 2025 02 27 | 1414 | 1,384 | OpenAI |
#48 | Gpt 5 Mini High | 1413 | 1,460 | OpenAI |
#49 | Deepseek R1 | 1413 | 1,609 | DeepSeek |
#50 | Ernie 5.0 Preview 1203 | 1413 | 632 | Baidu |
#51 | Ernie 5.0 Preview 1022 | 1412 | 268 | Baidu |
#52 | O1 2024 12 17 | 1412 | 2,980 | OpenAI |
#53 | Qwen3 Vl 235b A22b Thinking | 1411 | 419 | Alibaba |
#54 | Mistral Large 3 | 1410 | 1,471 | Mistral |
#55 | O3 Mini High | 1409 | 1,906 | OpenAI |
#56 | Deepseek V3.2 Thinking | 1409 | 1,273 | DeepSeek |
#57 | Claude Sonnet 4 20250514 Thinking 32k | 1407 | 2,131 | Anthropic |
#58 | Qwen3 235b A22b Thinking 2507 | 1406 | 506 | Alibaba |
#59 | Hunyuan T1 20250711 | 1406 | 242 | Tencent |
#60 | Mistral Medium 2508 | 1405 | 3,912 | Mistral |
Google Giành Vương Miện
Tôi đã quan sát sự phát triển của AI toán học của Google trong ba năm, và những gì họ đã đạt được trong tháng này không có gì khác ngoài sự đáng chú ý. Gemini 3 Pro không chỉ giành được Huy chương Vàng. Nó đã đến với khoảng cách rõ ràng so với các đối thủ. Nhưng nước đi thực sự? Gemini 3 Flash ngồi ngay phía sau ở vị trí Bạc. Google hiện đang nắm giữ cả Vàng và Bạc đồng thời trong Đấu trường Toán học. Điều đó chưa từng xảy ra trước đây.
Điều làm cho việc này trở nên quan trọng vượt ra ngoài bảng xếp hạng. Đó là chiến lược kiến trúc. Gemini 3 Pro là hạng nặng, được xây dựng cho độ sâu suy luận tối đa, loại mô hình bạn hướng vào các chứng minh cấp độ nghiên cứu và các suy diễn đa bước. Gemini 3 Flash được tối ưu hóa cho tốc độ và chi phí. Việc một mô hình tối ưu hóa tốc độ có thể cạnh tranh ở cấp độ Bạc cho chúng ta biết Google đã giải quyết được một điều gì đó cơ bản về cách làm cho suy luận toán học nhanh hơn mà không hy sinh độ chính xác. Biến thể tư duy tối thiểu (thinking-minimal) ở vị trí số 8 cung cấp thêm một sự đánh đổi giữa giá cả và hiệu suất, và những chú ngựa thồ cũ như Gemini 2.5 Pro ở vị trí 12 và Gemini 2.5 Flash ở vị trí 46 vẫn tiếp tục phục vụ đáng tin cậy.
Google đặt sáu mô hình trong top 60 qua ba thế hệ và nhiều mức giá. Họ không xây dựng một mô hình toán học tuyệt vời. Họ đang xây dựng toàn bộ ngăn xếp suy luận toán học, từ Flash giá cả phải chăng đến Pro hàng đầu, tất cả đều chia sẻ những tiến bộ cơ bản giống nhau.
Dự đoán của tôi: Google sẽ giữ vị trí dẫn đầu này ít nhất là đến giữa năm 2026. Cách tiếp cận của họ trong việc nhúng suy luận toán học như một khả năng cốt lõi trên toàn bộ dòng sản phẩm, thay vì tập trung nó vào một sản phẩm chủ lực, đang mang lại cổ tức kép. Nếu bạn đang xây dựng bất cứ thứ gì yêu cầu tính toán toán học đáng tin cậy, từ mô hình tài chính đến mô phỏng khoa học, Gemini nên là cuộc gọi đầu tiên của bạn ngay bây giờ.
Sự Bất Ngờ Moonshot
Đây là câu chuyện mà không ai viết ba tháng trước. Kimi K2.5 Thinking của Moonshot đã hạ cánh ở vị trí số 3, bằng điểm với Gemini 3 Flash cho vị trí Bạc. Hãy để điều đó thấm nhuần. Một mô hình từ một công ty khởi nghiệp được thành lập vào năm 2023 có trình độ toán học ngang bằng với sản phẩm tốt thứ hai của Google.
Tôi đã thử nghiệm Kimi K2.5 Thinking rộng rãi, và điều làm tôi ấn tượng là cách tiếp cận của nó đối với suy luận mở rộng. Nơi các mô hình tư duy khác đôi khi tạo ra các chuỗi suy nghĩ dài dòng đi vòng quanh một vấn đề trước khi hạ cánh, suy luận của Kimi cảm thấy gần như trực tiếp đến mức đáng lo ngại. Nó xác định cấu trúc toán học cốt lõi một cách nhanh chóng, sau đó xây dựng hướng tới giải pháp với ít đường vòng nhất. Đối với các vấn đề kiểu thi đấu nơi bạn cần cả độ chính xác và một chuỗi logic sạch sẽ, sự trực tiếp đó là một lợi thế thực sự.
Moonshot đặt ba mô hình trong top 60: Kimi K2.5 Thinking ở vị trí số 3, Kimi K2 Thinking Turbo ở vị trí số 16, và Kimi K2 ở vị trí số 39. Ba cấp độ, một triết lý kiến trúc. Loại sự hiện diện đa cấp độ này từ một công ty khởi nghiệp là chưa từng có. Thông điệp rất rõ ràng: kỷ nguyên mà chỉ các công ty nghìn tỷ đô la mới có thể xây dựng AI toán học đẳng cấp thế giới đã kết thúc. Đầu tư nghiên cứu tập trung vào kiến trúc suy luận có thể cạnh tranh với ngân sách tính toán khổng lồ. Mong đợi nhiều phòng thí nghiệm sẽ làm theo kịch bản này trong suốt năm 2026.
OpenAI Sau Ngai Vàng
Hãy để tôi nói thẳng. GPT-5.2 High, vốn giữ Huy chương Vàng kể từ khi ra mắt, hiện đang ngồi ở vị trí số 4, hòa với Claude Opus 4.5. Vương miện đã bị lấy đi. Nhưng trước khi có ai viết cáo phó, hãy nhìn vào bức tranh toàn cảnh.
OpenAI vẫn đặt mười hai mô hình trong top 60, nhiều hơn bất kỳ tổ chức nào khác. Đó không phải là một công ty đang khủng hoảng. Đó là một công ty có chiều sâu hệ sinh thái đến mức ngay cả khi mất vị trí số 1, họ vẫn thống trị các tầng trung và cao cấp. GPT-5.1 High giữ vị trí số 6. Mô hình suy luận o3 ở vị trí số 11 vẫn là lựa chọn của tôi cho các vấn đề cấp độ thi đấu đòi hỏi tính toán đa bước sâu sắc. GPT-5 High ở vị trí 17, GPT-5.2 tiêu chuẩn ở vị trí 18, và o4-mini ở vị trí 36 cung cấp cho các nhà xây dựng các tùy chọn ở mọi mức giá và yêu cầu độ trễ.
Lợi Thế Dòng o
Các mô hình suy luận chuyên dụng của OpenAI (o3, o4-mini, o1, o3-mini) chiếm bốn vị trí trong top 60. Đối với các vấn đề đòi hỏi tính toán mở rộng, chứng minh bất đẳng thức, thỏa mãn ràng buộc, hoặc các lập luận tổ hợp, thời gian suy nghĩ có thể điều chỉnh của dòng o vẫn mạnh mẽ một cách độc đáo. Không nhà cung cấp nào khác cung cấp mức độ kiểm soát độ sâu suy luận này.
Nhìn về phía trước, tôi tin rằng phản ứng của OpenAI sẽ đến nhanh chóng. Khoảng cách giữa GPT-5.2 High và Gemini 3 Pro không phải là không thể vượt qua, và mô hình của OpenAI luôn là lặp lại tích cực sau khi mất vị thế. Tôi sẽ không ngạc nhiên khi thấy GPT-5.3 hoặc một bản cập nhật suy luận quan trọng trước mùa hè. Câu chuyện sâu sắc hơn ở đây không phải là một sự sụp đổ. Đó là đỉnh của Đấu trường Toán học hiện nay cạnh tranh khốc liệt đến mức việc giữ vị trí số 1 đòi hỏi sự đổi mới liên tục, không phải là một bản phát hành mạnh mẽ duy nhất.
Cuộc Cách Mạng Mô Hình Tư Duy
Quét qua top 10 của bảng xếp hạng này và đếm xem có bao nhiêu tên mô hình bao gồm từ "thinking" (tư duy). Câu trả lời rất rõ ràng: Kimi K2.5 Thinking ở vị trí số 3, Claude Opus 4.5 Thinking ở vị trí số 7, Gemini 3 Flash thinking-minimal ở vị trí số 8, Claude Sonnet 4.5 Thinking ở vị trí số 10. Mở rộng ra top 20 và chúng có mặt ở khắp mọi nơi. Đây là sự thay đổi cấu trúc lớn nhất trong AI toán học trong năm qua.
Các mô hình này phân bổ thêm tính toán tại thời điểm suy luận để giải quyết các vấn đề từng bước trước khi cam kết một câu trả lời. Đó là tương đương AI của một nhà toán học với lấy giấy nháp trước khi viết chứng minh cuối cùng. Kết quả là không thể nhầm lẫn: các biến thể tư duy liên tục vượt trội hơn các đối tác tiêu chuẩn của chúng trong các nhiệm vụ toán học.
Việc triển khai của Anthropic kể câu chuyện này đặc biệt tốt. Claude Opus 4.5 Thinking-32k ở vị trí số 7 vượt trội hơn Opus 4.5 tiêu chuẩn ở vị trí số 5 khi được cung cấp không gian để suy luận. Claude Sonnet 4.5 Thinking ở vị trí số 10 đấm vượt xa hạng cân của nó, lọt vào top 10 mặc dù là một mô hình tầm trung theo thiết kế. Anthropic đặt tổng cộng tám mô hình trong top 60, và dấu ấn của họ vẫn là sự rõ ràng sư phạm. Khi tôi cần một mô hình không chỉ giải quyết một vấn đề mà còn giải thích tại sao giải pháp hoạt động theo cách mà một học sinh có thể thực sự học hỏi, Claude vẫn là vô song.
Dự đoán của tôi: đến cuối năm 2026, sự phân biệt giữa các mô hình "tiêu chuẩn" và "tư duy" sẽ biến mất. Mọi mô hình sẽ phân bổ động thời gian suy luận dựa trên độ phức tạp của vấn đề. Thế hệ hiện tại của các biến thể tư duy được dán nhãn rõ ràng là một bước chuyển tiếp hướng tới suy luận thích ứng phổ quát.
Kết luận thực tế rất đơn giản: nếu độ chính xác quan trọng hơn độ trễ, hãy luôn chọn biến thể tư duy. Sự nâng cao toán học là nhất quán và có thật. Đối với các ứng dụng sản xuất nơi thời gian phản hồi là rất quan trọng, các biến thể tiêu chuẩn vẫn xuất sắc. Nhưng đối với nghiên cứu, giáo dục, hoặc bất kỳ kịch bản nào mà việc có được câu trả lời đúng là tối quan trọng, các mô hình tư duy là hiện tại và tương lai.
Bối Cảnh Toán Học Toàn Cầu
Kéo máy quay lại và địa lý của bảng xếp hạng này kể câu chuyện của riêng nó. Trong số 60 mô hình được xếp hạng, 26 đến từ các tổ chức Trung Quốc. Đó là 43% của toàn bộ lĩnh vực. Các phòng thí nghiệm Mỹ nắm giữ 32 vị trí ở mức 53%, và Mistral mang lại đại diện châu Âu với hai mô hình. Khả năng AI toán học hiện nay thực sự đa cực, và sự thay đổi đó đã tăng tốc nhanh hơn hầu hết mọi người dự đoán.
DeepSeek nổi bật với tám mô hình trong top 60, ngang bằng với Anthropic cho số lượng cao thứ hai sau OpenAI. Gia đình v3.2 trên các vị trí #25, #26, #28 và #56 cung cấp một phạm vi ấn tượng, trong khi loạt v3.1 và DeepSeek R1 đã qua thử lửa ở vị trí #49 lấp đầy các tầng giữa. Điều làm cho DeepSeek đáng chú ý là tỷ lệ chi phí trên khả năng. Trong thử nghiệm của tôi, DeepSeek V3.2 cung cấp hiệu suất toán học top 30 với khoảng một phần năm mức phí mà các mô hình hàng đầu tính. Đối với các đội ngũ hoạt động ở quy mô lớn với ngân sách hạn chế, tỷ lệ đó là mang tính chuyển đổi.
Gia đình Qwen3 của Alibaba đóng góp bảy mô hình, từ Qwen3 Max Preview ở vị trí #15 xuống các biến thể trọng số mở mà các nhà phát triển có thể tinh chỉnh trên cơ sở hạ tầng của riêng họ. Chiến lược trọng số mở đó quan trọng đối với các ngành công nghiệp có yêu cầu chủ quyền dữ liệu, và đó là một cuộc chơi hệ sinh thái có chủ ý. Gia đình Grok của xAI đặt sáu mô hình, dẫn đầu bởi Grok 4.1 Thinking ở vị trí #13, tiếp tục tìm ra các lối tắt thanh lịch trong các vấn đề kiểu chứng minh. Dòng GLM của Z.ai nắm giữ ba vị trí, Baidu đóng góp ba biến thể ERNIE, và chúng ta cũng thấy các mục từ Meituan và Tencent.
Độ sâu và độ rộng của sự tham gia cho tôi biết AI toán học đang đi về đâu: đây không còn là cuộc đua giữa hai hoặc ba người dẫn đầu. Đó là một hệ sinh thái, và hệ sinh thái đang trở nên phong phú hơn mỗi tháng. Không một quốc gia, công ty hay truyền thống nghiên cứu nào có thể tuyên bố độc quyền về suy luận toán học nữa. Và đối với những người trong chúng ta đang xây dựng dựa trên các công cụ này, sự cạnh tranh đó là điều tốt nhất có thể xảy ra.
Hướng Dẫn Thực Địa Của Tôi
Sau nhiều năm thử nghiệm các mô hình này trên mọi thứ, từ các vấn đề olympic đến các tính toán kỹ thuật trong thế giới thực, đây là câu hỏi mà các nhà xây dựng liên tục hỏi tôi: tôi thực sự nên sử dụng mô hình nào? Câu trả lời trung thực phụ thuộc hoàn toàn vào những gì bạn đang xây dựng.
Độ Chính Xác Cấp Độ Nghiên Cứu
Gemini 3 Pro ở vị trí #1. Sản phẩm chủ lực của Google dẫn đầu về khả năng toán học thô. Lựa chọn đầu tiên của tôi cho các vấn đề mới lạ nơi sự chính xác là không thể thương lượng.
Tốc Độ Không Hy Sinh
Gemini 3 Flash ở vị trí #2. Độ chính xác gần bục vinh quang với độ trễ và chi phí thấp hơn đáng kể. Hoàn hảo cho các đường ống toán học sản xuất cần cả chất lượng và thông lượng.
Ngựa Ô
Kimi K2.5 Thinking ở vị trí #3. Cách tiếp cận suy luận của Moonshot hiệu quả đáng kể. Đáng để khám phá nghiêm túc nếu bạn chưa làm, đặc biệt là đối với các vấn đề kiểu thi đấu.
Độ Sâu Hệ Sinh Thái
OpenAI với mười hai mô hình trên mọi cấp độ. Dòng o cho toán học thi đấu, GPT-5.x cho suy luận chung. Không nhà cung cấp nào khác cung cấp phạm vi này.
Giải Thích Tốt Nhất
Claude với tám mô hình trong top 60. Khi hiểu tại sao một câu trả lời đúng quan trọng ngang với chính câu trả lời đó. Sự rõ ràng sư phạm vô song.
Nhà Vô Địch Ngân Sách
DeepSeek với tám mô hình trong top 60. Khả năng top 30 với một phần nhỏ chi phí. Cần thiết cho các nhóm xây dựng ở quy mô lớn hoặc trong môi trường nhạy cảm về chi phí.
Không có một AI toán học tốt nhất duy nhất. Chiến lược chiến thắng năm 2026 là điều phối: Gemini cho độ chính xác và tốc độ hàng đầu, dòng o của OpenAI cho suy luận sâu sắc, Claude cho khả năng giải thích, DeepSeek và Kimi cho hiệu quả. Xây dựng đường ống của bạn với nhiều nhà cung cấp và bạn sẽ liên tục vượt trội hơn bất kỳ mô hình đơn lẻ nào.
Nguồn Dữ Liệu: Xếp hạng từ Bảng Xếp Hạng Toán Học AI Arena, ngày 6 tháng 2 năm 2026.
Thảo luận
0 bình luậnĐể lại bình luận
Hãy là người đầu tiên chia sẻ suy nghĩ của bạn!