Vừa rồi Google lại gây bất ngờ lớn - ngày 19 tháng 2 họ ra mắt Gemini 3.1 Pro, và đây không chỉ là một bản cập nhật làm đẹp bề ngoài. Thật lòng, ngay cả tôi cũng đã ngạc nhiên khi thấy họ bỏ qua phiên bản 3.0 và nhảy ngay lên 3.1. Thường thì Google theo chu trình 1.0 - 1.5 - 2.0 - 2.5 - 3.0, nhưng lần này có gì đó khác biệt.



Điểm đặc biệt chính là không phải nâng cấp khả năng, mà là nâng cấp thực sự về trí tuệ của mô hình. Họ tích hợp công nghệ suy nghĩ sâu vào nền tảng, giúp mô hình giờ đây có thể cân nhắc vấn đề từ nhiều góc độ cùng lúc và chọn ra phương án tối ưu nhất. Trước đây, tính năng này là tùy chọn dành cho người đăng ký, còn bây giờ đã trở thành tiêu chuẩn.

Điều tôi thực sự ấn tượng khi thử nghiệm là mô hình đã phát hiện ra lỗi logic không rõ ràng trong mã, mà nhiều lập trình viên thường bỏ qua. Nó viết ra câu lệnh SQL tối ưu với các chỉ mục đúng đắn, giải thích nghịch lý Монти Холла sao cho ngay cả người không chuyên cũng hiểu. Đây không chỉ là trình bày facts - mà là suy luận thực sự.

Về các số liệu benchmark, con số thật sự ấn tượng:
- ARC-AGI-2 ( kiểm tra về logic ): 77.1% so với 31.1% của phiên bản trước. Gấp hơn hai rưỡi lần.
- Humanity's Last Exam: 44.4% - cao hơn GPT-5.2 (34.5% )

Nhưng không chỉ là số liệu. Các demo họ đăng tải thật sự gây ấn tượng. Mô hình đã phân tích bầu không khí của tiểu thuyết "Gió mùa" và tạo ra một trang portfolio phản ánh đúng không khí u tối của cuốn sách. Nó còn tạo ra mô phỏng 3D tương tác của đàn chim, có thể điều khiển bằng tay. Kết nối API của МКС và xây dựng dashboard không gian thực tế. Đây không chỉ là sinh mã - mà còn là hiểu biết về ngữ cảnh và sáng tạo.

Đa modality vẫn giữ ở mức cao cấp: văn bản, hình ảnh, video, âm thanh, PDF. Cửa sổ ngữ cảnh vẫn là hàng triệu token ( ví dụ như tải toàn bộ "Chiến tranh và hòa bình" ), nhưng giới hạn đầu ra tối đa đã tăng lên 64-65 nghìn token. Một cuốn sách nhỏ trong một lần gọi.

Tuy nhiên, điểm yếu mà cộng đồng nhận thấy chính là các nhiệm vụ văn phòng. Trong bài kiểm tra GDPval-AA ( trình bày, bảng biểu, tài liệu ), Gemini đạt 1317 điểm, còn Claude Sonnet 4.6 là 1633. Trong các bảng xếp hạng nơi mọi người bình chọn câu trả lời ưa thích, Claude vẫn dẫn đầu. Vậy nên, với mã phức tạp - Gemini là số 1, còn để làm các bài thuyết trình đẹp mắt - Claude vẫn tốt hơn.

Về giá cả, đây mới là phần hấp dẫn nhất. Google chưa tăng giá. Vào khoảng 2 đô la cho một triệu token ( nếu ngữ cảnh đến 200K ) hoặc 4 đô la ( nếu nhiều hơn ). Giá ra đầu ra là 12 hoặc 18 đô. So sánh: Claude Sonnet 4.6 yêu cầu 3 đô cho đầu vào và 15 đô cho đầu ra, GPT-5.2 là 10 và 30 đô, còn Claude Opus 4.6 thì 15 và 75 đô.

Thực tế: nếu bạn cần xử lý 100K token đầu vào và 10K token đầu ra:
- Gemini: 32 xu
- Claude Sonnet: 45 xu
- GPT-5.2: 1.30 đô
- Claude Opus: 2.25 đô

Gemini rẻ hơn Opus gấp 7 lần. Đối với các tải production, sự chênh lệch rõ rệt.

Artificial Analysis đã làm thử nghiệm: chạy tất cả các mô hình hàng đầu qua chỉ số Trí Tuệ của họ. Gemini tiêu tốn 56 triệu token và mất 892 đô. GPT-5.2 dùng 130 triệu (2304 đô ), Claude Opus là 58 triệu (2486 đô ). Tức là cùng một lượng trí tuệ, Gemini rẻ hơn gấp 2.6 lần.

Với người dùng phổ thông, có các gói đăng ký. Google AI Plus 8 đô/tháng - gồm chế độ Pro của Gemini 3.1 Pro, Deep Research, 1000 hình/ngày. Đủ dùng cho phần lớn người dùng. Google AI Pro 20 đô - 100 yêu cầu/ngày và 20 Deep Research. Google AI Ultra 250 đô - tất cả trên cộng thêm Deep Think và ưu tiên tối đa.

Tại sao Google không tăng giá? Có vài lý do. Thứ nhất, họ đặt cược vào khả năng tiếp cận rộng rãi - AI Studio miễn phí, token miễn phí dồi dào, API giá thấp. Thứ hai, cạnh tranh. Anthropic ra Claude Sonnet 4.6 - tỷ lệ giá trị tốt. OpenAI không ngủ quên. Để giữ chân nhà phát triển, cần giá hợp lý. Thứ ba, mô hình vẫn đang trong giai đoạn preview, nên Google có thể giảm giá để lấy phản hồi. Khi chính thức ra mắt, giá có thể sẽ thay đổi.

Nói chung? Đây là bản cập nhật rất tốt. Logic thực sự đã tiến bộ, giá không tăng, chất lượng mã ngày càng cao. Không hoàn hảo, nhưng rất hấp dẫn. Đặc biệt dành cho các nhà phát triển biết tính toán và đọc hiểu đặc tả.

Dĩ nhiên, vẫn có những điểm cần lưu ý. Nếu bạn cần mã hệ thống phức tạp, GPT-5.3-Codex có thể tốt hơn. Nếu làm các bài thuyết trình cho hội đồng quản trị - Claude Sonnet 4.6 cẩn thận hơn. Nếu làm việc với dữ liệu nhạy cảm - thì không mô hình nào trong số này phù hợp, vì tất cả đều chạy trên máy chủ Mỹ.

Nhưng điều quan trọng nhất là: các mô hình ra mắt hôm nay, ngày mai có thể đã lỗi thời. Trong khi tôi viết, các phòng lab của Google, OpenAI và Anthropic chắc chắn đã đào tạo ra cái gì đó mới rồi. Vì vậy, lời khuyên của tôi là: hãy lấy Gemini 3.1 Pro, thử nghiệm trên các nhiệm vụ thực tế của bạn. Nếu phù hợp - vui vẻ và tiết kiệm tiền. Nếu không - còn nhiều lựa chọn khác. Hiện tại, có rất nhiều mô hình tốt, và đó là tin vui lớn nhất.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.23KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:2
    0.24%
  • Vốn hóa:$2.23KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Ghim