Báo cáo kỹ thuật của Zhipu GLM-5V-Turbo: Design2Code siêu Claude Opus4.6, xem ảnh chụp màn hình để viết mã trực tiếp

robot
Đang tạo bản tóm tắt

Thông báo từ Coinjie.com, Zhipu AI đã phát hành báo cáo kỹ thuật GLM-5V-Turbo, mô hình này đã ra mắt API z.ai và OpenRouter vào đầu tháng 4. Báo cáo lần này bổ sung phương pháp luận, mô hình chưa mở mã nguồn. GLM-5V-Turbo là mô hình nền lập trình đa phương thức đầu tiên của Zhipu, hỗ trợ ngữ cảnh khoảng 200k, có thể tích hợp với các khung tác nhân như Claude Code và OpenClaw. Mô hình tích hợp khả năng nhận thức thị giác vào toàn bộ quá trình suy luận, lập kế hoạch, gọi và thực thi công cụ từ giai đoạn tiền huấn luyện. Kiến trúc mô hình có ba thiết kế chính: bộ mã hóa thị giác mới CogVit, sử dụng SigLip2 và DinoV3 để huấn luyện giảng dạy kép qua phương pháp giảng dạy thầy giáo, và sử dụng 80 tỷ dữ liệu đa ngôn ngữ Trung-Anh dạng hình ảnh để học đối chiếu, căn chỉnh dự đoán đa phương thức đa token (MMTP), thay thế trực tiếp truyền tải nhúng thị giác bằng một token đặc biệt có thể học chung, giảm độ phức tạp trong truyền thông giữa các giai đoạn pipeline, huấn luyện ổn định hơn với học tăng cường hợp tác bao gồm cảm nhận, suy luận và thực thi của agent. Các điểm số cụ thể cho thấy, Design2Code đạt 94.8, vượt qua Claude Opus 4.6.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim