【AI+2513】Giải pháp trí tuệ nhân tạo ra mắt mô hình nền mã hóa đa phương thức cho lập trình trực quan GLM-5V-Turbo

SocialAnxietyStaker · 2026-04-02T02:47:26+00:00

Chương trình Zhipu đã ra mắt mô hình nền lập trình đa mô thức GLM-5V-Turbo vào thứ Năm, có khả năng hiểu thị giác và văn bản, có thể tạo mã chạy được và khám phá GUI. Mô hình này thể hiện xuất sắc trong việc phục hồi bản thiết kế, mã hóa thị giác và các lĩnh vực khác, đồng thời có thể đối phó với việc sao chép giao diện phía trước và chỉnh sửa tương tác, thậm chí mở rộng sang việc tạo báo cáo tài chính. GLM-5V-Turbo hỗ trợ nhiều kịch bản ứng dụng, thể hiện khả năng đa mô thức mạnh mẽ và năng lực tăng cường của Agent.

SocialAnxietyStaker

2026-04-02 02:47:26

Đang tạo bản tóm tắt

Một trong những công ty dẫn đầu về trí tuệ nhân tạo AI tại Trung Quốc đại lục, Zhipu （02513） Thứ Năm (ngày 2) công bố mô hình nền tảng lập trình đa phương thức Coding GLM-5V-Turbo dành cho lập trình trực quan.

Zhipu cho biết, GLM-5V-Turbo tích hợp sâu năng lực nhìn và văn bản ngay từ giai đoạn tiền huấn luyện; việc lập trình không còn bị giới hạn ở việc nhập văn bản thuần túy. Mô hình có thể hiểu bản thiết kế, ảnh chụp màn hình, giao diện trang web và từ đó tạo ra mã hoàn chỉnh có thể chạy được, thực sự làm được “nhìn hiểu được màn hình, viết ra được mã”.

Ba điểm nổi bật của GLM-5V-Turbo

Nền tảng Coding đa phương thức nguyên sinh: Hiểu nguyên sinh các đầu vào đa phương thức như hình ảnh, video, bản thiết kế, bố cục tài liệu,… và hỗ trợ gọi các công cụ đa phương thức như vẽ khung, chụp màn hình, đọc trang web,… Cửa sổ ngữ cảnh mở rộng lên 200k
Cân bằng năng lực giữa thị giác và lập trình: Trong các chuẩn mực cốt lõi như Multi-modal Coding, Tool Use, GUI Agent,… đạt hiệu suất dẫn đầu. Thông qua các phương pháp kỹ thuật như RL phối hợp đa nhiệm, đảm bảo các năng lực như lập trình, suy luận và gọi công cụ trong các tình huống chỉ dùng văn bản không bị suy giảm.
Thích sâu với Claude Code và kịch bản “Tôm hùm”: Phối hợp sâu với các Agent như Claude Code, OpenClaw/AutoClaw, hỗ trợ vòng khép kín hoàn chỉnh “hiểu môi trường → lập kế hoạch hành động → thực hiện nhiệm vụ”, đồng thời cung cấp đầy đủ bộ Skills chính thức, cắm là dùng.

Zhipu cho biết, ở các chuẩn mực đánh giá về Multi-modal Coding, nhiệm vụ mang tính Agentic và các chiều kích Coding thuần văn bản, GLM-5V-Turbo đều đạt kết quả dẫn đầu với kích thước mô hình nhỏ hơn.

	![](https://img-cdn.gateio.im/social/moments-d1c5841902-024843c1ac-8b7abd-badf29)

GLM-5V-Turbo cũng đạt hiệu suất dẫn đầu trên các chuẩn mực như khôi phục bản thiết kế, tạo mã bằng thị giác, truy xuất và trả lời câu hỏi đa phương thức, thăm dò bằng thị giác,…; đồng thời thể hiện nổi bật tương tự trên các chuẩn mực đo khả năng điều khiển thực sự trong môi trường GUI như AndroidWorld, WebVoyager.

Về năng lực Coding thuần văn bản, GLM-5V-Turbo trong các bài kiểm tra ba chuẩn mực cốt lõi của CC-Bench-V2 gồm Backend, Frontend và Repo Exploration đều duy trì hiệu suất ổn định, cho thấy sau khi đưa năng lực thị giác vào, năng lực lập trình và suy luận thuần văn bản vẫn giữ nguyên mức tương đương.

	![](https://img-cdn.gateio.im/social/moments-ad1d8e7241-eb753f4f45-8b7abd-badf29)

Theo giới thiệu, GLM-5V-Turbo đạt lợi thế về hiệu năng nhờ các nâng cấp mang tính hệ thống ở bốn lớp: kiến trúc mô hình, phương pháp huấn luyện, cấu trúc dữ liệu và chuỗi công cụ:

Trước thách thức của ngành là dữ liệu Agent khan hiếm và việc xác minh khó khăn, Zhipu xây dựng một hệ thống đa tầng từ cảm nhận cấp độ phần tử đến dự đoán hành động cấp độ chuỗi. Dựa trên môi trường tổng hợp, tạo quy mô lớn dữ liệu huấn luyện có thể kiểm soát và có thể xác minh, đồng thời ngay từ giai đoạn tiền huấn luyện đã đưa vào năng lực siêu cấp Agentic (ví dụ: đưa dữ liệu PRM của GUI Agent vào tiền huấn luyện để giảm ảo giác). Song song đó, cũng khám phá tối ưu hóa bất đối xứng, dùng các nhiệm vụ đánh giá đa phương thức để “bẩy” năng lực Agent mạnh hơn.

Có thể lập trình trực tiếp bằng Cap hình

Về ứng dụng, Zhipu nêu ví dụ:

Hình ảnh là mã

GLM-5V-Turbo đặc biệt giỏi trong các kịch bản lập trình thị giác cốt lõi.

Phục chế giao diện Front-end: gửi bản phác thảo, bản thiết kế, ảnh chụp màn hình hoặc video ghi lại của trang web tham chiếu, mô hình có thể hiểu trực tiếp bố cục, phối màu, cấp độ thành phần và logic tương tác, tạo ra một dự án front-end hoàn chỉnh có thể chạy được, tái hiện chính xác các chi tiết thị giác như bố cục, phối màu, chuyển động hiệu ứng.

Khám phá và phục chế tự chủ GUI: kết hợp các khung như Claude Code, GLM-5V-Turbo nhờ năng lực GUI Agent mạnh mẽ của bản thân có thể tự động khám phá website mục tiêu, duyệt cấu trúc trang, hệ thống hóa quan hệ nhảy giữa các trang, thu thập chất liệu thị giác và chi tiết tương tác. Cuối cùng, dựa trên kết quả thăm dò được ghi lại, trực tiếp tạo mã để tái hiện lại toàn bộ website, thực hiện bước nhảy từ “phục chế bằng cách nhìn hình” đến “phục chế bằng cách khám phá GUI”.

Chỉnh sửa tương tác: hỗ trợ thêm/xóa mô-đun trang theo nhu cầu, sửa lời văn và kiểu dáng, điều chỉnh cấu trúc bố cục, đồng thời có thể bổ sung các chức năng tương tác như phản hồi nút, chuyển đổi pop-up, liên động form, v.v. để đạt chỉnh sửa lặp lại theo kiểu trực quan.

Gắn “mắt” cho tôm hùm

Ranh giới nhiệm vụ của tôm hùm được mở rộng đáng kể, ví dụ có thể duyệt web và tài liệu, tạo báo cáo, PPT giàu hình ảnh và nội dung chữ; đồng thời có thể tra cứu và diễn giải các biểu đồ phức tạp như biểu đồ K-line.

Skill “nhà phân tích cổ phiếu” của AutoClaw đã ra mắt. Nhờ năng lực thị giác nguyên sinh của GLM-5V-Turbo, tôm hùm có thể trực tiếp hiểu diễn biến đường giá cổ phiếu, biểu đồ khoảng định giá và biểu đồ báo cáo nghiên cứu của công ty chứng khoán, thực hiện thu thập song song bốn nguồn dữ liệu trong 60 giây, xuất ra báo cáo nghiên cứu với bố cục xen kẽ giữa hình ảnh và chữ. Hiện có thể chuyển sang GLM-5V-Turbo trong AutoClaw, thử đặt câu hỏi “Giúp tôi phân tích giá cổ phiếu hôm nay XXX, tạo báo cáo phân tích chuyên nghiệp”.

Ngoài lập trình bằng thị giác và nhiệm vụ của tôm hùm, GLM-5V-Turbo cũng đạt mức tăng hiệu năng đáng kể trong các kịch bản Agentic rộng hơn như tìm kiếm đa phương thức, nghiên cứu sâu, GUI Agent, Grounding dựa trên tri giác,…

Vì vậy, cung cấp một bộ Skills chính thức, bao gồm các năng lực nguyên sinh như Image Captioning, visual Grounding, viết dựa trên tài liệu, sàng lọc CV, tạo prompt, v.v., đồng thời có các năng lực nhận dạng văn bản, nhận dạng bảng, nhận dạng chữ viết tay, nhận dạng công thức và năng lực chuyển từ văn bản sang hình ảnh được xây dựng dựa trên GLM-OCR và GLM-Image. Điều này giúp người dùng khai phóng tiềm năng đa phương thức của mô hình trong nhiều bối cảnh hơn. Các Skills nêu trên đã được đưa lên ClawHub; chỉ cần cài đặt một lần là có thể trải nghiệm toàn bộ năng lực.

		Tin nóng tài chính - Hot Talk
	





	Đánh lâu dài giữa Mỹ và Iran? Thị trường đang đánh giá thấp rủi ro suy thoái kinh tế toàn cầu?

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.