Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
【AI+2513】Giải pháp trí tuệ nhân tạo ra mắt mô hình nền mã hóa đa phương thức cho lập trình trực quan GLM-5V-Turbo
Một trong những công ty dẫn đầu về trí tuệ nhân tạo AI tại Trung Quốc đại lục, Zhipu (02513) Thứ Năm (ngày 2) công bố mô hình nền tảng lập trình đa phương thức Coding GLM-5V-Turbo dành cho lập trình trực quan.
Zhipu cho biết, GLM-5V-Turbo tích hợp sâu năng lực nhìn và văn bản ngay từ giai đoạn tiền huấn luyện; việc lập trình không còn bị giới hạn ở việc nhập văn bản thuần túy. Mô hình có thể hiểu bản thiết kế, ảnh chụp màn hình, giao diện trang web và từ đó tạo ra mã hoàn chỉnh có thể chạy được, thực sự làm được “nhìn hiểu được màn hình, viết ra được mã”.
Ba điểm nổi bật của GLM-5V-Turbo
Zhipu cho biết, ở các chuẩn mực đánh giá về Multi-modal Coding, nhiệm vụ mang tính Agentic và các chiều kích Coding thuần văn bản, GLM-5V-Turbo đều đạt kết quả dẫn đầu với kích thước mô hình nhỏ hơn.
GLM-5V-Turbo cũng đạt hiệu suất dẫn đầu trên các chuẩn mực như khôi phục bản thiết kế, tạo mã bằng thị giác, truy xuất và trả lời câu hỏi đa phương thức, thăm dò bằng thị giác,…; đồng thời thể hiện nổi bật tương tự trên các chuẩn mực đo khả năng điều khiển thực sự trong môi trường GUI như AndroidWorld, WebVoyager.
Về năng lực Coding thuần văn bản, GLM-5V-Turbo trong các bài kiểm tra ba chuẩn mực cốt lõi của CC-Bench-V2 gồm Backend, Frontend và Repo Exploration đều duy trì hiệu suất ổn định, cho thấy sau khi đưa năng lực thị giác vào, năng lực lập trình và suy luận thuần văn bản vẫn giữ nguyên mức tương đương.
Theo giới thiệu, GLM-5V-Turbo đạt lợi thế về hiệu năng nhờ các nâng cấp mang tính hệ thống ở bốn lớp: kiến trúc mô hình, phương pháp huấn luyện, cấu trúc dữ liệu và chuỗi công cụ:
Trước thách thức của ngành là dữ liệu Agent khan hiếm và việc xác minh khó khăn, Zhipu xây dựng một hệ thống đa tầng từ cảm nhận cấp độ phần tử đến dự đoán hành động cấp độ chuỗi. Dựa trên môi trường tổng hợp, tạo quy mô lớn dữ liệu huấn luyện có thể kiểm soát và có thể xác minh, đồng thời ngay từ giai đoạn tiền huấn luyện đã đưa vào năng lực siêu cấp Agentic (ví dụ: đưa dữ liệu PRM của GUI Agent vào tiền huấn luyện để giảm ảo giác). Song song đó, cũng khám phá tối ưu hóa bất đối xứng, dùng các nhiệm vụ đánh giá đa phương thức để “bẩy” năng lực Agent mạnh hơn.
Có thể lập trình trực tiếp bằng Cap hình
Về ứng dụng, Zhipu nêu ví dụ:
GLM-5V-Turbo đặc biệt giỏi trong các kịch bản lập trình thị giác cốt lõi.
Phục chế giao diện Front-end: gửi bản phác thảo, bản thiết kế, ảnh chụp màn hình hoặc video ghi lại của trang web tham chiếu, mô hình có thể hiểu trực tiếp bố cục, phối màu, cấp độ thành phần và logic tương tác, tạo ra một dự án front-end hoàn chỉnh có thể chạy được, tái hiện chính xác các chi tiết thị giác như bố cục, phối màu, chuyển động hiệu ứng.
Khám phá và phục chế tự chủ GUI: kết hợp các khung như Claude Code, GLM-5V-Turbo nhờ năng lực GUI Agent mạnh mẽ của bản thân có thể tự động khám phá website mục tiêu, duyệt cấu trúc trang, hệ thống hóa quan hệ nhảy giữa các trang, thu thập chất liệu thị giác và chi tiết tương tác. Cuối cùng, dựa trên kết quả thăm dò được ghi lại, trực tiếp tạo mã để tái hiện lại toàn bộ website, thực hiện bước nhảy từ “phục chế bằng cách nhìn hình” đến “phục chế bằng cách khám phá GUI”.
Chỉnh sửa tương tác: hỗ trợ thêm/xóa mô-đun trang theo nhu cầu, sửa lời văn và kiểu dáng, điều chỉnh cấu trúc bố cục, đồng thời có thể bổ sung các chức năng tương tác như phản hồi nút, chuyển đổi pop-up, liên động form, v.v. để đạt chỉnh sửa lặp lại theo kiểu trực quan.
Ranh giới nhiệm vụ của tôm hùm được mở rộng đáng kể, ví dụ có thể duyệt web và tài liệu, tạo báo cáo, PPT giàu hình ảnh và nội dung chữ; đồng thời có thể tra cứu và diễn giải các biểu đồ phức tạp như biểu đồ K-line.
Skill “nhà phân tích cổ phiếu” của AutoClaw đã ra mắt. Nhờ năng lực thị giác nguyên sinh của GLM-5V-Turbo, tôm hùm có thể trực tiếp hiểu diễn biến đường giá cổ phiếu, biểu đồ khoảng định giá và biểu đồ báo cáo nghiên cứu của công ty chứng khoán, thực hiện thu thập song song bốn nguồn dữ liệu trong 60 giây, xuất ra báo cáo nghiên cứu với bố cục xen kẽ giữa hình ảnh và chữ. Hiện có thể chuyển sang GLM-5V-Turbo trong AutoClaw, thử đặt câu hỏi “Giúp tôi phân tích giá cổ phiếu hôm nay XXX, tạo báo cáo phân tích chuyên nghiệp”.
Ngoài lập trình bằng thị giác và nhiệm vụ của tôm hùm, GLM-5V-Turbo cũng đạt mức tăng hiệu năng đáng kể trong các kịch bản Agentic rộng hơn như tìm kiếm đa phương thức, nghiên cứu sâu, GUI Agent, Grounding dựa trên tri giác,…
Vì vậy, cung cấp một bộ Skills chính thức, bao gồm các năng lực nguyên sinh như Image Captioning, visual Grounding, viết dựa trên tài liệu, sàng lọc CV, tạo prompt, v.v., đồng thời có các năng lực nhận dạng văn bản, nhận dạng bảng, nhận dạng chữ viết tay, nhận dạng công thức và năng lực chuyển từ văn bản sang hình ảnh được xây dựng dựa trên GLM-OCR và GLM-Image. Điều này giúp người dùng khai phóng tiềm năng đa phương thức của mô hình trong nhiều bối cảnh hơn. Các Skills nêu trên đã được đưa lên ClawHub; chỉ cần cài đặt một lần là có thể trải nghiệm toàn bộ năng lực.