Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Google Vision Chuối: Khoảnh khắc "GPT-3" của thị giác máy tính? Mô hình hình ảnh sống đánh bại mô hình hiểu thị giác chuyên dụng
Theo giám sát Beating, nhóm Google (bao gồm các tác giả như He Kaiming, Xie Saining và các người khác) đã công bố bài báo, đề xuất Vision Banana, thực hiện tinh chỉnh hướng dẫn nhẹ trên mô hình tạo hình ảnh của riêng họ Nano Banana Pro (tức Gemini 3 Pro Image), biến nó thành mô hình hiểu thị giác tổng quát. Phương pháp cốt lõi là thống nhất hóa tất cả các đầu ra của nhiệm vụ thị giác thành hình ảnh RGB, cho phép các nhiệm vụ cảm nhận như phân đoạn, ước lượng độ sâu, ước lượng pháp tuyến bề mặt đều hoàn thành qua tạo hình ảnh mà không cần thiết kế kiến trúc hoặc mất mát huấn luyện riêng cho từng loại nhiệm vụ.
Đánh giá bao gồm hai loại nhiệm vụ chính: phân đoạn hình ảnh và suy luận hình học 3D. Về phân đoạn, phân đoạn ngữ nghĩa (gán nhãn loại cho từng pixel trong hình, như “đường”, “người đi bộ”, “xe cộ”) trên Cityscapes vượt hơn mô hình phân đoạn chuyên dụng SAM 3 4.7 điểm phần trăm; phân đoạn theo chỉ dẫn (tìm và phân đoạn vật thể phù hợp dựa trên mô tả ngôn ngữ tự nhiên, như “chó đội mũ ở bên trái”) cũng vượt hơn SAM 3 Agent. Tuy nhiên, về phân đoạn thể hiện (phân biệt các cá thể cùng loại khác nhau, như đánh dấu rõ ràng năm chú chó trong hình), vẫn còn thua kém SAM 3. Trong lĩnh vực 3D, đo lường độ sâu (ước lượng khoảng cách vật lý thực của từng pixel đến camera từ một bức ảnh duy nhất) đạt trung bình độ chính xác 0.929 trên bốn bộ dữ liệu tiêu chuẩn, cao hơn Depth Anything V3 chuyên dụng với 0.918, và hoàn toàn được huấn luyện bằng dữ liệu tổng hợp, không sử dụng dữ liệu độ sâu thực tế, cũng không cần tham số camera khi suy luận. Ước lượng pháp tuyến bề mặt (xác định hướng của bề mặt vật thể) đạt kết quả tối ưu trên ba bộ chuẩn nội thất.
Việc tinh chỉnh chỉ đơn giản là trộn một lượng nhỏ dữ liệu nhiệm vụ thị giác vào dữ liệu huấn luyện tạo hình ảnh ban đầu, khả năng tạo hình của mô hình gần như không bị ảnh hưởng: trong đánh giá chất lượng tạo hình, mô hình vẫn giữ nguyên so với Nano Banana Pro gốc. Bài báo cho rằng vai trò của huấn luyện tiền đề tạo hình ảnh trong lĩnh vực thị giác tương tự như vai trò của huấn luyện tiền đề tạo văn bản trong lĩnh vực ngôn ngữ: trong quá trình học cách tạo hình ảnh, mô hình đã học được các biểu diễn nội bộ cần thiết để hiểu hình ảnh, và tinh chỉnh hướng dẫn chỉ đơn giản là khai thác chúng.