Google Vision Banana: 'Thời điểm GPT-3' của thị giác máy tính? Mô hình sinh ảnh đánh bại mô hình hiểu thị giác chuyên dụng.

ME News tin tức, ngày 23 tháng 4 (UTC+8), theo giám sát của Beating, nhóm Google (bao gồm các tác giả như Hà Khải Minh, Tạ Tế Ninh, v.v.) đã công bố bài báo, đề xuất Vision Banana, thực hiện tinh chỉnh lệnh nhẹ trên mô hình tạo hình ảnh Nano Banana Pro (tức Gemini 3 Pro Image) của riêng họ, chuyển đổi nó thành mô hình hiểu thị giác đa năng. Cách tiếp cận cốt lõi là tham số hóa đầu ra của tất cả các tác vụ thị giác thành hình ảnh RGB, cho phép các tác vụ nhận thức như phân đoạn, ước tính độ sâu, ước tính pháp tuyến bề mặt được hoàn thành thông qua tạo hình ảnh, mà không cần thiết kế kiến trúc chuyên dụng hoặc mất mát huấn luyện cho mỗi loại tác vụ. Đánh giá bao gồm hai loại tác vụ chính: phân đoạn hình ảnh và suy luận hình học 3D. Về phân đoạn, phân đoạn ngữ nghĩa (gắn nhãn loại cho mỗi pixel trong ảnh, ví dụ: "mặt đường", "người đi bộ", "xe cộ") vượt qua mô hình phân đoạn chuyên dụng SAM 3 4,7 điểm phần trăm trên Cityscapes; phân đoạn tham chiếu biểu đạt (tìm và phân đoạn đối tượng tương ứng dựa trên mô tả ngôn ngữ tự nhiên, ví dụ: "con chó đội mũ bên trái") cũng vượt qua SAM 3 Agent. Tuy nhiên, trong phân đoạn thể hiện (phân biệt các cá thể khác nhau trong cùng một loại, ví dụ: đánh dấu riêng biệt năm con chó trong ảnh) vẫn thua kém SAM 3. Về 3D, ước tính độ sâu đo lường (suy luận khoảng cách vật lý thực tế từ mỗi pixel đến máy ảnh từ một bức ảnh đơn) đạt độ chính xác trung bình 0,929 trên bốn bộ dữ liệu tiêu chuẩn, cao hơn 0,918 của mô hình chuyên dụng Depth Anything V3, và được huấn luyện hoàn toàn bằng dữ liệu tổng hợp, không sử dụng dữ liệu độ sâu thực tế, cũng không cần tham số máy ảnh khi suy luận. Ước tính pháp tuyến bề mặt (suy luận hướng bề mặt vật thể) đạt kết quả tối ưu trên ba chuẩn mực trong nhà. Tinh chỉnh chỉ trộn một lượng nhỏ dữ liệu tác vụ thị giác vào dữ liệu huấn luyện tạo hình ảnh gốc, khả năng tạo hình ảnh của mô hình hầu như không bị ảnh hưởng: đánh giá chất lượng tạo hình ảnh ngang bằng với Nano Banana Pro gốc. Bài báo cho rằng việc tiền huấn luyện tạo hình ảnh trong lĩnh vực thị giác có vai trò tương tự như tiền huấn luyện tạo văn bản trong lĩnh vực ngôn ngữ: mô hình, trong quá trình học tạo hình ảnh, đã học được biểu diễn nội bộ cần thiết để hiểu hình ảnh, và tinh chỉnh lệnh chỉ giải phóng nó ra. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận