DeepSeek ra mắt chế độ nhận diện hình ảnh, dựa trên khung nguyên thủy thu hồi hỗ trợ suy luận CoT thị giác

robot
Đang tạo bản tóm tắt
Theo giám sát Beating, chế độ nhận diện hình ảnh (Vision Mode) của trang web và ứng dụng DeepSeek chính thức ra mắt, cùng với chế độ nhanh và chế độ chuyên gia nằm cạnh nhau trên thanh nhập thoại. Khả năng hiểu thị giác mới ra mắt không đơn thuần là nhận dạng ký tự quang học (OCR), mà chủ yếu tập trung vào phân tích cảnh sâu, suy luận logic không gian và chuyển đổi trực tiếp ảnh chụp giao diện người dùng thành mã cấu trúc HTML. Đối với các phép suy luận hình học khó khăn hoặc phân tích biểu đồ phức tạp, hệ thống sẽ tự động kích hoạt mô hình suy nghĩ sâu, cung cấp chuỗi suy luận hoàn chỉnh.

Chế độ nhận diện hình ảnh dựa trên khung nghiên cứu "Suy nghĩ bằng nguyên thủy thị giác (Thinking with Visual Primitives)" do nhóm DeepSeek công bố. Nghiên cứu của nhà nghiên cứu đa mô hình Xiaokang Chen cùng các cộng sự từ Đại học Bắc Kinh và Đại học Thanh Hoa chỉ ra rằng, các mô hình ngôn ngữ thị giác hiện tại gặp phải "Thiếu tham chiếu" (Reference Gap) trong việc định vị chính xác và suy luận không gian, tức là khó mô tả các tọa độ phức tạp bằng ngôn ngữ tự nhiên mơ hồ. Vì lý do này, nhóm nghiên cứu đã nâng cao điểm tọa độ và khung giới hạn (Bounding Boxes) thành các đơn vị tư duy nhỏ nhất, và trong chuỗi suy luận thị giác (CoT) của mô hình, trực tiếp chèn nguyên thủy không gian, giúp đồng bộ hóa hướng không gian trong quá trình suy nghĩ.

Các bài báo học thuật và dự án mã nguồn mở về khả năng thị giác này từng được phát hành ngắn hạn vào ngày 30 tháng 4, nhưng ngay sau đó bị chính thức rút lại vào ngày 1 tháng 5 bởi DeepSeek mà không báo trước, gây ra nhiều suy đoán trong ngành về việc tiết lộ quá mức các chi tiết kỹ thuật và các bước tối ưu hóa mô hình sau này. Chế độ nhận diện hình ảnh chính thức chỉ hỗ trợ đầu vào là hình ảnh, tạm thời chưa hỗ trợ các định dạng đa mô hình như video, âm thanh, và hiện tại mô hình chưa có khả năng tạo hình ảnh.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim