Tongyi đưa Vibe Coding vào toàn bộ chế độ, Qwen3.5-Omni giành được 215 danh hiệu SOTA

robot
Đang tạo bản tóm tắt

Theo giám sát của 1M AI News, Tongyi Lab đã phát hành mô hình đa phương thức toàn diện Qwen3.5-Omni, hỗ trợ đầu vào văn bản, hình ảnh, âm thanh và âm thanh kết hợp video, đồng thời có thể tạo caption âm video chi tiết kèm dấu thời gian. Theo tuyên bố chính thức, Qwen3.5-Omni-Plus đã đạt 215 hạng mục SOTA trong các tác vụ như phân tích âm thanh và video, suy luận, hội thoại, dịch thuật, v.v., và các năng lực liên quan vượt qua Gemini-3.1-Pro.

Điểm tăng cường đặc biệt nhất lần này không nằm ở bảng xếp hạng, mà là “khả năng Audio-Visual Vibe Coding tự nhiên trỗi dậy”. Tongyi cho biết, mô hình không được huấn luyện chuyên biệt, nhưng đã có thể dựa theo chỉ lệnh âm thanh/video để trực tiếp tạo ra mã lệnh có thể chạy được. Bên phía chính thức cũng cho biết mô hình hỗ trợ ngữ cảnh 256K, nhận diện 113 ngôn ngữ, có thể xử lý 10 giờ âm thanh hoặc 1 giờ video, và hỗ trợ gốc WebSearch cũng như các Function Call phức tạp.

Qwen3.5-Omni tiếp nối kiến trúc phân công Thinker-Talker, với cả hai phần đều được nâng cấp lên Hybrid-Attention MoE. Tongyi đã cung cấp Plus, Flash và Light với ba kích thước thông qua Alibaba Cloud BaiLian và đồng thời ra mắt phiên bản thời gian thực Qwen3.5-Omni-Plus-Realtime.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.31KNgười nắm giữ:2
    0.44%
  • Ghim