Tongyi đưa Vibe Coding vào toàn bộ chế độ, Qwen3.5-Omni giành được 215 danh hiệu SOTA

BlockBeatNews · 2026-03-30T14:06:38+00:00

Phòng thí nghiệm Tongyi đã phát hành mô hình đa phương thức Qwen3.5-Omni, hỗ trợ nhiều dạng đầu vào và tạo phụ đề âm thanh/video có dấu thời gian, có 215 khả năng SOTA như phân tích âm thanh và video. Mô hình này còn có thể tạo mã theo lệnh và hỗ trợ ngữ cảnh 256K, nhận diện 113 loại ngôn ngữ.

BlockBeatNews

2026-03-30 14:06:38

Đang tạo bản tóm tắt

Theo giám sát của 1M AI News, Tongyi Lab đã phát hành mô hình đa phương thức toàn diện Qwen3.5-Omni, hỗ trợ đầu vào văn bản, hình ảnh, âm thanh và âm thanh kết hợp video, đồng thời có thể tạo caption âm video chi tiết kèm dấu thời gian. Theo tuyên bố chính thức, Qwen3.5-Omni-Plus đã đạt 215 hạng mục SOTA trong các tác vụ như phân tích âm thanh và video, suy luận, hội thoại, dịch thuật, v.v., và các năng lực liên quan vượt qua Gemini-3.1-Pro.

Điểm tăng cường đặc biệt nhất lần này không nằm ở bảng xếp hạng, mà là “khả năng Audio-Visual Vibe Coding tự nhiên trỗi dậy”. Tongyi cho biết, mô hình không được huấn luyện chuyên biệt, nhưng đã có thể dựa theo chỉ lệnh âm thanh/video để trực tiếp tạo ra mã lệnh có thể chạy được. Bên phía chính thức cũng cho biết mô hình hỗ trợ ngữ cảnh 256K, nhận diện 113 ngôn ngữ, có thể xử lý 10 giờ âm thanh hoặc 1 giờ video, và hỗ trợ gốc WebSearch cũng như các Function Call phức tạp.

Qwen3.5-Omni tiếp nối kiến trúc phân công Thinker-Talker, với cả hai phần đều được nâng cấp lên Hybrid-Attention MoE. Tongyi đã cung cấp Plus, Flash và Light với ba kích thước thông qua Alibaba Cloud BaiLian và đồng thời ra mắt phiên bản thời gian thực Qwen3.5-Omni-Plus-Realtime.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.