Microsoft tự nghiên cứu bộ "ba món" AI đã triển khai, tự tin tuyên bố đến năm 2027 sẽ tự phát triển các mô hình lớn tiên tiến

robot
Đang tạo bản tóm tắt

Vào thứ Năm, công ty công nghệ Mỹ Microsoft thông báo rằng 3 mô hình AI do nội bộ phát triển chính thức được triển khai rộng rãi cho mục đích thương mại, cho thấy nỗ lực của công ty nhằm thoát khỏi sự phụ thuộc lâu dài vào đối tác hợp tác lâu năm OpenAI.

Cụ thể, bộ 3 mô hình MAI-Transcribe-1, MAI-Voice-1 và MAI-Image-2 do đội ngũ AI siêu thông minh của Microsoft phát triển bao gồm 3 năng lực có giá trị thương mại cao nhất trong AI doanh nghiệp—chuyển đổi giọng nói thành văn bản, tạo giọng nói và tạo hình ảnh.

(CEO Microsoft Nadella công bố bản cập nhật này, nguồn: X)

Microsoft cho biết, MAI-Transcribe-1 là mô hình chuyển biên có độ chính xác cao nhất trong số các mô hình chuyển biên được sử dụng phổ biến nhất trên thị trường. Trong các bài kiểm tra bao gồm tất cả các ngôn ngữ, tỷ lệ lỗi trung bình của nó là 3,9%. Trong khi đó, tỷ lệ lỗi của GPT-Transcribe của OpenAI là 4,2%, và Gemini 3.1 Flash là 4,9%.

Mô hình tạo giọng nói MAI-Voice-1 được cho là có thể tạo ra 60 giây âm thanh trong thời gian dưới một giây trên “một GPU”, đồng thời có thể duy trì tính nhất quán của giọng nói khi tạo nội dung dài.

MAI-Image-2 lần đầu được ra mắt vào ngày 19 tháng 3, và hôm thứ Năm cũng được triển khai rộng rãi cùng với hai mô hình còn lại. Hiện tại, mô hình này đang đứng thứ ba trong bảng xếp hạng tạo ảnh từ văn bản của “đấu trường mô hình lớn”, xếp sau sản phẩm bán chạy của Google là Nano Banana 2 và GPT-Image 1.5 của OpenAI.

So sánh ngang về giá, mức giá đầu vào văn bản của MAI-Image-2 bắt đầu từ 5 USD cho mỗi 1 triệu token, và đầu ra hình ảnh là từ 33 USD cho mỗi 1 triệu token. Mô hình tạo hình ảnh Gemini 3 Pro của Google có giá 120 USD cho mỗi 1 triệu token, còn hình ảnh của Gemini 3.1 Flash là 60 USD cho mỗi 1 triệu token.

Mục tiêu: Tự phát triển các mô hình lớn tiên tiến của thế giới

Động thái mới nhất của Microsoft bắt nguồn từ tháng 10 năm ngoái, khi công ty tái cấu trúc mối quan hệ hợp tác với OpenAI, cho phép Microsoft theo đuổi quyền đối với trí tuệ nhân tạo tổng quát một mình hoặc cùng với các đối tác bên thứ ba. Thỏa thuận trước đó dù cho phép Microsoft sử dụng quyền sở hữu trí tuệ của OpenAI, nhưng đồng thời cũng cấm công ty phát triển các hệ thống AI cạnh tranh.

CEO đầu AI của Microsoft là Mustafá Süleyman công khai cho biết, mục tiêu của đội ngũ này đến năm 2027 là “có thể thực sự đạt đến trình độ tiên tiến nhất”, bao gồm các mô hình có thể phản hồi hoặc tạo ra văn bản, hình ảnh và âm thanh.

Süleyman cho biết công ty đang xây dựng năng lực tính toán cần thiết để huấn luyện các mô hình, đồng thời triển khai chip Nvidia GB200 từ tháng 10 năm ngoái.

Ông nói: “Từ thời điểm đó, chúng tôi sẽ dần nâng cấp trong khoảng 12 đến 18 tháng tới, để đạt năng lực tính toán quy mô đạt trình độ tiên tiến.”

Với vai trò là đồng sáng lập của Google DeepMind, Süleyman gia nhập Microsoft vào năm 2024, phụ trách việc đưa AI vào các sản phẩm tiêu dùng của công ty. Sau khi Microsoft và OpenAI chốt thỏa thuận vào tháng 10 năm ngoái, Süleyman đã tiếp quản toàn thời gian để dẫn dắt đội ngũ AI siêu thông minh của Microsoft vào tháng 11 năm ngoái. Trong cuộc tái cơ cấu nội bộ hồi tháng trước, trách nhiệm của Süleyman đã được thu hẹp lại ở mảng phát triển mô hình; cựu lãnh đạo Snap là Jacob Andriulo tiếp quản sản phẩm trợ lý Copilot dành cho doanh nghiệp và người dùng cá nhân của Microsoft.

Süleyman cho truyền thông biết: “Chúng tôi muốn nhấn mạnh rằng, trong ba đến năm năm tới, điều quan trọng là phải thúc đẩy năng lực AI tiên tiến nhất của chính mình và thực hiện sứ mệnh chiến lược về tự chủ lâu dài.” Ông cũng nói thêm rằng công ty sẽ tiếp tục lưu trữ các mô hình do các công ty khác phát triển.

Xét về dài hạn, quyền truy cập sâu vào quyền sở hữu trí tuệ của OpenAI của Microsoft sẽ hết hạn vào năm 2032, vì vậy việc phát triển các mô hình lớn tự nghiên cứu và tự phát triển cũng là một biện pháp phòng ngừa rủi ro quan trọng.

Hoạt động kinh doanh mô hình tự phát triển của Microsoft mới bắt đầu cũng còn rất nhiều điểm yếu, đủ để thấy rằng đội ngũ của Süleyman trong năm tới sẽ có rất nhiều việc cần phải hoàn thành.

Ví dụ, hiện tại MAI-Image-2 chỉ hỗ trợ tỷ lệ khung hình 1:1, không cung cấp tùy chọn ngang hoặc dọc; các tính năng thường thấy trong các ứng dụng AI khác như chỉnh sửa hình ảnh từ ảnh sang ảnh và hỗ trợ ảnh tham chiếu cũng không có. MAI-Transcribe-1 không thể phân biệt các người nói khác nhau trong hội thoại, đồng thời không hỗ trợ thiên vị theo ngữ cảnh và truyền phát theo luồng; Microsoft cho biết cả ba tính năng này đều đang được phát triển.

(Nguồn: Tài Liên Sở)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim