Cuộc thi mô hình AI lớn: Từ đột phá học thuật đến cuộc chiến của người theo lệnh long

Cuộc thi mô hình AI lớn: Từ điểm nóng học thuật đến vấn đề kỹ thuật

Tháng trước, lĩnh vực AI đã bùng nổ một cuộc "chiến tranh động vật" kịch liệt.

Một bên là Llama, một loại lạc đà không bướu, được các nhà phát triển yêu thích nhờ tính năng mã nguồn mở. Bên kia là một mô hình lớn có tên Falcon. Vào tháng 5, sau khi Falcon-40B ra mắt, nó đã vượt qua Llama để đứng đầu bảng xếp hạng LLM mã nguồn mở.

Bảng xếp hạng này được tạo ra bởi cộng đồng mô hình mã nguồn mở, cung cấp tiêu chuẩn để đánh giá khả năng của LLM. Bảng xếp hạng chủ yếu là sự luân phiên giữa Llama và Falcon. Sau khi Llama 2 ra mắt, gia đình lạc đà một bướu tạm thời dẫn đầu; nhưng vào đầu tháng 9, Falcon phát hành phiên bản 180B và lại đạt được xếp hạng cao hơn.

Thú vị thay, nhà phát triển của "Falcon" không phải là một công ty công nghệ, mà là một viện nghiên cứu đổi mới công nghệ tại thủ đô Các Tiểu vương quốc Ả Rập Thống nhất. Các quan chức chính phủ cho biết họ tham gia vào dự án này để lật đổ những người chơi cốt lõi.

Hiện nay, lĩnh vực AI đã bước vào giai đoạn đua nở muôn hoa. Các quốc gia và doanh nghiệp có sức mạnh đều đang xây dựng mô hình ngôn ngữ lớn của riêng mình. Chỉ riêng tại khu vực Vịnh đã có hơn một người chơi - vào tháng 8, Ả Rập Saudi vừa mua hơn 3000 chip H100 cho các trường đại học trong nước để đào tạo LLM.

Có nhà đầu tư phàn nàn: "Ngày đó coi thường mô hình kinh doanh của Internet, cho rằng không có rào cản. Không ngờ khởi nghiệp với mô hình lớn công nghệ cứng vẫn là cuộc chiến trăm mô hình..."

Được gọi là công nghệ cứng khó khăn, làm thế nào mà nó lại trở thành một cơn sốt mà ai cũng có thể tham gia?

Sự trỗi dậy của Transformer

Các công ty khởi nghiệp của Mỹ, các gã khổng lồ công nghệ Trung Quốc và các đại gia dầu mỏ Trung Đông có thể tham gia vào các mô hình lớn đều phải cảm ơn bài báo nổi tiếng "Attention Is All You Need".

Năm 2017, 8 nhà khoa học máy tính đã công bố thuật toán Transformer trong bài báo này. Bài báo này hiện là tài liệu được trích dẫn nhiều thứ ba trong lịch sử AI, sự xuất hiện của Transformer đã kích thích làn sóng AI hiện tại.

Các mô hình lớn hiện tại, bao gồm series GPT gây chấn động toàn cầu, đều được xây dựng trên nền tảng của Transformer.

Trước đây, "dạy máy đọc" luôn là một vấn đề học thuật được công nhận. Khác với nhận diện hình ảnh, khi con người đọc, không chỉ chú ý đến từ ngữ hiện tại mà còn kết hợp với ngữ cảnh để hiểu. Đầu vào của mạng nơ-ron ban đầu là độc lập với nhau, không thể hiểu được văn bản dài, thường xảy ra lỗi dịch.

Năm 2014, nhà khoa học Google Ilya Sutskever lần đầu tiên đạt được bước đột phá. Ông sử dụng mạng nơ-ron hồi tiếp (RNN) để xử lý ngôn ngữ tự nhiên, nâng cao hiệu suất của Google Dịch đáng kể. RNN đưa ra "thiết kế hồi tiếp", cho phép mỗi nơ-ron nhận cùng lúc đầu vào hiện tại và đầu vào của thời điểm trước đó, từ đó có khả năng "kết hợp ngữ cảnh".

Sự xuất hiện của RNN đã thắp sáng niềm đam mê nghiên cứu trong giới học thuật, nhưng các nhà phát triển nhanh chóng phát hiện ra rằng nó có những khuyết điểm nghiêm trọng: thuật toán này sử dụng tính toán tuần tự, mặc dù đã giải quyết vấn đề ngữ cảnh, nhưng hiệu suất hoạt động kém, khó xử lý một lượng lớn tham số.

Bắt đầu từ năm 2015, Noam Shazeer và 8 nhà nghiên cứu khác đã bắt tay vào phát triển một sản phẩm thay thế cho RNN, và kết quả cuối cùng chính là Transformer. So với RNN, Transformer có hai cuộc cách mạng lớn: một là thay thế thiết kế vòng lặp bằng mã vị trí, thực hiện tính toán song song, nâng cao đáng kể hiệu quả đào tạo, thúc đẩy AI bước vào thời đại mô hình lớn; hai là tăng cường khả năng hiểu ngữ cảnh.

Transformer đã giải quyết nhiều khuyết điểm, dần dần phát triển thành giải pháp chủ đạo trong lĩnh vực NLP. Nó đã biến mô hình lớn từ nghiên cứu lý thuyết thành một vấn đề kỹ thuật thuần túy.

Năm 2019, OpenAI đã phát triển GPT-2 dựa trên Transformer, gây ấn tượng với giới học thuật. Google ngay lập tức ra mắt Meena với hiệu suất mạnh mẽ hơn, chỉ cần tăng cường tham số và sức mạnh tính toán đã vượt qua GPT-2. Điều này đã khiến tác giả Transformer, Shazeer, cảm thấy choáng váng, và ông đã viết một bản ghi nhớ có tiêu đề "Meena nuốt chửng thế giới".

Kể từ khi Transformer ra đời, tốc độ đổi mới thuật toán cơ bản trong học thuật đã chậm lại đáng kể. Kỹ thuật dữ liệu, quy mô tính toán, kiến trúc mô hình và các yếu tố kỹ thuật khác ngày càng trở thành chìa khóa trong cuộc đua AI. Chỉ cần có một năng lực kỹ thuật nhất định, các công ty đều có thể phát triển các mô hình lớn.

Nhà khoa học máy tính Andrew Ng đã chỉ ra trong bài phát biểu tại Đại học Stanford: "AI là một tập hợp các công cụ, bao gồm học có giám sát, học không có giám sát, học tăng cường và AI sinh sinh. Tất cả đều là công nghệ chung, tương tự như điện và internet."

Mặc dù OpenAI vẫn là tiêu chuẩn cho LLM, nhưng các tổ chức phân tích cho rằng, lợi thế của GPT-4 chủ yếu nằm ở các giải pháp kỹ thuật. Nếu mã nguồn mở, bất kỳ đối thủ cạnh tranh nào cũng có thể nhanh chóng sao chép. Nhà phân tích này dự đoán, các công ty công nghệ lớn khác sẽ sớm tạo ra các mô hình lớn có hiệu suất tương đương với GPT-4.

Lũy thành yếu ớt

Hiện nay, "cuộc chiến mô hình" không còn là cách nói phóng đại, mà là thực tế khách quan.

Các báo cáo liên quan cho thấy, tính đến tháng 7 năm nay, số lượng mô hình lớn trong nước đã đạt 130 cái, vượt qua 114 cái của Hoa Kỳ. Các truyền thuyết thần thoại đã không đủ để các công ty công nghệ trong nước đặt tên.

Ngoài Trung Quốc và Mỹ, một số quốc gia giàu có cũng đã bước đầu hiện thực hóa "mô hình một quốc gia một mô hình": Nhật Bản và Các Tiểu vương quốc Ả Rập Thống nhất đã có mô hình lớn riêng của mình, cùng với Bhashini do chính phủ Ấn Độ dẫn dắt và HyperClova X được xây dựng bởi công ty internet Hàn Quốc Naver.

Cảnh tượng này giống như trở về thời kỳ đầu của Internet, khi mà bong bóng bay đầy trời. Như đã đề cập trước đó, Transformer đã biến các mô hình lớn thành một vấn đề kỹ thuật thuần túy, chỉ cần có người có tiền và card đồ họa, phần còn lại thì giao cho các tham số. Nhưng mặc dù rào cản gia nhập không cao, điều đó không có nghĩa là ai cũng có thể trở thành ông lớn trong kỷ nguyên AI.

Đoạn đầu đề cập đến "cuộc chiến động vật" là một ví dụ điển hình: Mặc dù Falcon vượt qua Llama về thứ hạng, nhưng rất khó để nói rằng điều này đã gây ra tác động lớn đến Meta.

Như mọi người đã biết, các doanh nghiệp mở mã nguồn những thành quả của mình không chỉ để chia sẻ lợi ích công nghệ mà còn mong muốn kích thích trí tuệ xã hội. Với việc các bên liên quan liên tục sử dụng và cải tiến Llama, Meta có thể áp dụng những thành quả này vào sản phẩm của mình.

Đối với mô hình nguồn mở, cộng đồng nhà phát triển năng động mới là sức mạnh cạnh tranh cốt lõi.

Meta đã xác lập con đường mã nguồn mở khi thành lập phòng thí nghiệm AI vào năm 2015; Zuckerberg bắt đầu từ mạng xã hội, hiểu sâu sắc "cách xây dựng mối quan hệ tốt với công chúng".

Vào tháng 10, Meta còn tổ chức một hoạt động "Khuyến khích Nhà sáng tạo AI": các nhà phát triển sử dụng Llama 2 để giải quyết các vấn đề xã hội như giáo dục, môi trường sẽ có cơ hội nhận được 500.000 đô la tài trợ.

Hiện nay, dòng sản phẩm Llama của Meta đã trở thành tiêu chuẩn cho LLM mã nguồn mở. Tính đến đầu tháng 10, trong top 10 bảng xếp hạng LLM mã nguồn mở, có tới 8 cái được phát triển dựa trên Llama 2. Chỉ riêng trên nền tảng này, số lượng LLM sử dụng giấy phép mã nguồn mở Llama 2 đã vượt quá 1500.

Tất nhiên, việc nâng cao hiệu suất như Falcon cũng không phải là không thể, nhưng hiện tại hầu hết các LLM trên thị trường vẫn có khoảng cách rõ rệt so với GPT-4.

Ví dụ, không lâu trước đây, GPT-4 đã đạt điểm 4.41 và đứng đầu trong bài kiểm tra AgentBench. AgentBench được phát triển bởi Đại học Tsinghua và nhiều trường đại học nổi tiếng của Mỹ, được sử dụng để đánh giá khả năng suy luận và ra quyết định của LLM trong môi trường mở đa chiều, nội dung kiểm tra bao gồm 8 tình huống khác nhau như hệ điều hành, cơ sở dữ liệu, đồ thị tri thức, và đấu thẻ.

Kết quả thử nghiệm cho thấy, người đứng thứ hai Claude chỉ có 2.77 điểm, khoảng cách vẫn còn khá rõ ràng. Còn đối với những LLM mã nguồn mở ồn ào, điểm số thường chỉ quanh 1 điểm, chưa đến một phần tư điểm của GPT-4.

Cần biết rằng, GPT-4 được phát hành vào tháng 3 năm nay, đây vẫn là kết quả sau hơn nửa năm các đối thủ toàn cầu theo kịp. Nguyên nhân của khoảng cách này là đội ngũ các nhà khoa học xuất sắc của OpenAI cùng với kinh nghiệm nghiên cứu LLM tích lũy lâu dài, do đó có thể luôn giữ vị trí dẫn đầu.

Có nghĩa là, lợi thế cốt lõi của mô hình lớn không phải là tham số, mà là xây dựng hệ sinh thái ( mã nguồn mở ) hoặc khả năng suy diễn thuần túy ( mã nguồn đóng ).

Với sự phát triển ngày càng mạnh mẽ của cộng đồng mã nguồn mở, hiệu suất của các LLM có thể sẽ đồng nhất, vì mọi người đều sử dụng các kiến trúc mô hình và tập dữ liệu tương tự.

Một vấn đề khác rõ ràng hơn là: ngoài Midjourney, dường như không có mô hình lớn nào khác thực sự có lãi.

Điểm neo giá trị ở đâu

Vào tháng 8 năm nay, một bài viết có tiêu đề "OpenAI có thể phá sản vào cuối năm 2024" đã thu hút sự chú ý. Nội dung bài viết có thể được tóm tắt bằng một câu: Tốc độ tiêu tốn tiền của OpenAI quá nhanh.

Trong bài viết đề cập, kể từ khi phát triển ChatGPT, OpenAI đã nhanh chóng mở rộng thua lỗ, chỉ riêng trong năm 2022 đã thua lỗ khoảng 540 triệu đô la, chỉ có thể dựa vào sự hỗ trợ đầu tư của Microsoft.

Mặc dù tiêu đề bài viết có phần phóng đại, nhưng nó cũng nói lên thực trạng của nhiều nhà cung cấp mô hình lớn: chi phí và doanh thu đang mất cân bằng nghiêm trọng.

Chi phí quá cao dẫn đến việc hiện tại chỉ có Nvidia kiếm được nhiều tiền từ AI, có thể thêm Broadcom.

Theo ước tính của công ty tư vấn Omdia, Nvidia đã bán ra hơn 300.000 chiếc H100 trong quý II năm nay. Đây là một con chip có hiệu suất đào tạo AI rất cao, các công ty công nghệ và tổ chức nghiên cứu trên toàn cầu đang đổ xô mua sắm. Nếu xếp chồng 300.000 chiếc H100 lại với nhau, trọng lượng tương đương với 4,5 chiếc máy bay Boeing 747.

Doanh thu của Nvidia đã tăng vọt, với doanh thu tăng 854% so với cùng kỳ năm trước, khiến Phố Wall kinh ngạc. Hiện tại, H100 đang được giao dịch trên thị trường thứ cấp với giá từ 40.000 đến 50.000 USD, trong khi chi phí vật liệu chỉ khoảng 3.000 USD.

Chi phí tính toán cao đã trở thành một trở ngại cho sự phát triển của ngành ở một mức độ nào đó. Sequoia Capital từng tính toán: Các công ty công nghệ toàn cầu dự kiến sẽ chi 200 tỷ USD mỗi năm cho việc xây dựng cơ sở hạ tầng mô hình lớn; trong khi đó, mô hình lớn chỉ có thể tạo ra tối đa 75 tỷ USD doanh thu mỗi năm, có ít nhất 125 tỷ USD thiếu hụt ở giữa.

Ngoài ra, trừ một số trường hợp như Midjourney, hầu hết các công ty phần mềm sau khi đầu tư một khoản tiền lớn vẫn chưa tìm ra mô hình lợi nhuận rõ ràng. Đặc biệt là sự khám phá của những ông lớn trong ngành như Microsoft và Adobe đều có phần chông chênh.

Công cụ tạo mã AI GitHub Copilot được phát triển bởi Microsoft và OpenAI, mặc dù có phí hàng tháng 10 đô la, nhưng do chi phí cơ sở hạ tầng, Microsoft lại thua lỗ 20 đô la cho mỗi người dùng, trong khi những người dùng nặng thậm chí khiến Microsoft thua lỗ 80 đô la mỗi tháng. Do đó, có thể suy đoán rằng Microsoft 365 Copilot có giá 30 đô la có thể thua lỗ nhiều hơn.

Cũng vậy, Adobe vừa mới ra mắt công cụ Firefly AI cũng nhanh chóng triển khai hệ thống điểm, nhằm ngăn chặn việc người dùng sử dụng quá mức dẫn đến tổn thất cho công ty. Một khi người dùng vượt quá số điểm được phân bổ hàng tháng, Adobe sẽ giảm tốc độ dịch vụ.

Cần biết rằng Microsoft và Adobe đã là những ông lớn phần mềm với bối cảnh kinh doanh rõ ràng và sở hữu nhiều người dùng trả phí. Trong khi đó, hầu hết các mô hình lớn với nhiều tham số nhất vẫn chỉ có ứng dụng chính là trò chuyện.

Không thể phủ nhận rằng, nếu không có sự xuất hiện của OpenAI và ChatGPT, cuộc cách mạng AI này có thể hoàn toàn không xảy ra; nhưng hiện tại, giá trị được tạo ra từ việc huấn luyện các mô hình lớn có lẽ vẫn còn cần phải bàn cãi.

Hơn nữa, với sự gia tăng cạnh tranh đồng nhất và sự gia tăng các mô hình mã nguồn mở, các nhà cung cấp mô hình lớn đơn thuần có thể đối mặt với những thách thức lớn hơn.

Sự thành công của iPhone 4 không phải do vi xử lý A4 với quy trình 45nm, mà là vì nó có thể chơi các ứng dụng như Plants vs Zombies và Angry Birds.

GPT-5.32%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
BearMarketNoodlervip
· 08-10 06:40
cây lưỡi hái thu hoạch tài sản dầu mỏ cổ điển
Xem bản gốcTrả lời0
RumbleValidatorvip
· 08-09 23:00
Dữ liệu kiểm tra độ ổn định chưa được công bố, khó xác minh độ tin cậy.
Xem bản gốcTrả lời0
BanklessAtHeartvip
· 08-09 21:36
Công nghiệp đảng hân hoan Mã nguồn mở mới là tương lai Đề xuất tấn công
Xem bản gốcTrả lời0
GateUser-c799715cvip
· 08-09 21:26
Đánh nhau đến UAE rồi đây.
Xem bản gốcTrả lời0
AirdropHunterXMvip
· 08-09 21:13
Đánh nhau đánh nhau Ai thắng thì tính là của người đó.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)