Sander Dieleman, người của DeepMind nổi tiếng với mô hình khuếch tán, ngay lập tức đã đẩy bài viết lên Twitter, gọi đó là một câu chuyện thú vị về LLM:

Scaling law gốc đã sai vì một lỗi, có khả năng khiến ngành công nghiệp lãng phí một lượng lớn sức mạnh tính toán vào hàng loạt mô hình 'quá lớn, huấn luyện chưa đủ'.

Một lỗi, đốt cháy hai năm.

Khi lỗi bị phơi bày, chúng ta không chỉ thấy hố đen của sức mạnh tính toán, mà còn thấy một ranh giới trí tuệ được định hình lại bởi chính ngôn ngữ, sâu sắc hơn nhiều so với tưởng tượng.

Scaling Law hóa ra là phiên bản 'Thuyết địa tâm' của LLM

Năm 2020, OpenAI đưa ra kết luận: Với ngân sách tính toán cố định, bạn nên ưu tiên mở rộng mô hình, thay vì đổ thêm dữ liệu vào nó.

Bằng công thức, số tham số tối ưu tỷ lệ thuận với 0,73 lũy thừa của sức mạnh tính toán — tham số là biến số cần được đẩy mạnh hơn.

Câu nói này trực tiếp định nghĩa diện mạo của thế hệ GPT-3. Chồng tham số. Chồng đến chết. 175 tỷ.

Nó nói với các nhà phát triển trên toàn thế giới: Đừng hỏi, hỏi là chồng tham số; chỉ cần bạn làm mô hình đủ lớn, phép màu sẽ xảy ra.

Hai năm sau, DeepMind tung ra Chinchilla, lật ngược kết luận này: Mô hình và dữ liệu nên được mở rộng với tầm quan trọng gần như ngang nhau, khoảng 20 token cho mỗi tham số là hợp lý.

Họ huấn luyện một Chinchilla 70 tỷ tham số, đổ vào 1,4 nghìn tỷ token — kích thước chưa bằng một nửa GPT-3, nhưng dữ liệu gấp hơn bốn lần.

Kết quả, với cùng ngân sách tính toán, nó đã vượt qua Gopher với 280 tỷ tham số nhưng chỉ được cho ăn 300 tỷ token.

Nói theo cách dân dã: Cùng một số tiền, một bên nuôi thành một người khỏe mạnh 'phì nộm', một bên rèn thành một võ sĩ gầy gò.

Ba năm chậm trễ, cựu sinh viên Đại học Bắc Kinh Ông Lý đã thảo luận sâu về cách giải thích chính thống cho sự khác biệt trong các nghiên cứu sau đó, đó là sự khác biệt nằm ở cách họ tính tổng số tham số.

Và điều này chưa dừng lại. Ngay cả cái Chinchilla 'đúng' cũng không sạch sẽ.

Năm 2024, Besiroglu và cộng sự đã lấy các điểm dữ liệu gốc của bài báo Chinchilla ra chạy lại và phát hiện ra rằng trong bộ khớp của chính nó cũng có lỗi:

Tỷ lệ loss trong bộ tối ưu được đặt quá cao, lấy trung bình Huber loss theo mẫu thay vì tổng, dẫn đến việc khớp bị kết thúc sớm.

Bài báo sửa lỗi, lại tự mang theo một lỗi khác.

Đến đây, câu nói 'nguyên lý đầu tiên' mà vô số người hay nhắc đến bỗng nhiên không còn vững chắc nữa.

Cái gọi là Scaling Law, chưa bao giờ là quy luật vật lý cứng nhắc như ba định luật Newton, nó chỉ là một đường cong được khớp từ kinh nghiệm.

Khi Diogo Almeida cho rằng sự thật không phải như vậy, không phải phương pháp khác nhau, 'mà là phiên bản scaling law đầu tiên tự nó có lỗi.'

OpenAI đã dùng ba chiêu để lừa tất cả đồng nghiệp AI toàn cầu?

Để tạo ra một lời nói dối khiến toàn bộ giới AI tin tưởng, chỉ cần ba bước.

Bước một: Giam cầm dữ liệu.

Bài báo của OpenAI cho tất cả mô hình — dù là đứa trẻ còn đang tập đi (mô hình nhỏ), hay người khổng lồ đã trưởng thành — ăn cùng một lượng 'cơm'. Khoảng 130B token dữ liệu.

Mô hình nhỏ vì vậy bị 'no' hoặc thậm chí 'ngấy', trong khi các mô hình lớn thực sự cần lượng dữ liệu khổng lồ để lấp đầy dung lượng của chúng, lại bị suy dinh dưỡng nghiêm trọng dưới cùng một ngân sách token.

Bài báo Chinchilla sau đó đã chỉ ra một cách chính xác: Họ sử dụng cho tất cả các mô hình 'số lượng token huấn luyện và lịch trình tỷ lệ học tập cố định.' (fixed number of training tokens and learning rate schedule).

Điều này giống như cho trẻ mẫu giáo và nghiên cứu sinh tiến sĩ cùng một đề thi, cùng một thời gian, rồi tuyên bố 'kết quả chỉ liên quan đến tài năng'.

Bước hai: Suy giảm LR tự lừa dối.

Họ sử dụng suy giảm tỷ lệ học tập cosin (Cosine Decay), làm cho tỷ lệ học tập tiến dần về 0 một cách mượt mà khi huấn luyện gần kết thúc.

Khi huấn luyện sắp đến điểm kết thúc định trước, tỷ lệ học tập bị giảm dần về 0 một cách nhân tạo, sự tiến bộ của mô hình tự nhiên 'phẳng' đi.

Khi đường cong phẳng đi, trông như thể: Mô hình đã học đến đỉnh, cho thêm cũng vô ích.

Các nhà nghiên cứu từ đó rút ra kết luận: 'Thêm dữ liệu vô ích, mô hình đã bão hòa.'

Đây không phải giới hạn của mô hình, mà là tỷ lệ học tập đã bóp chết con đường phát triển của mô hình một cách nhân tạo. Nó tạo ra một ảo tưởng hoàn hảo: Hiệu suất đã đạt đến trần, thêm dữ liệu cũng vô dụng.

Nhưng giờ chúng ta biết, những mô hình lớn đó chưa hề kết thúc.

Bước ba: Sự kiêu ngạo của quyền lực.

Bước ba, cũng là bước ác nhất: Trong bài báo có viết một câu, kết quả 'hầu như không phụ thuộc vào lịch trình tỷ lệ học tập' (largely independent of learning rate schedule).

Mặc dù nhiều người, bao gồm Diogo Almeida lúc đó ở OpenAI, mơ hồ cảm thấy có điều gì đó không ổn, nhưng dưới giới hạn token cố định, kết luận này về mặt kỹ thuật là đúng.

Nhưng nó lại không áp dụng cho thế giới lý tưởng 'dữ liệu vô hạn' mà scaling law thực sự muốn mô tả.

Họ đã biến chân lý cục bộ trong điều kiện hạn chế thành quy luật vũ trụ phổ quát.

Ba bước chồng lên nhau, bạn sẽ có một định luật vừa sai, vừa rất khó gỡ lỗi.

Ngay cả Diogo cũng thừa nhận: Năm đó anh cũng làm tối ưu hóa tại OpenAI, cũng không thấy lỗi này — đường cong tỷ lệ học tập đó trông quá giống như được 'thiết lập cẩn thận', ai mà đi nghi ngờ chứ.

GPU bị lãng phí vô ích, phân bổ sức mạnh tính toán sai lệch nghiêm trọng

Dưới sự dẫn dắt của công thức sai lầm của OpenAI, ngành AI bước vào thời đại 'sức mạnh tạo ra kỳ tích'.

Điều này có nghĩa là trong vài năm qua, những bộ óc thông minh nhất thế giới, sức mạnh tính toán khan hiếm nhất, đều bị lãng phí vào việc mở rộng quy mô vô hiệu.

Đây không chỉ là vấn đề tiền bạc, mà là trong cuộc đua sinh tử đến AGI (Trí tuệ nhân tạo tổng quát), nhân loại đã chạy hàng nghìn km sai đường do cài đặt tỷ lệ học tập.

Nếu việc phát hiện ra lỗi khiến người ta đau lòng, thì sự suy ngẫm sâu sắc sau đó càng khiến người ta rùng mình.

Nhà nghiên cứu Adam Zachary Wasserman đã chỉ ra một điểm mù bị mọi người bỏ qua: Ngay cả khi công thức được sửa, Scaling Law hiện tại chỉ là 'Scaling Law tiếng Anh'.

Anh đã thực hiện một thí nghiệm phản trực giác: Dùng cùng kiến trúc, cùng sức mạnh tính toán để huấn luyện mô hình.

Kết quả, mô hình tiếng Pháp đạt được khả năng ngữ pháp nào đó với hiệu quả cao hơn mô hình tiếng Anh từ 50 đến 100 lần.

Tại sao? Vì tiếng Anh là một ngôn ngữ 'nghèo hình thái'.

Nó quá phụ thuộc vào quy luật phân bố, yêu cầu mô hình phải đoán nghĩa từ trong lượng dữ liệu khổng lồ; trong khi các ngôn ngữ giàu hình thái hoặc cấu trúc chặt chẽ như tiếng Pháp, tiếng Trung, bản thân từ vựng đã mang nhiều thông tin rõ ràng.

Điều này có nghĩa, tất cả các phương án phân bổ sức mạnh tính toán hiện tại của chúng ta đều dựa trên một ngôn ngữ 'ngốn dữ liệu' nhất và kém hiệu quả nhất.

Khi bạn tưởng rằng mình đang khám phá định luật vật lý của 'trí thông minh tổng quát', thực ra bạn chỉ đang đo 'ngôn ngữ tiếng Anh lãng phí sức mạnh tính toán đến mức nào'.

Điều này giống như bạn cố gắng nghiên cứu sự thèm ăn của một con lợn để đặt ra tiêu chuẩn dinh dưỡng cho tất cả sinh vật trong vũ trụ — không chỉ là thiên kiến, mà còn là giới hạn nhận thức.

Chúng ta lẽ ra có thể dùng mô hình nhỏ hơn, nhiều dữ liệu chất lượng hơn, để đạt được hiệu suất mạnh hơn.

Chúng ta lẽ ra có thể tiết kiệm được hàng vạn giờ chạy H100 về điện và nhiệt.

Chúng ta lẽ ra có thể bước vào kỷ nguyên 'AI hiệu quả' sớm hơn hai năm.

Nguồn bài viết: Xinzhiyuan

Tuyên bố rủi ro và miễn trừ trách nhiệm

        Thị trường có rủi ro, đầu tư cần thận trọng. Bài viết này không cấu thành lời khuyên đầu tư cá nhân, cũng không xem xét các mục tiêu đầu tư, tình hình tài chính hoặc nhu cầu đặc biệt của từng người dùng. Người dùng nên cân nhắc xem bất kỳ ý kiến, quan điểm hoặc kết luận nào trong bài viết này có phù hợp với hoàn cảnh cụ thể của họ hay không. Đầu tư dựa trên bài viết này, chịu trách nhiệm cá nhân.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
gStocksTokenizedStocksLive
4,82M Phổ biến
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,07M Phổ biến
#
IsraelStrikesIranBTCPlunges
68,82K Phổ biến
#
PredictWorldCupShare20000U
235,08K Phổ biến
#
ETHBreaks1700
152,64M Phổ biến

Đã ghim

sơ đồ trang web

OpenAI sập! Định luật Scaling bị phát hiện lỗi, nghìn tỷ sức mạnh tính toán đều đổ sông đổ bể.

Scaling Law hóa ra là phiên bản 'Thuyết địa tâm' của LLM

OpenAI đã dùng ba chiêu để lừa tất cả đồng nghiệp AI toàn cầu?

GPU bị lãng phí vô ích, phân bổ sức mạnh tính toán sai lệch nghiêm trọng

Chủ đề thịnh hành

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Đã ghim