Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Chi tiết đào tạo GPT-4 của OpenAI về "không đề cập đến cái chết" đã được phát hành, đây là cách giải thích của tôi
Nguồn Gốc: thiểu số
Đó là một buổi sáng bình thường vài ngày trước. Tôi đang chuyển gạch hàng ngày, và đột nhiên đủ loại thông tin tràn vào: “Nhanh lên, cấu trúc mô hình GPT-4 đã bị rò rỉ, và mô hình lớn sản xuất trong nước sẽ lại vượt qua nó!”
Bật mạng xã hội lên xem, không cần nói tiếng Anh, người trong nước đã lên mạng rồi, tôi thực sự bị thuyết phục bởi tốc độ này. Tuy nhiên, khi tôi truy tìm nguồn gốc và xem mức độ tin cậy của thông tin, tôi đột nhiên cảm thấy rằng mình đã lang thang ra khỏi vòng công nghệ từ vòng giải trí.
Trước tình trạng hiện tại của Internet nơi “Tin tức giả” đang bay khắp bầu trời, điều đầu tiên tôi làm sau khi xem tin tức này là truy tìm nguồn gốc.
▍Thông tin chi tiết
Điểm khởi đầu cho quá trình khai thác thông tin của tôi là một chuỗi tweet được chia sẻ trên Hacker News được trích xuất qua Thread Reader (được lưu trữ vào ngày 11 tháng 7). Bấm để mở nó ra, và có hai câu:
Đẳng cấp của bữa tiệc tít này không thua kém gì ở Trung Quốc.
Như chúng ta đã biết, OpenAI đã phá vỡ cam kết mở khi phát hành GPT-4, không tiết lộ bất kỳ chi tiết trọng lượng hay kỹ thuật nào và đã bị ngành công nghiệp chỉ trích rất nhiều. Đây có lẽ là lý do tại sao blogger sử dụng It is over cuống để tạo hiệu ứng kịch tính của việc “đảo ngược cốt truyện”.
Nhìn lại nội dung, đó là chi tiết đào tạo GPT-4 kín tiếng của OpenAI. Thông tin này đã có rất nhiều suy đoán, nhưng chính thức không tiết lộ, khi đề cập đến thì rất mơ hồ (nguyên văn tương đối mù mịt, dùng nhiều từ viết tắt và biệt ngữ, một số sẽ giải thích sau) :
Câu hỏi đặt ra là, làm thế nào mà thông tin này xuất hiện, và nó có đáng tin cậy không?
Theo dõi cây nho để chạm vào “quả dưa”, và tôi đã tìm thấy người đăng loạt tweet này - Yam Peleg.
Đọc bài của lão này, tôi không khỏi nghĩ đến Tom, một sĩ quan liên lạc sinh viên mà tôi đã gặp ở Israel, người có thể khiến bạn sôi máu nếu bạn nói bất cứ điều gì.
Xem xét rằng ông già này đã nghiên cứu về OpenAI và biết rất nhiều người trong OpenAI, vì vậy nếu ông ấy có được một số thông tin nội bộ, tôi nghĩ độ tin cậy thực sự khá cao.
Nhưng khi tôi định nghiên cứu kỹ các bài viết của anh ấy vào ban đêm, tôi đột nhiên phát hiện ra rằng anh ấy đã xóa tất cả các bài viết trước đó. Lúc đầu, tôi nghĩ rằng mình đã được OpenAI bảo vệ, nhưng tôi rất vui vì đã giữ được tệp. Sau khi xem xét kỹ hơn, tôi thấy rằng không phải do OpenAI yêu cầu xóa mà do anh ấy cũng đã báo cáo nó từ cột thanh toán và bị khiếu nại vi phạm bản quyền.
Sau khi kiểm tra, tôi phát hiện ra:
Trước đó, SemiAnalysis cũng đã đăng tải một bài báo tiết lộ rằng các kỹ sư của Google đã nói trong thông tin liên lạc nội bộ rằng “Chúng tôi không có Moat, và cả OpenAI cũng không” (We Have No Moat, And both Does OpenAI), điều này đã gây ra rất nhiều cuộc thảo luận. Bài viết này sau đó đã được xác nhận là đúng.
Từ quan điểm này, Anh Dylan Patel thực sự có thể có một số người trong cuộc và độ tin cậy của thông tin họ đưa ra vẫn có thể chấp nhận được.
Về lý do tại sao họ rất háo hức yêu cầu Anh Yam xóa các tweet - bởi vì những “thông tin nội bộ” này thực sự có giá trị và đăng ký các bài báo trả phí của SemiAnalysis có giá 500 đô la một năm. Đăng ký phiên bản ưu tú của Brother Yam có giá 1.000 đô la.
▍Phân tích thẻ
Theo thông tin chi tiết này, ý kiến của tôi là tin đồn này vẫn có độ tin cậy nhất định. Sau đây là một số phân tích của tôi dựa trên thông tin này, mà tôi đề xuất để thảo luận.
Sự cạnh tranh cho các mô hình riêng tư sẽ tập trung vào tính song song
Theo tin đồn này, nếu bạn muốn đào tạo một đối thủ GPT-4, ước tính sử dụng khoảng 8.192 chip H100, với mức giá 2 đô la mỗi giờ, quá trình đào tạo trước có thể hoàn thành trong khoảng 55 ngày và chi phí là khoảng 21,5 triệu USD (150 triệu RMB).
Chi phí này thực sự không quá lớn đối với thị trường LLM đầy sóng gió hiện nay. Các cầu thủ lớn trong nước hiện tại có thể dễ dàng thực hiện một số buổi đào tạo. Vì vậy, thành thật mà nói, lần này, có thể thực sự không khoe khoang về điểm chuẩn GPT-4 trong thời gian nửa năm với các khả năng của mô hình (ít nhất là tỷ lệ tham số).
Nếu chi phí đào tạo không phải là một vấn đề, dữ liệu đào tạo sẽ là một vấn đề? Tôi cũng không nghĩ vậy. Có tin đồn rằng dữ liệu đào tạo của GPT-4 có tổng cộng 13T (13 nghìn tỷ) mã thông báo. Để so sánh, cả bộ dữ liệu công khai CommonCrawl và RefinedWeb đều có mã thông báo 5T. Có tin đồn rằng phần còn lại đến từ Twitter, Reddit và YouTube; một số vụ kiện cũng cho rằng OpenAI đã sử dụng dữ liệu vi phạm bản quyền từ “thư viện bóng tối” như LibGen và SciHub.
Vì vậy, tôi nghĩ rằng quy mô của dữ liệu này không phải là không thể đạt được, hơn nữa bản thân đất nước này đã tích lũy rất nhiều tài nguyên của Trung Quốc, vì vậy dữ liệu đào tạo không phải là vấn đề lớn.
Đối với các vấn đề khác như đào tạo trước, tinh chỉnh và mã hóa và giải mã tiếng Trung, trên thực tế, không có quá nhiều bí mật kỹ thuật và các phương pháp tương đối cởi mở. Nếu có đủ nguồn lực, nó sẽ được giải quyết trong nửa năm.
Vì vậy, ngưỡng cuối cùng còn lại là song song. Trên thực tế, một lượng lớn không gian đã được sử dụng trong tin đồn này để giới thiệu nội dung có liên quan và trình độ chuyên môn vẫn tương đối cao, tôi chỉ có thể đưa ra một số lời giải thích hời hợt ở đây.
Nói một cách đại khái, cái gọi là vấn đề song song là bạn có một mô hình lớn, làm thế nào để nhiều người nhất có thể sử dụng nó cùng lúc với chi phí thấp nhất. Điều này liên quan đến rất nhiều vấn đề thiết kế chuyên nghiệp, trong trường hợp tài nguyên máy tính cố định, làm thế nào để phân bổ tài nguyên máy tính trong các liên kết khác nhau? Làm thế nào để xử lý đồng thời? Làm thế nào để quản lý bộ nhớ?
Khả năng xử lý song song trực tiếp xác định trải nghiệm người dùng. Hiện tại, ChatGPT và API dựa trên GPT-3.5 tương đối mượt mà, rất mạnh mẽ. Mọi người ở đây có thể nói rằng các LLM nội địa khác hoặc Claude mà tôi đã trải nghiệm nhanh hơn GPT-3.5. Tuy nhiên, mọi người đều không cân nhắc đến mức độ sử dụng, GPT-3.5 có hiệu suất như vậy trong điều kiện đồng thời cao như vậy.
Do đó, các khả năng song song có thể trở thành một trong những điểm cạnh tranh chính của các đối thủ OpenAI khác nhau.
GPT-5 tập trung vào đa phương thức
Như đã đề cập trước đó, có tin đồn rằng GPT-4 là một mô hình “hỗn hợp các chuyên gia” (MoE) bao gồm 16 mô hình chuyên gia. Dưới đây là giải thích ngắn gọn về “trộn chuyên gia” là gì, đề cập đến việc chia “vấn đề” của người dùng thành nhiều vấn đề phụ và mỗi vấn đề phụ được chuyển giao cho một mô hình nhỏ hơn (nghĩa là “chuyên gia”) để giải quyết, sau đó thông qua một “Mô hình định tuyến” được chọn và kết hợp, sau đó xuất cho người dùng.
Tin đồn tiếp tục cho rằng mỗi “chuyên gia” của GPT-4 có 111 tỷ tham số - tương đương với GPT-3 (điều này phù hợp với tham số GPT-4 mà Sam Altman đã nói trước đó thậm chí còn nhỏ hơn GPT-3.5), trong đó có 55 tỷ Tham số được chia sẻ. Mỗi lượt suy luận chuyển tiếp (tạo đầu ra mã thông báo) sử dụng hai “chuyên gia”, tiêu thụ hiệu quả khoảng 280 tỷ tham số. Con số này nhỏ hơn đáng kể so với con số cần thiết khi không có MoE, và nó cũng giống với dự đoán của nhiều học giả trong giai đoạn đầu.
Điều đáng chú ý là các tin đồn chỉ ra rằng dữ liệu văn bản và mã được sử dụng để đào tạo GPT-4 được sử dụng lại. Kết hợp với lựa chọn sử dụng khung MoE, cá nhân tôi đoán: hoặc dữ liệu văn bản chất lượng cao có thể dễ dàng thu được hiện tại đã gần cạn kiệt hoặc việc cải thiện hiệu suất LLM bằng cách tăng lượng dữ liệu không giới hạn đã rất giới hạn.
Tuy nhiên, bất kể tình huống như thế nào, nếu GPT-5 muốn có một bước đột phá lớn về hiệu suất, thì nó phải có thể sử dụng hết lượng lớn dữ liệu video, hình ảnh và âm thanh hiện có, nói cách khác, đó là một " mô hình đa phương thức".
Vấn đề là, theo tin đồn này, tính đa phương thức trực quan hiện tại của OpenAI không có nhiều thứ để cung cấp. Nó là một bộ mã hóa hình ảnh độc lập sử dụng văn bản làm đầu vào cho đào tạo trước và sau đó sử dụng khoảng 2 nghìn tỷ Mã thông báo để tinh chỉnh. Phương pháp đào tạo này rõ ràng là không thể tận dụng hết dữ liệu video, hình ảnh và âm thanh hiện có.
Do đó, OpenAI luôn nhấn mạnh rằng GPT-5 chưa được đào tạo và xác suất là có thật. Trước khi đào tạo GPT-5, họ phải tìm một kiến trúc mô hình đa phương thức tốt hơn để mô hình có thể tận dụng tối đa dữ liệu âm thanh và video. Chỉ bằng cách có thể sử dụng những dữ liệu đào tạo chất lượng cao này, GPT-5 mới có thể đạt được sự cải thiện đủ về năng lực. (Đồng thời, nếu GPT-5 thực sự có thể sử dụng đầy đủ những dữ liệu âm thanh và video này, thì bất kể đó là “Cơ thể siêu trí tuệ” được đề xuất gần đây của AGI hay OpenAI, có vẻ như điều đó không còn xa nữa.)
OpenAI có thể đã cố tình tung tin đồn này
Suy luận này hoàn toàn là suy đoán cá nhân. Sự thật là không đủ, chỉ cần có một cái nhìn.
Theo hiểu biết của tôi, OpenAI nhận thức rõ rằng con hào của GPT-4 không sâu; trong cơn sốt ngày nay, không khó để các đối thủ bắt kịp. Và như đã phân tích ở trên, cấu trúc mô hình đa phương thức quy mô lớn hiện tại của họ chưa nên hoàn thiện, lúc này nếu những tay chơi mới lao lên và bứt phá từ đa phương thức thì khả năng OpenAI bị vượt qua đường cong cũng rất cao .
Vì vậy, đây có thể là kế hoạch của OpenAI nhằm làm chậm cuộc chiến - Tôi sẽ tiết lộ một số thông tin về GPT-4 cho bạn, hãy để những người chơi đầu tiên thực hiện công việc tái hiện GPT-4 và đi trên con đường mà OpenAI đã đi.
Nếu trong quá trình này, OpenAI đã đặt nền móng cho việc đào tạo GPT-5 và hoàn thành nghiên cứu sơ bộ về mô hình ngôn ngữ lớn đa phương thức, thì ngay cả khi GPT-4 bị các mô hình ngôn ngữ lớn khác vượt qua, OpenAI cũng sẽ không hoảng sợ. Cá nhân tôi nghĩ rằng đa phương thức có thể là thế hệ cuối cùng có sự tham gia của con người và AGI có thể là lực lượng chính trong quá trình phát triển và tiến hóa mô hình trong tương lai. Nói cách khác, nếu bạn giành chiến thắng lần này, bạn có thể giành chiến thắng cho đến cuối cùng.