Thanh toán bằng

USD

Hỗ trợ Visa, Mastercard, SEPA...

P2P tiền (P2P)

Giao dịch linh hoạt, không phí

Thanh toán tiền điện tử trên khắp thế giới

Thị trường

Cơ bản

Giao dịch tiền điện tử một cách tự do

Giao dịch ký quỹ

Tăng lợi nhuận của bạn với đòn bẩy

Chuyển đổi và Đầu tư định kỳ

Giao dịch bất kể khối lượng không mất phí không trượt giá

Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản

Giao dịch trước giờ mở cửa

Giao dịch token mới trước niêm yết

Nâng cao

Giao dịch trên chuỗi với Gate Wallet

Truy cập thông minh token trên chuỗi mới

Chiến lược thông minh - giao dịch tự động

Theo dõi chiến lược giao dịch chuyên gia

Giao dịch CrossEx

Một số dư ký quỹ, chia sẻ xuyên nền tảng

Truy cập hàng trăm hợp đồng vĩnh cửu

Một nền tảng cho tài sản truyền thống

Giao dịch với các quyền chọn kiểu Châu Âu

Tài khoản hợp nhất

Tối đa hóa hiệu quả sử dụng vốn của bạn

Giao dịch demo

Giới thiệu về Giao dịch hợp đồng tương lai

Nắm vững kỹ năng giao dịch hợp đồng từ đầu

Sự kiện tương lai

Tham gia sự kiện để nhận phần thưởng

Giao dịch demo

Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro

Launch

Sưu tập kẹo để kiếm airdrop

Thế chấp nhanh, kiếm token mới tiềm năng

Nắm giữ GT và nhận được airdrop lớn miễn phí

Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu

Giao dịch trên chuỗi và nhận airdrop

Điểm Futures

Kiếm điểm futures và nhận phần thưởng airdrop

Đầu tư

Kiếm lãi từ các token nhàn rỗi

Đầu tư tự động

Đầu tư tự động một cách thường xuyên.

Sản phẩm tiền kép

Kiếm lợi nhuận từ biến động thị trường

Kiếm phần thưởng với staking linh hoạt

Thế chấp một loại tiền điện tử để vay một loại khác

Trung tâm cho vay

Trung tâm cho vay một cửa

Trung tâm tài sản VIP

Kế hoạch tăng trưởng tài sản cao cấp

Quản lý tài sản cá nhân

Phân bổ tài sản cao cấp

Quỹ định lượng

Chiến lược định lượng hàng đầu

Stake tiền điện tử để kiếm tiền từ các sản phẩm PoS

Đòn bẩy thông minh

Đòn bẩy không thanh lý

Đúc GUSD để nhận lợi nhuận RWA

Khám phá giá trị của tiền điện tử

Livestream phân tích thịtrường mỗi ngày

Giao Lưu Với Các Nhà Giao Dịch Khác

Tin tức tiền điện tử mớinhất

Thêm

Khuyến mãi

Trung tâm hoạt động

Tham gia hoạt động để nhận thưởng

Mời bạn bè - kiếm phần thưởng giới thiệu

Chương trình Affiliate

Kiếm phần thưởng hoa hồng độc quyền

Tăng tầm ảnh hưởng và nhận airdrop

Cập nhật nền tảng theo thời gian thực

Các Bài Báo Về Tiền Điện Tử

Dịch vụ VIP

Chiết khấu phí lớn

Quản lý tài sản

Giải pháp quản lý tài sản toàn diện

Giải pháp tài sản số cho doanh nghiệp

Chuyển khoản ngân hàng OTC

Nạp và rút tiền pháp định

Chương trình Môi giới

Cơ chế hoàn tiền API hào phóng

AI

Trợ lý AI đa năng đồng hành cùng bạn

Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn

Gate Tôm hùm xanh, mở hộp là dùng ngay

Gate for AI Agent

Hạ tầng AI, Gate MCP, Skills và CLI

Gate Skills Hub

Hơn 10.000 kỹ năng

Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn

Lựa chọn thông minh từ hơn 30 mô hình AI, với 0% phí bổ sung

Khác

Trung tâm hỗ trợ

Tìm Câu hỏi thường gặp và hướng dẫn trợ giúp

Tìm hiểu về đầu tư tiền điện tử

Phát triển cùng các nhà vô địch

Bằng chứng dự trữ

Gate cam kết 100% bằng chứng dự trữ

Giữ tài sản của bạn an toàn

Phần thưởng

Nghiên cứu viên của DeepMind suy đoán lý do hoãn DeepSeek V4: dữ liệu huấn luyện tăng gấp đôi lên 33T gây ra sự không ổn định nghiêm trọng

2026-04-24 07:23:33

Theo giám sát Beating, báo cáo kỹ thuật của DeepSeek V4 tiết lộ rằng V4-Flash và V4-Pro lần lượt được tiền huấn luyện trên 32T và 33T tokens, gấp đôi so với khoảng 15T tokens của V3.
Báo cáo thừa nhận rằng trong quá trình huấn luyện đã gặp phải “những thách thức không ổn định đáng kể”, các đợt spike loss (tăng đột ngột của mất mát huấn luyện) lặp đi lặp lại, nguyên nhân là do các giá trị ngoại lai trong lớp MoE, cơ chế định tuyến còn làm gia tăng các giá trị ngoại lai này, việc quay trở lại đơn giản không thể giải quyết triệt để.

DeepSeek đã tìm ra hai phương án và đã áp dụng vào huấn luyện thực tế: Định tuyến dự đoán (Anticipatory Routing), tách riêng tính toán chỉ mục định tuyến khỏi cập nhật mạng chính, chỉ tự động kích hoạt khi phát hiện spike loss, chi phí bổ sung khoảng 20%; Chặn SwiGLU (SwiGLU Clamping), giới hạn giá trị kích hoạt trong phạm vi cố định để trực tiếp kiểm soát các giá trị ngoại lai.
Báo cáo cho biết cả hai đều có hiệu quả, nhưng thừa nhận “nguyên lý nền tảng vẫn chưa được hiểu rõ đầy đủ”.

Các nhà nghiên cứu của Google DeepMind, Susan Zhang (trước đây làm việc tại Meta AI và OpenAI), bình luận rằng sự không ổn định gây ra sau khi tăng gấp đôi dữ liệu huấn luyện “giải thích cho sự trì hoãn”, mô tả hai phương án này như “băng dán vết thương”, đồng thời khen ngợi độ minh bạch công nghệ của DeepSeek.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
184.75K Phổ biến
#
CryptoMarketSeesVolatility
246.81K Phổ biến
#
IsraelStrikesIranBTCPlunges
32.23K Phổ biến
#
rsETHAttackUpdate
81.93K Phổ biến
#
US-IranTalksStall
196.72K Phổ biến

Ghim

sơ đồ trang web