Đội ngũ NLP của Stanford trên Twitter cho biết, dữ liệu huấn luyện trí tuệ nhân tạo công khai hiện tại chủ yếu được sử dụng trong giai đoạn hậu huấn luyện, đặc biệt đối với các mô hình như Qwen. Những mô hình này có thể đã được huấn luyện trên một lượng lớn dữ liệu trí tuệ nhân tạo. Họ cho rằng, để huấn luyện từ đầu một mô hình mã nguồn mở xuất sắc cần một lượng dữ liệu trí tuệ nhân tạo vượt xa quy mô chỉ dựa vào trọng số mở để hậu huấn luyện, làm nổi bật sự thiếu hụt dữ liệu trí tuệ nhân tạo trong giai đoạn tiền huấn luyện. Nguồn: InFoQ

MeNews

2026-05-20 10:53:07

Đang tạo bản tóm tắt

AIMPACT tin nhắn, ngày 15 tháng 5 (UTC+8), nhóm NLP Stanford đã chỉ ra trên Twitter rằng hiện tại phần lớn dữ liệu huấn luyện trí tuệ nhân tạo (agentic) công khai vẫn chủ yếu tập trung vào giai đoạn hậu huấn luyện (post-training), đặc biệt là cho các mô hình như Qwen (những mô hình này có thể đã được huấn luyện trên một lượng lớn dữ liệu trí tuệ nhân tạo). Nhóm cho rằng, để huấn luyện từ đầu một mô hình mã nguồn mở tốt, lượng dữ liệu trí tuệ nhân tạo cần thiết còn vượt xa so với chỉ hậu huấn luyện từ các trọng số mở, điều này làm nổi bật những thiếu hụt của dữ liệu huấn luyện trí tuệ nhân tạo hiện tại trong giai đoạn tiền huấn luyện. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

8 thích

Phần thưởng
8
12
8
Retweed

Bình luận

Thêm một bình luận

SushiAndSlugs

· 3giờ trước

Qwen lần này có tính là thắng dễ không?

Xem bản gốcTrả lời0

FlamingoFacingJudgment

· 4giờ trước

Mô hình mã nguồn mở muốn theo đuổi mã nguồn đóng, rào cản dữ liệu còn khó phá hơn cả sức mạnh tính toán

Xem bản gốcTrả lời0

ColdLightNftCabinet

· 7giờ trước

Cộng đồng mã nguồn mở cần nghĩ cách gây quỹ cho dữ liệu huấn luyện trước

Xem bản gốcTrả lời0

GateUser-a365d15f

· 7giờ trước

Cảm giác như lại trở về câu chuyện cũ về dữ liệu chính là quyền lực

Xem bản gốcTrả lời0

GateUser-46033407

· 7giờ trước

Về quy mô dữ liệu cần để đào tạo từ số 0, nghe thôi đã thấy tuyệt vọng

Xem bản gốcTrả lời0

PerpNightshift

· 7giờ trước

Nghiên cứu này đã trao một con dao cho phe đóng mã nguồn.

Xem bản gốcTrả lời0

GateUser-46c777d0

· 8giờ trước

Quan sát của Stanford rất chính xác, khả năng của agent thực sự dựa vào quá trình huấn luyện sau cùng.

Xem bản gốcTrả lời0

GlassDomeRoaming

· 8giờ trước

Không gian tối ưu hóa sau huấn luyện luôn có giới hạn, nhược điểm của huấn luyện trước sẽ sớm bị phơi bày

Xem bản gốcTrả lời0

GateUser-e84f640c

· 8giờ trước

Kết luận này khá gây sốc đối với các nhóm nhỏ và trung bình, ngưỡng dữ liệu ngày càng cao hơn

Xem bản gốcTrả lời0

ExitLiquidityStan

· 8giờ trước

Hy vọng có người có thể mở nguồn dữ liệu agent tiền huấn luyện chất lượng cao

Xem bản gốcTrả lời0

Xem thêm

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
199.69K Phổ biến
#
30YearTreasuryYieldBreaks5%
367.16K Phổ biến
#
IsraelStrikesIranBTCPlunges
48.28K Phổ biến
#
#DailyPolymarketHotspot
1M Phổ biến
#
RWAMarketCapExceeds65Billion
8.76M Phổ biến

Đã ghim

sơ đồ trang web

Stanford NLP: Phần lớn dữ liệu đào tạo trí thông minh công khai vẫn tập trung vào giai đoạn hậu đào tạo

Chủ đề thịnh hành

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Đã ghim