Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Ethan Mollick Chia sẻ mô hình LLM được huấn luyện hoàn toàn dựa trên các văn bản thời kỳ Victoria
Ethan Mollick Chia sẻ Mô hình LLM Được Huấn luyện Hoàn toàn Trên Văn bản Thời Kỳ Victoria
Tóm tắt
Ethan Mollick đã đăng tweet về một mô hình ngôn ngữ lớn được huấn luyện từ đầu trên hơn 28.000 văn bản tiếng Anh của giai đoạn Nữ hoàng Victoria (1837-1899), tất cả đều được trích xuất từ một bộ dữ liệu của Thư viện Anh. Mô hình hướng tới việc tạo ra ngôn ngữ và quan điểm lịch sử mang tính chân thực mà không cần dựa vào một LLM hiện đại giả vờ là người thời Victoria. Bằng cách giới hạn dữ liệu huấn luyện vào các nguồn phù hợp theo từng giai đoạn, các nhà phát triển hy vọng đạt được mô phỏng chính xác hơn về cách mọi người thực sự đã viết và đã nghĩ trong thời kỳ đó. Điều này quan trọng vì nó cho thấy một cách thức để xây dựng các mô hình theo lĩnh vực, tránh được các định kiến đương thời—hữu ích cho giáo dục, bảo tồn văn hóa và nghiên cứu lịch sử.
Phân tích
Các dự án tương tự đã tồn tại: TimeCapsuleLLM được huấn luyện trên các văn bản London từ 1800-1875, và Violet LLM sử dụng các nguồn từ 1800-1899 bao gồm dữ liệu từ Thư viện Anh. Thông thường, các dự án này dùng các kiến trúc như nanoGPT hoặc GPT-NeoX. TimeCapsuleLLM tạo ra một số kết quả gây bất ngờ—nó có thể gợi nhớ các sự kiện thật từ năm 1834 dựa trên các mẫu trong chỉ 15GB dữ liệu huấn luyện, mà không cần đưa vào các sự kiện lịch sử một cách tường minh.
Cách tiếp cận “từ đầu” bằng các bộ dữ liệu thuộc miền công cộng phù hợp với một xu hướng rộng hơn: các dự án mang tính sở thích và học thuật xây dựng mô hình chuyên biệt thay vì dựa vào các hệ thống đa dụng. Đánh đổi là rõ ràng—bạn nhận được các đầu ra đúng “chất” theo giai đoạn, nhưng đổi lại là mất đi độ bao quát của một mô hình thuộc nhóm GPT-4.
Tôi nên lưu ý: mô hình cụ thể mà Mollick đề cập vẫn chưa được xác định. Tweet của ông ấy được đăng lên chưa đầy một giờ trước bài phân tích này, và các tìm kiếm trên Hugging Face, GitHub và các kho lưu trữ của Thư viện Anh chỉ cho thấy các dự án cũ hơn được nhắc đến ở trên. Những chi tiết ở đây dựa trên các nỗ lực tương tự đó, chứ không phải là đúng mô hình trong tweet.
Nếu mô hình mới này được phát hành công khai kèm theo tài liệu, nó có thể thúc đẩy nhiều sự quan tâm hơn đến các LLM cho phân tích văn hóa. Dù vậy, vẫn có những thách thức thực sự—chất lượng OCR từ các nguồn tư liệu thế kỷ 19 biến thiên rất mạnh, và bộ dữ liệu blbooks của Thư viện Anh gồm 25M trang chứa đầy các lỗi hiện diện do quá trình quét.
Đánh giá Tác động