DeepSeek, một startup trí tuệ nhân tạo đặt trụ sở tại Hàng Châu, Trung Quốc, đã thu hút sự chú ý đáng kể trong ngành công nghiệp trí tuệ nhân tạo toàn cầu với việc ra mắt mô hình ngôn ngữ lớn DeepSeek-V3 vào cuối tháng 12 năm 2024. Mô hình này có 671 tỷ tham số nhưng chỉ mất khoảng hai tháng để huấn luyện với chi phí 5,58 triệu USD, thấp hơn đáng kể so với các khoản đầu tư của các công ty công nghệ lớn khác. DeepSeek-V3 đạt hiệu suất cao nhất trong số các mô hình mã nguồn mở và so sánh với các mô hình tiên tiến nhất trên thế giới. Công ty đã tối ưu quá trình đào tạo để giảm thiểu chi phí, sử dụng khoảng 2,78 triệu giờ GPU với GPU H800 của Nvidia được sản xuất tại Trung Quốc. Điều này chứng tỏ rằng các công ty AI Trung Quốc đã đạt được tiến bộ đáng kể mặc dù bị hạn chế từ Mỹ trong việc truy cập các bộ vi xử lý tiên tiến cần thiết cho đào tạo trí tuệ nhân tạo. Sự thành công của DeepSeek đã gây ra lo ngại trong ngành công nghệ tại Mỹ, với cổ phiếu của Nvidia và các công ty công nghệ khác giảm mạnh. Các chuyên gia tin rằng DeepSeek đã đạt hiệu suất cao với chi phí thấp hơn đáng kể so với các đối tác ở Mỹ, nhờ vào việc sử dụng công nghệ mã nguồn mở và phương pháp đào tạo hiệu quả. Ngoài ra, DeepSeek đã phát hành mã nguồn và các giải thích kỹ thuật chi tiết về mô hình, cho phép các nhà nghiên cứu và nhà phát triển trên toàn thế giới tiếp cận và cải tiến công nghệ này. Sự minh bạch này tương phản với cách tiếp cận bí mật hơn của các công ty trí tuệ nhân tạo hàng đầu ở Mỹ và có thể thay đổi cách mà các công ty công nghệ lớn phát triển các mô hình trong tương lai.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
#Deepseek Goes Viral#
DeepSeek, một startup trí tuệ nhân tạo đặt trụ sở tại Hàng Châu, Trung Quốc, đã thu hút sự chú ý đáng kể trong ngành công nghiệp trí tuệ nhân tạo toàn cầu với việc ra mắt mô hình ngôn ngữ lớn DeepSeek-V3 vào cuối tháng 12 năm 2024. Mô hình này có 671 tỷ tham số nhưng chỉ mất khoảng hai tháng để huấn luyện với chi phí 5,58 triệu USD, thấp hơn đáng kể so với các khoản đầu tư của các công ty công nghệ lớn khác.
DeepSeek-V3 đạt hiệu suất cao nhất trong số các mô hình mã nguồn mở và so sánh với các mô hình tiên tiến nhất trên thế giới. Công ty đã tối ưu quá trình đào tạo để giảm thiểu chi phí, sử dụng khoảng 2,78 triệu giờ GPU với GPU H800 của Nvidia được sản xuất tại Trung Quốc. Điều này chứng tỏ rằng các công ty AI Trung Quốc đã đạt được tiến bộ đáng kể mặc dù bị hạn chế từ Mỹ trong việc truy cập các bộ vi xử lý tiên tiến cần thiết cho đào tạo trí tuệ nhân tạo.
Sự thành công của DeepSeek đã gây ra lo ngại trong ngành công nghệ tại Mỹ, với cổ phiếu của Nvidia và các công ty công nghệ khác giảm mạnh. Các chuyên gia tin rằng DeepSeek đã đạt hiệu suất cao với chi phí thấp hơn đáng kể so với các đối tác ở Mỹ, nhờ vào việc sử dụng công nghệ mã nguồn mở và phương pháp đào tạo hiệu quả.
Ngoài ra, DeepSeek đã phát hành mã nguồn và các giải thích kỹ thuật chi tiết về mô hình, cho phép các nhà nghiên cứu và nhà phát triển trên toàn thế giới tiếp cận và cải tiến công nghệ này. Sự minh bạch này tương phản với cách tiếp cận bí mật hơn của các công ty trí tuệ nhân tạo hàng đầu ở Mỹ và có thể thay đổi cách mà các công ty công nghệ lớn phát triển các mô hình trong tương lai.