DeepSeek, стартап зі штаб-квартирою в Ханчжоу, Китай, здобув значну увагу в глобальній індустрії штучного інтелекту з випуском великого мовного моделю DeepSeek-V3 наприкінці грудня 2024 року. Ця модель має 671 мільярд параметрів, але її вдалося навчити за приблизно два місяці за вартістю 5,58 мільйона доларів США, що значно менше, ніж витрати інших великих технологічних компаній. DeepSeek-V3 досягає найвищої продуктивності серед відкритих моделей та порівнюється з найбільш передовими моделями у світі. Компанія оптимізувала процес навчання для мінімізації витрат, використовуючи близько 2,78 мільйонів годин GPU з графічними процесорами H800 від Nvidia, виробленими в Китаї. Це свідчить про те, що китайські компанії зі штучного інтелекту зробили значний прогрес, незважаючи на обмеження від США у доступі до передових напівпровідників, необхідних для навчання штучного інтелекту. Успіх DeepSeek викликав обурення в індустрії технологій США, через що акції Nvidia та інших технологічних компаній різко впали. Експерти вважають, що DeepSeek досяг високої продуктивності за набагато менші кошти, ніж його американські аналоги, завдяки використанню технології відкритого коду та ефективним методам навчання. Крім того, DeepSeek випустила вихідний код і докладні технічні пояснення моделі, що дозволяє дослідникам та розробникам з усього світу отримати доступ до цієї технології та поліпшити її. Ця прозорість контрастує з більш секретним підходом провідних американських компаній зі штучного інтелекту та може змінити спосіб розробки моделей великими технологічними компаніями у майбутньому.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
#Deepseek Goes Viral#
DeepSeek, стартап зі штаб-квартирою в Ханчжоу, Китай, здобув значну увагу в глобальній індустрії штучного інтелекту з випуском великого мовного моделю DeepSeek-V3 наприкінці грудня 2024 року. Ця модель має 671 мільярд параметрів, але її вдалося навчити за приблизно два місяці за вартістю 5,58 мільйона доларів США, що значно менше, ніж витрати інших великих технологічних компаній.
DeepSeek-V3 досягає найвищої продуктивності серед відкритих моделей та порівнюється з найбільш передовими моделями у світі. Компанія оптимізувала процес навчання для мінімізації витрат, використовуючи близько 2,78 мільйонів годин GPU з графічними процесорами H800 від Nvidia, виробленими в Китаї. Це свідчить про те, що китайські компанії зі штучного інтелекту зробили значний прогрес, незважаючи на обмеження від США у доступі до передових напівпровідників, необхідних для навчання штучного інтелекту.
Успіх DeepSeek викликав обурення в індустрії технологій США, через що акції Nvidia та інших технологічних компаній різко впали. Експерти вважають, що DeepSeek досяг високої продуктивності за набагато менші кошти, ніж його американські аналоги, завдяки використанню технології відкритого коду та ефективним методам навчання.
Крім того, DeepSeek випустила вихідний код і докладні технічні пояснення моделі, що дозволяє дослідникам та розробникам з усього світу отримати доступ до цієї технології та поліпшити її. Ця прозорість контрастує з більш секретним підходом провідних американських компаній зі штучного інтелекту та може змінити спосіб розробки моделей великими технологічними компаніями у майбутньому.