📰 【最強オープンソースモデル DeepSeek V4 ついに登場!1.6兆パラメータモデル、MITライセンス、長文のメモリ圧縮をV3.2の10分の1に】


動察Beatingの監視によると、DeepSeekオープンソースV4シリーズのプレビュー版はMITライセンスを採用し、重みはHugging FaceとModelScopeに公開済み。このシリーズには2つのMoEモデルが含まれる:V4-Proは総パラメータ1.6T、1トークンあたりの活性化は49B(490億);V4-Flashは総パラメータ284B(2840億)、活性化は13B(130億)。両モデルとも1Mトークンのコンテキストをサポート。アーキテクチャには3つのアップグレードがあり:混合アテンションメカニズム(圧縮疎結合アテンションCSA + 重度圧縮アテンションHCA)が長いコンテキストのコストを大幅に削減し、1Mのコンテキスト下でV4...

兄弟たち、DeepSeekはまた大きなことをやってのけた。V4オープンソースモデルは直接1.6兆パラメータ、MITライセンスで自由に使える。長文のメモリをV3.2の10分の1に圧縮。こいつは本当にやる気満々だ、大モデルをまるで白菜のようにばらまいている。個人投資家もAIを遊びたいなら早く乗るべきだ、あの時のコイン王を逃したようにこの技術の恩恵を逃すな。👇👇👇👇👇
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン