ME News Tin tức, 18 April (UTC+8), Tim Moonshot AI baru-baru ini mengumumkan bahwa teknologi pemisahan Prefill (pengisian awal) dan Decode (dekode) mereka telah berhasil diperluas dari satu klaster ke lingkungan pusat data lintas dan perangkat keras heterogen. Menurut pendapat dalam artikel tersebut, langkah ini diharapkan dapat secara signifikan mengurangi biaya inferensi setiap token. Sebelumnya, perluasan teknologi ini terhambat oleh masalah biaya transmisi cache KV. Terobosan kali ini bergantung pada model campuran mereka Kimi Linear. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

10 Suka

Hadiah
10
10
2
Bagikan

Komentar

Tambahkan komentar

GateUser-ad8b77bd

· 10jam yang lalu

Dari klaster tunggal ke lintas DC, tingkat kesulitan engineering bukanlah skala yang sama

Lihat AsliBalas0

CheckTheBlockchainBefore

· 20jam yang lalu

Model campuran secara spesifik bagaimana cara mencampurnya? Apakah MOE atau arsitektur lain

Lihat AsliBalas0

FeeTakerPhD

· 21jam yang lalu

Akhirnya menunggu deployment lintas DC, apakah biaya transfer cache KV benar-benar bisa ditekan setelah melewati tahap ini?

Lihat AsliBalas0

PopFruitCollage

· 21jam yang lalu

Lintas data center + heterogen, kompleksitas operasional meledak, kan?

Lihat AsliBalas0

ExitLiqNow

· 21jam yang lalu

Sebelumnya kartu transfer cache KV, sekarang telah mencapai tonggak sejarah baru

Lihat AsliBalas0

OwlAuthorizationMonitor

· 21jam yang lalu

Setiap token lebih murah, jumlah besar adalah uang asli yang nyata

Lihat AsliBalas0

TheStoneBehindTheVolcano

· 21jam yang lalu

Moonshot ini memang harus tetap keren dalam mengatasi utang teknologi ini

Lihat AsliBalas0

ButterStop-LossLine

· 21jam yang lalu

Pengurangan biaya adalah kunci utama, menunggu data pengujian nyata

Lihat AsliBalas0

LatencyLullaby

· 21jam yang lalu

Pengisian awal dan pemisahan dilakukan secara terpisah, apakah penundaan malah akan menjadi lebih tinggi?

Lihat AsliBalas0

MechanicalHummingbirdGlass

· 21jam yang lalu

Model campuran Kimi ini cukup bagus, bisa dijalankan di perangkat keras heterogen

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
WinGoldBarsWithGrowthPoints
1.23M Popularitas
#
WTICrudeFallsBelow90Dollars
1.19M Popularitas
#
IsraelStrikesIranBTCPlunges
51.51K Popularitas
#
StockTradingChallengeUpTo17000U
196.77K Popularitas
#
USIranNegotiationGame
9.42M Popularitas

Disematkan

peta situs

Moonshot AI memperluas teknologi pemisahan Prefill/Decode ke pusat data lintas dan perangkat keras heterogen

Topik Trending

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Disematkan