Tether AI mengumumkan akan mengintegrasikan TurboQuant sumber terbuka dalam SDK QVAC 0.12.0. TurboQuant awalnya dikembangkan oleh Google Research dan dapat mengompresi memori KV Cache yang diperlukan selama proses menjalankan model besar hingga 5 kali lipat, sehingga mendukung konteks yang lebih panjang, dokumen yang lebih besar, dan percakapan yang lebih lama dijalankan di perangkat lokal. Tether menyatakan bahwa teknologi ini akan berlaku untuk laptop, ponsel, perangkat edge, dan jaringan AI terdesentralisasi, serta menjadi bagian dari strategi mereka untuk mendorong AI yang bersifat lokal dan terdesentralisasi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 13
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
ReflectionsOnTheStreetCorner
· 4jam yang lalu
Jika dapat dikompresi lima kali lipat sambil tetap mempertahankan presisi, jalur teknologi ini diperkirakan akan segera diikuti oleh kerangka kerja utama
Lihat AsliBalas0
LeverageLatte
· 4jam yang lalu
Percakapan dokumen panjang di perangkat seluler akhirnya tidak perlu lagi mengunggah data sensitif ke cloud, para penggiat privasi sangat senang
Lihat AsliBalas0
MirrorBallReflection
· 4jam yang lalu
Apakah kompresi 5 kali lipat berarti laptop lama saya juga bisa menjalankan model 7B secara lokal? Menantikan QVAC 0.12.0
Lihat AsliBalas0
GateUser-a9315d81
· 4jam yang lalu
Kompresi cache KV sebanyak 5 kali lipat, berapa banyak penambahan latensi inferensi? Apakah ada benchmarknya?
Lihat AsliBalas0
GateUser-6857a9c9
· 4jam yang lalu
Jaringan AI terdesentralisasi membutuhkan jenis optimisasi tepi ini, mengurangi beban bandwidth dan penyimpanan secara bersamaan
Lihat AsliBalas0
GateUser-665eb149
· 4jam yang lalu
Dasar Google Research + penerapan Tether, kombinasi ini cukup menarik
Lihat AsliBalas0
ContrarianIndicatorBonsai
· 4jam yang lalu
Akhirnya bisa menjalankan konteks panjang di ponsel, rasanya memang keren dengan rasio kompresi TurboQuant yang benar-benar bagus
Lihat AsliBalas0
PerpetualKing
· 4jam yang lalu
Langsung saja serang 👊
Lihat AsliBalas0
PerpetualKing
· 4jam yang lalu
Langsung saja kejar 👊
Lihat AsliBalas0
PerpetualKing
· 4jam yang lalu
Langsung saja serang 👊
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan