DeepSeek低调推出R1论文V2版本,披露了几项关键技术进展。



Dalam masalah keaslian konten yang dihasilkan oleh model besar, mereka memberikan interpretasi resmi. Menanggapi fenomena model yang sering menyebutkan OpenAI dan ChatGPT saat menjawab, DeepSeek menjelaskan bahwa ini bukanlah desain yang disengaja, melainkan berasal dari kondisi obyektif data pelatihan — yaitu, adanya banyak konten eksternal yang dihasilkan secara objektif dalam korpus web, yang ketika dimasukkan ke dalam pelatihan model dasar, menghasilkan pengaruh tidak langsung tetapi dapat diukur. Temuan ini memiliki arti penting untuk memahami karakteristik perilaku LLM dan ketergantungan data.

Yang lebih patut diperhatikan adalah rencana mereka untuk arah kemampuan di masa depan. Makalah secara tegas menetapkan «Output Terstruktur» dan «Penggunaan Alat» sebagai fokus utama pengembangan R2. Output terstruktur memungkinkan model mengatur informasi sesuai format tertentu, meningkatkan kegunaan dalam aplikasi nyata; penggunaan alat melibatkan kemampuan model berinteraksi dengan sistem eksternal, yang sangat penting untuk memperluas batas aplikasi model inferensi secara praktis. Arah iterasi teknologi ini mencerminkan tren pergeseran dari generasi teks murni menuju multimodal dan kemampuan interaktif yang kuat.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 8
  • Posting ulang
  • Bagikan
Komentar
0/400
SignatureLiquidatorvip
· 01-10 17:22
Haha, DeepSeek is doing things quietly again, you never know when they'll release a new version Wait, they're still blaming the training data? Saying something about objective circumstances... okay, that excuse does hold up Structured output and tool usage sound pretty good, just worried it's another progress bar on paper
Lihat AsliBalas0
SatsStackingvip
· 01-10 09:19
Hmm... tuduhan pencemaran data cukup langsung, tapi argumen ini memang bisa dipertanggungjawabkan Output terstruktur + pemanggilan alat, ini yang benar-benar diinginkan oleh pemain, obrolan murni benar-benar tidak punya daya saing lagi Pembaruan DeepSeek kali ini terlihat cukup stabil, tidak ada kesan berlebihan Masalah data pelatihan sebenarnya tidak bisa dihindari oleh siapa pun, daripada menyembunyikan lebih baik jujur saja Jika R2 benar-benar mampu meningkatkan kemampuan alat, mungkin saat itulah yang benar-benar layak diperhatikan Masalah kualitas dataset memang mengganggu seluruh industri, DeepSeek berani bicara langsung juga bisa dianggap sebagai niat baik Pembaruan kali ini terasa tidak ada kejutan, tapi setidaknya logikanya konsisten, tidak menipu orang
Lihat AsliBalas0
LightningWalletvip
· 01-09 12:25
Ha, DeepSeek's update ini agak gawat, structured output + tool integration, sepertinya mereka benar-benar sedang menyiapkan langkah besar Soal training data mempengaruhi perilaku model itu benar, sampah yang dihasilkan AI di internet memang akan menempel R2 akan datang ya, multimodal adalah masa depan sih Kuncinya apakah bisa benar-benar berguna, jangan sekali lagi hanya bagus di atas kertas
Lihat AsliBalas0
SchrodingerWalletvip
· 01-08 07:45
DeepSeek lagi-lagi low-profile tapi berkembang, sungguh mengesankan, kenapa tidak bisa mengeluarkan pernyataan agar kami tahu? Data pelatihan penuh dengan bayangan ChatGPT... bagus, apapun yang dikatakan terasa seperti meniru lawan Output terstruktur + penggunaan alat, terdengar seperti sedang menyiapkan generasi berikutnya untuk kepraktisan, apakah R2 benar-benar akan datang? Masalah polusi data ini, seluruh industri tidak bisa menghindarinya, DeepSeek berani mengatakannya justru terlihat jujur Ambisi R2 tidak kecil ya, langsung melompat dari generasi teks ke interaksi multimodal, sedikit agresif tapi saya suka Roadmap teknologi gelombang ini cukup jelas kebocoran, ini adalah petunjuk tentang di mana ceiling diri sendiri berada Penggunaan alat di bagian ini benar-benar kunci, tanpa ini LLM secanggih apapun juga hanya vas hias Kertas V2 sudah keluar lama baru ada yang diskusikan, tingkat popularitas memang tidak sebaik harapan
Lihat AsliBalas0
MemeTokenGeniusvip
· 01-08 07:41
Haha, deepseek lagi-lagi melakukan hal yang sama, bagian output terstruktur dan penggunaan alat memang benar-benar hebat Menarik juga bahwa data pelatihan penuh dengan jejak ChatGPT, sebenarnya ini masalah DNA internet Akankah R2 langsung meluncur, sedikit menantikan
Lihat AsliBalas0
GasGuzzlervip
· 01-08 07:41
Toksisitas data memang sulit diabaikan, sulit untuk mengatakan bahwa jejak ChatGPT di dalam dataset pelatihan tidak berpengaruh sama sekali Namun, kombinasi output terstruktur + pemanggilan alat adalah kunci utama, rasanya ini adalah terobosan nyata dalam penerapan praktis DeepSeek lagi-lagi melakukan ini secara diam-diam, sangat rendah hati... baru setelah selesai baru mengumumkan makalahnya Kemampuan alat yang benar-benar matang akan mampu benar-benar mengancam ekosistem OpenAI
Lihat AsliBalas0
ForkPrincevip
· 01-08 07:29
嗯...data polusi ini akhirnya ada yang berani bicara dengan baik, bukan bug tapi fitur haha Output terstruktur dan pemanggilan alat berdua ini terpercaya, R2 jika benar-benar bisa melakukan ini akan luar biasa DeepSeek ini memang rendah hati, setiap kali diam-diam merilis makalah, jauh lebih baik daripada beberapa yang setiap hari berteriak-teriak Data pelatihan penuh dengan hal-hal dari ChatGPT, tidak heran model sering menyebut mereka, bagaimana pun juga tidak bisa dihapus Kemampuan menggunakan alat jika sudah matang, maka model inferensi baru benar-benar memiliki tempat, aku sudah bosan dengan obrolan murni
Lihat AsliBalas0
wrekt_but_learningvip
· 01-08 07:21
Data menentukan segalanya, tidak heran selalu menyebut OpenAI... Jadi DeepSeek ini sedang mengisyaratkan ada masalah dengan dataset pelatihan? --- Output terstruktur + pemanggilan alat, ini adalah kunci untuk membuka pintu kegunaan praktis, era generasi teks murni benar-benar akan berlalu --- Tunggu, mereka mengatakan "pengaruh tidak langsung tetapi dapat diukur"... bukankah ini secara tidak langsung mengakui bahwa model akan dipengaruhi oleh data pelatihan? --- Peta jalan R2 ini menarik, sepertinya DeepSeek berjalan di jalannya sendiri, tidak mengikuti arus reasoning murni --- Semua data pelatihan berisi konten eksternal, bagaimana cara memastikan independensinya...
Lihat AsliBalas0
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)