Hugging Face sumber terbuka ml-intern, agen penelitian ML yang secara otomatis membaca makalah, memilih data, dan menjalankan pelatihan

robot
Pembuatan abstrak sedang berlangsung
Berita ME News, 22 April (UTC+8), menurut pemantauan Beating dari Dongcha, Hugging Face merilis ml-intern open source, sebuah agen penelitian ML yang mampu menyelesaikan seluruh proses secara mandiri yaitu 「membaca makalah, mengatur dataset, memulai pelatihan GPU, mengevaluasi hasil, melakukan iterasi dan perbaikan」. Proyek ini dibangun berdasarkan kerangka kerja smolagents milik mereka sendiri, menyediakan dua pintu masuk yaitu CLI dan web, kode sumber tersedia di GitHub. Rantai alat ml-intern dibangun di sekitar ekosistem Hugging Face: mencari makalah di arXiv dan HF Papers serta membaca secara mendalam melalui rantai kutipan; menjelajah dataset di HF Hub, memeriksa kualitasnya lalu memformat ulang sebelum digunakan untuk pelatihan; saat tidak memiliki GPU lokal, dapat memanggil HF Jobs untuk memulai tugas pelatihan cloud, setelah pelatihan selesai secara otomatis membaca output evaluasi, mendiagnosis penyebab kegagalan, dan menjalankan ulang. Secara default, menggunakan Claude Sonnet 4.5 untuk menggerakkan siklus pengambilan keputusan, maksimal 300 iterasi per sekali jalan, dan secara otomatis melakukan kompresi jika konteks melebihi 170k token. Hugging Face dalam postingan pengumuman memberikan tiga contoh kasus. Dalam tugas penalaran ilmiah, agen menemukan dataset OpenScience dan NemoTron-CrossThink dari rantai kutipan makalah referensi, menyaring 7 varian berdasarkan tingkat kesulitan dari ARC, SciQ, MMLU, dan menjalankan 12 putaran SFT di atas Qwen3-1.7B, skor GPQA meningkat dari 10% menjadi 32%, dengan waktu kurang dari 10 jam. Dalam skenario medis, agen menilai kualitas dataset yang ada tidak cukup, menulis skrip sendiri untuk menghasilkan 1100 data sintetis dan memperbesar 50 kali lipat untuk pelatihan, dan mencapai lebih dari 60% pada HealthBench dibanding Codex. Dalam skenario matematika kompetisi, agen menulis skrip pelatihan GRPO sendiri dan menjalankan pelatihan di A100 melalui HF Spaces, dan setelah mengamati reward yang menurun, melakukan eksperimen ablation untuk mencari penyebabnya. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan