Dua hari yang lalu saya secara khusus melakukan pengujian dengan sebuah proyek nyata.
Bukan LeetCode, juga bukan demo satu file, melainkan sebuah proyek SaaS yang sudah berjalan dua tahun.
Sekitar 48 file inti, arsitektur campuran frontend dan backend, sebuah proyek beban sejarah yang tipikal.
Tugas pengujian sangat sederhana: mengeluarkan logika verifikasi izin yang tersebar di beberapa modul menjadi lapisan tengah yang terpusat, sambil memastikan kompatibilitas dengan antarmuka lama.
Hal tersulit dari tugas ini sebenarnya bukan menulis kode, melainkan menjaga konteks secara berkelanjutan.
Model perlu memahami logika lama, menemukan ketergantungan, mengubah beberapa file, memperbarui rantai panggilan, lalu memverifikasi sendiri apakah ada yang terlewat.
Saya memberikan prompt yang sama kepada Claude Fable 5, Opus 4.8, GPT-5.5, dan Gemini 3.1 Pro.
Seluruh proses dilakukan dalam mode PK ZenMux, karena memungkinkan pengamatan output, latensi, dan konsumsi token secara bersamaan.
Hasilnya cukup menarik, GPT-5.5 adalah yang paling cepat mulai bekerja, tetapi mulai dari file ke-11 muncul pergeseran konteks yang jelas.
Gemini 3.1 Pro sangat pandai menjelaskan, tetapi solusi modifikasinya cenderung konservatif.
Kemampuan pemahaman arsitektur Opus 4.8 tetap sangat kuat, tetapi dalam melacak ketergantungan antar modul, kehilangan dua pengecualian izin di pinggiran.
Fable 5 adalah satu-satunya model yang secara aktif memeriksa kembali solusi yang dihasilkannya.
Model ini tidak hanya menghasilkan rencana modifikasi, tetapi juga mencantumkan potensi risiko, lalu memindai ulang rantai panggilan untuk verifikasi.
Bahkan pernah terjadi model menyatakan tugas selesai, lalu menyadari ada yang terlewat, dan secara aktif membatalkan kesimpulan sebelumnya untuk memperbaikinya.
Ini sebenarnya bagian yang paling saya perhatikan, karena dalam proyek nyata, hal yang paling mahal bukanlah model salah menulis kode, melainkan model yang mengira dirinya sudah benar.
Pihak resmi terus menekankan Self Verification dari Fable 5.
Awalnya saya menganggap ini hanyalah istilah pemasaran, tetapi setelah pengujian nyata, kemampuan ini memang ada, dan nilainya dalam tugas proyek yang kompleks jauh lebih nyata daripada angka benchmark.
Tentu saja, biayanya juga cukup nyata, waktu respons rata-rata Fable 5 jauh lebih lama, kadang-kadang Anda bisa merasakan bahwa model sedang berpikir.
Kalau hanya untuk CRUD sederhana atau skrip biasa, saya tidak akan memilihnya.
Tapi untuk tugas yang membutuhkan pemahaman berkelanjutan terhadap puluhan file dan menjaga rantai inferensi panjang, saat ini dia benar-benar meninggalkan kesan paling dalam.
Kesimpulan saya sangat sederhana, Fable 5 bukanlah generator kode yang lebih kuat, melainkan lebih seperti kolaborator proyek yang lebih andal.
Itulah mengapa semakin banyak orang mulai menganggapnya sebagai orchestrator dalam Agent Workflow, bukan sekadar Model Pengkodean.
Jika Anda juga ingin mencoba replikasi pengujian serupa, baru-baru ini ZenMux telah mengintegrasikan Fable 5, dan sedang mengadakan promosi PAYG dengan batas waktu satu minggu.
Isi ulang 20 dolar, dapatkan 10 dolar gratis, isi ulang 50 dolar, dapatkan 30 dolar gratis.
Yang paling penting, tidak ada batas RPM, tidak ada batas aliran, dan tidak perlu mengajukan kuota berbeda dari vendor yang berbeda, satu akun bisa memanggil lebih dari 200 model sekaligus untuk perbandingan.
Bagi yang ingin menguji Fable 5, Opus 4.8, GPT-5.5 secara serius, tentu saja ini jauh lebih mudah.
Tautan acara:
Jangan lewatkan kesempatan pertama untuk merasakan Claude Fable 5.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
MyGateTradeStory
45,91K Popularitas
#
USMayCPIHitsThreeYearHigh
314,08K Popularitas
#
IsraelStrikesIranBTCPlunges
57,21K Popularitas
#
USIranConflictEscalates
694,22K Popularitas
#
GateLaunchesHongKongStockTrading
787,29K Popularitas

Disematkan

peta situs

Claude Fable 5到底比Opus 4.8强多少？

Topik Trending

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

Disematkan