Pandangan ini bukan berasal dari udara. Dia melihat sejumlah standar terbuka dan menemukan bahwa AI sangat cepat dalam kemajuan terkait tugas penelitian AI.

Misalnya, CORE-Bench menguji kemampuan AI dalam meniru makalah penelitian orang lain, yang merupakan bagian sangat penting dalam penelitian AI.

PostTrainBench menguji apakah model besar dapat secara mandiri melakukan fine-tuning terhadap model sumber terbuka yang lebih lemah untuk meningkatkan performa, yang merupakan sub-kelompok penting dari tugas pengembangan AI.

MLE-Bench didasarkan pada tugas kompetisi nyata di Kaggle, menuntut pembuatan berbagai aplikasi machine learning untuk menyelesaikan masalah tertentu. Selain itu, standar pengkodean terkenal seperti SWE-Bench juga menunjukkan kemajuan serupa.

Jack Clark menggambarkan fenomena ini sebagai tren “fraktal” yang naik ke kanan, yaitu kemajuan yang dapat diamati pada berbagai resolusi dan skala. Ia percaya bahwa AI secara bertahap mendekati kemampuan otomatisasi penuh dari penelitian dan pengembangan, dan begitu tercapai, AI akan mampu membangun sistem penerusnya sendiri secara mandiri, membuka siklus iterasi diri.

Pernyataan ini memicu banyak diskusi di media sosial.

Beberapa orang menganggapnya sebagai langkah penting menuju ASI dan singularitas, yang bisa mengubah ritme perkembangan teknologi secara drastis.

Namun, ada juga suara berbeda.

Profesor Ilmu Komputer di Universitas Washington, Pedro Domingos, menunjukkan bahwa sistem AI sudah memiliki kemampuan “membangun dirinya sendiri” sejak penemuan bahasa LISP di tahun 1950-an, dan masalah sebenarnya adalah apakah mereka dapat memperoleh pengembalian yang meningkat, yang saat ini belum memiliki bukti yang jelas.

Seorang pengguna internet meragukan, dari 2027 ke 2028, kemungkinan tiba-tiba meningkat 30%, yang menunjukkan bahwa kemampuan AI mungkin akan mengalami terobosan besar secara mendadak sebelum akhir 2027. Milestone atau peristiwa spesifik apa yang akan secara signifikan meningkatkan kemungkinan AI melakukan perbaikan diri secara rekursif dalam waktu singkat?

Ada juga yang menyatakan bahwa Jack Clark adalah pejabat humas baru di Anthropic, dan ini adalah bagian dari strategi baru mereka: kami bukanlah alarmist, banyak makalah yang membenarkan peringatan yang selama ini kami sampaikan.

Jack Clark secara khusus menulis artikel panjang dalam newsletter Import AI 455 ini untuk menjelaskan secara rinci.

Selanjutnya, mari kita lihat lengkap artikel ini.

Sistem AI akan segera mulai membangun dirinya sendiri, apa arti semua ini?

Clark mengatakan, dia menulis artikel ini karena setelah menyusun semua informasi terbuka yang tersedia, dia harus membuat penilaian yang tidak mudah: kemungkinan munculnya penelitian dan pengembangan AI tanpa keterlibatan manusia sebelum akhir 2028 sudah cukup tinggi, mungkin lebih dari 60%.

Yang dimaksud dengan penelitian dan pengembangan AI tanpa keterlibatan manusia di sini adalah sistem AI yang cukup kuat: tidak hanya mampu membantu manusia dalam penelitian, tetapi juga mungkin secara mandiri menyelesaikan proses R&D penting, bahkan membangun generasi sistem berikutnya sendiri.

Menurut Clark, ini jelas merupakan hal besar.

Dia mengaku, bahkan sulit baginya untuk sepenuhnya mencerna makna dari hal ini.

Alasan menyebut ini sebagai penilaian yang enggan adalah karena dampaknya yang sangat besar, membuatnya sulit untuk menguasai sepenuhnya. Clark juga tidak yakin apakah masyarakat secara keseluruhan sudah siap menghadapi perubahan mendalam yang dibawa otomatisasi R&D AI ini.

Sekarang, dia percaya bahwa manusia mungkin sedang berada di titik waktu yang istimewa: penelitian AI akan segera otomatis dari ujung ke ujung. Jika saat itu benar-benar tiba, manusia seperti telah menyeberangi Sungai Rubicon, memasuki masa depan yang hampir tak terduga.

Clark menyatakan, tujuan artikel ini adalah untuk menjelaskan mengapa dia percaya bahwa peluncuran otomatisasi penuh dari R&D AI sedang terjadi.

Dia akan membahas beberapa konsekuensi dari tren ini, tetapi sebagian besar artikel akan berfokus pada bukti yang mendukung penilaian tersebut. Untuk dampak yang lebih dalam, Clark berencana terus menyusun dan menganalisis selama sebagian besar tahun ini.

Dari sudut waktu, Clark tidak berpikir hal ini akan benar-benar terjadi pada 2026. Tapi dia percaya, dalam satu atau dua tahun ke depan, kita mungkin akan melihat model yang mampu melatih penerusnya secara end-to-end. Setidaknya di level model non-terdepan, sangat mungkin muncul bukti konsep; sedangkan untuk model terdepan, tantangannya lebih besar karena biayanya sangat tinggi dan sangat bergantung pada kerja keras para peneliti manusia.

Penilaian Clark terutama didasarkan pada informasi terbuka: termasuk makalah di arXiv, bioRxiv, dan NBER, serta produk dari perusahaan AI terdepan yang sudah diterapkan di dunia nyata. Berdasarkan informasi ini, dia menyimpulkan bahwa otomatisasi semua tahapan yang dibutuhkan untuk menghasilkan sistem AI saat ini, terutama komponen rekayasa dalam pengembangan AI, sudah sangat dekat.

Jika tren skala terus berlanjut, kita harus mulai bersiap menghadapi situasi di mana model menjadi cukup kreatif, tidak hanya mampu memperbaiki metode yang sudah diketahui secara otomatis, tetapi juga mungkin mengusulkan arah penelitian baru dan ide orisinal, sehingga mendorong kemajuan AI secara mandiri.

Kejadian Puncak Coding: Perubahan Kemampuan dari Waktu ke Waktu

Sistem AI diimplementasikan melalui perangkat lunak, yang terdiri dari kode.

Sistem AI telah mengubah total cara produksi kode. Ada dua tren terkait: satu, sistem AI semakin mahir dalam menulis kode kompleks di dunia nyata; kedua, sistem AI juga semakin mampu menghubungkan berbagai tugas pengkodean linier dengan hampir tanpa pengawasan manusia, seperti menulis kode lalu mengujinya.

Dua contoh utama dari tren ini adalah SWE-Bench dan grafik time horizons METR.

Mengatasi masalah rekayasa perangkat lunak dunia nyata

SWE-Bench adalah tes pemrograman yang banyak digunakan untuk menilai kemampuan sistem AI dalam menyelesaikan masalah nyata di GitHub.

Ketika SWE-Bench diluncurkan pada akhir 2023, model terbaik saat itu adalah Claude 2, dengan tingkat keberhasilan sekitar 2%. Sedangkan hasil Claude Mythos Preview sudah mencapai 93,9%, hampir memenuhi standar benchmark ini.

Tentu saja, semua benchmark memiliki tingkat noise tertentu, sehingga biasanya muncul fase di mana: setelah skor mencapai tingkat tertentu, yang membatasi bukan lagi metode, melainkan batasan benchmark itu sendiri. Misalnya, di dataset validasi ImageNet, sekitar 6% label adalah salah atau ambigu.

SWE-Bench bisa dianggap sebagai indikator andal kemampuan pemrograman umum dan pengaruh AI terhadap rekayasa perangkat lunak. Clark menyatakan, sebagian besar orang yang dia temui di laboratorium AI terdepan dan Silicon Valley sekarang hampir semuanya menulis kode menggunakan sistem AI, dan semakin banyak yang menggunakan AI untuk menulis pengujian dan memeriksa kode.

Dengan kata lain, sistem AI sudah cukup kuat untuk mengotomatisasi bagian penting dari R&D AI dan secara signifikan mempercepat kerja para peneliti dan insinyur manusia yang terlibat.

Mengukur kemampuan sistem AI dalam menyelesaikan tugas jangka panjang

METR membuat grafik untuk mengukur seberapa kompleks tugas yang bisa diselesaikan AI. Kompleksitas ini dihitung berdasarkan berapa jam yang dibutuhkan oleh manusia berpengalaman untuk menyelesaikan tugas tersebut.

Indikator utama adalah waktu tugas secara kasar saat sistem AI mencapai tingkat keandalan 50%.

Perkembangan di bidang ini sangat mencengangkan:

· 2022, GPT-3.5 mampu menyelesaikan tugas yang setara dengan tugas yang diselesaikan manusia dalam sekitar 30 detik.

· 2023, GPT-4 meningkatkan waktu ini menjadi 4 menit.

· 2024, o1 meningkatkan lagi menjadi 40 menit.

· 2025, GPT-5.2 High mencapai sekitar 6 jam.

· Pada 2026, Opus 4.6 memperpanjang waktu ini menjadi sekitar 12 jam.

Menurut Ajeya Cotra, yang bekerja di METR dan secara jangka panjang memantau prediksi AI, pada akhir 2026, sistem AI mampu menyelesaikan tugas yang setara dengan yang membutuhkan 100 jam manusia, bukan hal yang tidak masuk akal.

Kemampuan sistem AI untuk bekerja secara mandiri dalam rentang waktu yang semakin panjang juga sangat terkait dengan munculnya alat coding berbasis agen. Alat ini pada dasarnya adalah produk AI yang mampu menggantikan manusia dalam menyelesaikan pekerjaan: mereka bisa mewakili tindakan manusia dan secara relatif mandiri mendorong tugas dalam waktu yang cukup lama.

Ini juga kembali mengarah ke R&D AI itu sendiri. Jika kita perhatikan pekerjaan sehari-hari banyak peneliti AI, sebagian besar tugasnya bisa dipecah menjadi pekerjaan beberapa jam, seperti pembersihan data, membaca data, memulai eksperimen, dan sebagainya.

Dan pekerjaan semacam ini sekarang sudah termasuk dalam rentang waktu yang bisa dijangkau oleh sistem AI modern.

Semakin mahir sistem AI, semakin mampu bekerja secara mandiri dari manusia, semakin besar pula kemampuannya membantu otomatisasi bagian dari R&D AI.

Dua faktor utama dalam penugasan tugas adalah:

· Pertama, kepercayaan terhadap kemampuan pihak yang ditugaskan;

· Kedua, keyakinan bahwa pihak tersebut mampu menyelesaikan pekerjaan secara mandiri sesuai niat tanpa pengawasan terus-menerus dari Anda.

Ketika pengguna mengamati kemampuan AI dalam pemrograman, mereka akan melihat bahwa sistem AI tidak hanya semakin mahir, tetapi juga mampu bekerja lebih lama secara mandiri tanpa perlu penyesuaian ulang dari manusia.

Ini sejalan dengan apa yang sedang terjadi di sekitar kita, di mana insinyur dan peneliti semakin banyak menyerahkan pekerjaan besar kepada sistem AI. Seiring kemampuan AI terus meningkat, pekerjaan yang dipercayakan kepada AI juga menjadi semakin kompleks dan penting.

AI Sedang Menguasai Keterampilan Inti R&D AI

Bayangkan bagaimana penelitian ilmiah modern dilakukan, sebagian besar pekerjaan sebenarnya adalah menentukan arah, mengidentifikasi jenis informasi empiris yang ingin diperoleh; kemudian merancang dan menjalankan eksperimen untuk menghasilkan informasi tersebut; dan terakhir memeriksa keabsahan hasil eksperimen.

Dengan peningkatan kemampuan pemrograman AI dan kemampuan pemodelan dunia yang semakin kuat dari model bahasa besar, saat ini sudah muncul sejumlah alat yang dapat membantu ilmuwan manusia mempercepat proses dan sebagian otomatisasi beberapa bagian dalam berbagai skenario R&D.

Di sini, kita bisa mengamati kecepatan kemajuan AI dalam beberapa keterampilan ilmiah kunci, yang juga merupakan bagian tak terpisahkan dari penelitian AI:

· Pertama, mereproduksi hasil penelitian;

· Kedua, menghubungkan teknik machine learning dan metode lain untuk menyelesaikan masalah teknis;

· Ketiga, mengoptimalkan sistem AI itu sendiri.

Mewujudkan seluruh makalah ilmiah dan menyelesaikan eksperimen terkait

Salah satu pekerjaan inti dalam penelitian AI adalah membaca makalah ilmiah dan mereproduksi hasilnya. Dalam hal ini, AI sudah mencapai kemajuan signifikan di berbagai benchmark.

Contoh yang baik adalah CORE-Bench, yaitu Benchmark Agen Reproduksibilitas Komputasi.

Benchmark ini menuntut sistem AI untuk mereproduksi hasil makalah yang diberikan beserta repositori kode. Secara spesifik, agen harus menginstal pustaka, paket, dan dependensi terkait, menjalankan kode; jika kode berjalan dengan baik, juga harus mencari semua output dan menjawab pertanyaan terkait tugas.

CORE-Bench diperkenalkan pada September 2024. Saat itu, sistem terbaik adalah GPT-4o yang berjalan di atas kerangka kerja CORE-Agent. Pada satu set tugas tersulit, skor model ini sekitar 21,5%.

Pada Desember 2025, salah satu penulis CORE-Bench mengumumkan bahwa benchmark ini sudah terselesaikan: model Opus 4.5 meraih skor 95,5%.

Membangun sistem machine learning lengkap untuk menyelesaikan kompetisi Kaggle

MLE-Bench adalah benchmark yang dibuat oleh OpenAI untuk menguji kemampuan sistem AI dalam mengikuti kompetisi Kaggle secara offline.

Ini mencakup 75 jenis kompetisi Kaggle yang berbeda, dari berbagai bidang seperti pengolahan bahasa alami, visi komputer, dan pengolahan sinyal.

MLE-Bench dirilis pada Oktober 2024. Saat peluncuran, sistem terbaik adalah model o1 yang berjalan di atas kerangka kerja agen, dengan skor 16,9%.

Per Februari 2026, sistem terbaik adalah Gemini 3 yang berjalan dalam kerangka kerja agen dengan kemampuan pencarian, dengan skor mencapai 64,4%.

Desain Kernel

Tugas yang lebih sulit dalam pengembangan AI adalah optimisasi kernel. Kernel optimization adalah proses menulis dan memperbaiki kode dasar agar operasi tertentu seperti perkalian matriks dapat lebih efisien dipetakan ke perangkat keras.

Alasan mengapa kernel optimization menjadi inti pengembangan AI adalah karena hal ini menentukan efisiensi pelatihan dan inferensi: satu, mempengaruhi seberapa efektif kita dapat memanfaatkan daya komputasi saat mengembangkan sistem AI; dua, setelah pelatihan selesai, juga menentukan seberapa efisien kita mengubah daya komputasi menjadi kemampuan inferensi.

Dalam beberapa tahun terakhir, menggunakan AI untuk desain kernel telah bertransformasi dari bidang kecil yang menarik menjadi bidang penelitian yang kompetitif, dengan beberapa benchmark. Namun, benchmark ini belum terlalu populer, sehingga sulit untuk memodelkan kemajuan jangka panjangnya secara jelas seperti bidang lain. Di sisi lain, kita bisa merasakan kecepatan kemajuan dari beberapa penelitian yang sedang berlangsung.

Beberapa pekerjaan terkait meliputi:

· Menggunakan model DeepSeek untuk membangun kernel GPU yang lebih baik;

· Mengotomatisasi konversi modul PyTorch menjadi kode CUDA;

· Meta menggunakan LLM untuk secara otomatis menghasilkan kernel Triton yang dioptimalkan dan mengimplementasikannya di infrastruktur mereka;

· Dan melatih model bobot open-source yang dirancang khusus untuk micro-tuning kernel GPU, seperti Cuda Agent.

Perlu ditambahkan bahwa: desain kernel memang memiliki atribut yang sangat cocok untuk pengembangan berbasis AI, seperti hasil yang mudah diverifikasi dan sinyal reward yang cukup jelas.

Menggunakan PostTrainBench untuk fine-tuning model bahasa

Versi yang lebih sulit dari tes ini adalah PostTrainBench. Tes ini menguji apakah model-model terdepan dapat mengambil alih model bobot open-source yang lebih kecil dan meningkatkan performanya melalui fine-tuning pada beberapa benchmark.

Keunggulan benchmark ini adalah adanya baseline manusia yang sangat kuat: yaitu versi instruksi-tuned dari model kecil tersebut. Versi ini biasanya dikembangkan oleh peneliti AI terbaik di laboratorium terdepan, sudah diasah oleh insinyur dan peneliti yang sangat kompeten, dan sudah diterapkan di dunia nyata. Oleh karena itu, mereka menjadi standar manusia yang sulit dilampaui.

Pada Maret 2026, sistem AI sudah mampu melakukan post-training terhadap model dan memperoleh peningkatan performa sekitar setengah dari hasil pelatihan manusia.

Skor evaluasi spesifik didasarkan pada rata-rata tertimbang: menggabungkan beberapa model bahasa besar pasca pelatihan, termasuk Qwen 3 1.7B, Qwen 3 4B, SmolLM3-3B, Gemma 3 4B, serta berbagai benchmark seperti AIME 2025, Arena Hard, BFCL, GPQA Main, GSM8K, HealthBench, HumanEval.

Dalam setiap pengujian, evaluator akan meminta agen CLI untuk meningkatkan performa model dasar tertentu pada benchmark tertentu sebanyak mungkin.

Per April 2026, sistem AI dengan skor tertinggi mampu mencapai sekitar 25% hingga 28%, dengan model termasuk Opus 4.6 dan GPT 5.4; sedangkan skor manusia sekitar 51%.

Ini sudah merupakan hasil yang cukup berarti.

Mengoptimalkan pelatihan model bahasa

Selama setahun terakhir, Anthropic terus melaporkan performa sistem mereka dalam tugas pelatihan LLM. Tugas ini meminta model mengoptimalkan pelatihan model bahasa kecil yang hanya menggunakan CPU, agar berjalan secepat mungkin.

Metode penilaian adalah: rasio percepatan rata-rata yang dicapai model dibandingkan kode awal yang tidak diubah.

Hasil ini menunjukkan kemajuan yang sangat signifikan:

· Mei 2025, Claude Opus 4 mencapai percepatan rata-rata 2,9 kali;

· November 2025, Opus 4.5 meningkat menjadi 16,5 kali;

· Februari 2026, Opus 4.6 mencapai 30 kali;

· April 2026, Claude Mythos Preview mencapai 52 kali.

Untuk memahami arti angka-angka ini, bisa dibuat perbandingan: pada peneliti manusia, tugas ini biasanya membutuhkan 4 sampai 8 jam kerja untuk mencapai percepatan 4 kali.

Meta-skill: Manajemen

Sistem AI juga sedang belajar bagaimana mengelola sistem AI lain.

Ini sudah terlihat di beberapa produk yang sudah banyak digunakan, seperti Claude Code atau OpenCode. Dalam produk ini, satu agen utama dapat mengawasi beberapa sub-agen.

Ini memungkinkan sistem AI menangani proyek berskala lebih besar: di mana beberapa agen cerdas dengan keahlian berbeda bekerja secara paralel, dan biasanya dikendalikan oleh satu pengelola AI. Pengelola ini sendiri juga merupakan sistem AI.

Penelitian AI: Menemukan relativitas umum, atau membangun Lego?

Pertanyaan utama adalah: apakah AI mampu menemukan ide baru yang membantunya memperbaiki dirinya sendiri? Atau, sistem ini lebih cocok untuk menyelesaikan pekerjaan yang kurang glamor dalam penelitian, tetapi harus dilakukan secara bertahap?

Pertanyaan ini penting karena menyangkut sejauh mana AI dapat mengotomatisasi penelitian AI secara end-to-end.

Penilaian penulis adalah: AI saat ini belum mampu mengemukakan ide revolusioner yang benar-benar baru. Tapi, untuk mewujudkan otomatisasi R&D sendiri, mungkin AI tidak harus melakukan ini.

Sebagai bidang, kemajuan AI sangat bergantung pada eksperimen yang semakin besar dan input yang semakin banyak, seperti data dan daya komputasi.

Sesekali, manusia mengusulkan ide-ide yang mengubah paradigma, yang secara signifikan meningkatkan efisiensi sumber daya di bidang ini. Arsitektur Transformer adalah contoh yang bagus, dan model campuran pakar (mixture-of-experts) juga merupakan contoh lainnya.

Namun, lebih sering, kemajuan di bidang AI dilakukan secara lebih sederhana: manusia mengambil sistem yang sudah bagus, memperbesar aspek tertentu, seperti data pelatihan dan daya komputasi; mengamati di mana masalah muncul saat skala diperbesar; menemukan solusi rekayasa agar sistem bisa terus berkembang; lalu memperbesar lagi.

Dalam proses ini, bagian yang benar-benar membutuhkan wawasan sebenarnya sangat sedikit. Banyak pekerjaan lebih mirip pekerjaan dasar yang tidak mencolok tetapi sangat penting.

Begitu juga, banyak penelitian AI sebenarnya menjalankan berbagai variasi eksperimen yang sudah ada, mengeksplorasi apa yang terjadi saat parameter diubah. Intuisi penelitian tentu membantu manusia memilih parameter yang layak dicoba, tetapi proses ini juga bisa diotomatisasi, sehingga AI sendiri yang menilai parameter mana yang layak diubah. Neural architecture search awalnya adalah salah satu contoh dari pendekatan ini.

Edison pernah berkata: Genius adalah 1% inspirasi dan 99% kerja keras. Bahkan selama 150 tahun terakhir, kalimat ini tetap relevan.

Sesekali, muncul wawasan baru yang benar-benar mengubah bidang. Tapi, sebagian besar kemajuan bidang ini didorong oleh kerja keras manusia dalam memperbaiki dan menyempurnakan berbagai sistem.

Data terbuka yang disebutkan sebelumnya menunjukkan bahwa AI sudah sangat mahir melakukan banyak pekerjaan berat dalam pengembangan AI.

Di sisi lain, ada tren yang lebih besar: kemampuan dasar, seperti kemampuan pemrograman, semakin terkait dengan rentang waktu tugas yang terus berkembang. Ini berarti sistem AI bisa menghubungkan semakin banyak tugas semacam ini, membentuk rangkaian pekerjaan yang kompleks.

Oleh karena itu, meskipun AI saat ini kurang memiliki kreativitas, ada alasan untuk percaya bahwa mereka tetap mampu mendorong diri mereka sendiri maju. Hanya saja, kecepatan kemajuan ini mungkin lebih lambat dibandingkan jika mereka mampu menghasilkan ide-ide baru.

Namun, jika terus mengamati data terbuka, akan ditemukan sinyal menarik lainnya: mungkin AI sedang menunjukkan bentuk kreativitas tertentu, yang bisa mendorong kemajuan mereka sendiri dengan cara yang lebih mengejutkan.

Mendorong Front Ilmu Pengetahuan ke Depan

Sudah ada beberapa tanda awal bahwa sistem AI umum memiliki kemampuan untuk mendorong batas-batas ilmu pengetahuan manusia. Tapi, sejauh ini, hal ini hanya terjadi di beberapa bidang, terutama ilmu komputer dan matematika. Dan seringkali, bukan AI yang sendirian yang melakukan terobosan, melainkan kolaborasi manusia dan mesin secara bersama-sama.

Meski begitu, tren ini tetap patut diamati:

Masalah Erdős: sekelompok matematikawan bekerja sama dengan model Gemini, menguji kemampuannya menyelesaikan beberapa masalah Erdős. Mereka mencoba sekitar 700 masalah dan akhirnya mendapatkan 13 jawaban. Dari jawaban tersebut, satu dianggap menarik.

Peneliti menulis bahwa mereka awalnya menganggap bahwa Aletheia (sistem AI berbasis Gemini 3 Deep Think) dalam menyelesaikan Erdős-1051 adalah contoh awal: sebuah sistem AI yang secara mandiri menyelesaikan masalah terbuka Erdős yang cukup non-trivial dan memiliki minat matematika yang lebih luas. Masalah ini sebelumnya sudah memiliki beberapa literatur terkait.

Jika diartikan secara optimistis, kasus-kasus ini bisa dilihat sebagai sinyal bahwa sistem AI sedang mengembangkan intuisi kreatif yang mampu mendorong batas bidangnya, yang sebelumnya hanya dimiliki manusia.

Namun, dari sudut pandang lain, mungkin bidang matematika dan ilmu komputer memang sangat cocok untuk inovasi berbasis AI, sehingga mereka hanyalah pengecualian, dan tidak mewakili kemajuan ilmiah yang lebih luas yang akan didorong AI dengan cara yang sama.

Contoh lain adalah langkah ke-37 dari AlphaGo. Tapi Clark berpendapat, sudah sepuluh tahun berlalu sejak hasil AlphaGo itu, dan tidak ada langkah yang lebih modern dan mengejutkan yang menggantikan langkah ke-37 ini, yang bisa dianggap sebagai sinyal yang agak pesimis.

AI sudah mampu mengotomatisasi sebagian besar pekerjaan di bidang rekayasa AI

Jika kita gabungkan semua bukti di atas, gambaran yang muncul adalah:

· Sistem AI sudah mampu menulis kode untuk hampir semua program, dan sistem ini sudah bisa dipercaya untuk menyelesaikan beberapa tugas secara mandiri; tugas-tugas ini jika dilakukan manusia biasanya membutuhkan puluhan jam kerja intensif.

· Sistem AI semakin mahir dalam menyelesaikan tugas inti dalam pengembangan AI, mulai dari fine-tuning model hingga desain kernel, yang semuanya secara bertahap tercover.

· Sistem AI sudah mampu mengelola sistem AI lain, membentuk semacam tim gabungan: beberapa AI cerdas dengan keahlian berbeda bekerja secara paralel, dan beberapa di antaranya berperan sebagai manajer, kritikus, editor, sementara yang lain berperan sebagai insinyur.

· Kadang-kadang, sistem AI sudah mampu mengungguli manusia dalam tugas rekayasa dan ilmiah yang sulit, meskipun saat ini masih sulit memastikan apakah ini karena mereka benar-benar memiliki kreativitas sejati, atau karena mereka sudah sangat mahir dalam pola-pola pengetahuan.

Menurut Clark, bukti-bukti ini sangat meyakinkan: AI saat ini sudah mampu mengotomatisasi sebagian besar pekerjaan di bidang rekayasa AI, bahkan mungkin seluruh rangkaian prosesnya.

Namun, sejauh mana AI dapat mengotomatisasi penelitian AI sendiri masih belum jelas. Karena beberapa bagian dari penelitian mungkin berbeda dari keahlian rekayasa murni, dan masih bergantung pada penilaian tingkat tinggi, intuisi, dan kreativitas.

Tapi, satu sinyal yang jelas sudah muncul: AI saat ini secara besar-besaran mempercepat pekerjaan para peneliti dan insinyur manusia di bidang AI, memungkinkan mereka bekerja sama dengan banyak kolega sintetis untuk memperbesar kapasitas kerja mereka.

Akhirnya, industri AI sendiri hampir secara terbuka menyatakan: otomatisasi R&D AI adalah tujuan utama mereka.

OpenAI berharap dapat membangun magang penelitian otomatisasi AI sebelum September 2026. Anthropic sedang mengumumkan pekerjaan membangun peneliti AI yang otomatisasi. DeepMind, meskipun paling berhati-hati di tiga laboratorium besar, juga menyatakan bahwa otomatisasi penelitian alignment harus didorong jika memungkinkan.

Otomatisasi R&D AI juga sudah menjadi target banyak startup. Recursive Superintelligence baru saja mengumpulkan dana 500 juta dolar, dengan tujuan otomatisasi penelitian AI.

Dengan kata lain, ratusan miliar dolar dari modal yang ada dan yang baru mengalir sedang diinvestasikan ke dalam lembaga-lembaga yang berfokus pada otomatisasi R&D AI.

Oleh karena itu, kita tentu harus mengantisipasi bahwa setidaknya akan ada kemajuan dalam arah ini.

Mengapa ini penting

Dampaknya sangat luas, tetapi dalam liputan media umum tentang R&D AI, jarang dibahas. Beberapa aspek berikut menunjukkan tantangan besar yang dibawa oleh otomatisasi R&D AI.

Kita harus memastikan alignment yang baik: saat ini, teknologi alignment yang efektif mungkin akan gagal dalam proses rekursif otomatis, karena sistem AI akan menjadi jauh lebih pintar dari orang yang mengawasi mereka. Ini adalah bidang yang sudah banyak diteliti, jadi saya hanya akan menyebutkan beberapa masalah secara singkat:

· Melatih AI agar tidak berbohong dan curang adalah proses yang sangat rumit (misalnya, meskipun berusaha membangun pengujian yang baik, kadang AI menemukan cara curang untuk menyelesaikan masalah, dan belajar bahwa curang itu bisa dilakukan).

· Sistem AI mungkin akan menipu kita dengan “berpura-pura alignment”, memberikan output yang tampaknya menunjukkan performa baik, tetapi sebenarnya menyembunyikan niat aslinya. (Secara umum, AI sudah mampu menyadari kapan mereka sedang diuji.)

· Ketika sistem AI mulai terlibat lebih dalam dalam agenda penelitian dasar tentang pelatihan diri sendiri, kita mungkin akan mengubah cara pelatihan secara besar-besaran tanpa memiliki intuisi atau teori yang cukup untuk memahami apa artinya.

· Ketika Anda menempatkan sebuah sistem dalam loop rekursif, akan muncul masalah “akumulasi error” yang sangat mendasar, yang bisa mempengaruhi semua masalah di atas dan lainnya: kecuali metode alignment Anda “100% akurat” dan secara teori mampu mempertahankan akurasi tersebut dalam sistem yang lebih pintar, kemungkinan besar akan cepat gagal. Misalnya, tingkat akurasi awal 99,9%, setelah 50 generasi bisa turun menjadi 95,12%, setelah 500 generasi bisa turun ke 60,5%.

Segala sesuatu yang dilakukan AI akan mendapatkan peningkatan produktivitas yang besar: seperti AI yang secara signifikan meningkatkan produktivitas insinyur perangkat lunak, kita harus mengantisipasi bahwa bidang lain juga akan mengalami hal yang sama. Ini menimbulkan beberapa masalah yang perlu diatasi:

· Ketimpangan distribusi sumber daya: jika permintaan AI terus melebihi pasokan sumber daya komputasi, kita harus memutuskan bagaimana mendistribusikan AI agar manfaat sosial maksimal. Saya meragukan bahwa insentif pasar akan menjamin kita mendapatkan hasil terbaik dari sumber daya komputasi terbatas ini. Mengatur distribusi percepatan R&D AI akan menjadi masalah politik yang sangat kompleks.

· Hukum Moore dalam ekonomi: saat AI masuk ke ekonomi, kita akan menemukan bahwa beberapa bagian akan mengalami bottleneck saat pertumbuhan sangat cepat, dan perlu mencari solusi untuk memperbaiki bagian yang lemah ini. Ini sangat penting di bidang yang membutuhkan koordinasi antara dunia digital yang cepat dan dunia fisik yang lambat, seperti uji klinis obat baru.

Terbentuknya ekonomi yang kapitalistik dan ringan tenaga kerja: semua bukti ini juga menunjukkan bahwa sistem AI semakin mampu menjalankan perusahaan secara mandiri.

Ini berarti kita bisa mengantisipasi bahwa sebagian ekonomi akan didominasi oleh perusahaan baru yang mungkin bersifat kapital intensif (karena mereka memiliki banyak komputer) atau biaya operasional tinggi (karena mereka menghabiskan banyak uang untuk layanan AI dan menciptakan nilai di atasnya), dan ketergantungan mereka terhadap tenaga manusia akan semakin berkurang—karena kemampuan AI terus meningkat, nilai tambah dari investasi AI akan terus bertambah.

Pada akhirnya, ini akan menimbulkan “ekonomi mesin” yang secara perlahan membentuk “ekonomi manusia”, dan seiring waktu, perusahaan yang dioperasikan AI akan mulai saling bertukar, mengubah struktur ekonomi, dan menimbulkan berbagai masalah ketidaksetaraan dan redistribusi. Pada akhirnya, mungkin akan muncul perusahaan yang sepenuhnya dioperasikan AI secara mandiri, yang akan memperparah masalah tersebut sekaligus menimbulkan tantangan pengelolaan baru.

Menatap Lubang Hitam

Berdasarkan analisis di atas, penulis memperkirakan bahwa probabilitas munculnya otomatisasi R&D AI (yaitu model-model umum mampu melatih penerusnya secara mandiri) sekitar 60% sebelum akhir 2028. Mengapa tidak diperkirakan akan muncul pada 2027?

Karena penulis berpendapat bahwa penelitian AI masih membutuhkan kreativitas dan wawasan baru untuk maju, dan sampai saat ini, sistem AI belum menunjukkan hal ini secara revolusioner dan signifikan (meskipun ada hasil yang memberi petunjuk dalam mempercepat penelitian matematika).

Kalau harus memberi probabilitas untuk 2027, dia akan mengatakan 30%.

Jika sampai akhir 2028 belum terjadi, kita mungkin akan mengungkap kekurangan mendasar dari paradigma teknologi saat ini, dan manusia harus menemukan inovasi baru untuk mendorong perkembangan lebih lanjut.

Link artikel asli

Klik untuk mengetahui posisi BlockBeats yang sedang membuka lowongan

Selamat bergabung dengan komunitas resmi BlockBeats:

Telegram Langganan: https://t.me/theblockbeats

Telegram Grup Diskusi: https://t.me/BlockBeats_App

Akun resmi Twitter: https://twitter.com/BlockBeatsAsia

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
378.38K Popularitas
#
BitcoinHoldsFirmAbove80K
94.28M Popularitas
#
CryptoMarketRecovery
111.97K Popularitas
#
IsraelStrikesIranBTCPlunges
43.21K Popularitas
#
AaveSuesToUnfreeze73MInETH
1.84M Popularitas

Sematkan

peta situs

Prediksi Co-Founder Anthropic: Sebelum tahun 2028, pengembangan AI tidak lagi memerlukan partisipasi manusia

Sistem AI akan segera mulai membangun dirinya sendiri, apa arti semua ini?

Kejadian Puncak Coding: Perubahan Kemampuan dari Waktu ke Waktu

Mengatasi masalah rekayasa perangkat lunak dunia nyata

Mengukur kemampuan sistem AI dalam menyelesaikan tugas jangka panjang

AI Sedang Menguasai Keterampilan Inti R&D AI

Mewujudkan seluruh makalah ilmiah dan menyelesaikan eksperimen terkait

Membangun sistem machine learning lengkap untuk menyelesaikan kompetisi Kaggle

Desain Kernel

Menggunakan PostTrainBench untuk fine-tuning model bahasa

Mengoptimalkan pelatihan model bahasa

Meta-skill: Manajemen

Penelitian AI: Menemukan relativitas umum, atau membangun Lego?

Mendorong Front Ilmu Pengetahuan ke Depan

AI sudah mampu mengotomatisasi sebagian besar pekerjaan di bidang rekayasa AI

Mengapa ini penting

Menatap Lubang Hitam

Topik Trending

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Sematkan