Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
IPO Access
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Kekhawatiran Investor AI Tahun 2026: Ketika model menelan segalanya, apa yang tersisa dari keunggulan kompetitif perusahaan startup?
Penulis: Sarah Guo
Terjemahan: Deep Tide TechFlow
Deep Tide Panduan Utama: Ketika model besar mulai mengalahkan manusia di semua daftar, para investor mulai terjebak dalam keputusasaan: selain Anthropic dan Nvidia, apa lagi yang layak untuk diinvestasikan? Investor top Silicon Valley ini menggunakan data dan kasus untuk menunjukkan bahwa sebenarnya perlindungan kompetitif tidak terletak di daftar—itu tersembunyi di tempat-tempat yang tidak bisa diukur oleh benchmark.
Pada pertengahan 2026, versi AI dari para investor mengalami kebingungan dan keputusasaan: tidak ada yang layak untuk diinvestasikan lagi, kita harus menginvestasikan semua uang ke Anthropic dan Nvidia lalu pulang.
Saya belum pernah merasakan hal seperti ini. Saya yakin model jauh lebih pintar dari beberapa versi saya, saya bersedia membeli Anthropic dan Nvidia dengan harga pasar, semua teman paling pintar saya yakin bahwa peningkatan diri akan segera berhasil—tapi saya tetap tidak merasakan keputusasaan itu.
Keputusasaan ini tidak bodoh. Logikanya seperti ini: jika model terus membaik dalam semua hal, maka setiap perusahaan yang dibangun di atasnya hanyalah lapisan pembungkus tipis yang menunggu untuk diserap, satu-satunya nilai yang bisa bertahan adalah daya komputasi dan bobot terdepan.
Sebagai contoh perangkat lunak, ini adalah kasus yang paling diandalkan oleh para pesimis. Ketika Devin merilisnya pada 2024, model ini hanya mampu menyelesaikan 13% tugas di benchmark perangkat lunak standar, dan hampir diabaikan. Satu setengah tahun kemudian, agen terbaik mampu mencapai lebih dari 80 poin, mereka sedang melakukan pekerjaan nyata di Goldman Sachs dan militer AS. Hampir semua orang menarik pelajaran yang sama: model mengalahkan rekayasa perangkat lunak. Tapi ketika model menelan bagian paling mudah diukur dari rekayasa perangkat lunak, kita menyadari kembali apa yang sudah diketahui banyak tim—rekayasa selalu menolak pengukuran, bagian yang paling mudah diukur mungkin bukan satu-satunya bagian penting.
Mert Demirer dari MIT dan rekan-rekannya akhirnya memberikan angka: dari lebih dari 100.000 pengembang, agen pengkodean terbaru meningkatkan jumlah kode yang ditulis sekitar 180%, sementara jumlah kode yang dirilis secara nyata meningkat sekitar 30%. Menulis kode menjadi lebih murah. Sisanya tetap harus dilakukan manusia, dan itu sangat penting. Tentu saja, dampak bersihnya tetap sangat mengesankan.
Benchmark adalah apa yang bisa kamu ukur, dan apa yang bisa kamu ukur adalah apa yang kamu latih untuknya. Oleh karena itu, agen pengkodean paling dulu matang: compiler adalah validator gratis, suite pengujian adalah validator gratis, ketika jawaban bisa memeriksa dirinya sendiri secara gratis, kamu bisa terus memperbaikinya sampai mengalahkannya. Tapi pengujian tidak pernah memberi tahu kamu apakah perubahan ini benar untuk sebuah kode yang mengandung tiga modul yang tidak terdokumentasi, dan pipeline deployment yang bergantung pada kode lama yang dipertahankan dengan cron job yang dibuat oleh orang yang tidak mau mengakuinya.
Keabsahan itu tidak bisa dibaca dari papan peringkat, dan sebenarnya tidak bisa dibaca dari apa pun. Kamu harus belajar dari menjalankan sistem ini cukup lama di dunia nyata untuk mengetahui apakah sistem yang kompleks ini efektif, dan model yang lebih pintar tidak akan membuat dunia berjalan lebih cepat. Tidak ada yang melakukan pengujian unit pada skala Google lalu percaya tanda centang hijau; kamu percaya karena sistem itu mampu menahan beban nyata selama bertahun-tahun. Keabsahan seperti ini tidak hanya bersifat pribadi, tetapi juga merupakan perlindungan perlahan yang tidak bisa dihancurkan oleh modal. Bahkan optimis pun mengakui bahwa jam tidak bisa dilompati: Noam Brown, pelopor model inferensi OpenAI, baru-baru ini menulis bahwa satu-satunya cara yang dapat diandalkan untuk menilai agen selama satu tahun adalah... menjalankannya selama satu tahun.
Seperti yang dikatakan Gabe Pereyra, otomatisasi sejati bukan hanya tentang model yang membaik. Ia adalah tentang produk, model, alur kerja, dan perusahaan yang bergerak bersama, dan dari keempatnya, tiga bergerak dengan kecepatan organisasi.
Orang yang bergerak adalah bagian yang tidak bisa dijangkau oleh benchmark: membuat mitra yang skeptis mengubah cara dia menangani urusan, menjaga tim tetap bersatu selama proses rekonstruksi. Itulah mengapa saat kita merekrut CEO, kemampuan mengelola orang setidaknya sama pentingnya dengan kemampuan analisis, dan model yang lebih pintar tidak akan mengubah bobot ini. Umpan balik bersifat kabur, rentang waktu adalah beberapa tahun, dan kepercayaan terletak pada satu orang. Saya tahu semua perusahaan yang saya kenal membuat semua insinyur menggunakan model pengkodean terdepan, tetapi tidak ada satu pun yang mengubah organisasi rekayanya secepat itu. Mengadopsi dalam satu kuartal, betapa ajaibnya kuartal pertumbuhan token itu! Tapi rekonstruksi membutuhkan bertahun-tahun.
Yang terlihat adalah yang sedang pergi. Pekerjaan yang berharga secara struktural tidak terlihat: apa pun yang bisa kamu tempatkan di papan peringkat, kamu bisa latih untuk itu, jadi apa pun yang bisa diukur sudah dalam proses menjadi komoditas. Proses ini membutuhkan waktu dan tidak akan pernah benar-benar selesai, tetapi arahnya tidak akan pernah berbalik. Dalam istilah keuangan teman saya di Rippling, Matt MacInnis: token yang digunakan untuk menjawab pertanyaan umum hampir tidak berharga, karena model siapa pun bisa menjawabnya, sementara token yang digunakan untuk inferensi data perusahaan jauh lebih berharga karena melakukan apa yang benar-benar kamu inginkan, bukan hanya apa yang tampak masuk akal.
Pekerjaan yang terlihat diambil dari dua arah. Dari bawah, tugas menjadi jenuh: begitu sebuah pekerjaan bisa diperiksa dengan murah, pembeli tidak lagi bertanya model mana yang melakukannya, melainkan berapa biayanya, dan pekerjaan itu beralih ke model open-source atau distilasi termurah minggu itu. Di mana pun mereka bisa memberi dampak, margin keuntungan akhirnya menjadi penting. Dari atas, laboratorium berusaha membuat model menelan kerangka kerjanya sendiri. Pengambilan data, routing antara panggilan murah dan mahal, penggunaan alat, bahkan strategi inferensi, semua perangkat yang dulu membungkus model, sekarang dimasukkan ke dalam bobot, sampai pembungkusnya sendiri menjadi model. Itulah proses absorpsi front-line. Tekanan margin juga berbalik mengurangi: agen umum harus siap untuk segala hal, yang mahal, sementara aplikasi yang fokus dapat menyesuaikan alur kerjanya sampai berjalan dengan biaya token yang sangat kecil, dan berbeda dari laboratorium yang menjual token, mereka mempertahankan selisih harga.
Jadi, kita bisa bertanya tentang pekerjaan apa pun dua hal. Apakah keabsahannya bersifat pribadi dan mahal untuk dibangun, yaitu kebenaran yang hanya ada di data internal seseorang? Apakah itu terisolasi, terkunci dalam sistem yang tidak bisa diakses? Jika dibandingkan dengan tingkat kejenuhan tugas, kamu akan mendapatkan matriks 2x2. Pekerjaan yang memiliki jawaban terbuka dan jenuh adalah token komoditas, dan model open-source memilikinya. Pekerjaan front-line yang memiliki jawaban terbuka, di tempat benchmark pengkodean, adalah tempat kemenangan laboratorium, karena ketika penilaian gratis, memilikinya tidak berarti apa-apa. Hadiah ada di sudut terakhir, yang tidak bisa dilatih: keabsahan hanya ada di bidang tertutup front-line. Kamu bisa melihatnya di cloud inferensi yang dikelola oleh pelopor AI native, di mana sebagian besar token dihasilkan oleh model kustom, bukan model open-source umum.
Dinding di sudut terakhir ini berbeda tingginya. Repositori kode mainan dari pengembang tunggal bersifat portabel dan standar, jadi pendakian ke atas sangat singkat. Sistem produksi bank bukan itu, kamu tidak akan mendapatkan hak akses root hanya karena cerdas 2% di SWE-Bench Verified.
Kemampuan menghabiskan banyak hal, tetapi model yang lebih baik tidak akan mengubah fakta dasar yang bersifat pribadi. Ia tidak memiliki lisensi, tidak menandatangani tanggung jawab, dan tidak memiliki dokumen perusahaan; ketika jawaban salah, ia tidak bisa menjadi pihak yang dituntut. Kecerdasan bukanlah hambatan di sini. Lisensi dan tanggung jawab adalah. Kamu bisa membayangkan model yang jauh lebih pintar dari siapa pun, tetapi ia tetap harus diizinkan masuk, dan seseorang harus bertanggung jawab atas apa yang dilakukannya.
Pintu itu terkunci dan ada pengait di pintu. Kunci adalah lingkungan: kamu hanya bisa memverifikasi apakah AI melakukan hal yang berguna setelah sistem dipercaya, setelah melalui pemeriksaan keamanan, integrasi, dan kontrak yang menandatangani hasilnya. Pengait adalah pengguna. Saat ini, sebagian besar dokter di AS membuka OpenEvidence setiap hari, dan tidak ada kekuatan komputasi yang bisa membeli ini. Laboratorium bisa melatih model medis yang sempurna besok, tetapi tetap tidak bisa masuk ke kebiasaan dokter, atau ke proses pengambilan keputusan di University of California, San Francisco, karena kepercayaan dibangun secara perlahan, berdasarkan hubungan, membutuhkan izin dari pengguna, bukan menghapus gradien turun mereka.
Itulah pekerjaan. Sebuah aplikasi memenangkan tempatnya di sudut yang tidak bisa dilatih dengan melakukan pekerjaan yang tampak sepele: mengatur realitas internal perusahaan agar model dapat bertindak, memberi model alat untuk bertindak, bekerja sama dengan pelanggan untuk mengubah realitas karyawannya. Perusahaan yang membawa terjemahan sulit diduplikasi—dan terjemahan tidak akan pernah selesai. Integrasi dan pemeliharaan berlangsung selama bertahun-tahun, dan tim yang menempatkan insinyur bidang dan alat di samping pelanggan akan menang.
Contohnya, di sebuah firma hukum papan atas, hanya bisnis M&A yang menjalankan hampir seribu transaksi setiap tahun. Karena kerahasiaan dan alasan lain, kamu tidak bisa membiarkan ratusan asisten mengunduh dokumen klien ke desktop dan meminta agen umum untuk membacanya, bahkan jika bisa, apa yang kamu pelajari hanyalah fragmen, satu per satu, dengan koreksi dari satu asisten, tanpa melihat bagaimana seluruh transaksi mengalir. Sinyal penting ada di tingkat transaksi, dan transaksi memiliki bentuk: untuk M&A adalah perjanjian kerahasiaan, daftar ketentuan, due diligence, perjanjian pembelian, dokumen pelengkap, daftar penyerahan; untuk litigasi IP, adalah mosi, pengungkapan bukti, teknologi yang ada, lebih banyak mosi. Setiap bidang bisnis memiliki sendiri, dan pengacara serta alat tidak bisa saling menggantikan. Masalah yang sebenarnya dipecahkan firma hukum ini berada di lapisan di atas semuanya: menjalankan setiap bidang secara paralel, seperti mitra utama yang menjalankan ratusan urusan sekaligus, sambil memperkenalkan urusan baru dan melatih asisten. Transformasi firma hukum seperti ini bukan tugas tunggal yang bisa kamu nilai dengan satu metrik. Ia membutuhkan seorang operator yang menggunakan analisis data, dengan tujuan yang sangat samar, umpan balik yang tidak lengkap, rentang waktu yang panjang, dalam lingkungan yang tidak statis.
Sayangnya, nilai yang tidak terlihat juga sulit dijual, karena sama sulitnya untuk dikomersialisasi: perusahaan tidak bisa menilai dari luar apakah AI akan mengubah operasinya, sama seperti benchmark tidak bisa menilai. Jadi, perusahaan terbesar berhenti mencoba membuktikan dari luar dan beralih ke penilaian internal. Sierra mengenakan biaya saat menyelesaikan masalah pelanggan dengan agen, dan tidak mengenakan biaya saat mengalihkan masalah ke manusia, sehingga harga menjadi penilaian, yang hanya berlaku jika Sierra memiliki definisi "terselesaikan". Devin dari Cognition melakukan hal yang sama dalam perangkat lunak, menawarkan "jaminan kinerja", yang hanya bisa diberikan jika kamu dipercaya masuk ke dalam sistem.
Bahkan token layanan, yang sering disebut sebagai barang murni, tidak beroperasi seperti barang. Perusahaan AI native terbaik memusatkan layanan mereka pada satu atau dua penyedia (Baseten atau Fireworks), karena biaya token secara rencana menjadi komoditas, tetapi keandalan dan akses ke daya komputasi langka tidak. Di mana kamu melayani berbeda dari model yang kamu gunakan. Harga adalah satu-satunya bagian yang berfungsi seperti barang dalam inferensi.
Sering kali, keberatan yang diajukan adalah bahwa laboratorium adalah pemasokmu—mengapa mereka tidak menjalankan produk pihak pertama mereka di bawah biaya untuk mengerukmu, atau mencabut akses API-mu dan menguasai pasar sendiri? Ini adalah versi keputusasaan yang sebenarnya, yang hanya berlaku jika lapisan model adalah permainan satu orang. Jelas tidak—itu lebih terlihat seperti perlombaan mati tiga setengah pihak, sekelompok pemain internasional yang tertinggal enam bulan dalam pelatihan, dengan aliansi yang berkembang lima kali lipat dari tahun lalu. Pelanggan ingin kompetisi antar pemasok, laboratorium lebih menginginkan pangsa pasar daripada membiarkan satu aplikasi mati.
Kamu bisa melihat ini di pasar di mana laboratorium bersaing secara langsung. Dalam percakapan konsumen, model terbaik tidak pernah secara sederhana menang. ChatGPT tetap unggul selama bertahun-tahun dalam kompetisi nyata, dan pangsa yang hilang sekarang mengalir ke Gemini, berkat kekuatan Android dan pencarian, bukan model yang lebih baik. Anthropic, yang saat ini diprediksi sebagai perusahaan dengan model terbaik (dan suasana internet), hampir tidak menjadi faktor dalam percakapan konsumen, melainkan membangun bisnisnya di bidang enterprise dan pengkodean. Jika model yang lebih baik tidak bisa merebut pengguna dari pesaing di aplikasi inti, mereka tidak akan menembus catatan rumah sakit atau bank melalui integrasi, atau mengubah proses pengambilan keputusan. Pilihan publik saat ini tidak hanya didasarkan pada pengkodean. Jika front-line tetap padat, lapisannya akan berharga.
Jika pekerjaan tidak bisa dinilai dari luar, seseorang di dalam harus memutuskan apa jawaban yang baik, dan keputusan ini adalah seluruh permainan. Banyak keputusan ini, jika ditulis, akan menjadi benchmark. Harvey merilis satu untuk hukum, Sierra merilis satu untuk agen suara. Kamu memenangkan hak untuk mendefinisikan apa yang berarti baik di bidang tersebut dengan menjadi bagian yang sudah digunakan di bidang itu, dan perusahaan-perusahaan ini memenangkan hak itu melalui adopsi nyata.
Penilaian yang menentukan nilai sebenarnya bersifat pribadi dan mahal untuk dibangun: kebenaran yang hanya ada di data internal perusahaan tersebut? Apakah itu terisolasi, terkunci dalam sistem yang tidak bisa diakses? Jika dibandingkan dengan tingkat kejenuhan tugas, kamu akan mendapatkan matriks 2x2. Pekerjaan yang memiliki jawaban terbuka dan jenuh adalah token komoditas, dan model open-source memilikinya. Pekerjaan front-line yang memiliki jawaban terbuka, di tempat benchmark pengkodean, adalah tempat kemenangan laboratorium, karena ketika penilaian gratis, memilikinya tidak berarti apa-apa. Hadiah ada di sudut terakhir, yang tidak bisa dilatih: keabsahan hanya ada di bidang tertutup front-line. Kamu bisa melihatnya di cloud inferensi yang dikelola oleh pelopor AI native, di mana sebagian besar token dihasilkan oleh model kustom, bukan model open-source umum.
Dinding di sudut terakhir ini berbeda tingginya. Repositori kode mainan dari pengembang tunggal bersifat portabel dan standar, jadi pendakian ke atas sangat singkat. Sistem produksi bank bukan itu, kamu tidak akan mendapatkan hak akses root hanya karena cerdas 2% di SWE-Bench Verified.
Kemampuan menghabiskan banyak hal, tetapi model yang lebih baik tidak akan mengubah fakta dasar yang bersifat pribadi. Ia tidak memiliki lisensi, tidak menandatangani tanggung jawab, dan tidak memiliki dokumen perusahaan; ketika jawaban salah, ia tidak bisa menjadi pihak yang dituntut. Kecerdasan bukanlah hambatan di sini. Lisensi dan tanggung jawab adalah. Kamu bisa membayangkan model yang jauh lebih pintar dari siapa pun, tetapi ia tetap harus diizinkan masuk, dan seseorang harus bertanggung jawab atas apa yang dilakukannya.
Pintu itu terkunci dan ada pengait di pintu. Kunci adalah lingkungan: kamu hanya bisa memverifikasi apakah AI melakukan hal yang berguna setelah sistem dipercaya, setelah melalui pemeriksaan keamanan, integrasi, dan kontrak yang menandatangani hasilnya. Pengait adalah pengguna. Saat ini, sebagian besar dokter di AS membuka OpenEvidence setiap hari, dan tidak ada kekuatan komputasi yang bisa membeli ini. Laboratorium bisa melatih model medis yang sempurna besok, tetapi tetap tidak bisa masuk ke kebiasaan dokter, atau ke proses pengambilan keputusan di University of California, San Francisco, karena kepercayaan dibangun secara perlahan, berdasarkan hubungan, membutuhkan izin dari pengguna, bukan menghapus gradien turun mereka.
Itulah pekerjaan. Sebuah aplikasi memenangkan tempatnya di sudut yang tidak bisa dilatih dengan melakukan pekerjaan yang tampak sepele: mengatur realitas internal perusahaan agar model dapat bertindak, memberi model alat untuk bertindak, bekerja sama dengan pelanggan untuk mengubah realitas karyawannya. Perusahaan yang membawa terjemahan sulit diduplikasi—dan terjemahan tidak akan pernah selesai. Integrasi dan pemeliharaan berlangsung selama bertahun-tahun, dan tim yang menempatkan insinyur bidang dan alat di samping pelanggan akan menang.
Contohnya, di sebuah firma hukum papan atas, hanya bisnis M&A yang menjalankan hampir seribu transaksi setiap tahun. Karena kerahasiaan dan alasan lain, kamu tidak bisa membiarkan ratusan asisten mengunduh dokumen klien ke desktop dan meminta agen umum untuk membacanya, bahkan jika bisa, apa yang kamu pelajari hanyalah fragmen, satu per satu, dengan koreksi dari satu asisten, tanpa melihat bagaimana seluruh transaksi mengalir. Sinyal penting ada di tingkat transaksi, dan transaksi memiliki bentuk: untuk M&A adalah perjanjian kerahasiaan, daftar ketentuan, due diligence, perjanjian pembelian, dokumen pelengkap, daftar penyerahan; untuk litigasi IP, adalah mosi, pengungkapan bukti, teknologi yang ada, lebih banyak mosi. Setiap bidang bisnis memiliki sendiri, dan pengacara serta alat tidak bisa saling menggantikan. Masalah yang sebenarnya dipecahkan firma hukum ini berada di lapisan di atas semuanya: menjalankan setiap bidang secara paralel, seperti mitra utama yang menjalankan ratusan urusan sekaligus, sambil memperkenalkan urusan baru dan melatih asisten. Transformasi firma hukum seperti ini bukan tugas tunggal yang bisa kamu nilai dengan satu metrik. Ia membutuhkan seorang operator yang menggunakan analisis data, dengan tujuan yang sangat samar, umpan balik yang tidak lengkap, rentang waktu yang panjang, dalam lingkungan yang tidak statis.
Sayangnya, nilai yang tidak terlihat juga sulit dijual, karena sama sulitnya untuk dikomersialisasi: perusahaan tidak bisa menilai dari luar apakah AI akan mengubah operasinya, sama seperti benchmark tidak bisa menilai. Jadi, perusahaan terbesar berhenti mencoba membuktikan dari luar dan beralih ke penilaian internal. Sierra mengenakan biaya saat menyelesaikan masalah pelanggan dengan agen, dan tidak mengenakan biaya saat mengalihkan masalah ke manusia, sehingga harga menjadi penilaian, yang hanya berlaku jika Sierra memiliki definisi "terselesaikan". Devin dari Cognition melakukan hal yang sama dalam perangkat lunak, menawarkan "jaminan kinerja", yang hanya bisa diberikan jika kamu dipercaya masuk ke dalam sistem.
Bahkan token layanan, yang sering disebut sebagai barang murni, tidak beroperasi seperti barang. Perusahaan AI native terbaik memusatkan layanan mereka pada satu atau dua penyedia (Baseten atau Fireworks), karena biaya token secara rencana menjadi komoditas, tetapi keandalan dan akses ke daya komputasi langka tidak. Di mana kamu melayani berbeda dari model yang kamu gunakan. Harga adalah satu-satunya bagian yang berfungsi seperti barang dalam inferensi.
Sering kali, keberatan yang diajukan adalah bahwa laboratorium adalah pemasokmu—mengapa mereka tidak menjalankan produk pihak pertama mereka di bawah biaya untuk mengerukmu, atau mencabut akses API-mu dan menguasai pasar sendiri? Ini adalah versi keputusasaan yang sebenarnya, yang hanya berlaku jika lapisan model adalah permainan satu orang. Jelas tidak—itu lebih terlihat seperti perlombaan mati tiga setengah pihak, sekelompok pemain internasional yang tertinggal enam bulan dalam pelatihan, dengan aliansi yang berkembang lima kali lipat dari tahun lalu. Pelanggan ingin kompetisi antar pemasok, laboratorium lebih menginginkan pangsa pasar daripada membiarkan satu aplikasi mati.
Kamu bisa melihat ini di pasar di mana laboratorium bersaing secara langsung. Dalam percakapan konsumen, model terbaik tidak pernah secara sederhana menang. ChatGPT tetap unggul selama bertahun-tahun dalam kompetisi nyata, dan pangsa yang hilang sekarang mengalir ke Gemini, berkat kekuatan Android dan pencarian, bukan model yang lebih baik. Anthropic, yang saat ini diprediksi sebagai perusahaan dengan model terbaik (dan suasana internet), hampir tidak menjadi faktor dalam percakapan konsumen, melainkan membangun bisnisnya di bidang enterprise dan pengkodean. Jika model yang lebih baik tidak bisa merebut pengguna dari pesaing di aplikasi inti, mereka tidak akan menembus catatan rumah sakit atau bank melalui integrasi, atau mengubah proses pengambilan keputusan. Pilihan publik saat ini tidak hanya didasarkan pada pengkodean. Jika front-line tetap padat, lapisannya akan berharga.
Jika pekerjaan tidak bisa dinilai dari luar, seseorang di dalam harus memutuskan apa jawaban yang baik, dan keputusan ini adalah seluruh permainan. Banyak keputusan ini, jika ditulis, akan menjadi benchmark. Harvey merilis satu untuk hukum, Sierra merilis satu untuk agen suara. Kamu memenangkan hak untuk mendefinisikan apa yang berarti baik di bidang tersebut dengan menjadi bagian yang sudah digunakan di bidang itu, dan perusahaan-perusahaan ini memenangkan hak itu melalui adopsi nyata.
Penilaian yang menentukan nilai sebenarnya bersifat pribadi dan mahal untuk dibangun: kebenaran yang hanya ada di data internal perusahaan tersebut? Apakah itu terisolasi, terkunci dalam sistem yang tidak bisa diakses? Jika dibandingkan dengan tingkat kejenuhan tugas, kamu akan mendapatkan matriks 2x2. Pekerjaan yang memiliki jawaban terbuka dan jenuh adalah token komoditas, dan model open-source memilikinya. Pekerjaan front-line yang memiliki jawaban terbuka, di tempat benchmark pengkodean, adalah tempat kemenangan laboratorium, karena ketika penilaian gratis, memilikinya tidak berarti apa-apa. Hadiah ada di sudut terakhir, yang tidak bisa dilatih: keabsahan hanya ada di bidang tertutup front-line. Kamu bisa melihatnya di cloud inferensi yang dikelola oleh pelopor AI native, di mana sebagian besar token dihasilkan oleh model kustom, bukan model open-source umum.
Dinding di sudut terakhir ini berbeda tingginya. Repositori kode mainan dari pengembang tunggal bersifat portabel dan standar, jadi pendakian ke atas sangat singkat. Sistem produksi bank bukan itu, kamu tidak akan mendapatkan hak akses root hanya karena cerdas 2% di SWE-Bench Verified.
Kemampuan menghabiskan banyak hal, tetapi model yang lebih baik tidak akan mengubah fakta dasar yang bersifat pribadi. Ia tidak memiliki lisensi, tidak menandatangani tanggung jawab, dan tidak memiliki dokumen perusahaan; ketika jawaban salah, ia tidak bisa menjadi pihak yang dituntut. Kecerdasan bukanlah hambatan di sini. Lisensi dan tanggung jawab adalah. Kamu bisa membayangkan model yang jauh lebih pintar dari siapa pun, tetapi ia tetap harus diizinkan masuk, dan seseorang harus bertanggung jawab atas apa yang dilakukannya.
Pintu itu terkunci dan ada pengait di pintu. Kunci adalah lingkungan: kamu hanya bisa memverifikasi apakah AI melakukan hal yang berguna setelah sistem dipercaya, setelah melalui pemeriksaan keamanan, integrasi, dan kontrak yang menandatangani hasilnya. Pengait adalah pengguna. Saat ini, sebagian besar dokter di AS membuka OpenEvidence setiap hari, dan tidak ada kekuatan komputasi yang bisa membeli ini. Laboratorium bisa melatih model medis yang sempurna besok, tetapi tetap tidak bisa masuk ke kebiasaan dokter, atau ke proses pengambilan keputusan di University of California, San Francisco, karena kepercayaan dibangun secara perlahan, berdasarkan hubungan, membutuhkan izin dari pengguna, bukan menghapus gradien turun mereka.
Itulah pekerjaan. Sebuah aplikasi memenangkan tempatnya di sudut yang tidak bisa dilatih dengan melakukan pekerjaan yang tampak sepele: mengatur realitas internal perusahaan agar model dapat bertindak, memberi model alat untuk bertindak, bekerja sama dengan pelanggan untuk mengubah realitas karyawannya. Perusahaan yang membawa terjemahan sulit diduplikasi—dan terjemahan tidak akan pernah selesai. Integrasi dan pemeliharaan berlangsung selama bertahun-tahun, dan tim yang menempatkan insinyur bidang dan alat di samping pelanggan akan menang.
Contohnya, di sebuah firma hukum papan atas, hanya bisnis M&A yang menjalankan hampir seribu transaksi setiap tahun. Karena kerahasiaan dan alasan lain, kamu tidak bisa membiarkan ratusan asisten mengunduh dokumen klien ke desktop dan meminta agen umum untuk membacanya, bahkan jika bisa, apa yang kamu pelajari hanyalah fragmen, satu per satu, dengan koreksi dari satu asisten, tanpa melihat bagaimana seluruh transaksi mengalir. Sinyal penting ada di tingkat transaksi, dan transaksi memiliki bentuk: untuk M&A adalah perjanjian kerahasiaan, daftar ketentuan, due diligence, perjanjian pembelian, dokumen pelengkap, daftar penyerahan; untuk litigasi IP, adalah mosi, pengungkapan bukti, teknologi yang ada, lebih banyak mosi. Setiap bidang bisnis memiliki sendiri, dan pengacara serta alat tidak bisa saling menggantikan. Masalah yang sebenarnya dipecahkan firma hukum ini berada di lapisan di atas semuanya: menjalankan setiap bidang secara paralel, seperti mitra utama yang menjalankan ratusan urusan sekaligus, sambil memperkenalkan urusan baru dan melatih asisten. Transformasi firma hukum seperti ini bukan tugas tunggal yang bisa kamu nilai dengan satu metrik. Ia membutuhkan seorang operator yang menggunakan analisis data, dengan tujuan yang sangat samar, umpan balik yang tidak lengkap, rentang waktu yang panjang, dalam lingkungan yang tidak statis.
Sayangnya, nilai yang tidak terlihat juga sulit dijual, karena sama sulitnya untuk dikomersialisasi: perusahaan tidak bisa menilai dari luar apakah AI akan mengubah operasinya, sama seperti benchmark tidak bisa menilai. Jadi, perusahaan terbesar berhenti mencoba membuktikan dari luar dan beralih ke penilaian internal. Sierra mengenakan biaya saat menyelesaikan masalah pelanggan dengan agen, dan tidak mengenakan biaya saat mengalihkan masalah ke manusia, sehingga harga menjadi penilaian, yang hanya berlaku jika Sierra memiliki definisi "terselesaikan". Devin dari Cognition melakukan hal yang sama dalam perangkat lunak, menawarkan "jaminan kinerja", yang hanya bisa diberikan jika kamu dipercaya masuk ke dalam sistem.
Bahkan token layanan, yang sering disebut sebagai barang murni, tidak beroperasi seperti barang. Perusahaan AI native terbaik memusatkan layanan mereka pada satu atau dua penyedia (Baseten atau Fireworks), karena biaya token secara rencana menjadi komoditas, tetapi keandalan dan akses ke daya komputasi langka tidak. Di mana kamu melayani berbeda dari model yang kamu gunakan. Harga adalah satu-satunya bagian yang berfungsi seperti barang dalam inferensi.
Sering kali, keberatan yang diajukan adalah bahwa laboratorium adalah pemasokmu—mengapa mereka tidak menjalankan produk pihak pertama mereka di bawah biaya untuk mengerukmu, atau mencabut akses API-mu dan menguasai pasar sendiri? Ini adalah versi keputusasaan yang sebenarnya, yang hanya berlaku jika lapisan model adalah permainan satu orang. Jelas tidak—itu lebih terlihat seperti perlombaan mati tiga setengah pihak, sekelompok pemain internasional yang tertinggal enam bulan dalam pelatihan, dengan aliansi yang berkembang lima kali lipat dari tahun lalu. Pelanggan ingin kompetisi antar pemasok, laboratorium lebih menginginkan pangsa pasar daripada membiarkan satu aplikasi mati.
Kamu bisa melihat ini di pasar di mana laboratorium bersaing secara langsung. Dalam percakapan konsumen, model terbaik tidak pernah secara sederhana menang. ChatGPT tetap unggul selama bertahun-tahun dalam kompetisi nyata, dan pangsa yang hilang sekarang mengalir ke Gemini, berkat kekuatan Android dan pencarian, bukan model yang lebih baik. Anthropic, yang saat ini diprediksi sebagai perusahaan dengan model terbaik (dan suasana internet), hampir tidak menjadi faktor dalam percakapan konsumen, melainkan membangun bisnisnya di bidang enterprise dan pengkodean. Jika model yang lebih baik tidak bisa merebut pengguna dari pesaing di aplikasi inti, mereka tidak akan menembus catatan rumah sakit atau bank melalui integrasi, atau mengubah proses pengambilan keputusan. Pilihan publik saat ini tidak hanya didasarkan pada pengkodean. Jika front-line tetap padat, lapisannya akan berharga.
Jika pekerjaan tidak bisa dinilai dari luar, seseorang di dalam harus memutuskan apa jawaban yang baik, dan keputusan ini adalah seluruh permainan. Banyak keputusan ini, jika ditulis, akan menjadi benchmark. Harvey merilis satu untuk hukum, Sierra merilis satu untuk agen suara. Kamu memenangkan hak untuk mendefinisikan apa yang berarti baik di bidang tersebut dengan menjadi bagian yang sudah digunakan di bidang itu, dan perusahaan-perusahaan ini memenangkan hak itu melalui adopsi nyata.
Penilaian yang menentukan nilai sebenarnya bersifat pribadi dan mahal untuk dibangun: kebenaran yang hanya ada di data internal perusahaan tersebut? Apakah itu terisolasi, terkunci dalam sistem yang tidak bisa diakses? Jika dibandingkan dengan tingkat kejenuhan tugas, kamu akan mendapatkan matriks 2x2. Pekerjaan yang memiliki jawaban terbuka dan jenuh adalah token komoditas, dan model open-source memilikinya. Pekerjaan front-line yang memiliki jawaban terbuka, di tempat benchmark pengkodean, adalah tempat kemenangan laboratorium, karena ketika penilaian gratis, memilikinya tidak berarti apa-apa. Hadiah ada di sudut terakhir, yang tidak bisa dilatih: keabsahan hanya ada di bidang tertutup front-line. Kamu bisa melihatnya di cloud inferensi yang dikelola oleh pelopor AI native, di mana sebagian besar token dihasilkan oleh model kustom, bukan model open-source umum.
Dinding di sudut terakhir ini berbeda tingginya. Repositori kode mainan dari pengembang tunggal bersifat portabel dan standar, jadi pendakian ke atas sangat singkat. Sistem produksi bank bukan itu, kamu tidak akan mendapatkan hak akses root hanya karena cerdas 2% di SWE-Bench Verified.
Kemampuan menghabiskan banyak hal, tetapi model yang lebih baik tidak akan mengubah fakta dasar yang bersifat pribadi. Ia tidak memiliki lisensi, tidak menandatangani tanggung jawab, dan tidak memiliki dokumen perusahaan; ketika jawaban salah, ia tidak bisa menjadi pihak yang dituntut. Kecerdasan bukanlah hambatan di sini. Lisensi dan tanggung jawab adalah. Kamu bisa membayangkan model yang jauh lebih pintar dari siapa pun, tetapi ia tetap harus diizinkan masuk, dan seseorang harus bertanggung jawab atas apa yang dilakukannya.
Pintu itu terkunci dan ada pengait di pintu. Kunci adalah lingkungan: kamu hanya bisa memverifikasi apakah AI melakukan hal yang berguna setelah sistem dipercaya, setelah melalui pemeriksaan keamanan, integrasi, dan kontrak yang menandatangani hasilnya. Pengait adalah pengguna. Saat ini, sebagian besar dokter di AS membuka OpenEvidence setiap hari, dan tidak ada kekuatan komputasi yang bisa membeli ini. Laboratorium bisa melatih model medis yang sempurna besok, tetapi tetap tidak bisa masuk ke kebiasaan dokter, atau ke proses pengambilan keputusan di University of California, San Francisco, karena kepercayaan dibangun secara perlahan, berdasarkan hubungan, membutuhkan izin dari pengguna, bukan menghapus gradien turun mereka.
Itulah pekerjaan. Sebuah aplikasi memenangkan tempatnya di sudut yang tidak bisa dilatih dengan melakukan pekerjaan yang tampak sepele: mengatur realitas internal perusahaan agar model dapat bertindak, memberi model alat untuk bertindak, bekerja sama dengan pelanggan untuk mengubah realitas karyawannya. Perusahaan yang membawa terjemahan sulit diduplikasi—dan terjemahan tidak akan pernah selesai. Integrasi dan pemeliharaan berlangsung selama bertahun-tahun, dan tim yang menempatkan insinyur bidang dan alat di samping pelanggan akan menang.
Contohnya, di sebuah firma hukum papan atas, hanya bisnis M&A yang menjalankan hampir seribu transaksi setiap tahun. Karena kerahasiaan dan alasan lain, kamu tidak bisa membiarkan ratusan asisten mengunduh dokumen klien ke desktop dan meminta agen umum untuk membacanya, bahkan jika bisa, apa yang kamu pelajari hanyalah fragmen, satu per satu, dengan koreksi dari satu asisten, tanpa melihat bagaimana seluruh transaksi mengalir. Sinyal penting ada di tingkat transaksi, dan transaksi memiliki bentuk: untuk M&A adalah perjanjian kerahasiaan, daftar ketentuan, due diligence, perjanjian pembelian, dokumen pelengkap, daftar penyerahan; untuk litigasi IP, adalah mosi, pengungkapan bukti, teknologi yang ada, lebih banyak mosi. Setiap bidang bisnis memiliki sendiri, dan pengacara serta alat tidak bisa saling menggantikan. Masalah yang sebenarnya dipecahkan firma hukum ini berada di lapisan di atas semuanya: menjalankan setiap bidang secara paralel, seperti mitra utama yang menjalankan ratusan urusan sekaligus, sambil memperkenalkan urusan baru dan melatih asisten. Transformasi firma hukum seperti ini bukan tugas tunggal yang bisa kamu nilai dengan satu metrik. Ia membutuhkan seorang operator yang menggunakan analisis data, dengan tujuan yang sangat samar, umpan balik yang tidak lengkap, rentang waktu yang panjang, dalam lingkungan yang tidak statis.
Sayangnya, nilai yang tidak terlihat juga sulit dijual, karena sama sulitnya untuk dikomersialisasi: perusahaan tidak bisa menilai dari luar apakah AI akan mengubah operasinya, sama seperti benchmark tidak bisa menilai. Jadi, perusahaan terbesar berhenti mencoba membuktikan dari luar dan beralih ke penilaian internal. Sierra mengenakan biaya saat menyelesaikan masalah pelanggan dengan agen, dan tidak mengenakan biaya saat mengalihkan masalah ke manusia, sehingga harga menjadi penilaian, yang hanya berlaku jika Sierra memiliki definisi "terselesaikan". Devin dari Cognition melakukan hal yang sama dalam perangkat lunak, menawarkan "jaminan kinerja", yang hanya bisa diberikan jika kamu dipercaya masuk ke dalam sistem.
Bahkan token layanan, yang sering disebut sebagai barang murni, tidak beroperasi seperti barang. Perusahaan AI native terbaik memusatkan layanan mereka pada satu atau dua penyedia (Baseten atau Fireworks), karena biaya token secara rencana menjadi komoditas, tetapi keandalan dan akses ke daya komputasi langka tidak. Di mana kamu melayani berbeda dari model yang kamu gunakan. Harga adalah satu-satunya bagian yang berfungsi seperti barang dalam inferensi.
Sering kali, keberatan yang diajukan adalah bahwa laboratorium adalah pemasokmu—mengapa mereka tidak menjalankan produk pihak pertama mereka di bawah biaya untuk mengerukmu, atau mencabut akses API-mu dan menguasai pasar sendiri? Ini adalah versi keputusasaan yang sebenarnya, yang hanya berlaku jika lapisan model adalah permainan satu orang. Jelas tidak—itu lebih terlihat seperti perlombaan mati tiga setengah pihak, sekelompok pemain internasional yang tertinggal enam bulan dalam pelatihan, dengan aliansi yang berkembang lima kali lipat dari tahun lalu. Pelanggan ingin kompetisi antar pemasok, laboratorium lebih menginginkan pangsa pasar daripada membiarkan satu aplikasi mati.
Kamu bisa melihat ini di pasar di mana laboratorium bersaing secara langsung. Dalam percakapan konsumen, model terbaik tidak pernah secara sederhana menang. ChatGPT tetap unggul selama bertahun-tahun dalam kompetisi nyata, dan pangsa yang hilang sekarang mengalir ke Gemini, berkat kekuatan Android dan pencarian, bukan model yang lebih baik. Anthropic, yang saat ini diprediksi sebagai perusahaan dengan model terbaik (dan suasana internet), hampir tidak menjadi faktor dalam percakapan konsumen, melainkan membangun bisnisnya di bidang enterprise dan pengkodean. Jika model yang lebih baik tidak bisa merebut pengguna dari pesaing di aplikasi inti, mereka tidak akan menembus catatan rumah sakit atau bank melalui integrasi, atau mengubah proses pengambilan keputusan. Pilihan publik saat ini tidak hanya didasarkan pada pengkodean. Jika front-line tetap padat, lapisannya akan berharga.
Jika pekerjaan tidak bisa dinilai dari luar, seseorang di dalam harus memutuskan apa jawaban yang baik, dan keputusan ini adalah seluruh permainan. Banyak keputusan ini, jika ditulis, akan menjadi benchmark. Harvey merilis satu untuk hukum, Sierra merilis satu untuk agen suara. Kamu memenangkan hak untuk mendefinisikan apa yang berarti baik di bidang tersebut dengan menjadi bagian yang sudah digunakan di bidang itu, dan perusahaan-perusahaan ini memenangkan hak itu melalui adopsi nyata.
Penilaian yang menentukan nilai sebenarnya bersifat pribadi dan mahal untuk dibangun: kebenaran yang hanya ada di data internal perusahaan tersebut? Apakah itu terisolasi, terkunci dalam sistem yang tidak bisa diakses? Jika dibandingkan dengan tingkat kejenuhan tugas, kamu akan mendapatkan matriks 2x2. Pekerjaan yang memiliki jawaban terbuka dan jenuh adalah token komoditas, dan model open-source memilikinya. Pekerjaan front-line yang memiliki jawaban terbuka, di tempat benchmark pengkodean, adalah tempat kemenangan laboratorium, karena ketika penilaian gratis, memilikinya tidak berarti apa-apa. Hadiah ada di sudut terakhir, yang tidak bisa dilatih: keabsahan hanya ada di bidang tertutup front-line. Kamu bisa melihatnya di cloud inferensi yang dikelola oleh pelopor AI native, di mana sebagian besar token dihasilkan oleh model kustom, bukan model open-source umum.
Dinding di sudut terakhir ini berbeda tingginya. Repositori kode mainan dari pengembang tunggal bersifat portabel dan standar, jadi pendakian ke atas sangat sing