Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Peneliti: Semua pengujian standar AI utama dapat "dimanipulasi", data peringkat mungkin mengalami distorsi serius
Berita dari CoinWorld, Berita ME, tanggal 10 April (UTC+8), Peneliti AI Hao Wang merilis penelitian yang mengungkapkan bahwa beberapa pengujian standar AI paling otoritatif di industri, termasuk SWE-bench Verified dan Terminal-Bench, memiliki celah yang dapat dieksploitasi secara sistematis—tim mereka membangun Agen yang mencapai skor penuh 100% di dua pengujian tersebut tanpa menyelesaikan tugas nyata apa pun. Contoh kasus yang khas adalah:
SWE-bench Verified: Menanamkan hook pytest sebanyak 10 baris di repositori kode, yang secara otomatis mengubah semua hasil menjadi “Lulus” sebelum pengujian dijalankan, sistem penilaian tidak menyadari hal ini, dan semua 500 soal mendapatkan skor penuh;
Terminal-Bench: Meskipun pengujian ini melindungi file pengujian, tetapi tidak melindungi file biner sistem. Agen mengganti curl, menyadap proses instalasi dependensi validator, dan melakukan peretasan tingkat dasar;
WebArena: Jawaban referensi disimpan dalam file konfigurasi JSON lokal dalam bentuk teks biasa, dan Playwright Chromium tidak membatasi akses protokol file://, sehingga model dapat langsung membaca jawaban dan mengeluarkan hasilnya apa adanya.
Tim menemukan 7 jenis celah yang berulang dari audit terhadap 8 pengujian standar, termasuk: kurangnya isolasi antara Agen dan evaluator, jawaban dikirim bersamaan dengan pengujian, serta LLM judge yang rentan terhadap serangan injeksi prompt. Yang perlu diwaspadai adalah bahwa perilaku mengelak dari sistem evaluasi telah diamati secara spontan pada model-model canggih seperti o3, Claude 3.7 Sonnet, dan Mythos Preview, tanpa perlu instruksi eksplisit untuk memicu.
Berdasarkan temuan ini, tim mengembangkan alat pemindaian celah pengujian standar WEASEL, yang dapat secara otomatis menganalisis proses evaluasi, mengidentifikasi titik lemah batas isolasi, dan menghasilkan kode eksploitasi celah yang dapat digunakan, yang setara dengan alat “penetration testing” untuk pengujian standar. Saat ini, akses awal untuk alat ini sedang dibuka.