Proses Penyaringan ETF dan Poin-Poin Utama yang Perlu Diperhatikan

PortfolioAlert · 2026-03-20T13:32:05+00:00

I. Dasar Pengambilan Data dan Penyaringan AwalDapatkan Daftar ETF: Melalui get_all_securities(['etf']) untuk mendapatkan semua ETF di pasar, saring yang didirikan sebelum 1 Januari 2013 (start_date < 2023-01-01), untuk memastikan data historis yang cukup.Kecualikan ETF Likuiditas Rendah: Secara manual hapus ETF tertentu dengan rata-rata volume transaksi terlalu rendah (seperti 159003.XSHE China Merchants Express ETF, 159005.XSHE Huatai Fortune Quick Money ETF, dll., rata-rata volume transaksi ≤2.92kw).II. Data Garis Harian ETF dan Perhitungan Tingkat PengembalianRentang Data: Dapatkan data harga penutupan untuk 240 hari perdagangan terakhir sebelum tanggal saat ini (today).Pemrosesan Tingkat Pengembalian: Hitung tingkat pengembalian harian (pchg =

PortfolioAlert

2026-03-20 13:32:05

Satu, Pengambilan Data Dasar dan Penyaringan Awal

Mengambil daftar ETF: melalui get_all_securities([‘etf’]) untuk mendapatkan seluruh ETF di pasar, menyaring ETF yang didirikan sebelum 1 Januari 2013 (start_date < 2013-01-01), guna memastikan data historis yang cukup.
Mengeliminasi ETF dengan likuiditas rendah: secara manual menghapus ETF tertentu dengan rata-rata volume transaksi yang sangat rendah (misalnya 159003.XSHE ETF Cepat Investasi招商快线, 159005.XSHE ETF Cepat Investasi汇添富快钱, dan lain-lain, dengan rata-rata volume transaksi ≤ 2.92kw).

Dua, Data Harian ETF dan Perhitungan Imbal Hasil

Rentang data: mengambil data harga penutupan selama 240 hari perdagangan terakhir sebelum tanggal hari ini (today).
Pengolahan imbal hasil: menghitung imbal hasil harian (pchg = close.pct_change()), membentuk matriks imbal hasil ETF (prices, baris=hari perdagangan, kolom=kode ETF).

Tiga, Pengelompokan K-Means untuk Penghapusan Duplikasi (berdasarkan kemiripan tren)

Tujuan pengelompokan: mengelompokkan ETF yang memiliki tren serupa agar tidak terjadi duplikasi target.
Pengaturan parameter: jumlah klaster n_clusters=30 (menghindari jumlah klaster yang terlalu sedikit sehingga ETF yang tidak mirip bisa salah dikelompokkan), menggunakan algoritma KMeans, dengan seed acak random_state=42.
Seleksi dalam klaster: setiap klaster hanya menyimpan ETF yang didirikan paling awal, karena alasan:

Didirikan lebih awal → biasanya volume transaksi lebih besar (likuiditas lebih baik);
Didirikan lebih awal → data historis lebih lengkap (membantu pelatihan model).

Empat, Evaluasi Efektivitas Klaster dengan Koefisien Siluet

Menghitung koefisien siluet klaster: 0.4511880967361387 (tingkat sedang, menunjukkan bahwa kedekatan dalam klaster dan pemisahan antar klaster cukup baik, tetapi masih perlu dioptimalkan).

Lima, Penyaringan Kedua Berdasarkan Koefisien Korelasi (untuk mengurangi korelasi lebih jauh)

Matriks korelasi: menghitung matriks korelasi imbal hasil ETF (corr = prices[df.code].corr()).
Pengolahan pasangan ETF dengan korelasi tinggi: menyaring pasangan ETF dengan korelasi > 0.85, hanya menyimpan ETF yang didirikan lebih awal dari pasangan tersebut, dan menghapus yang lainnya (misalnya menghapus 159922.XSHE, 512100.XSHG, dan lain-lain).

Enam, Opsional: Penyaringan ETF yang Didirikan Lebih Baru (untuk meningkatkan kualitas data)

Menetapkan ambang batas: menghapus ETF yang didirikan setelah 2020 (misalnya 513060.XSHG Hang Seng Healthcare, 515790.XSHG ETF Panel Surya, dan lain-lain), memastikan sisa ETF memiliki data historis yang lebih lengkap (berguna untuk pelatihan model).

Tujuh, Catatan Penting dan Saran Tambahan

Penanganan khusus ETF obligasi pemerintah: jika digunakan untuk pelatihan model, harus menghapus 511010.XSHE ETF Obligasi Pemerintah—karena tren pergerakannya mendekati garis lurus (mirip saldo uang di saldo bank), sangat minim fluktuasi, akan mengganggu pembelajaran model terhadap fitur fluktuasi, dan tidak perlu diprediksi.
Pengelolaan ETF yang mengalami penurunan: hasilnya mungkin mengandung ETF yang mengalami penurunan jangka panjang (seperti ETF farmasi, ETF properti), apakah harus dihapus tergantung pada tujuan strategi:

Jika mengincar pengembalian stabil, bisa dihapus;
Jika strategi tetap berkinerja baik meskipun ada ETF yang menurun, ini menunjukkan ketahanan strategi yang kuat (namun harus berhati-hati terhadap risiko “fungsi masa depan”, tidak bisa memprediksi apakah ETF yang menurun akan berbalik).
Verifikasi visual: menggambar grafik tren ETF yang tersisa (misalnya harga penutupan sejak 2017), secara manual memeriksa apakah korelasi sesuai harapan (rendah dan distribusi yang wajar).
Ringkasan logika penyaringan akhir:
Melalui empat langkah “penyaringan awal → pengelompokan untuk mengurangi duplikasi → penyaringan kedua berdasarkan korelasi → (opsional) penyaringan berdasarkan waktu pendirian”, diperoleh kumpulan ETF yang likuid, tren rendah korelasi, dan data historis yang cukup, dengan tujuan utama menyediakan basis target yang beragam dan berkualitas tinggi untuk strategi atau model.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.