Proses Penyaringan ETF dan Poin-Poin Utama yang Perlu Diperhatikan

robot
Pembuatan abstrak sedang berlangsung
  • Satu, Pengambilan Data Dasar dan Penyaringan Awal

Mendapatkan daftar ETF: melalui get_all_securities([‘etf’]) untuk memperoleh seluruh ETF di pasar, kemudian menyaring ETF yang didirikan sebelum 1 Januari 2013 (start_date < 2013-01-01) agar data historis cukup.
Mengeliminasi ETF dengan likuiditas rendah: secara manual menghapus ETF tertentu yang rata-rata volume transaksinya sangat rendah (misalnya 159003.XSHE招商快线ETF, 159005.XSHE汇添富快钱ETF, dan lain-lain, dengan rata-rata volume transaksi ≤ 2.92kw).

  • Dua, Data Harian ETF dan Perhitungan Imbal Hasil

    Rentang data: memperoleh data harga penutupan selama 240 hari perdagangan terakhir sebelum tanggal hari ini (today).
    Pengolahan imbal hasil: menghitung imbal hasil harian (pchg = close.pct_change()), membentuk matriks imbal hasil ETF (prices, baris=hari perdagangan, kolom=kode ETF).

  • Tiga, Pengelompokan K-Means untuk Penghapusan Duplikasi (berdasarkan kemiripan tren)

    Tujuan pengelompokan: mengelompokkan ETF yang tren pergerakannya mirip agar tidak terjadi duplikasi target.
    Pengaturan parameter: jumlah klaster n_clusters=30 (menghindari klaster yang terlalu sedikit sehingga ETF yang tidak mirip bisa salah dikelompokkan), menggunakan algoritma KMeans, dengan seed acak random_state=42.
    Penyaringan dalam klaster: setiap klaster hanya menyimpan ETF yang didirikan paling awal, alasannya:
    Didirikan lebih awal → biasanya volume transaksi lebih besar (likuiditas lebih baik);
    Didirikan lebih awal → data historis lebih lengkap (mendukung pelatihan model).

  • Empat, Evaluasi Efektivitas Pengelompokan dengan Koefisien Siluet

    Menghitung koefisien siluet pengelompokan: 0.4511880967361387 (tingkat sedang, menunjukkan bahwa kedekatan dalam klaster dan jarak antar klaster cukup baik, namun masih perlu dioptimalkan).

  • Lima, Penyaringan Kedua Berdasarkan Koefisien Korelasi (untuk mengurangi korelasi lebih lanjut)

    Matriks korelasi: menghitung matriks korelasi imbal hasil ETF (corr = prices[df.code].corr()).
    Penanganan pasangan ETF dengan korelasi tinggi: menyaring pasangan ETF dengan korelasi > 0.85, hanya menyimpan ETF yang didirikan lebih awal dari pasangan tersebut, dan menghapus yang lainnya (misalnya menghapus 159922.XSHE, 512100.XSHG, dan lain-lain).

  • Enam, Opsional: Penyaringan ETF yang didirikan belakangan (untuk meningkatkan kualitas data)

    Menetapkan ambang batas: menghapus ETF yang didirikan setelah 2020 (misalnya 513060.XSHG恒生医疗, 515790.XSHG光伏ETF, dan lain-lain), agar data historis ETF yang tersisa lebih lengkap (berguna untuk pelatihan model).

  • Tujuh, Catatan dan Saran Tambahan

    Perlakuan khusus ETF obligasi pemerintah: jika digunakan untuk pelatihan model, harus menghapus 511010.XSHE国债ETF—karena tren pergerakannya mendekati garis lurus (mirip saldo uang di platform seperti Yu’ebao), sangat minim fluktuasi, akan mengganggu proses pembelajaran model terhadap fitur fluktuasi, dan tidak perlu diprediksi.
    Pemilihan ETF yang menurun: hasilnya mungkin mengandung ETF yang tren penurun jangka panjang (seperti ETF farmasi, ETF properti), apakah dihapus tergantung pada tujuan strategi:
    Jika mengincar pengembalian stabil, bisa dihapus;
    Jika strategi tetap berkinerja baik meskipun mengandung ETF menurun, mungkin menunjukkan kekuatan robust strategi tersebut (namun harus berhati-hati terhadap risiko “fungsi masa depan”, karena tidak bisa memprediksi apakah ETF menurun akan berbalik).
    Verifikasi visual: menggambar grafik tren ETF yang tersisa (misalnya harga penutupan sejak 2017), secara manual memeriksa apakah korelasi sesuai harapan (rendah dan distribusi wajar).
    Ringkasan logika penyaringan akhir:

    Melalui empat langkah: “penyaringan awal → pengelompokan untuk mengurangi duplikasi → penyaringan kedua berdasarkan korelasi → (opsional) penyaringan berdasarkan waktu pendirian”, diperoleh kumpulan ETF yang likuid, tren tidak terlalu berkorelasi, dan data historis cukup, dengan tujuan utama menyediakan target dasar yang beragam dan berkualitas tinggi untuk strategi atau model.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan