Процес відбору ETF та основні моменти, що слід враховувати

  • Перше, отримання базових даних та попередня фільтрація

Отримання списку ETF: за допомогою get_all_securities([‘etf’]) отримати всі ETF ринку, відібрати ті, що були засновані до 1 січня 2013 року (start_date < 2023-01-01), щоб забезпечити достатню історичну інформацію.
Вилучення ETF з низькою ліквідністю: вручну виключити певні ETF з низьким середнім обсягом торгів (наприклад, 159003.XSHE招商快線ETF, 159005.XSHE匯添富快錢ETF тощо, середній обсяг торгів ≤ 2.92 кВт).

  • Друге, щоденні дані ETF та розрахунок доходності
    Діапазон даних: отримати цінові дані закриття за останні 240 торгових днів до поточної дати (today).
    Обробка доходності: обчислити щоденну доходність (pchg = close.pct_change()), сформувати матрицю доходностей ETF (prices, рядки = торгові дні, стовпці = коди ETF).
  • Третє, кластеризація K-Means для усунення дублікатів (на основі схожості тренду)
    Мета кластеризації: об’єднати ETF з подібним трендом у один кластер, щоб зменшити кількість дублікатів.
    Параметри: кількість кластерів n_clusters=30 (щоб уникнути занадто малих кластерів, які можуть об’єднати не схожі ETF), алгоритм KMeans, випадкове насіння random_state=42.
    Вибір у межах кластера: залишити в кожному кластері ETF, що були засновані раніше за часом, оскільки:
    • раніше засновані → зазвичай мають більший обсяг торгів (краща ліквідність);
    • раніше засновані → більше історичних даних (корисно для тренування моделей).
  • Четверте, оцінка ефективності кластеризації за допомогою силуету
    Обчислення коефіцієнта силуету: 0.4511880967361387 (середній рівень, що свідчить про помірну щільність кластерів та їхню відокремленість, але потребує подальшої оптимізації).
  • П’яте, подвійна фільтрація за коефіцієнтом кореляції (для додаткового зниження кореляції)
    Матриця кореляції: обчислити кореляційну матрицю доходностей ETF (corr = prices[df.code].corr()).
    Обробка високої кореляції: відібрати пари ETF з коефіцієнтом кореляції > 0.85, у кожній парі залишити лише ETF, що були засновані раніше, інші виключити (наприклад, виключити 159922.XSHE, 512100.XSHG тощо).
  • Шосте, за бажанням: фільтрація ETF, заснованих пізніше (для підвищення якості даних)
    Встановити поріг: виключити ETF, засновані після 2020 року (наприклад, 513060.XSHG恒生醫療, 515790.XSHG光伏ETF тощо), щоб залишити ті, що мають більш багату історію даних (застосовно для тренування моделей).
  • Сьоме, зауваження та додаткові рекомендації
    Спеціальна обробка державних облігаційних ETF: якщо їх використовують для тренування моделей, потрібно виключити 511010.XSHE國債ETF — його тренд майже прямий (подібний до余额宝), мінімальні коливання, що заважає моделі навчитися виявляти волатильність, і прогнозування для них не потрібно.
    Вибір ETF з падінням: у результаті можливо буде знайдено ETF з тривалим спадом (наприклад, медичний ETF, ETF нерухомості), їх виключення залежить від цілей стратегії:
    • для стабільного доходу — виключити;
    • якщо стратегія показує хороші результати навіть з ETF, що падають, це може свідчити про її стійкість (але слід враховувати ризик “функції майбутнього”, оскільки неможливо передбачити, чи повернеться ETF, що падає).
      Візуальна перевірка: побудувати графіки тренду залишкових ETF (наприклад, цін закриття з 2017 року), вручну перевірити, чи відповідає кореляція очікуванням (низька кореляція та розподіл має бути логічним).
      Підсумок логіки остаточного відбору:
      шляхом “початкової фільтрації → кластеризації для усунення дублікатів → подвійної фільтрації за коефіцієнтом кореляції → (за бажанням) фільтрації за часом заснування” отримати пул ETF з високою ліквідністю, низькою кореляцією трендів та достатньою історією даних, що є основною метою для забезпечення різноманітності та високої якості базових активів для стратегій або моделей.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити