عملية تصفية صناديق الاستثمار المتداولة والمواضيع الأساسية

robot
إنشاء الملخص قيد التقدم
  • أولاً، الحصول على البيانات الأساسية والفلترة الأولية

الحصول على قائمة الصناديق المتداولة في البورصة (ETF): من خلال get_all_securities([‘etf’])، نحصل على جميع صناديق ETF في السوق، ونقوم بانتقاء تلك التي تأسست قبل 1 يناير 2013 (start_date < 2013-01-01)، لضمان توفر بيانات تاريخية كافية.
استبعاد صناديق ETF ذات السيولة المنخفضة: يتم استبعاد صناديق محددة ذات متوسط حجم تداول منخفض جدًا يدويًا، مثل 159003.XSHE صندوق كويك لاين من招商، و159005.XSHE صندوق كويك كوين من汇添富، وغيرها، حيث يكون متوسط حجم التداول ≤ 2.92 كيلوواط.

  • ثانيًا، بيانات الأسعار اليومية لصناديق ETF وحساب العائدات

نطاق البيانات: الحصول على أسعار الإغلاق لآخر 240 يوم تداول قبل التاريخ الحالي (today).
معالجة العائدات: حساب العائد اليومي (pchg = close.pct_change())، وتشكيل مصفوفة عائدات ETF (prices، الصفوف = أيام التداول، الأعمدة = رموز ETF).

  • ثالثًا، تجميع K-Means لإزالة التكرار (استنادًا إلى التشابه في الاتجاهات)

هدف التجميع: تجميع صناديق ETF ذات الاتجاهات المماثلة في مجموعة واحدة، لتقليل التكرار في الأصول.
إعداد المعلمات: عدد المجموعات n_clusters=30 (لتجنب وجود مجموعات قليلة جدًا تؤدي إلى تجميع غير مناسب لصناديق غير متشابهة)، باستخدام خوارزمية KMeans، مع تعيين البذرة العشوائية إلى 42.
اختيار داخل كل مجموعة: الاحتفاظ بأقدم صندوق ETF من حيث تاريخ التأسيس، وذلك لأن:

  • التأسيس المبكر غالبًا ما يكون له حجم تداول أكبر (أي سيولة أفضل)؛
  • التأسيس المبكر يوفر بيانات تاريخية أكثر، مما يفيد تدريب النماذج.
  • رابعًا، تقييم فعالية التجميع باستخدام معامل التباين (Silhouette Score)

حساب معامل التباين للتجميع: 0.4511880967361387 (متوسط، يدل على أن التماسك داخل المجموعات والانفصال بين المجموعات مقبول، لكن هناك مجال للتحسين).

  • خامسًا، تصفية ثانوية باستخدام معامل الارتباط (لتقليل التشابه بشكل أكبر)

مصفوفة معامل الارتباط: حساب مصفوفة الارتباط لعائدات صناديق ETF (corr = prices[df.code].corr()).
معالجة أزواج صناديق ETF ذات الارتباط العالي: اختيار أزواج ذات معامل ارتباط > 0.85، والاحتفاظ فقط بأقدم صندوق من حيث تاريخ التأسيس لكل زوج، واستبعاد الآخر (مثل استبعاد 159922.XSHE و512100.XSHG وغيرها).

  • سادسًا، اختيارية: استبعاد صناديق ETF التي تأسست مؤخرًا (لتحسين جودة البيانات)

تحديد الحد: استبعاد صناديق ETF التي تأسست بعد 2020، مثل 513060.XSHG هانغ سنغ للرعاية الصحية، و515790.XSHG صندوق الطاقة الشمسية، لضمان أن البيانات التاريخية المتبقية أكثر غنى (مناسبًا لتدريب النماذج).

  • سابعًا، ملاحظات وتوصيات إضافية

معالجة خاصة لصناديق السندات الحكومية: إذا كانت تستخدم لتدريب النماذج، يجب استبعاد 511010.XSHE صندوق السندات الحكومية، لأنه يتحرك تقريبًا على خط مستقيم (مشابه ل余额宝)، مع تقلبات ضئيلة جدًا، مما يشتت تعلم النموذج لخصائص التقلب، ولا يوجد حاجة للتنبؤ به.
اختيارات صناديق ETF التي تتراجع: قد تحتوي النتائج على صناديق ETF ذات أداء هابط طويل الأمد (مثل صناديق الأدوية أو العقارات)، ويعتمد استبعادها على هدف الاستراتيجية:

  • إذا كان الهدف هو تحقيق عائد ثابت، يمكن استبعادها؛
  • إذا كانت الاستراتيجية لا تزال تعمل بشكل جيد مع وجود صناديق هابطة، فقد يدل ذلك على قوة مرونة الاستراتيجية (لكن يجب الانتباه لمخاطر “وظيفة المستقبل”، حيث لا يمكن التنبؤ بما إذا كانت الصناديق الهابطة ستنعكس).
    التحقق عبر التصور: رسم مخططات أسعار الإغلاق للصناديق المتبقية (مثل منذ 2017)، وفحص يدوي لمدى توافق الارتباطات مع التوقعات (قليل الارتباط وتوزيع معقول).
    ملخص منطق التصفية النهائي:
    من خلال أربع خطوات: “الفلترة الأولية → التجميع لإزالة التكرار → التصفية الثانوية لمعامل الارتباط → (اختياري) فلترة حسب تاريخ التأسيس”، نحصل على مجموعة من صناديق ETF ذات سيولة جيدة، وتوجهات منخفضة الارتباط، وبيانات تاريخية غنية، بهدف توفير أصول أساسية متنوعة وعالية الجودة لدعم الاستراتيجيات أو النماذج.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.35Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.41Kعدد الحائزين:2
    0.21%
  • القيمة السوقية:$2.4Kعدد الحائزين:2
    0.07%
  • القيمة السوقية:$2.36Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.36Kعدد الحائزين:1
    0.00%
  • تثبيت