عملية تصفية صناديق الاستثمار المتداولة والمواضيع الأساسية

  • أولاً، الحصول على البيانات الأساسية والفلترة الأولية

الحصول على قائمة الصناديق المتداولة في البورصة (ETF): من خلال get_all_securities([‘etf’])، نحصل على جميع صناديق ETF في السوق، ونقوم بانتقاء تلك التي تأسست قبل 1 يناير 2013 (start_date < 2013-01-01)، لضمان توفر بيانات تاريخية كافية.
استبعاد صناديق ETF ذات السيولة المنخفضة: يتم استبعاد صناديق محددة ذات متوسط حجم تداول منخفض جدًا يدويًا، مثل 159003.XSHE صندوق كوانشين السريع، و159005.XSHE صندوق هويتينفو السريع، وغيرها، حيث يكون متوسط حجم التداول ≤ 2.92 كيلوواط.

  • ثانيًا، بيانات الأسعار اليومية لصناديق ETF وحساب العائدات

نطاق البيانات: الحصول على أسعار الإغلاق لآخر 240 يوم تداول حتى التاريخ الحالي (today).
معالجة العائدات: حساب العائد اليومي (pchg = close.pct_change())، وتشكيل مصفوفة عوائد ETF (prices، الصفوف = أيام التداول، الأعمدة = رموز ETF).

  • ثالثًا، تجميع K-Means لإزالة التكرار (استنادًا إلى التشابه في الاتجاهات)

هدف التجميع: تجميع صناديق ETF ذات الاتجاهات المشابهة في مجموعة واحدة، لتقليل التكرار في الأهداف.
إعداد المعلمات: عدد المجموعات n_clusters=30 (لتجنب وجود مجموعات قليلة جدًا تؤدي إلى تجميع صناديق غير متشابهة بشكل خاطئ)، باستخدام خوارزمية KMeans، مع تعيين البذرة العشوائية إلى 42 (random_state=42).
اختيار داخل كل مجموعة: الاحتفاظ بأقدم صندوق ETF من حيث تاريخ التأسيس، وذلك لأن:

  • التأسيس المبكر غالبًا ما يكون له حجم تداول أكبر (أي سيولة أفضل)؛
  • التأسيس المبكر يعني وجود بيانات تاريخية أكثر، مما يفيد تدريب النماذج.
  • رابعًا، تقييم فعالية التجميع باستخدام معامل التباين (Silhouette Score)

حساب معامل التباين للتجميع: 0.4511880967361387 (متوسط، يدل على أن التماسك داخل المجموعات والانفصال بينها مقبول، لكن هناك مجال للتحسين).

  • خامسًا، تصفية ثانوية باستخدام معامل الارتباط (لتقليل الارتباط بشكل أكبر)

مصفوفة معامل الارتباط: حساب مصفوفة الارتباط لعوائد صناديق ETF (corr = prices[df.code].corr()).
معالجة أزواج الصناديق ذات الارتباط العالي: اختيار أزواج ذات معامل ارتباط > 0.85، والاحتفاظ فقط بالصندوق الأقدم من حيث التأسيس في كل زوج، واستبعاد الآخر (مثل استبعاد 159922.XSHE و512100.XSHG وغيرها).

  • سادسًا، اختيارية: استبعاد الصناديق ذات التأسيس المتأخر (لتحسين جودة البيانات)

تحديد الحد: استبعاد صناديق ETF التي تأسست بعد 2020، مثل 513060.XSHG هينغ سانغ للرعاية الصحية، و515790.XSHG صندوق الطاقة الشمسية، لضمان أن البيانات التاريخية المتبقية أكثر غنى (مناسبًا لتدريب النماذج).

  • سابعًا، ملاحظات وتوصيات إضافية

معالجة خاصة لصناديق السندات الحكومية: إذا كانت تستخدم لتدريب النماذج، يجب استبعاد 511010.XSHE صندوق السندات الحكومية، لأنه يتحرك بشكل خطي تقريبًا (مشابه ل余额宝)، مع تقلبات ضئيلة جدًا، مما يشتت تعلم النموذج لخصائص التقلب، ولا يوجد حاجة للتنبؤ به.
اختيارات صناديق ETF التي تتراجع: قد تحتوي النتائج على صناديق ETF التي تتراجع على المدى الطويل (مثل صناديق الأدوية، والعقارات)، ويعتمد استبعادها على هدف الاستراتيجية:

  • إذا كان الهدف هو تحقيق عائد ثابت، يمكن استبعادها؛
  • إذا كانت الاستراتيجية لا تزال تعمل بشكل جيد مع وجود صناديق تراجع، فقد يدل ذلك على قوة الاستراتيجية (لكن يجب الانتباه لمخاطر “وظيفة المستقبل”، حيث لا يمكن التنبؤ إذا ما ستنعكس اتجاهات التراجع).
    التحقق عبر التصور: رسم مخططات أسعار الإغلاق للصناديق المتبقية منذ عام 2017، وفحص يدوي لمدى توافق الارتباطات مع التوقعات (هل هي منخفضة وموزعة بشكل معقول).
    ملخص منطق التصفية النهائي:
    من خلال أربع خطوات: “الفلترة الأولية → التجميع لإزالة التكرار → التصفية الثانوية لمعامل الارتباط → (اختياري) فلترة حسب تاريخ التأسيس”، نحصل على مجموعة من صناديق ETF ذات سيولة جيدة، واتجاهات منخفضة الارتباط، وبيانات تاريخية غنية، بهدف توفير أهداف أساسية متنوعة وعالية الجودة للاستراتيجيات أو النماذج.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت