العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
بناء محفظة أصول تشفير قوية باستخدام استراتيجيات متعددة العوامل: المعالجة المسبقة للبيانات
الديباجة
في الجزء الأخير من الكتاب ، نشرنا المقالة الأولى في سلسلة “بناء محفظة أصول تشفير قوية مع استراتيجيات متعددة العوامل” - الأساسيات النظرية ، وهذه هي المقالة الثانية - المعالجة المسبقة للبيانات.
يجب معالجة البيانات قبل / بعد حساب بيانات العامل ، وقبل اختبار صحة العامل الفردي. تتضمن المعالجة المسبقة للبيانات المحددة معالجة القيم المكررة والقيم المتطرفة / القيم المفقودة / القيم القصوى والتطبيع وتكرار البيانات.
I. القيم المكررة
التعاريف المتعلقة بالبيانات:
يبدأ تشخيص القيم المكررة بفهم الشكل الذي “ينبغي” أن تبدو عليه البيانات. عادة ما تكون البيانات في شكل:
المبدأ: بمجرد تحديد فهرس (مفتاح) البيانات ، يمكنك معرفة المستوى الذي يجب ألا تحتوي فيه البيانات على قيم مكررة.
طريقة التحقق:
PD. DataFrame.duplicated(subset=[key1, key2, …])
pd.merge (df1 ، df2 ، on = [key1 ، key2 ، …] ، المؤشر = true ، التحقق من الصحة = ‘1: 1’)
**2. القيم المتطرفة / القيم المفقودة / القيم المتطرفة **
الأسباب الشائعة للقيم المتطرفة:
مبادئ التعامل مع القيم المتطرفة والقيم المفقودة:
يجب استخدام التعلم الآلي بحذر لردم التحزيق والمخاطرة بالتحيز التطلعي
التعامل مع القيم المتطرفة:
من خلال ترتيب الترتيب من الأصغر إلى الأكبر ، استبدل البيانات التي تتجاوز الحد الأدنى والحد الأقصى للنسب بالبيانات الهامة. بالنسبة للبيانات ذات البيانات التاريخية الوفيرة ، فإن هذه الطريقة تقريبية نسبيا وغير قابلة للتطبيق ، وقد يؤدي حذف نسبة ثابتة من البيانات بالقوة إلى نسبة معينة من الخسائر.
2.3σ / طريقة الانحراف المعياري الثلاثي
يعكس عامل الانحراف المعياري درجة تشتت توزيع بيانات العامل ، أي التقلب. تم استخدام نطاق μ±3×σ لتحديد واستبدال القيم المتطرفة في مجموعة البيانات ، وحوالي 99.73٪ من البيانات تقع في النطاق. فرضية هذه الطريقة هي أن بيانات العامل يجب أن تطيع التوزيع الطبيعي ، أي X∼N (μ، σ2).
حيث μ=∑ⁿi₌₁⋅Xi/N, σ²=∑ⁿi₌₁=(xi-μ)²/n، النطاق المعقول لقيم العوامل هو [μ−3×σ، μ+3×σ].
قم بإجراء التعديلات التالية على جميع العوامل في نطاق البيانات:
عيب هذه الطريقة هو أن البيانات المستخدمة بشكل شائع في المجال الكمي ، مثل أسعار الأسهم وأسعار الرموز المميزة ، غالبا ما تظهر توزيعا سبايكا وذيلا سميكا ، والذي لا يتوافق مع افتراض التوزيع الطبيعي ، وفي هذه الحالة ، سيتم تحديد كمية كبيرة من البيانات بشكل غير صحيح على أنها قيم متطرفة باستخدام طريقة 3σ.
3.绝对值差中位数法(متوسط الانحراف المطلق، MAD)
تعتمد الطريقة على التحيز المتوسط والمطلق ، مما يجعل البيانات المعالجة أقل حساسية للتطرف أو القيم المتطرفة. أكثر قوة من الطرق القائمة على المتوسط والانحراف المعياري.
متوسط الانحراف المطلق MAD = الوسيط ( ∑ⁿi₌₁ (Xi - Xmedian))
النطاق المعقول لقيم العوامل هو [Xmedian-n×MAD, Xmedian + n×MAD]. قم بإجراء التعديلات التالية على جميع العوامل في نطاق البيانات:
التعامل مع حالات القيمة القصوى لبيانات العوامل
فئة المتطرفة (الكائن): def init (s, ini_data): s.ini_data = ini_data
**III. التوحيد القياسي **
x’i = (x − μ) / σ = (X − يعني (X)) )) / std (X) 2.Min-Max التحجيم
يسمح تحويل كل عامل إلى بيانات في الفاصل الزمني (0,1) بمقارنة البيانات ذات الأحجام أو النطاقات المختلفة ، لكنه لا يغير التوزيع داخل البيانات ولا يجعل المجموع 1.
x’i=(xi−min(x))/max(x)-min(x)3.排序百分位(Rank Scaling)
قم بتحويل معالم البيانات إلى تصنيفاتها ، وقم بتحويل هذه التصنيفات إلى درجات بين 0 و 1 ، وعادة ما تكون النسب المئوية في مجموعة البيانات. *
نظرا لأن التصنيفات لا تتأثر بالقيم المتطرفة ، فإن هذه الطريقة ليست حساسة للقيم المتطرفة. **
NormRanki = (Rank ₓi − min (Rank ₓi)) / max (Rank ₓ) −min (Rank ₓ) = Rank ₓi / N
min(Rankₓ)=0، حيث N هو العدد الإجمالي لنقاط البيانات في الفاصل الزمني.
تطبيع بيانات العامل
مقياس الفئة (كائن): def init (ق، ini_data، تاريخ): s.ini_data = ini_data s.date = التاريخ
رابعا: تردد البيانات
في بعض الأحيان لا تكون البيانات التي تم الحصول عليها متكررة كما نحتاج لتحليلنا. على سبيل المثال ، إذا كان مستوى التحليل شهريا وكان تكرار البيانات الأولية يوميا ، فأنت بحاجة إلى استخدام “الاختزال” ، أي أن البيانات المجمعة شهرية.
اختزال العينات
يشير إلى تجميع البيانات في مجموعة في صف من البيانات ، مثل تجميع البيانات اليومية في بيانات شهرية. في هذه الحالة ، من الضروري مراعاة خصائص كل مؤشر مجمع ، والعمليات المعتادة هي:
**العينة **
يشير إلى تقسيم صف من البيانات إلى صفوف متعددة من البيانات ، مثل البيانات السنوية للتحليل الشهري. عادة ما يكون هذا تكرارا بسيطا ، وأحيانا يكون من الضروري تجميع البيانات السنوية بما يتناسب مع كل شهر.
Falcon (/) هو جيل جديد من البنية التحتية الاستثمارية ل Web3 يعتمد على نموذج متعدد العوامل يساعد المستخدمين على “تحديد” و “شراء” و “إدارة” و “بيع” أصول التشفير. تم احتضان فالكون من قبل لوسيدا في يونيو 2022.
يتوفر المزيد من المحتوى للزيارة