Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Створення потужного портфеля криптоактивів за допомогою багатофакторних стратегій: попередня обробка даних
Преамбула
В останній частині книги ми опублікували першу статтю із серії «Побудова сильного портфеля криптоактивів за допомогою багатофакторних стратегій» – «Теоретичні основи», а це друга стаття – «Попередня обробка даних».
Дані повинні бути оброблені до/після розрахунку факторних даних, а також до того, як буде перевірено валідність одного фактора. Попередня обробка конкретних даних передбачає обробку повторюваних значень, викидів/відсутніх значень/екстремальних значень, нормалізацію та частоту даних.
I. Повторювані значення
Визначення, пов’язані з даними:
Діагностика повторюваних значень починається з розуміння того, як «повинні» виглядати дані. Зазвичай дані мають вигляд:
Принцип: Після того, як ви визначили індекс (ключ) даних, ви можете знати, на якому рівні дані не повинні мати повторюваних значень.
Метод перевірки:
розм. DataFrame.duplicated(subset=[ключ1, ключ2, …])
pd.merge(df1, df2, on=[ключ1, ключ2, …], indicator=True, validate=‘1:1’)
2. Викиди/Відсутні значення/Екстремальні значення
Поширені причини викидів:
Принципи обробки викидів та відсутніх значень:
Машинне навчання слід використовувати з обережністю для засипки та ризику упередженого погляду вперед
Обробка екстремальних значень:
Розташувавши порядок від найменшого до найбільшого, замініть дані, що перевищують мінімальні та максимальні пропорції, критичними даними. Для даних з великою кількістю історичних даних цей метод є відносно грубим і незастосовним, а примусове видалення фіксованої частини даних може призвести до певного відсотка втрат.
2,3σ / метод потрійного стандартного відхилення
Стандартне відхилення σфактор відображає ступінь дисперсії розподілу даних фактора, тобто волатильність. Діапазон μ±3×σ використовувався для ідентифікації та заміни викидів у наборі даних, і близько 99,73% даних потрапили в діапазон. Передумова цього методу полягає в тому, що дані про фактори повинні підкорятися нормальному розподілу, тобто X∼N(μ,σ2).
де μ=∑ⁿi₌₁⋅Xi/N, σ²=∑ⁿi₌₁=(xi-μ)²/n, прийнятний діапазон значень факторів становить [μ−3×σ, μ+3×σ].
Внесіть наведені нижче корективи до всіх факторів у діапазоні даних.
Недоліком цього методу є те, що дані, які зазвичай використовуються в кількісній сфері, такі як ціни на акції та ціни на токени, часто показують сплеск і товстий хвіст, що не відповідає припущенню про нормальний розподіл, і в цьому випадку велика кількість даних буде неправильно визначена як викиди за допомогою методу 3σ.
3.绝对值差中位数法(Середнє абсолютне відхилення, MAD)
Метод заснований на медіанному та абсолютному зміщенні, що робить оброблювані дані менш чутливими до екстремальних значень або викидів. Більш надійні, ніж методи, засновані на середньому і стандартному відхиленні.
Медіана абсолютного відхилення MAD=медіана ( ∑ⁿi₌₁(Xi - Xmedian) )
Обґрунтований діапазон значень факторів - [Xmedian-n×MAD, Xmedian + n×MAD]. Внесіть наведені нижче корективи до всіх факторів у діапазоні даних.
Обробка крайніх значень даних про фактори
клас Extreme(об’єкт): def init(s, ini_data): s.ini_data = ini_data
III. Стандартизація
x’i=(x−μ)/σ=(X−mean(X)))/std(X)2.Масштабування min-Max
Перетворення кожного множника в дані в інтервалі (0,1) дозволяє порівнювати дані різних розмірів або діапазонів, але не змінює розподіл всередині даних і не становить суму 1.
x’i=(xi−min(x))/max(x)-min(x)3.排序百分位(Rank Scaling)
Перетворюйте функції даних на їхні рейтинги та перетворюйте ці рейтинги на бали від 0 до 1, як правило, їхні процентилі в наборі даних. *
Оскільки на ранжування не впливають викиди, цей метод не чутливий до викидів. **
NormRanki=(Rankₓi−min(Rankₓi))/max(Rankₓ)−min(Rankₓ)=Rankₓi/N
min(Rankₓ)=0, де N – загальна кількість точок даних в інтервалі.
Нормалізація даних факторів
клас Scale(об’єкт): def init(s, ini_data,date): s.ini_data = ini_data s.date = дата
По-четверте, частота даних
Іноді отримані дані зустрічаються не так часто, як нам потрібно для нашого аналізу. Наприклад, якщо рівень аналізу щомісячний, а частота вихідних даних щоденна, потрібно використовувати «даунсемплінг», тобто агреговані дані щомісячні.
ДАУНСЕМПЛІНГ
Це означає агрегування даних у колекції в рядок даних, наприклад, об’єднання щоденних даних у щомісячні дані. При цьому необхідно враховувати характеристики кожного агрегованого показника, а звичайними операціями є:
Upsample
Це означає розбиття рядка даних на кілька рядків даних, наприклад, річні дані для щомісячного аналізу. Зазвичай це просте повторення, а іноді необхідно агрегувати річні дані пропорційно кожному місяцю.
Falcon (/) — це нове покоління інвестиційної інфраструктури Web3, яке базується на багатофакторній моделі, яка допомагає користувачам «вибирати», «купувати», «управляти» та «продавати» криптоактиви. Falcon був інкубований компанією Lucida у червні 2022 року.
Більше контенту доступно для відвідування