Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Создание мощного портфеля криптоактивов с помощью многофакторных стратегий: предварительная обработка данных
Преамбула
В последней части книги мы опубликовали первую статью из серии «Построение сильного портфеля криптоактивов с помощью многофакторных стратегий» - Теоретические основы, а это вторая статья - Предварительная обработка данных.
Данные должны быть обработаны до/после расчета факторных данных, а также перед проверкой валидности одного фактора. Специфическая предварительная обработка данных включает в себя обработку повторяющихся значений, выбросов/отсутствующих значений/экстремальных значений, нормализацию и частоту данных.
I. Повторяющиеся значения
Определения, связанные с данными:
Диагностика повторяющихся значений начинается с понимания того, как «должны» выглядеть данные. Обычно данные представлены в виде:
Принцип: После того, как вы определили индекс (ключ) данных, вы можете узнать, на каком уровне данные не должны иметь повторяющихся значений.
Метод проверки:
ПД. DataFrame.duplicated(subset=[key1, key2, …])
pd.merge(df1, df2, on=[key1, key2, …], indicator=True, validate=‘1:1’)
2. Выбросы/Отсутствующие значения/Экстремальные значения
Распространенные причины выбросов:
Принципы работы с выбросами и отсутствующими значениями:
Машинное обучение следует использовать с осторожностью, чтобы не допустить смещения прогноза
Обработка экстремальных значений:
Расположив их в порядке от меньшего к большему, замените данные, превышающие минимальную и максимальную пропорции, критически важными данными. Для данных с большим количеством исторических данных этот метод является относительно грубым и неприменимым, а принудительное удаление фиксированной доли данных может привести к определенному проценту потерь.
2.3σ / метод тройного стандартного отклонения
Среднеквадратическое отклонение σфактор отражает степень дисперсии распределения данных фактора, т.е. волатильность. Диапазон μ±3×σ использовался для выявления и замены выбросов в наборе данных, и около 99,73% данных попали в этот диапазон. Предпосылка этого метода заключается в том, что факторные данные должны подчиняться нормальному распределению, т.е. X∼N(μ,σ2).
где μ=∑ⁿi₌₁⋅Xi/N, σ²=∑ⁿi₌₁=(xi-μ)²/n, разумный диапазон значений фактора равен [μ−3×σ, μ+3×σ].
Внесите следующие корректировки во все факторы в диапазоне данных:
Недостаток этого метода заключается в том, что данные, обычно используемые в количественной области, такие как цены на акции и токены, часто показывают распределение с пиком и толстым хвостом, что не согласуется с предположением о нормальном распределении, и в этом случае большой объем данных будет неправильно идентифицирован как выбросы при использовании метода 3σ.
3.绝对值差中位数法(Медианное абсолютное отклонение, MAD)
Метод основан на медианном и абсолютном смещении, что делает обработанные данные менее чувствительными к экстремумам или выбросам. Более надежный, чем методы, основанные на среднем значении и стандартном отклонении.
Медиана абсолютного отклонения MAD=медиана ( ∑ⁿi₌₁(Xi - Xmedian) )
Разумный диапазон значений фактора: [Xmedian-n×MAD, Xmedian + n×MAD]. Внесите следующие корректировки во все факторы в диапазоне данных:
Обработка экстремальных значений факторных данных
класс Extreme(объект): def init(s, ini_data): s.ini_data = ini_data
III. Стандартизация
x’i=(x−μ)/σ=(x−mean(X)))/std(X)2.Min-Max Масштабирование
Преобразование каждого фактора в данные в интервале (0,1) позволяет сравнивать данные разных размеров или диапазонов, но не изменяет распределения внутри данных и не делает сумму 1.
x’i=(xi−min(x))/max(x)-min(x)3.排序百分位(Rank Scaling)
Преобразуйте объекты данных в их ранжирование и преобразуйте эти рейтинги в баллы от 0 до 1, обычно в процентили в наборе данных. *
Поскольку выбросы не влияют на ранжирование, этот метод не чувствителен к выбросам. **
NormRanki=(Рангₓi−min(Рангₓi))/max(Рангₓ)−min(Рангₓ)=Рангₓi/N
min(Rankₓ)=0, где N — общее количество точек данных в интервале.
Нормализация факторных данных
class Scale(объект): def init(s, ini_data,date): s.ini_data = ini_data s.date = дата
В-четвертых, частота передачи данных
Иногда получаемые данные не так часто, как нам нужно для нашего анализа. Например, если уровень анализа ежемесячный, а частота сырых данных ежедневная, нужно использовать «даунсемплинг», то есть агрегированные данные ежемесячные.
ПОНИЖЕНИЕ ДИСКРЕТИЗАЦИИ
Это относится к агрегированию данных в коллекции в строку данных, например к агрегированию ежедневных данных в ежемесячные данные. При этом необходимо учитывать характеристики каждого агрегированного показателя, а обычными операциями являются:
Upsample
Это относится к разделению строки данных на несколько строк данных, таких как годовые данные для ежемесячного анализа. Обычно это простое повторение, а иногда необходимо агрегировать годовые данные пропорционально каждому месяцу.
Falcon ( /) — это новое поколение инвестиционной инфраструктуры Web3, основанное на многофакторной модели, которая помогает пользователям «выбирать», «покупать», «управлять» и «продавать» криптоактивы. Сокол был инкубирован Люсидой в июне 2022 года.
Более подробная информация доступна для посещения