тя— временная метка дня;
ОПтя—цена открытия криптовалютытя;
HPт—я самая высокая цена криптовалюты втя;
LPтя—самая низкая цена криптовалюты втя;
йтя—целевая переменная, то есть цена закрытия криптовалюты натя(что соответствует
реагирует на цену открытия следующего дня, т.е.ОПт я+1 "="йтя).
В этой статье мы рассматриваем задачу прогнозирования цен на криптовалюту как задачу анализа одномерных временных рядов, и поэтому мы игнорируем ковариаты.ОП,HP, иLP, но они включены в доступный набор предварительно обработанных данных. Мы планируем рассмотреть такие ковариаты в дальнейшей работе.
Таблица 1.Подробности о криптовалютах, проанализированных в этой работе. Все цены указаны в долларах США (USD).
Кепка1
Объем1
Имя Год выпуска Рынок 24 часа Минимальная цена
2
|
Максимальная цена2
|
Средняя цена2
|
Цена SD2
|
Биткойн (БТД) 2009 год
|
393,41
|
45,67
|
1914.10
|
67 525,83
|
18 621,99
|
17 623,38
|
Эфириум
(ЕТН) 2015 год
|
192,46
|
19.31
|
83,76
|
4807,98
|
1021,77
|
1220.11
|
Лайткоин
2011 год
(Лайткоин)
|
3,93
|
0,53
|
23.08
|
387,80
|
101,41
|
64,33
|
Монеро
(XMR) 2014 год
|
2,71
|
0,09
|
29.20
|
484,00
|
142,39
|
90,43
|
XRP (XRP) 2012 год
|
22.96
|
0,96
|
0,14
|
2,78
|
0,51
|
0,36
|
1В миллиардах долларов США (USD). Значения, зафиксированные 31 октября 2022 г. по данным CoinMarketCap [1].2В долларах США (USD). Значения относятся к периоду сбора данных: с 1 июня 2017 г. по 31 мая 2022 г.
Предварительная обработка данных
При прогнозировании с использованием временных рядов их свойство стационарности имеет решающее значение для эффективного моделирования [5]. Временной ряд, среднее значение и дисперсия которого не меняются со временем, называется стационарным. Напротив, временной ряд, среднее значение, частота и дисперсия которого колеблются во времени и часто демонстрируют высокую волатильность, тренд и гетероскедастичность, называется нестационарным.5]. Обычно традиционные методы статистического прогнозирования, такие как ARIMA, требуют, чтобы временные ряды были стационарными, чтобы успешно фиксировать их свойства.59]; аналогичным образом, стационарность способствует обучению в нестатистических моделях, таких как ML и DL, использованных в этой статье [ 60]. По этим причинам мы проводим расширенный статистический тест Дики-Фуллера (ADF) [61], чтобы определить, являются ли наши наборы данных стационарными. Результаты показывают, что все наборы данных нестационарны, за исключением набора данных XRP.
Мы преобразуем наши наборы данных в стационарные наборы данных, применяя удаление тренда, то
есть процесс удаления тренда из временного ряда. В частности, мы применяем дифференциальное преобразование, простейший метод удаления тренда, который генерирует новый временной ряд, в котором новое значение й' тя по временной метке тярассчитывается как разница между исходным
наблюдение и наблюдение йт я-1 на предыдущем временном шаге, т.е.
йт'я"="йт−я й
тя-1
(1)
Фигура1показывает исходный временной ряд биткойнов желтым цветом, а его дифференциальную версию — красным. Тест ADF, рассчитанный на наборах данных без тренда, подтверждает их стационарность.
Еще одним типичным шагом предварительной обработки, который широко применяется для улучшения
обучения, является нормализация данных (например, [11]). Мы применяем нормализацию Min-яMax ко всемйткаждого набора данных, чтобы значения отображались в диапазоне (0, 1) в соответствии со следующей формулой:
йтя"="
йтя− ймин
йМакс− ймин
(2)
гдеймин"="мин {ут}ийМакс"я="макс{ут}. Чтобы избежатяь утечки,йминийМаксзначения рассчитываются только на основе обучающих данных.
Достарыңызбен бөлісу: |