“Young Scientist”
.
# 24 (366)
.
June 2021
15
Information Technology
точнее определить величину объема закупаемых ресурсов для
внесения соответствующей оплаты.
Целью данной работы является исследование различных ал-
горитмов машинного обучения для дальнейшего применения
в задаче прогнозирования потребления энергии здания.
Задача, рассматриваемая в данной работе: ASHRAE — Great
Energy Predictor III, взята с платформы для проведения кон-
курсов по машинному обучению Kaggle [1]. Требуется предска-
зать потребление энергии для здания с учетом известных ме-
теорологических данных. Даны значения потребления энергии
для здания в течение года, а также данные по погоде. Задача
предполагает использование регрессионных алгоритмов ма-
шинного обучения.
Поскольку в наборе данных имеются столбцы с пропущен-
ными значениями, возникает необходимость перейти к данным,
не имеющим пропусков, с целью дальнейшего применения ал-
горитмов машинного обучения. Для решения этой проблемы
воспользуемся методами заполнения пропусков. Т. к. пропуски
в данных имеются лишь в столбцах с количественными пере-
менными, заменим их на среднее арифметическое значение по
столбцу (воспользуемся функцией «mean» [2]).
В качестве инструмента решения задачи будет использован
высокоуровневый язык программирования общего назначения
Python [3]. Данную задачу будем решать, применяя вид машин-
ного обучения «с учителем» (при таком обучении делаются
выводы о тестовых данных на основе данных обучения). Для
начала выбранные модели необходимо обучить, а затем проте-
стировать на выборках, являющимися частями исходного на-
бора данных. Обучающая выборка содержит в себе 80%, а те-
стовая — оставшиеся 20% исходного набора данных.
Воспользуемся методами, основанными на регрессии. В не-
которых случаях алгоритм линейной регрессии может стать
нестабильным, из-за чего может возникнуть проблема пере-
обучения. Переобучение — ситуация, когда модель корректно
решает задачу на тренировочной выборке, но дает плохие ре-
зультаты на тестовых. Решить данную проблему можно нало-
жением ограничений на регрессионную модель, то есть приме-
нением регуляризации.
Для построения воспользуемся следующими алгоритмами
машинного обучения:
1. Linear Regression [4]
2. LASSO Regression [5]
3. Bayesian Ridge Regression [6]
Затем при помощи функций из библиотеки Scikit-learn [7]
строим модели, основанные на вышеизложенных алгоритмах.
Результаты построенных моделей по условию задачи оце-
нивались при помощи Root Mean Squared Logarithmic Error
(RMSLE) [8]:
Чем эта ошибка меньше, тем лучше выбранная модель ре-
шает задачу.
После построения и оценки моделей с использованием ме-
трики, описанной выше, получаем результаты, представленные
на Рисунке 1 и занесенные в Таблицу 1:
Рис. 1.
Достарыңызбен бөлісу: