Machine Learning for a Power Consumption and Generation Prediction

التفاصيل البيبلوغرافية
العنوان: Machine Learning for a Power Consumption and Generation Prediction
المصدر: Мікросистеми, Електроніка та Акустика : науково-технічний журнал, 2019, Т. 24, № 6(113)
بيانات النشر: КПІ ім. Ігоря Сікорського, 2019.
سنة النشر: 2019
مصطلحات موضوعية: коефіцієнт детермінації, коефіцієнт кореляції Пірсона, determination coefficient, machine learning, random forest model, модель «Випадковий ліс», Pearson correlation coefficient, коэффициент детерминации, 621.311.1, машинне навчання, модель «Случайный лес», машинное обучение, коэффициент корреляции Пирсона
الوصف: Стаття присвячена підготовці і аналізу даних для покращення прогнозування кількості використаної та згенерованої електроенергії методами машинного навчання, а також оцінка важливості та впливу на прогнозування періоду доби, місяця, року, температури, вологості повітря, атмосферного тиску та інших ознак. Набір даних, що використовувався в даній статті, містить відомості про використання та генерацію електроенергії, а також погодні показники за 11 місяців з періодом фіксації даних 1 хвилина. Оброблення даних ґрунтувалось на статистичних методах обробки інформації, визначенні кількості пропущених даних, лінійних залежностях між ознаками, сумісності типів даних. Для оцінки точності прогнозування було використано коефіцієнт детермінації. The paper is devoted to the preparation and analysis of data sets in order to improve the prediction of the amount of consumed and generated electrical energy volumes using machine learning methods. The importance level and influence on predicting the time of day, month, year, temperature, humidity, atmospheric pressure, and other factors were determined. The dataset used in this article contains the data of smart house equipped by photovoltaic cells for the own generation of electrical energy that covers the part of house’s demand. There are following values in dataset: «time», consumed electrical energy («use [kW]»), generated electrical energy («gen [kW]»), «temperature», «humidity», «visibility», «pressure», «windSpeed», «cloudCover», «windBearing», the temperature as it felt by human «apparentTemperature», precipitation intensity «precipIntensity», «dewPoint», precipitation probability «precipProbability». The data was collected during 11 months with a data fixing period of 1 minute. Before the data analysis and further learning it’s necessary to execute preliminary processing. At first stage, it was investigated how large is the part of missed and zero values in dataset. The second stage includes elimination of outliers that are situated at anomaly distance from other values in random sample. These outliers could be caused by measurement errors, wrong measuring units use. Also, it could be correct but extremum values. The purification procedure includes defining the lower and the upper quartiles of existing data for the distribution of used energy. For effective learning of the model it is necessary to choose the values that are most important and suitable for training. Pearson’s correlation coefficient was used to estimate numerically the level and positivity of linear connections between the pairs of values as well as to estimate their influence to the used and generated energy. Among the values with the high level of correlation only one was chosen that helped increasing adequacy, generalization and results interpretation. As a result of correlation analysis three parameters were selected for the training - «apparentTemperature», «dewPoint» and «precipProbability». Use of proposed preprocessing methods allows increasing the predictions exactness by 25% for the used energy and by 2% for the generated energy. The initial dataset was divided as follows: 70% of values were considered as the training samples and 30% - as testing ones. To compare the training methods three models of machine learning from the library Scikit-learn in programming language Python were considered: «Linear», «Random forest», «k nearest neighbors». The determination coefficient R² was used as a metrics to estimate the exactness. The diagrams of numerical values of R² coefficient for the parameters of generation and consumption of electrical energy and for three considered models of machine learning were built. Among the tested model the best result was demonstrated for the “Random forest” model (84% for the used energy and by 95% for the generated energy). Additional exactness increasing could be reached by use of more amount of testing samples and parameters during the analysis and more time intervals of observation as well as additional methods of data preprocessing. Статья посвящена подготовке и анализу данных для улучшения предсказаний количества использованной и генерируемой электроэнергии методами машинного обучения, а также определению степени важности и влияния на прогнозирование таких параметров, как время суток, месяц, год, температура, влажность воздуха, атмосферного давление и других факторов. Набор данных, используемый в данной статье, содержит сведения о потреблении и генерации электроэнергии, а также погодные показатели за 11 месяцев с периодом фиксации данных 1 минута. Обработка данных основывалась на статистических методах обработки информации, определении количества пропущенных данных, линейных зависимостях между признаками, совместимости типов данных. Для оценки точности предсказаний был использован коэффициент детерминации.
وصف الملف: application/pdf
اللغة: Ukrainian
الوصول الحر: https://explore.openaire.eu/search/publication?articleId=od______2635::f5d12c902efd113761b3821c8d703e6aTest
https://ela.kpi.ua/handle/123456789/33449Test
حقوق: OPEN
رقم الانضمام: edsair.od......2635..f5d12c902efd113761b3821c8d703e6a
قاعدة البيانات: OpenAIRE