DEVELOPMENT OF A METHODOLOGY FOR ANALYZING BIG DATA IN ORDER TO PREDICT CHANGES IN THE PHASES OF THE LIFE CYCLE OF ELEMENTS OF ENGINEERING EQUIPMENT OF BUILDINGS AND STRUCTURES
Abstract and keywords
Abstract (English):
Introduction. The roots of modern predictive analytics go back to the 1940s, when governments began using the first computational models: Monte Carlo, neural network computational models, and linear programming. In the 1960s, corporations and research institutions began the era of computer-assisted commercialization of analytics. Then in the 1970s - 1990s it became more widespread in organizations. Tech startups have made Prescriptive Analytics and real-time analytics a reality. Materials and methods. Data from open sources was used. The subject of the study is the history, current state of predictive analytics systems and the prospects of the developed methodology for analyzing big data in order to predict changes in the stages of the life cycle of elements of engineering equipment of buildings and structures. The preparation and visualization of information was carried out using Microsoft Office Excel. Results. The terms, history of appearance, development and current state of predictive analytics systems are studied. The perspectives developed in the dissertation work, the methodology for analyzing big data in order to predict changes in the stages of the life cycle of elements of engineering equipment of buildings and structures, have been studied. The use of “Shewhart Control Charts”, methods of cluster and qualimetric analysis in scenarios unusual for them in the dissertation work allows us to count on the positive prospects of the developed methodology. Conclusions. Predictive analytics in the construction field is one of the most promising areas of big data analysis. The big data analysis technique developed in the dissertation in order to predict changes in the stages of the life cycle of elements of engineering equipment of buildings and structures is based on the use of modern algorithms. The scientific novelty lies in the approach to analysis, which uses a combined scheme in which cluster and qualimetric methods of analysis are used to search for equipment elements close to changing the stage of the life cycle.

Keywords:
Big data, predictive analytics, life cycle, engineering equipment, data mining, cluster analysis, qualimetry, life cycle phases, forecasting systems, shewhart control charts
Text

Введение

Корни современной предиктивной аналитики уходят в далекие 1940-е годы, когда правительства начали использовать первые вычислительные модели: метод Монте-Карло, вычислительные модели нейронных сетей и линейное программирование. Это применялось для расшифровки немецких сообщений во время Второй мировой войны, самонаведения орудий ПВО и прогнозного моделирования ядерных цепных реакций в проекте «Манхэттен». В 1960-х годах корпорации и исследовательские институты начали эпоху коммерциализации аналитики с помощью нелинейного программирования и решения эвристических задач на основе компьютеров. Это легло в основу первых моделей прогноза погоды, решения «задачи кратчайшей пути» для авиаперевозок и логистики, а также предиктивного моделирования для принятия решений о кредитном риске. Затем в 1970-х — 1990-х годах получила большее распространение в организациях. Технологические стартапы сделали реальными предписывающую аналитику (Prescriptive analytics) и анализ в режиме реального времени. Тем не менее, предиктивная аналитика была инструментом, в первую очередь для специалистов по статистике и доходила до бизнес-пользователей только в виде статичных отчетов [1]. Сегодня предиктивная аналитика стала одним из важных направлений корпоративной аналитики, которая используется для решения широкого круга задач. Этот тренд обусловлен реалиями мировой экономики: организации постоянно ищут конкурентные преимущества и внедряют новые технологии.

Материалы и методы

Предиктивная аналитика — это процесс использования статистических моделей, алгоритмов машинного обучения и других методов анализа данных для прогнозирования будущих событий и поведения на основе исторических данных. В качестве примера рассмотрим несколько методик, используемых в области предиктивной аналитики:

1. Регрессионный анализ: Этот метод предсказывает значения зависимой переменной на основе набора независимых переменных. Это позволяет определить, какие факторы влияют на конкретное явление и какую роль они играют.

2. Кластерный анализ: Этот метод помогает группировать схожие объекты или события. Например, компания может использовать кластерный анализ для идентификации сегментов клиентов с похожим поведением или характеристиками, чтобы лучше понять их потребности и предоставить персонализированный опыт.

3. Классификация и прогнозирование: Данный метод используется для определения категории или класса, к которому может принадлежать объект или событие. Например, система мошеннического обнаружения может использовать классификацию для определения, является ли транзакция подозрительной или нет.

4. Временные ряды: Этот метод предсказывает будущие значения какой-либо переменной на основе ее исторических значений. Он используется для анализа временных данных, таких как прогнозирование продаж, предсказание цен на фондовом рынке или прогнозирование погоды.

5. Машинное обучение: Этот подход использует алгоритмы и модели машинного обучения для предсказания будущих результатов. Он может быть применен в различных сферах, от медицины до рекламы, чтобы прогнозировать, например, будущие заболевания пациентов или предложить наиболее релевантную рекламу на основе предпочтений пользователя.

6. Оптимизация ресурсов: Эта область предиктивной аналитики используется для оптимизации распределения ресурсов, таких как прогнозирование спроса на товары и услуги, планирование производства, оптимизация логистики или управление запасами.

Это лишь несколько примеров видов предиктивной аналитики. Все они имеют цель предсказывать будущие события и результаты на основе анализа исторических данных. Они могут быть применены в различных областях, от бизнеса до медицины, чтобы помочь принимать более информированные решения и лучше понимать будущие тенденции и потребности [2-3].

В качестве примера рассмотрим методику анализа больших данных с целью предсказания изменения этапов жизненного цикла элементов инженерного оборудования зданий и сооружений, которая, в итоге, направлена на снижение издержек при проектировании и реализации систем инженерного оборудования зданий за счёт отказа от многоуровневого дублирования, упрощение работы обслуживающего персонала снижения аварийности в процессе эксплуатации зданий и сооружений. Данное исследование является развитием идей, представленных автором в следующих статьях: «Predicting the Elements Operation of Buildings’ Engineering Equipment Using the Big Data Analysis Technologies» [4] и «Разработка методики анализа больших данных с целью предсказания изменения фаз жизненного цикла элементов инженерного оборудования зданий и сооружений» [5]. Конечной целью исследования является создание полнофункционального приложения, готового к реальной эксплуатации.

Алгоритм работы приложения:

Внешние данные поступают в логический блок, где проверяется, является ли изделие работающим? Если оно работает, передаём данные в блок прогнозирования. Если устройство не работает, снимаем дампы данных и передаём в следующий логический блок, где с использованием метода «Контрольных карт Шухарта» определяется является ли вышедшее изделие браком [6]. Если устройство вышло из строя штатно, данные передаются в модуль перерасчёта «Эталонной модели стандартной» с использованием метода «Кластерного анализа» [7]. Данные, полученные от работающего изделия, обрабатываются методом «Квалиметрического анализа» с эталоном, полученным в блоке «Эталонная модель стандартная» [8]. Если полученные данные приближаются к эталонной модели, выдаётся рекомендация на проверку состояния устройства, в противном случае никаких действий не предпринимается. Если устройство вышло из строя с показателями, находящимися в области «Брака», данные передаются в модуль перерасчёта «Эталонной модели брак» с использованием метода «Кластерного анализа». Данные, полученные от работающего изделия, обрабатываются методом «Квалиметрического анализа» с эталоном, полученным в блоке «Эталонная модель брак». Если полученные данные приближаются к эталонной модели выдаётся первоочередная рекомендация на проверку состояния устройства, в противном случае никаких действий не предпринимается (Рис.1).

Рис.1. Алгоритм работы приложения

Результаты исследования

Расчёты производились на массиве данных, сгенерированном для проверки работоспособности математической модели в приложении Microsoft Excel [9-10]. Каждый объект описывается набором своих характеристик, называемых параметрами. Параметры могут быть числовыми или нечисловыми. Исходные данные на первоначальном этапе фильтруются с использованием экспертного метода и контрольных карт Шухарта (Рис.2.) Для построения карт были выбраны следующие параметры: наработка часов фактическая, количество включений, количество пропущенной воды. Для построения CL — центральной линии использовали среднее геометрическое значение па`раметров:

$\overline{t}=\sqrt[n]{t_1\times t_2\times….t_n}$                                                                   (1)

где $\overline{t}$ среднее геометрическое, n число показателей, а t1×t2×….tn – набор показателей.

Рис.2. Контрольные карты Шухарта

С целью приведения параметров к сопоставимым величинам перед началом анализа используется метод нормализации данных (Рис. 3):

Рис. 3. Нормализация данных

Расчёт производится по следующей формуле:

$t_j=\frac{t_i}{\sum_{i=1}^nt_i}$                                   (2)

где tj – нормализованный параметр,

ti – ненормализованный параметр,

$\sum_{i=1}^nt_i– сумма исходных значений параметра t, нуждающегося в нормализации

Для поиска расстояний между объектами в матрице несходства использовалась формула нахождения евклидова расстояния:

$d(x,y)=∑_{i=1}^m(x_i-y_i)^2$                                   (3)

где d (X, Y) - евклидово расстояние,

m - количество параметров у сравниваемых объектов,

Xi, Yi – значения параметров [11].

На первом этапе квалиметрического анализа рассчитывается процент ошибки на основании данных из эталонной модели кластерного анализа и показателей:

$q%=|t_Э-\frac{\overline{t}}{t_Э}|$,                           (4)

где q% – величина ошибки в процентах,

tЭ – эталонное значение параметра,

i=1…n – диапазон текущих параметров,

$\overline{t}$ – среднее геометрическое параметров, рассчитывается по формуле

$\overline{t}=\sqrt[n]{t_1\times t_2\times….t_n}$

где t значение параметра для соответствующего устройства.

Параллельно указывается величина ошибки, полученная экспертным методом и все вычисления идут параллельно.

На втором этапе квалиметрического анализа нормализуем данные для анализа, используя следующие формулы:

1. Отклонение от эталонного значения параметра (ti):

$∆t_i=|\frac{(t_э-t_i)×100}{t_э}┤$                                                                      (5)

 где ti – исходный параметр,

 tэ – эталонное значение параметра.

2. Интегральный показатель качества (Qинт):

$Qинт=(1-\frac{q%}{∆t_i})×ln⁡\frac{∆t_i}{q%}$                                                             (6)

где ti – отклонение от эталонного значения параметра,

q% – величина ошибки в процентах.

На завершающем этапе квалиметрического анализа находим среднее значение по объектам, сортируем их по возрастанию, вычисляем интервалы в полученной последовательности и находим среднее геометрическое интервалов. На основании вычисленной среднегеометрической делим получившуюся последовательность на кластеры (Рис. 4).

Рис. 4. Кластеризация для задач прогноза

Объединив результаты вычислений, полученных с использованием математического и экспертного методов, получаем итоговую таблицу с прогнозом (Рис. 5) [12].

Рис. 5. Итоговая диаграмма прогноза

Заключение и обсуждение

Предиктивная аналитика является мощным инструментом для улучшения процессов и операций в строительной отрасли. Она позволяет строительным компаниям более точно прогнозировать спрос, оптимизировать ресурсы, управлять рисками, улучшать качество и повышать общую эффективность.

Методика анализа больших данных с целью предсказания изменения этапов жизненного цикла элементов инженерного оборудования зданий и сооружений основана на использовании современных алгоритмов предиктивной аналитики.

В качестве примера можно привести алгоритмы машинного обучения RFR (Random Forest Regressor), GBC (Gradient Busting Classifier) и GBR (Gradient Busting Regressor) описанные М.Р. Салиховым и Р.А. Юрьевой в статье «Алгоритм прогнозирования состояния оборудования на основе машинного обучения» [13].

Научная новизна состоит в подходе к анализу, в котором в отличие от классических схем, где кластерный и квалиметрический методы анализа используются для поиска наилучшего управленческого решения, в данной работе целью анализа, является поиск элементов оборудования близких к изменению фазы жизненного цикла.

На сегодняшний день исследование находится в активной фазе тестирования методики расчётов. Конечным результатом проведённого исследования будет являться полнофункциональный, гибкий программный комплекс, готовый к использованию как для предприятия, от которого получены исходные данные, так и для любого предприятия строительной сферы, с целью увеличения эффективности обслуживания элементов инженерного оборудования.

References

1. Pershina E.S., Dagaran S.V. From big data to advanced analytics in the tourism industry // Scientific Bulletin of MGIIT Number: 2 (52) Year: 2018 Pages: 60-69.

2. Kagan P. Big data sets in construction // E3S Web Conf., International Science Conference SPbWOSCE-2018 “Business Technologies for Sustainable Urban Development”. 2019, Volume 110, Number 3, pages: 80-84, doihttps://doi.org/10.1088/1757-899X/869/2/022004

3. Prokopets A. Competitive programming on Scala. Moscow, 2018, p.342. (In Russian)

4. Kagan P., Sigitov A. Predicting the Elements Operation of Buildings’ Engineering Equipment Using the Big Data Analysis Technologies // Lecture Notes in Civil Engineering, 2022, pp. 87-93. DOI:https://doi.org/10.1007/978-3-030-96206-7_9

5. Sigitov A.A. DEVELOPMENT OF A METHOD FOR ANALYSIS OF BIG DATA FOR THE PURPOSE OF PREDICTING CHANGES IN THE PHASES OF THE LIFE CYCLE OF ELEMENTS OF ENGINEERING EQUIPMENT OF BUILDINGS AND STRUCTURES / Journal of CONSTRUCTION AND ARCHITECTURE, 11 No. 2 (39), DOI https://doi.org/10.29039/2308- 0191-2023-11- 2-8-8 (In Russian)

6. Dorofeev M. Practice using Shewhart's control charts // Habr. 07.03.2012. - URL: https://habr.com/ru/post/139596/ (date of access: april 2022) (In Russian)

7. Kagan P. The use of digital technologies in building organizational and technological design // E3S Web Conf. 2021, Vol. 263, XXIV International Scientific Conference “Construction the Formation of Living Environment” (FORM-2021), Article Number 04040, https://doi.org/10.1051/e3sconf/202126304040

8. Forman D. Many numbers: analyze big data using Excel. Moscow, 2016, p. 464. (In Russian)

9. Prokopets A. Competitive programming on Scala. Moscow, 2018, p.342 (In Russian)

10. Leskova Yu.G. APPLICATION OF INFORMATION (DIGITAL) TECHNOLOGIES IN SELF-REGULATION AS A CONDITION FOR DEVELOPMENT OF THE CONSTRUCTION INDUSTRY AND LEGAL REGULATION Grazhdanskoye parvo. 2018, vol 5 pp 9-11. DOI:https://doi.org/10.18572/2070-2140-2018-5-9-11 (In Russian)

11. Durand B., Odel P.: Cluster analysis. Moscow, 1977. (In Russian)

12. Azgaldov G.G., Azgaldova L.A., Quantitative assessment of quality (Qualimetry). - M.: Publishing house of standards, 1971, 176 p. (In Russian)

13. M. R. Salikhov and R. A. Yuryeva, An algorithm for predicting the state of equipment based on machine learning // Izv. universities. Instrumentation. 2022. V. 65, No. 9. pp. 648-655. DOI:https://doi.org/10.17586/0021-3454-2022-65-9-648-655. (In Russian)


Login or Create
* Forgot password?