DEVELOPMENT OF A METHODOLOGY FOR ANALYZING BIG DATA IN ORDER TO PREDICT CHANGES IN THE PHASES OF THE LIFE CYCLE OF ELEMENTS OF ENGINEERING EQUIPMENT OF BUILDINGS AND STRUCTURES
Abstract and keywords
Abstract (English):
Introduction. Big data analysis technologies are the basis for the development of the information society. Storage and processing of "Big data" requires significant expenditures of computing power, expensive data storage systems. In the field of construction, the main source of "Big data" is the technology of "Smart home" and "Smart city". The development of a methodology for analyzing big data is aimed at reducing the cost of operating elements of engineering equipment, timely maintenance, with the aim of trouble-free operation. The presented analysis technique can be extended to any piece of equipment that collects data on its operation and condition. Materials and methods. Used data from open sources. The data for analysis were obtained from the management company Yuzhny LLC. The subject of the study is an electric ball valve. Preparation and visualization of information was carried out using Microsoft Office Excel. Results. The developed methodology for analyzing big data in order to predict changes in the phases of the life cycle of elements of engineering equipment of buildings and structures, according to the results of a preliminary analysis, showed its efficiency. High performance in the task of identifying defective products was demonstrated by the method using Shewhart's Control Charts. The use of cluster and qualimetric analysis methods in scenarios unusual for them made it possible to predict the change in the life cycle phases with an accuracy acceptable for research problems. Conclusions. The analysis technique is based on the use of modern algorithms. Algorithms themselves are often used to process big data. The scientific novelty lies in the approach to analysis, in which, unlike classical schemes, where cluster and qualimetric methods of analysis are used to find the best management solution, in this work, the purpose of the analysis is to search for equipment items close to a change in the phase of the life cycle.

Keywords:
big data, life cycle, engineering equipment, data mining, cluster analysis, qualimetry, life cycle phases, predictive systems, Shewhart control charts
Text
Publication text (PDF): Read Download

Введение

В современной науке достаточно широкое распространение получили подходы, связанные с обработкой, хранением и анализом больших массивов данных. Такое направление, связанное с изменением технологии обработки и анализа данных, с развитием распределенных систем хранения и обработки информации, с уходом от традиционных баз и банков, получил общее наименование «Big Data» (большие данные) [1-3]. Термин «Data Mining», который часто переводится как "Интеллектуальный анализ данных" или "Раскопка данных", описывает систему поиска закономерностей и, возможно, прогнозирования тенденций проявления данных.

Научный интерес к этой области знаний возрастает год от года. В качестве примера можно привести несколько наиболее значимых статей за последние годы: Lu W., «Big data analytics to identify illegal construction waste dumping: A Hong Kong study. »; Zhang, Z. and Xie, X «Towards testing big data analytics software: the essential role of metamorphic testing»; Youssra Riahi, Sara Riahi «Big Data and Big Data Analytics: Concepts, Types and Technologies»; Blazquez, D. and Domenech, J., «Big Data sources and methods for social and economic analyses»; Breed, D.G. and Verster, T., «An empirical investigation of alternative semi-supervised segmentation methodologies.»; Lekhwar, S., Yadav, S. and Singh, A., 2019. Lekhwar, S., Yadav, S. and Singh, A., «Big Data Analytics in Retail» [4-9].

Всё чаще такой подход применяется и в строительстве в связи с дальнейшим развитием цифровых технологий в отрасли «Умного дома» [10-16].

В качестве примера такого подхода рассмотрим методику анализа больших данных с целью предсказания изменения фаз жизненного цикла элементов инженерного оборудования зданий и сооружений, которая, в итоге, направлена на снижение издержек при проектировании и реализации систем инженерного оборудования зданий за счёт отказа от многоуровневого дублирования, упрощение работы обслуживающего персонала снижения аварийности в процессе эксплуатации зданий и сооружений. Данное исследование является развитием идей, представленных автором в статье «Predicting the Elements Operation of Buildings’ Engineering Equipment Using the Big Data Analysis Technologies» [17]. 

Материалы и методы

Данные для анализа получены от управляющей компании ООО «Южный», путём оцифровки сведений, содержащихся в рабочих и аварийных журналах. В качестве предмета исследования использовались данные о установленных в жилых домах шаровых кранах с электроприводом, регистрирующих своё текущее состояние и ежедневно отправляющие данные по своему состоянию в управляющую компанию. 
Структура приложения включает шесть основных блоков.

1.База данных, - в блоке хранятся данные необходимые для анализа;
2.Блок «Предварительной оценки», — где с использованием «контрольных карт Шухарта» отделяются данные по бракованным и наиболее удачным устройствам, вышедшим из эксплуатации; 
3.Блок «Эталонная модель стандартная», — где с использованием метода кластерного анализа моделируется динамическая эталонная модель на основе данных, собранных с устройств, вышедших из строя в процессе эксплуатации;
4.Блок «Эталонная модель брак», — где с использованием метода кластерного анализа моделируется динамическая эталонная модель на основе данных, собранных с устройств, вышедших из строя в результате допущенного брака;
5.«Блок предсказания стандартный» — в блоке на основании эталонной модели и исходных данных из первого блока, с использованием квалиметрического и экспертного анализа, прогнозируются сроки выхода изделий из строя и формируются рекомендации сервисным службам для их проверки или замены;
6.«Блок предсказания брак», — в блоке на основании эталонной модели и исходных данных из первого блока, с использованием квалиметрического и экспертного анализа, прогнозируются сроки выхода изделий из строя и формируются рекомендации сервисным службам для их первоочередной проверки или замены. (Рис.1).

 

Рис.1. Структура приложения

Алгоритм работы приложения (Рис. 2):

Внешние данные поступают в логический блок, где проверяется, является ли изделие работающим? Если оно работает, передаём данные в блок прогнозирования. Если устройство не работает, снимаем дампы данных и передаём в следующий логический блок, где с использованием метода «Контрольных карт Шухарта» определяется является ли вышедшее изделие браком [18]. Если устройство вышло из строя штатно, данные передаются в модуль перерасчёта «Эталонной модели стандартной» с использованием метода «Кластерного анализа» [19]. Данные, полученные от работающего изделия, обрабатываются методом «Квалиметрического анализа» с эталоном, полученным в блоке «Эталонная модель стандартная» [20]. Если полученные данные приближаются к эталонной модели, выдаётся рекомендация на проверку состояния устройства, в противном случае никаких действий не предпринимается. Если устройство вышло из строя с показателями, находящимися в области «Брака», данные передаются в модуль перерасчёта «Эталонной модели брак» с использованием метода «Кластерного анализа». Данные, полученные от работающего изделия, обрабатываются методом «Квалиметрического анализа» с эталоном, полученным в блоке «Эталонная модель брак». Если полученные данные приближаются к эталонной модели выдаётся первоочередная рекомендация на проверку состояния устройства, в противном случае никаких действий не предпринимается (Рис.2).

 

Рис.2. Алгоритм работы приложения

Результаты исследования

Расчёты производились на массиве данных, сгенерированном для проверки работоспособности математической модели в приложении Microsoft Excel. Каждый объект описывается набором своих характеристик, называемых параметрами. Параметры могут быть числовыми или нечисловыми. Исходные данные на первоначальном этапе фильтруются с использованием экспертного метода и контрольных карт Шухарта (Рис.3.) Для построения карт были выбраны следующие параметры: наработка часов фактическая, количество включений, количество пропущенной воды. Для построения CL — центральной линии использовали среднее геометрическое значение параметров:

где  —  среднее геометрическое, n — число показателей, а t1×t2×….tn – набор показателей.

Рис.3. Контрольные карты Шухарта

С целью приведения параметров к сопоставимым величинам перед началом анализа используется метод нормализации данных:
           
где tj — нормализованный параметр, 
ti — ненормализованный параметр, 
  — сумма исходных значений параметра t, нуждающегося в нормализации
Для поиска расстояний между объектами в матрице несходства использовалась формула нахождения евклидова расстояния:


где d (x, y) — евклидово расстояние,
m — количество параметров у сравниваемых объектов,
xi, yi — значения параметров [21].
На первом этапе квалиметрического анализа рассчитывается процент ошибки на основании данных из эталонной модели кластерного анализа и показателей:

где q% — величина ошибки в процентах, 
tЭ — эталонное значение параметра, 
i=1…n — диапазон текущих параметров, 
– среднее геометрическое параметров, рассчитывается по формуле

где t — значение параметра для соответствующего устройства.

Параллельно указывается величина ошибки, полученная экспертным методом и все вычисления идут параллельно.

На втором этапе квалиметрического анализа нормализуем данные для анализа, используя следующие формулы:

1. Отклонение от эталонного значения параметра (∆ti):

 где ti — исходный параметр,
 tэ — эталонное значение параметра. 

2. Интегральный показатель качества (Qинт):

где ∆ti — отклонение от эталонного значения параметра, 
q% — величина ошибки в процентах.

На завершающем этапе квалиметрического анализа находим среднее значение по объектам, сортируем их по возрастанию, вычисляем интервалы в полученной последовательности и находим среднее геометрическое интервалов. На основании вычисленной среднегеометрической делим получившуюся последовательность на кластеры. Объединив результаты вычислений, полученных с использованием математического и экспертного методов, получаем итоговую диаграмму с прогнозом (Рис.4) [22].

 
Рис.4. Итоговая диаграмма прогноза

Заключение и обсуждение

Методика анализа больших данных с целью предсказания изменения фаз жизненного цикла элементов инженерного оборудования зданий и сооружений основана на использовании современных алгоритмов. Сами алгоритмы часто используются в целях обработки больших данных.

В качестве примера можно привести алгоритмы машинного обучения RFR (Random Forest Regressor), GBC (Gradient Busting Classifier) и GBR (Gradient Busting Regressor) описанные М.Р. Салиховым и Р.А. Юрьевой в статье «Алгоритм прогнозирования состояния оборудования на основе машинного обучения» [23].

Научная новизна состоит в подходе к анализу, в котором в отличие от классических схем, где кластерный и квалиметрический методы анализа используются для поиска наилучшего управленческого решения, в данной работе целью анализа, является поиск элементов оборудования близких к изменению фазы жизненного цикла.

На сегодняшний день исследование находится в активной фазе тестирования методики расчётов. Конечным результатом проведённого исследования будет являться полнофункциональный, гибкий программный комплекс, пригодный как для предприятия, от которого получены исходные данные, так и для любого предприятия строительной сферы, с целью увеличения эффективности обслуживания элементов инженерного оборудования.

References

1. Forman D. Many numbers: analyze big data using Excel. Al'pina Pablisher Publ., Moscow, 2016, p. 464. (In Russian)

2. Prokopets A. Competitive programming on Scala. DMK-Press Publ., Moscow, 2018, p.342 (In Russian)

3. Kagan P. Big data sets in construction. E3S Web Conf., International Science Conference SPbWOSCE-2018 “Business Technologies for Sustainable Urban Development”. 2019, Volume 110, Number 3, pages: 80-84, doihttps://doi.org/10.1088/1757-899X/869/2/022004

4. Lu W., Big data analytics to identify illegal construction waste dumping: A Hong Kong study. Resources, Conservation and Recycling, 2019, Vol., 141, pp.264-272. https://doi.org/10.1016/j.resconrec.2018.10.039

5. Zhang Z. and Xie X., 2019. Towards testing big data analytics software: the essential role of metamorphic testing. Biophysical reviews. 2019, Vol. 11(1), pp.123-125. https://doi.org/10.1007/s12551-019-00500-x

6. Youssra Riahi, Sara Riahi, 2018, Big Data and Big Data Analytics: Concepts, Types and Technologies, International Journal of Research and Engineering Vol. 5 No. 9 | September-October 2018 | PP. 524-528. DOIhttps://doi.org/10.21276/ijre.2018.5.9.5

7. Blazquez D. and Domenech J., 2018. Big Data sources and methods for social and economic analyses. Technological Forecasting and Social Change journal, Volume 130, pp. 99--113. https://doi.org/10.1016/j.techfore.2017.07.027

8. Breed D.G. and Verster T., 2019. An empirical investigation of alternative semi-supervised segmentation methodologies. South African Journal of Science, Volume 115, pp. pp.92-98. http://dx.doi.org/10.17159/sajs.2019/5359.

9. Lekhwar S., Yadav S. and Singh A., Lekhwar, S., Yadav, S. and Singh, A., 2019. Big Data Analytics in Retail. Singapore, Springer, 2019, pp. 469-477. DOIhttps://doi.org/10.1007/978-981-13-1747-7_45.

10. Asaul V.V., Lushnikov A.S. IMPLEMENTATION OF ELEMENTS OF DIGITAL ECONOMY IN CONSTRUCTION: DOMESTIC AND FOREIGN EXPERIENCE / Collection “Economic problems in architecture, urban planning and investment and construction activities. Current state and challenges”- materials of the All-Russian scientific-practical conference of the members of the RAASN, the teaching staff, young scientists of SPbGASU and specialists in the investment and construction sector. St. Petersburg, 2019, p. 89-93. DOIhttps://doi.org/10.17513/vaael.1729. (In Russian)

11. Travush V.I. Digital technologies in construction Academia. Arkhitektura i stroitel'stvo. 2018, vol 3 pp 107-117. DOIhttps://doi.org/10.22337/2077-9038-2018-3-107-117. (In Russian)

12. Travush V.I. Belostyky A.M., Akimov P.A. DIGITAL TECHNOLOGIES IN CONSTRUCTION: DECLARATIONS AND REALITY. PART 2. EXPERIMENTAL AND LOCAL RESEARCH, PRODUCTION OF MATERIALS, PRODUCTS AND STRUCTURES, MATERIALS SCIENCE, ECONOMY OF CONSTRUCTION, INFORMATION MODELING / Collection "Sustainable development of the region: architecture, construction, transport". Materials of the 5th International Scientific and Practical Conference of the Institute of Architecture, Construction and Transport. 2018, pp 25-38 (In Russian)

13. Dobrynin A.P., Chernykh K.Yu., Kupriyanovskiy V.P., Kupriyanovskiy P.V., Sinyagov S.A. Digital Economy - Various Ways to Effective Application of Technologies (BIM, PLM, CAD, IOT, Smart City, BIG DATA and others) International Journal of Open Information Technologies. 2016, vol 4 Issue 1pp 4-11. DOI:https://doi.org/10.23968/1999-5571-2020-17-2-4-11. (In Russian)

14. Korabelnikova S.S., Korabelnikova S.K. DIGITAL TECHNOLOGIES AS AN ELEMENT OF RISK REDUCTION IN CONSTRUCTION Diskussiya. 2019, vol 2 (93) pp 18-27. DOI: 24411/2077-7639-2019-10002. (In Russian)

15. Leskova Yu.G. APPLICATION OF INFORMATION (DIGITAL) TECHNOLOGIES IN SELF-REGULATION AS A CONDITION FOR DEVELOPMENT OF THE CONSTRUCTION INDUSTRY AND LEGAL REGULATION Grazhdanskoye parvo. 2018, vol 5 pp 9-11. DOI:https://doi.org/10.18572/2070-2140-2018-5-9-11. (In Russian)

16. Kagan P. The use of digital technologies in building organizational and technological design. E3S Web Conf. 2021, Vol. 263, XXIV International Scientific Conference “Construction the Formation of Living Environment” (FORM-2021), Article Number 04040, https://doi.org/10.1051/e3sconf/202126304040.

17. Kagan P., Sigitov A. Predicting the Elements Operation of Buildings’ Engineering Equipment Using the Big Data Analysis Technologies. Lecture Notes in Civil Engineering, 2022, 231, P. 87–93. DOI:https://doi.org/10.1007/978-3-030-96206-7_9.

18. Dorofeev M. Practice using Shewhart's control charts. Electronic resource. Electronic journal Habr. Pub. dated 07.03.2012. – URL: https://habr.com/ru/post/139596/ (date of access: april 2022). – (In Russian)

19. ITMO University. Cluster analysis - for everyone. Electronic resource. Electronic journal Habr. Pub. from 19.01.2021. – URL: https://habr.com/ru/company/spbifmo/blog/534410/ (date of access: april 2021). – Text: electronic

20. Azgaldov G.G., Azgaldova L.A., Quantitative assessment of quality (Qualimetry). - M.: Publishing house of standards, 1971, 176 p. - UDC 658.562.003.12 (048) - 5000 copies. – Text: direct. (In Russian)

21. Durand B., Odel P.: Cluster analysis, "Statistics", Moscow (1977) (In Russian)

22. Azgaldov G.G., Kostin A.V., Sadov V.V.: Qualimetry for all. “InformZnanie”, Moscow (2012). (In Russian)

23. M. R. Salikhov and R. A. Yuryeva, “An algorithm for predicting the state of equipment based on machine learning,” Izv. universities. Instrumentation. 2022. V. 65, No. 9. pp. 648-655. DOI:https://doi.org/10.17586/0021-3454-2022-65-9-648-655. (In Russian)


Login or Create
* Forgot password?