Современное состояние и перспективы развития систем предиктивной аналитики в области строительства
Аннотация и ключевые слова
Аннотация (русский):
Введение. Корни современной предиктивной аналитики уходят в далекие 1940-е годы, когда правительства начали использовать первые вычислительные модели: метод Монте-Карло, вычислительные модели нейронных сетей и линейное программирование. В 1960-х годах корпорации и исследовательские институты начали эпоху коммерциализации аналитики с помощью компьютерной техники. Затем в 1970-х — 1990-х годах получила большее распространение в организациях. Технологические стартапы сделали реальными предписывающую аналитику (Prescriptive analytics) и анализ в режиме реального времени. Материалы и методы. Использованы данные из открытых источников. Предметом исследования является история, современное состояние систем предиктивной аналитики и перспективы разрабатываемой методики анализа больших данных с целью предсказания изменения этапов жизненного цикла элементов инженерного оборудования зданий и сооружений. Подготовка и визуализация информации выполнялась при помощи Microsoft Office Excel. Результаты. Исследованы термины, история появления, развития и современное состояние систем предиктивной аналитики. Изучены перспективы, разрабатываемой в диссертационной работе, методика анализа больших данных с целью предсказания изменения этапов жизненного цикла элементов инженерного оборудования зданий и сооружений. Использование в диссертационной работе «Контрольных карт Шухарта», методов кластерного и квалиметрического анализа в несвойственных для них сценариях, позволяет рассчитывать на положительные перспективы разрабатываемой методики. Выводы. Предиктивная аналитика в строительной области является одним из наиболее перспективных направлений анализа больших данных. Разрабатываемая в диссертационной работе методика анализа больших данных с целью предсказания изменения этапов жизненного цикла элементов инженерного оборудования зданий и сооружений основана на использовании современных алгоритмов. Научная новизна состоит в подходе к анализу, в котором используется комбинированная схема, в которой кластерный и квалиметрический методы анализа используются для поиска элементов оборудования близких к изменению этапа жизненного цикла.

Ключевые слова:
большие данные, предиктивная аналитика, жизненный цикл, инженерное оборудование, интеллектуальный анализ данных, кластерный анализ, квалиметрия, фазы жизненного цикла, системы прогнозирования, контрольные карты Шухарта
Текст

Введение

Корни современной предиктивной аналитики уходят в далекие 1940-е годы, когда правительства начали использовать первые вычислительные модели: метод Монте-Карло, вычислительные модели нейронных сетей и линейное программирование. Это применялось для расшифровки немецких сообщений во время Второй мировой войны, самонаведения орудий ПВО и прогнозного моделирования ядерных цепных реакций в проекте «Манхэттен». В 1960-х годах корпорации и исследовательские институты начали эпоху коммерциализации аналитики с помощью нелинейного программирования и решения эвристических задач на основе компьютеров. Это легло в основу первых моделей прогноза погоды, решения «задачи кратчайшей пути» для авиаперевозок и логистики, а также предиктивного моделирования для принятия решений о кредитном риске. Затем в 1970-х — 1990-х годах получила большее распространение в организациях. Технологические стартапы сделали реальными предписывающую аналитику (Prescriptive analytics) и анализ в режиме реального времени. Тем не менее, предиктивная аналитика была инструментом, в первую очередь для специалистов по статистике и доходила до бизнес-пользователей только в виде статичных отчетов [1]. Сегодня предиктивная аналитика стала одним из важных направлений корпоративной аналитики, которая используется для решения широкого круга задач. Этот тренд обусловлен реалиями мировой экономики: организации постоянно ищут конкурентные преимущества и внедряют новые технологии.

Материалы и методы

Предиктивная аналитика — это процесс использования статистических моделей, алгоритмов машинного обучения и других методов анализа данных для прогнозирования будущих событий и поведения на основе исторических данных. В качестве примера рассмотрим несколько методик, используемых в области предиктивной аналитики:

1. Регрессионный анализ: Этот метод предсказывает значения зависимой переменной на основе набора независимых переменных. Это позволяет определить, какие факторы влияют на конкретное явление и какую роль они играют.

2. Кластерный анализ: Этот метод помогает группировать схожие объекты или события. Например, компания может использовать кластерный анализ для идентификации сегментов клиентов с похожим поведением или характеристиками, чтобы лучше понять их потребности и предоставить персонализированный опыт.

3. Классификация и прогнозирование: Данный метод используется для определения категории или класса, к которому может принадлежать объект или событие. Например, система мошеннического обнаружения может использовать классификацию для определения, является ли транзакция подозрительной или нет.

4. Временные ряды: Этот метод предсказывает будущие значения какой-либо переменной на основе ее исторических значений. Он используется для анализа временных данных, таких как прогнозирование продаж, предсказание цен на фондовом рынке или прогнозирование погоды.

5. Машинное обучение: Этот подход использует алгоритмы и модели машинного обучения для предсказания будущих результатов. Он может быть применен в различных сферах, от медицины до рекламы, чтобы прогнозировать, например, будущие заболевания пациентов или предложить наиболее релевантную рекламу на основе предпочтений пользователя.

6. Оптимизация ресурсов: Эта область предиктивной аналитики используется для оптимизации распределения ресурсов, таких как прогнозирование спроса на товары и услуги, планирование производства, оптимизация логистики или управление запасами.

Это лишь несколько примеров видов предиктивной аналитики. Все они имеют цель предсказывать будущие события и результаты на основе анализа исторических данных. Они могут быть применены в различных областях, от бизнеса до медицины, чтобы помочь принимать более информированные решения и лучше понимать будущие тенденции и потребности [2-3].

В качестве примера рассмотрим методику анализа больших данных с целью предсказания изменения этапов жизненного цикла элементов инженерного оборудования зданий и сооружений, которая, в итоге, направлена на снижение издержек при проектировании и реализации систем инженерного оборудования зданий за счёт отказа от многоуровневого дублирования, упрощение работы обслуживающего персонала снижения аварийности в процессе эксплуатации зданий и сооружений. Данное исследование является развитием идей, представленных автором в следующих статьях: «Predicting the Elements Operation of Buildings’ Engineering Equipment Using the Big Data Analysis Technologies» [4] и «Разработка методики анализа больших данных с целью предсказания изменения фаз жизненного цикла элементов инженерного оборудования зданий и сооружений» [5]. Конечной целью исследования является создание полнофункционального приложения, готового к реальной эксплуатации.

Алгоритм работы приложения:

Внешние данные поступают в логический блок, где проверяется, является ли изделие работающим? Если оно работает, передаём данные в блок прогнозирования. Если устройство не работает, снимаем дампы данных и передаём в следующий логический блок, где с использованием метода «Контрольных карт Шухарта» определяется является ли вышедшее изделие браком [6]. Если устройство вышло из строя штатно, данные передаются в модуль перерасчёта «Эталонной модели стандартной» с использованием метода «Кластерного анализа» [7]. Данные, полученные от работающего изделия, обрабатываются методом «Квалиметрического анализа» с эталоном, полученным в блоке «Эталонная модель стандартная» [8]. Если полученные данные приближаются к эталонной модели, выдаётся рекомендация на проверку состояния устройства, в противном случае никаких действий не предпринимается. Если устройство вышло из строя с показателями, находящимися в области «Брака», данные передаются в модуль перерасчёта «Эталонной модели брак» с использованием метода «Кластерного анализа». Данные, полученные от работающего изделия, обрабатываются методом «Квалиметрического анализа» с эталоном, полученным в блоке «Эталонная модель брак». Если полученные данные приближаются к эталонной модели выдаётся первоочередная рекомендация на проверку состояния устройства, в противном случае никаких действий не предпринимается (Рис.1).

Рис.1. Алгоритм работы приложения

Результаты исследования

Расчёты производились на массиве данных, сгенерированном для проверки работоспособности математической модели в приложении Microsoft Excel [9-10]. Каждый объект описывается набором своих характеристик, называемых параметрами. Параметры могут быть числовыми или нечисловыми. Исходные данные на первоначальном этапе фильтруются с использованием экспертного метода и контрольных карт Шухарта (Рис.2.) Для построения карт были выбраны следующие параметры: наработка часов фактическая, количество включений, количество пропущенной воды. Для построения CL — центральной линии использовали среднее геометрическое значение па`раметров:

$\overline{t}=\sqrt[n]{t_1\times t_2\times….t_n}$                                                                   (1)

где $\overline{t}$ среднее геометрическое, n число показателей, а t1×t2×….tn – набор показателей.

Рис.2. Контрольные карты Шухарта

С целью приведения параметров к сопоставимым величинам перед началом анализа используется метод нормализации данных (Рис. 3):

Рис. 3. Нормализация данных

Расчёт производится по следующей формуле:

$t_j=\frac{t_i}{\sum_{i=1}^nt_i}$                                   (2)

где tj – нормализованный параметр,

ti – ненормализованный параметр,

$\sum_{i=1}^nt_i– сумма исходных значений параметра t, нуждающегося в нормализации

Для поиска расстояний между объектами в матрице несходства использовалась формула нахождения евклидова расстояния:

$d(x,y)=∑_{i=1}^m(x_i-y_i)^2$                                   (3)

где d (X, Y) - евклидово расстояние,

m - количество параметров у сравниваемых объектов,

Xi, Yi – значения параметров [11].

На первом этапе квалиметрического анализа рассчитывается процент ошибки на основании данных из эталонной модели кластерного анализа и показателей:

$q%=|t_Э-\frac{\overline{t}}{t_Э}|$,                           (4)

где q% – величина ошибки в процентах,

tЭ – эталонное значение параметра,

i=1…n – диапазон текущих параметров,

$\overline{t}$ – среднее геометрическое параметров, рассчитывается по формуле

$\overline{t}=\sqrt[n]{t_1\times t_2\times….t_n}$

где t значение параметра для соответствующего устройства.

Параллельно указывается величина ошибки, полученная экспертным методом и все вычисления идут параллельно.

На втором этапе квалиметрического анализа нормализуем данные для анализа, используя следующие формулы:

1. Отклонение от эталонного значения параметра (ti):

$∆t_i=|\frac{(t_э-t_i)×100}{t_э}┤$                                                                      (5)

 где ti – исходный параметр,

 tэ – эталонное значение параметра.

2. Интегральный показатель качества (Qинт):

$Qинт=(1-\frac{q%}{∆t_i})×ln⁡\frac{∆t_i}{q%}$                                                             (6)

где ti – отклонение от эталонного значения параметра,

q% – величина ошибки в процентах.

На завершающем этапе квалиметрического анализа находим среднее значение по объектам, сортируем их по возрастанию, вычисляем интервалы в полученной последовательности и находим среднее геометрическое интервалов. На основании вычисленной среднегеометрической делим получившуюся последовательность на кластеры (Рис. 4).

Рис. 4. Кластеризация для задач прогноза

Объединив результаты вычислений, полученных с использованием математического и экспертного методов, получаем итоговую таблицу с прогнозом (Рис. 5) [12].

Рис. 5. Итоговая диаграмма прогноза

Заключение и обсуждение

Предиктивная аналитика является мощным инструментом для улучшения процессов и операций в строительной отрасли. Она позволяет строительным компаниям более точно прогнозировать спрос, оптимизировать ресурсы, управлять рисками, улучшать качество и повышать общую эффективность.

Методика анализа больших данных с целью предсказания изменения этапов жизненного цикла элементов инженерного оборудования зданий и сооружений основана на использовании современных алгоритмов предиктивной аналитики.

В качестве примера можно привести алгоритмы машинного обучения RFR (Random Forest Regressor), GBC (Gradient Busting Classifier) и GBR (Gradient Busting Regressor) описанные М.Р. Салиховым и Р.А. Юрьевой в статье «Алгоритм прогнозирования состояния оборудования на основе машинного обучения» [13].

Научная новизна состоит в подходе к анализу, в котором в отличие от классических схем, где кластерный и квалиметрический методы анализа используются для поиска наилучшего управленческого решения, в данной работе целью анализа, является поиск элементов оборудования близких к изменению фазы жизненного цикла.

На сегодняшний день исследование находится в активной фазе тестирования методики расчётов. Конечным результатом проведённого исследования будет являться полнофункциональный, гибкий программный комплекс, готовый к использованию как для предприятия, от которого получены исходные данные, так и для любого предприятия строительной сферы, с целью увеличения эффективности обслуживания элементов инженерного оборудования.

Список литературы

1. Першина Э.С., Дагаран С.В. От больших данных к продвинутой аналитике в индустрии туризма // Научный вестник МГИИТ. - Номер: 2 (52), 2018. - С: 60-69.

2. Kagan P. Big data sets in construction. E3S Web Conf., International Science Conference SPbWOSCE-2018 “Business Technologies for Sustainable Urban Development”. 2019, Volume 110, Number 3, pages: 80-84, doihttps://doi.org/10.1088/1757-899X/869/2/022004

3. Прокопец А. Конкурентное программирование на Scala. - М.: ДМК-Пресс, 2018. - 342 с.

4. Kagan P., Sigitov A. Predicting the Elements Operation of Buildings’ Engineering Equipment Using the Big Data Analysis Technologies // Lecture Notes in Civil Engineering, 2022, 231, стр. 87-93. DOI:https://doi.org/10.1007/978-3-030-96206-7_9

5. Сигитов А.А. Разработка методики анализа больших данных с целью предсказания изменения фаз жизненного цикла элементов инженерного оборудования зданий и сооружений // Строительство и архитектура. - Т. 11 № 2 (39). - DOI https://doi.org/10.29039/2308-0191-2023-11-2-8-8

6. Дорофеев М. Практикум использования контрольных карт Шухарта // Электронный журнал Хабр. - 07.03.2012. [Электронный ресурс] - URL: https://habr.com/ru/post/139596/ (дата обращения: апрель 2022).

7. Kagan P. The use of digital technologies in building organizational and technological design // E3S Web Conf. 2021, Vol. 263, XXIV International Scientific Conference “Construction the Formation of Living Environment” (FORM-2021), Article Number 04040. - https://doi.org/10.1051/e3sconf/202126304040

8. Лескова Ю.Г. Применение информационных (цифровых) технологий в саморегулировании как условие развития строительной отрасли и правовое регулирование // Гражданское право. - Т. 5., 2018. - С. 9-11. - DOI:https://doi.org/10.18572/2070-2140-2018-5-9-11.

9. Форман Д. Много чисел: анализ больших данных с помощью Excel. - М.: Альпина Паблишер, 2016. - 464 с.

10. Прокопец А. Конкурентное программирование на Scala ДМК-Пресс. - М., 2018. - 342 с.

11. Дюран Б., Одель П. Кластерный анализ. - М.: Статистика, 1977)

12. Азгальдов Г.Г., Азгальдова Л.А., Количественная оценка качества (Квалиметрия). - М.: Издательство стандартов, 1971, 176 с.

13. Салихов М.Р., Юрьева Р.А., Алгоритм прогнозирования состояния оборудования на основе машинного обучения // Изв. Вузов. Приборостроение. - Т. 65, №9, 2022. - С. 648-655. - DOI:https://doi.org/10.17586/0021-3454-2022-65-9-648-655


Войти или Создать
* Забыли пароль?