Construction management using computer vision of the construction site

Kuzina Olga

doi:doi:10.29039/2308-0191-2023-11-4-34-32

Construction management using computer vision of the construction site

Submit manuscript Download PDF
Text

To cite

Citations:

CONSTRUCTION MANAGEMENT USING COMPUTER VISION OF THE CONSTRUCTION SITE

Journal: CONSTRUCTION AND ARCHITECTURE Volume 11 № 4 , 2023

Rubrics: 2.1.14. LIFE CYCLE MANAGEMENT OF CONSTRUCTION OBJECTS (TECHNICAL SCIENCES)

UDC 624.05 UDC 004.8

Kuzina Olga ¹

Author and publication information

Authors:

1. Moscow State University of Civil Engineering (Chairman of the Department of Information Systems, Technology and Automation of Construction)

Russian Federation

Type:

Article

DOI:

https://doi.org/10.29039/2308-0191-2023-11-4-34-32

Pages:

from 34 to 34

Status:

Published

Received:

03.11.2023

Accepted:

03.11.2023

Published:

08.12.2023

Subject area:

UDC 624.05
UDC 004.8

Language:

Russian

Keywords:

construction, system analysis, labor productivity, information model, object lifecycle, operation, artificial intelligence, data management, decision tree, machine learning, anomalies, computer vision, construction control, neural networks

Abstract and keywords

Abstract (English):
The article presents algorithms for solving the problem of computer vision to control the implementation of rules and requirements for the performance of work on a construction site. A general approach to algorithm development is described, including the structure and method used to collect construction site image data, the structure of the training image data set, the method of enlarging the image data set and the basic artificial intelligence model used for training. The developed and tested object recognition models will be applied to real construction sites, which will reduce the number of accidents involving construction workers, and use resources efficiently.

Keywords:
construction, system analysis, labor productivity, information model, object lifecycle, operation, artificial intelligence, data management, decision tree, machine learning, anomalies, computer vision, construction control, neural networks

Text

Text (PDF): Read Download

Введение

Комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека при решении задач компьютерного зрения, обработки естественного языка, распознавания и синтеза речи, поддержки принятия решений и других практически значимых задач обработки данных – это технологии искусственного интеллекта [1]. Компьютерное зрение – область научных и прикладных исследований, направленных на извлечение и последующее использование данных, обнаруженных на изображениях. Первоначальной задачей компьютерного зрения было восстановление пространственной структуры объекта (3D) по плоским изображениям (2D). Затем, данная задача была расширена в сторону анализа состояния объекта по изображениям. Новые подходы в области задач детекции, классификации, сегментации объектов позволяют создавать системы распознавания в режиме реального времени. Существует несколько алгоритмов и методологий для обнаружения и сегментации объектов на строительных площадках с использованием компьютерного зрения и методов глубокого обучения. Один из подходов заключается в использовании больших наборов данных изображений, специально собранных при фиксации процессов на строительной площадке [2]. Другой подход заключается в использовании сверточных нейронных сетей для обнаружения распространенных типов элементов, находящихся на строительной площадке, таких как здания, оборудование, рабочие бригад [3].

Важно определить основные факторы, влияющие на процесс принятия решений, и параметры формирования входных и выходных данных для моделирования каждого этапа жизненного цикла объекта, а также технико-экономические показатели формируемой информационной модели по этапам [4]. Некоторые проблемы при обнаружении объектов на строительных площадках включают изменчивость формы и размера объектов, визуальную блокировку, приводящую к ложным срабатываниям, и сложность интеграции информации от различных объектов разного размера и масштаба [5]. Кроме того, сложная конфигурация строительных площадок и необходимость в надежных моделях сегментации экземпляров для эффективного обнаружения объектов в различных условиях создают значительные сложности [6]. Эти проблемы подчеркивают необходимость передовых сенсорных технологий и инновационных стратегий для автоматизации обнаружения дефектов и улучшения мониторинга безопасности на строительных площадках.

В то время как для сбора мультимодальных данных используются новые методы зондирования, цифровая фотография (с использованием камер или мобильных устройств, таких как смартфоны и планшетные компьютеры) на сегодняшний день является одним из наиболее распространенных способов документирования полевых работ. Учитывая богатство контента и визуальное разнообразие, запечатленное на фотографиях или видео, визуальные данные можно использовать для создания отчетов о ходе выполнения и запроса информации, проведения контроля качества, мониторинга производительности работ бригад, управления развертыванием ресурсов, обеспечения безопасности. Традиционно, ручное сканирование и сортировка специалистами-людьми были наиболее распространенным методом организации и хранения большого объема строительных изображений. Однако с появлением смартфонов, беспилотных летательных аппаратов и других персональных устройств с подключением к сети количество цифровых изображений и видео увеличилось в геометрической прогрессии, что делает традиционные ручные решения чрезвычайно ресурсоемкими и неэффективными. Инструменты с поддержкой искусственного интеллекта потенциально могут решить эту проблему с повышенной точностью и своевременностью [4].

Объекты и методы исследования

Управление строительством с использованием компьютерного зрения строительной площадки включает в себя различные приложения и методы для повышения эффективности, безопасности и контроля качества. Некоторые из этих приложений включают в себя:

Мониторинг безопасности работников. Компьютерное зрение может обеспечить точный и последовательный мониторинг работников, чтобы убедиться, что они соблюдают правила техники безопасности.
Обнаружение и отслеживание строительной техники. Отслеживая наличие и перемещение оборудования, машинное обучение можно использовать для оптимизации использования оборудования и снижения затрат.
Автоматизированный контроль качества строительных материалов. Компьютерное зрение может использоваться для обнаружения и идентификации несоответствий в материалах, обеспечивая точность расчета потребности в материалах, расхода и запаса.
Мониторинг прогресса. Технология компьютерного зрения позволяет отслеживать ход строительных проектов, помогая начальникам участка выявлять потенциальные проблемы на ранней стадии и оптимизировать процесс строительства.
Информационное моделирование строительных площадок. Камеры высокой четкости, прикрепленные к беспилотным летательным аппаратам, могут создавать цифровые модели с обновлениями в режиме реального времени, обеспечивая руководителям строительных проектов объемный сбор данных проекта без риска физического осмотра.
Обнаружение дефектов. Выявлять отклонения от рабочей документации, технологической карты или плана выполнения работ, управлять изменениями на основе разработанных сценариев информационного моделирования [7].

Эти приложения демонстрируют потенциал компьютерного зрения для революционизирования строительной отрасли за счет автоматизации задач, снижения затрат и повышения точности. В компьютерном зрении обнаружение объектов определяется как локализация объекта на изображении и отнесение области к одной из заранее определенных категорий. Способность обнаруживать объекты в режиме реального времени помогает отслеживать небезопасное поведение работников, такого как работа бригады в непосредственной близости от опасного объекта (например, высоковольтной линии) или движущегося объекта (например, грузовика, экскаватора), что имеет важное значение для предотвращения потенциальных несчастных случаев [8]. Кроме того, чтобы отслеживать перемещения объектов в видеопотоке в реальном времени, необходимо иметь чрезвычайно быстрый алгоритм, который может многократно обрабатывать каждый видеокадр и обнаруживать все интересующие объекты в текущем кадре до поступления следующего кадра. Обогащение изображений тегами метаданных, сгенерированными искусственным интеллектом, обозначающими содержимое (например, типы объектов и их взаимодействия) и внешний вид (например, цвет, контекст) отснятой сцены могут значительно расширить возможности поиска контента и последующего применения цифровых изображений.

Задача нахождения объектов на изображении — задача машинного обучения, в рамках которой выполняется определение наличия или отсутствия объекта определённого домена на изображении, нахождение границ этого объекта в системе координат пикселей исходного изображения. В зависимости от алгоритма обучения, объект может характеризоваться координатами ограничивающей рамки, ключевыми точками, контуром объекта.

Проблемы отрасли на этап строительства:

самая высокая смертность и травмоопасность на производстве (нарушение правил охраны труда), более половины несчастных случаев (55%) произошли из-за плохой организации труда. Так, 34% происшествий связаны с падением с высоты, 23% — с воздействием деталей механизмов и движущихся предметов. К 13% несчастных случаев привели обрушение, обвал предметов или материалов.
увеличение сроков от плановых от 30% (не выполнение операций по технологической карте),
превышение бюджетов (внесистемный контроль расхода материала),
низкий уровень контроля за строительными материалами (слабый контроль работы склада);
ручной контроль выполнения работ специалистами подрядчика, заказчика, авторского надзора, государственного стройнадзора (автоматизированная оценка выполнения работ на конкретный момент времени) и т.д. [9].

Задача — разработать алгоритм решения задачи детекции и сегментации ситуаций на строительной площадке на основе различных исходных данных, таких как: фото рабочих, СИЗ, складов, материалов, рабочей силы, участка фронта работ, защитных ограждений. Что может быть в результате? Поиск аномалий — отклонений от планируемых действий или нарушения правил.

Порядок решения задачи:

Собрать и предварительно обработать данные.
Разделить данные на обучающий набор и тестовый набор.
Выбрать метод обучения, обучите модель на обучающей выборке.
Использовать обученную модель в тестовом наборе.
Оценить производительность модели.

Рис. 1. Методология управления данными с изображений с помощью компьютерного зрения

Результаты исследований

Сбор и обработка данных.

Вне зависимости от объекта исполнители столкнутся с проблемой специфичности данных. На данный момент в открытом доступе сложно найти нужное количество фото для обучения. Требуется значительное количество времени для сбора данных на строительных площадках.

Разметка данных.

Задача подразумевает детекцию различных классов объектов. Например, модель будет определять на снимках различные объекты. Можно это сделать в Label Studio. Принцип разметки прост: выбираем нужный класс и помещаем объект в рамку. Так до тех пор, пока не будут все важные для задачи классы на каждом изображении.

При разметке данных для модели обнаружения объектов нужно:

следить за тем, чтобы было примерно равное количество примеров по каждому классу
следить за тем, чтобы ограничивающая рамка была не слишком далеко от объектов, но и не пролегала через них, нужно размечать прямо по контуру объекта
отметить не менее 50 изображений объекта класса, чтобы обучить модель
ограничить количество объектов, которые хотим обнаружить, чтобы повысить точность модели для обнаружения этих объектов.

Рис. 2. Детекция объектов на строительной площадке [10]

Выбор метода обучения, обучение модели на обучающей выборке. Задача нахождения объектов на изображении может быть поставлена различным образом и включает в себя класс других задач, помогающих определить, какие объекты находятся на изображении и где они расположены в сетке пикселей исходного изображения. Задача семантической сегментации - задача, в которой на вход модели подаётся изображение, а на выходе для каждого пикселя является метка принадлежности этого пикселя к определённой категории. Например, если в исходном изображении человек находится на участке фронта работ, то для каждого пикселя необходимо вывести, является ли этот пиксель частью человеческого тела, профиля временного дорожного покрытия, временного освещения, неба, или какого-то другого типа. Существенный недостаток применения одной лишь семантической сегментации относительно задач, связанных с распознаванием объектов — маркировка пикселей по принадлежности только к типу объекта, что не создаёт различия между объектами как таковыми. Например, если назвать "объектом" связную область пикселей, характеризующих одинаковый тип, то два объекта, перегораживающих друг друга на исходном изображении, будут определены как один объект, что в корне неверно. Задача семантической сегментации изображения с дифференцированием объектов называется задачей сегментации экземпляров. Модели, решающие задачу сегментации экземпляров, применяются, в том числе, для подсчёта людей в массовых скоплениях, для автомобилей с автоматическим управлением [11].

Задача классификации с локализацией — задача, в которой в дополнение к предсказанию метки категории класса определяется рамка, ограничивающая местоположение экземпляра одиночного объекта на картинке. Как правило, рамка имеет прямоугольную форму, её стороны ориентированы параллельно осям исходного изображения, а площадь является минимальной при условии полного нахождения экземпляра объекта внутри этой рамки. Такую прямоугольную рамку называют термином "ограничивающая рамка". Ограничивающую рамку можно задать как при помощи центра, ширины и высоты, так и при помощи четырёх сторон. Модель в данном случается одновременно обучается как верной классификации, так и максимально точному определению границ рамки. Задача детекции объектов — задача, в рамках которой необходимо выделить несколько объектов на изображении посредством нахождения координат их ограничивающих рамок и классификации этих ограничивающих рамок из множества заранее известных классов. В отличие от классификации с локализацией, число объектов, которые находятся на изображении, заведомо неизвестно.

Метрики

В задачах классификации с локализацией и детекции объектов для определения достоверности местоположения ограничивающей рамки в качестве метрики чаще всего используется отношение площадей ограничивающих рамок (IoU). В задачах детекции объектов в качестве метрики зачастую используется средняя точность (англ. mean average precision), усреднённая по всем категориям величина средней точности (англ. average precision, AP).

Рис. 3. Примеры влияния взаимного положения ограничивающих рамок на метрику IoU

Выбор методов

Двухэтапные методы (англ. two-stage methods) как методы, основанные на регионах (англ. region-based methods) представляют собой два последовательных процесса. Первый процесс – это селективный поиск по выделенным регионам, в которых с высокой вероятностью содержатся искомые объекты. Второй процесс – это проверка выбранных регионов классификатором для определения принадлежности исходным классам и регрессором, уточняющим местоположение ограничивающих рамок. Такой алгоритм (R-CNN, Region-based Convolutional Network) основан на сверточных нейронных сетях. Данный алгоритм обеспечивает поиск объектов независимо от размера объекта, расстояния до камеры, угла зрения.

Другой алгоритм - YOLO (You Look Only Once) предполагает детекцию объектов в режиме реального времени. Здесь исходное изображение сначала разбивается на сетку из N×N ячеек. Если центр объекта попадает внутрь координат ячейки, то эта ячейка считается ответственной за определение параметров местонахождения объекта. Каждая ячейка описывает несколько вариантов местоположения ограничивающих рамок для одного и того же объекта по координатами центра ограничивающей рамки, его шириной и высотой, а также степени уверенности в том, что ограничивающая рамка содержит в себе объект. Также необходимо для каждой пары класса объектов и ячейки определить вероятность того, что ячейка содержит в себе объект этого класса.

Далее необходимо использовать обученную модель в тестовом наборе и оценить производительность модели.

Рис. 4. Результат работы Yolov5s основан на обучении, epoch = 50

Классификация	P	R	mAP0.5
общий	0.884	0.899	0.888
человеческое тело	0.846	0.893	0.877
голова	0.889	0.883	0.871
шлем	0.917	0.921	0.917

Метод компьютерного зрения, основанный на архитектуре нейронной сети YOLO показывает точность на 3х разных метриках на 4 классах выше 85 %.

Выводы

Выявление аномалий – инструмент контроля на строительной площадке. На основе систем компьютерного зрения можно внедрять интегрированные системы управления безопасностью для предотвращения несчастных случаев на строительных площадках путем создания моделей распознавания изображений с использованием синтетических данных, основанных на трансферном обучении. Показанная модель распознавания объектов для обнаружения рабочих и объектов может помочь заблаговременно распознавать опасные ситуации, такие как падение работника, работающего на высоте. Модель, которая обнаруживает падения рабочих (падение с конструкции или вниз), может быть использована для реагирования на несчастный случай на рабочем месте в кратчайшие возможные сроки после его возникновения. Модель распознавания объектов, позволяющая определить, правильно ли рабочие-строители носят средства индивидуальной защиты, определяет, соблюдают ли работники правила ношения защитных касок. В качестве направления будущих исследований планируется оптимизации каждой модели, максимизации производительности на основе реальной строительной площадки, увеличение количества исходных данных и классов объектов для распознавания.

References

1. Artificial intelligence systems. Ways to ensure trust. General provisions. Date of application 11/26/2023 https://docs.cntd.ru/document/1200177291

2. R. Duan et al. SODA: Site Object Detection dAtaset for Deep Learning in Construction 2022.

3. Nath ND and Behzadan AH (2020) Deep Convolutional Networks for Construction Object Detection Under Different Visual Conditions. Front. Built Environ. 6:97. doi:https://doi.org/10.3389/fbuil.2020.00097

4. Kuzina, O. Information technology application in the construction project life cycle / O. Kuzina // IOP Conference Series: Materials Science and Engineering : 23, Construction - The Formation of Living Environment, 55 Giai Phong Road, Hanoi, 23-26.09.2020. - 55 Giai Phong Road, Hanoi, 2020. - P. 062044. - DOIhttps://doi.org/10.1088/1757-899X/869/6/062044. - EDN ABLKCK.

5. Minsoo Park, Dai Quoc Tran, Jinyeong Bak, Seunghee Park, Small and overlapping worker detection at construction sites, Automation in Construction, Volume 151, 2023, 104856, ISSN 0926-5805, https://doi.org/10.1016/j.autcon.2023.104856.

6. An Xuehui, Zhou Li, Liu Zuguang, Wang Chengzhi, Li Pengfei, Li Zhiwei, Dataset and benchmark for detecting moving objects in construction sites, Automation in Construction, Volume 122, 2021, 103482, ISSN 0926-5805, https://doi.org/10.1016/j.autcon.2020.103482.

7. Kuzina, O. N. Data-centric BIM-scenario of executive modeling and acceptance of work on a capital construction facility / O. N. Kuzina // Scientific and technical Bulletin of the Volga region. - 2022. - № 1. - P. 35-41. EDN: https://elibrary.ru/TJNBRO

8. Siyeon Kim, Seok Hwan Hong, Hyodong Kim, Meesung Lee, Sungjoo Hwang, Small object detection (SOD) system for comprehensive construction site safety monitoring, Automation in Construction, Volume 156, 2023, 105103, ISSN 0926-5805, https://doi.org/10.1016/j.autcon.2023.105103.

9. Kuzina, O. N. Model of labor productivity management in construction using artificial intelligence methods / O. N. Kuzina // Scientific and technical bulletin of the Volga region. - 2023. - № 3. - P. 68-73. - EDN CGISZV.

10. Nath Nipun D., Behzadan Amir H. Deep Convolutional Networks for Construction Object Detection Under Different Visual Conditions. Frontiers in Built Environment. 6, 2020, DOIhttps://doi.org/10.3389/fbuil.2020.00097

This work is licensed under Creative Commons Attribution 4.0 International