РОЗРОБКА МЕТОДУ НА ОСНОВІ РОЗПІЗНАВАННЯ ОБ’ЄКТІВ ДЛЯ ВИЗНАЧЕННЯ ПОЛОЖЕННЯ ЛЮДИНИ В ОБМЕЖЕНОМУ ПРОСТОРІ У РЕАЛЬНОМУ ЧАСІ
DOI:
https://doi.org/10.32782/IT/2024-3-2Ключові слова:
локалізація людини в приміщенні, розпізнавання людини, трансформація перспективи, глибоке навчання, згорткова нейронна мережа, YOLO, NVIDIA Jetson NanoАнотація
Розпізнавання людини в режимі реального часу дає можливість вирішувати таку складну проблему як визначення положення людини в обмеженому просторі. Розв’язання даної задачі полягає в реалізації ефективного методу локалізації людини в замкнутому просторі (наприклад, всередині кімнати), оскільки системи позиціонування у відкритому просторі, такі як GPS, не забезпечують високої точності у приміщенні. Існуючі комп’ютерні системи, які вирішують дану проблему, потребують спеціалізованої інфраструктури: пристроїв, прикріплених до тіла людини, датчиків тощо. Такий підхід недешевий і не дає універсального рішення. Пристрій, який наявний практично в кожній будівлі – це камера. Переважна більшість існуючих комп’ютерних систем, які аналізують відеопотік, використовують камери глибини Kinect, які є застарілими та потребують додаткового встановлення. Існує обмежена кількість рішень, які аналізують відеопотік з RGB камери у поєднанні з методами комп’ютерного зору для локалізації людини. Отже, дослідження та розробка ефективнішого методу вирішення вищезазначеної проблеми з використанням комп’ютерного зору є актуальним. Метою роботи є розробка ефективного за швидкістю та точністю методу локалізації людини в приміщенні, який би використовував відеопотік камери в поєднанні з методом комп’ютерного зору – розпізнавання об’єктів. Метод повинен працювати на мікрокомп’ютері NVIDIA Jetson Nano (який є відносно дешевим і популярним рішенням від NVIDIA) в режимі реального часу. Методологія вирішення проблеми полягає у використанні глибокої нейронної мережі для розпізнавання людини в режимі реального часу разом з алгоритмом перспективного перетворення для подальшої оцінки положення людини. Положення людини – це центральна точка нижньої сторони обмежувальної рамки, трансформована з перспективи камери таким чином, ніби камера розташована прямо над підлогою. Модель нейронної мережі YOLOv4-tiny була навчена на наборах даних COCO та Open Images за допомогою фреймворку глибокого навчання Darknet. Наукова новизна полягає в тому, що було розроблено метод локалізації людини в приміщенні, який базується на поєднанні методу виявлення людини за допомогою глибокої згорткової нейронної мережі та алгоритму перспективного перетворення для подальшого визначення положення в обмеженому просторі. Запропонований метод є більш універсальним за відомі методи, які використовують камери глибини Kinect. Запропонований метод може працювати на мікрокомп’ютері та визначати положення декількох людей за один прохід із середньою похибкою 23 см та швидкістю 16 FPS, що є кращим за відомі альтернативні підходи. Висновки. Досліджена проблема визначення положення людини в обмеженому просторі у реальному часі та засоби її вирішення на основі розпізнавання об’єктів з використанням глибокої згорткової нейронної мережі. Проведено навчання нейронної мережі на основі моделі YOLOv4-tiny з використанням датасетів COCO та Open Images, яке показало точність 55.1% та 71.4% відповідно. Розроблено метод, який використовує навчену нейронну мережу для визначення обмежувальної рамки навколо людини у кадрі, а після – визначає її положення з використанням алгоритму перспективного перетворення: метод працює на мікрокомп’ютері NVIDIA Jetson Nano із середньою похибкою 23 см та швидкістю 16 FPS, оброблюючи відеопотік з RGB камери.
Посилання
Mautz R. Indoor Positioning Technologies. Zurich:Institute of Geodesy and Photogrammetry, 2012.
Kerdjidj O., Himeur Y., Sohail S. S., Amira A., Fadli F., Atalla S., Mansoor W., Copiaco A., Gawanmeh A., Miniaoui S., Dawoud D. W. Uncovering the Potential of Indoor Localization: Role of Deep and Transfer Learning. IEEE Access. 2024. Вип. 12. С. 73980–74010.
Cosma A., Radoi I. E., Radu V. CamLoc: Pedestrian Location Detection from Pose Estimation on Resource-constrained Smart-cameras. 2018.
Wang H., Wang G., Li X. An RGB-D camera-based indoor occupancy positioning system for complex and densely populated scenarios. Indoor and Built Environment. 2023. Вип. 32, № 6. С. 1198–1212.
Carro-Lagoa Á., Barral V., González-López M., Escudero C. J., Castedo L. Multicamera edge-computing system for persons indoor location and tracking. Internet of Things. 2023. Вип. 24.
Girshick R., Donahue J., Darrell T., Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. 2014.
Girshick R. Fast R-CNN. 2015.
Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. 2016.
Redmon J., Divvala S., Girshick R., Farhadi A. You Only Look Once: Unified, Real-Time Object Detection. 2016.
Bochkovskiy A., Wang C.-Y., Liao H.-Y. M. YOLOv4: Optimal Speed and Accuracy of Object Detection. 2020.
Howard A., Sandler M., Chu G., Chen L.-C., Chen B., Tan M., Wang W., Zhu Y., Pang R., Vasudevan V., Le Q. V., Hartwig A. Searching for MobileNetV3. 2019.
Iandola F. N., Han S., Moskewicz M. W., Ashraf K., Dally W. J., Keutzer K. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size. 2016.
Yolo v4, v3 and v2 for Windows and Linux. URL: https://github.com/AlexeyAB/darknet (дата звернення: 23.08.2024).
Lin T.-Y., Maire M., Belongie S., Bourdev L., Girshick R., Hays J., Perona P., Ramanan D., Zitnick C. L., Dollár P. Microsoft COCO: Common Objects in Context. 2015.
Kuznetsova A., Rom H., Alldrin N., Uijlings J., Krasin I., Pont-Tuset J., Kamali S., Popov S., Malloci M., Kolesnikov A., Duerig T., Ferrari V. The Open Images Dataset V4: Unified image classification, object detection, and visual relationship detection at scale. 2020.
OpenCV Perspective Transformation. URL: https://medium.com/analytics-vidhya/opencv-perspectivetransformation-9edffefb2143 (дата звернення: 23.08.2024).