АДАПТИВНА ПІСЛЯ НАВЧАННЯ МЕРЕЖА U-NET ДЛЯ ЗАДАЧІ СЕГМЕНТАЦІЇ ЗОБРАЖЕНЬ

Автор(и)

DOI:

https://doi.org/10.32782/IT/2022-2-8

Ключові слова:

адаптивні згорткові нейронні мережі, сегментація зображень, час виконання, мобільні обчислення, крайові обчислення, комп’ютерний зір

Анотація

Багато застосунків потребують швидку та точну сегментації зображень, де згорткові нейронні мережі показують найкращу точність вирішення задачі. Застосування включають медичні або супутникові зображення, автономне водіння тощо. Зазвичай необхідно, щоб архітектури нейронних мереж, які використовуються для сегментації зображень, були повністю налаштовані до початку процедури навчання. Для зміни архітектури мережі необхідні додаткові ітерації навчання. Це є обмеженням, оскільки мережа може працювати не лише на потужному сервері, а й на мобільному чи крайовому пристрої. Адаптивні нейронні мережі пропонують вирішення проблеми, дозволяючи певну адаптацію після завершення процесу навчання. У цій роботі вперше застосовано підхід Post-Train Adaptive (PTA) до задачі сегментації зображень. Представлено нейромережу U-Net+PTA, яку можна один раз навчити, а потім адаптувати до пристроїв із різною обчислювальною швидкістю. Двома ключовими компонентами підходу є блоки PTA та стратегія навчання із випадковою вибіркою PTA конфігурацій. Блоки PTA було додано в нейромережу U-Net з мережею кодувальником MobileNetV2. Отриману мережу можна конфігурувати після навчання на будь-якому пристрої, включаючи мобільні. Також підхід PTA дозволив покращити якість сегментації зображення в наборі даних CamVid відповідно до метрики Dice. Навчену модель можна перемикати між 6 конфігураціями PTA навіть під час виконання. Ці конфігурації відрізняються часом роботи та якістю. Важливо, що всі конфігурації мають кращу якість, ніж оригінальна модель U-Net (без PTA). Можливим напрямок подальших досліджень є збільшення різниці в часі виконання між важкою та легкою конфігураціями PTA блоків, щоб дозволити одній навченій мережі на основі PTA націлюватися на ще більшу кількість пристроїв із різною обчислювальною потужністю.

Посилання

Brostow, G. J., Fauqueur, J., & Cipolla, R. (2009). Semantic object classes in video: A high-definition ground truth database. Pattern Recognition Letters, 30(2), 88–97. https://doi.org/10.1016/j.patrec.2008.04.005

Figurnov, M., Collins, M. D., Zhu, Y., Zhang, L., Huang, J., Vetrov, D. P., & Salakhutdinov, R. (2017). Spatially adaptive computation time for residual networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, USA, July 21–26, 2017, 1790–1799. https://doi.org/10.1109/CVPR.2017.194

Graves, A. (2016). Adaptive computation time for recurrent neural networks. CoRR, abs/1603.08983. http://arxiv.org/abs/1603.08983

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, June 27–30, 2016, 770–778. https://doi.org/10.1109/CVPR.2016.90

Hnatushenko, V. V., Zhernovyi, V., Udovyk, I., & Shevtsova, O. (2021). Intelligent system for building separation on a semantically segmented map. Proceedings of the 2nd International Workshop on Intelligent Information Technologies & Systems of Information Security with CEUR-WS, Khmelnytskyi, Ukraine, March 24-26, 2021, 2853, 1–11. http://ceur-ws.org/Vol-2853/keynote1.pdf

Howard, A., Pang, R., Adam, H., Le, Q. V., Sandler, M., Chen, B., Wang, W., Chen, L.-C., Tan, M., Chu, G., Vasudevan, V., & Zhu, Y. (2019). Searching for MobileNetV3. 2019 IEEE/CVF International Conference on Computer Vision, ICCV 2019, Seoul, Korea (South), October 27 - November 2, 2019, 1314–1324. https://doi.org/10.1109/ICCV.2019.00140

Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-excitation networks. 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, June 18-22, 2018, 7132–7141. https://doi.org/10.1109/CVPR.2018.00745

Khabarlak, K. (2022a). Face detection on mobile: Five implementations and analysis. CoRR, abs/2205.05572. https://doi.org/10.48550/arXiv.2205.05572

Khabarlak, K. (2022b). Post-train adaptive MobileNet for fast anti-spoofing. CEUR Workshop Proceedings, 3156, 44–53. http://ceur-ws.org/Vol-3156/keynote5.pdf

Khabarlak, K. (2022c). Faster optimization-based meta-learning adaptation phase. Radio Electronics, Computer Science, Control, 1, 82–92. https://doi.org/10.15588/1607-3274-2022-1-10

Khabarlak, K., & Koriashkina, L. (2022). Fast facial landmark detection and applications: A survey. Journal of Computer Science and Technology, 22(1), 12–41. https://doi.org/10.24215/16666038.22.e02

Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. In Y. Bengio & Y. LeCun (Eds.), 3rd international conference on learning representations, ICLR 2015, san diego, CA, USA, may 7–9, 2015, conference track proceedings. http://arxiv.org/abs/1412.6980

Lin, T.-Y., Dollár, P., Girshick, R. B., He, K., Hariharan, B., & Belongie, S. J. (2017). Feature pyramid networks for object detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, USA, July 21–26, 2017, 936–944. https://doi.org/10.1109/CVPR.2017.106

Milletari, F., Navab, N., & Ahmadi, S.-A. (2016). V-Net: Fully convolutional neural networks for volumetric medical image segmentation. Fourth International Conference on 3D Vision, 3DV 2016, Stanford, CA, USA, October 25-28, 2016, 565–571. https://doi.org/10.1109/3DV.2016.79

Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Convolutional networks for biomedical image segmentation. Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015 – 18th International Conference Munich, Germany, October 5–9, 2015, Proceedings, Part III, 9351, 234–241. https://doi.org/10.1007/978-3-319-24574-4_28

Sandler, M., Howard, A. G., Zhu, M., Zhmoginov, A., & Chen, L.-C. (2018). MobileNetV2: Inverted residuals and linear bottlenecks. 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, June 18–22, 2018, 4510–4520. https://doi.org/10.1109/CVPR.2018.00474

Sun, K., Xiao, B., Liu, D., & Wang, J. (2019). Deep high-resolution representation learning for human pose estimation. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019, Long Beach, CA, USA, June 16–20, 2019, 5693–5703. https://doi.org/10.1109/CVPR.2019.00584

##submission.downloads##

Опубліковано

2022-12-29