ОЦЕНКА 3D-ПОЗЫ ЧЕЛОВЕКА НА ОСНОВЕ 2D КЛЮЧЕВЫХ ТОЧЕК
##plugins.themes.bootstrap3.article.sidebar##
##plugins.themes.bootstrap3.article.main##
Аннотация
Предложена инновационная мало выборочная легковесная архитектура для решения задачи оценки 3D-позы человека на основе 2D ключевых точек. В рамках данного подхода введены специализированные обучаемые позиционные кодировки, предназначенные для задач трехмерной оценки позы, которые используются совместно с традиционными позиционными кодировками для представления входных данных. Архитектура метода включает многоуровневую обработку признаков и их адаптивное объединение с использованием механизма пространственного внимания, что позволяет усиливать релевантные признаки. Эксперименты, проведенные на стандартных тестовых наборах данных, подтвердили эффективность предложенного метода: достигнуто значение средней ошибки положения суставов (MPJPE) 42,1, что превосходит результаты существующих подходов.
##plugins.themes.bootstrap3.article.details##

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
О. В. НЕДЗЬВЕДЬ, Белорусский государственный университет, Минск
канд. техн. наук, доц.
Библиографические ссылки
Pavllo, D., Feichtenhofer, C., Grangier, D., & Auli, M. (2019). 3D human pose estimation in video with temporal convolutions and semi-supervised training. CVPR. DOI: 10.48550/arXiv.1811.11742.
Zhang, T., Huang, B., & Wang, Y. (2020). Object-occluded human shape and pose estimation from a single-color image. CVPR. DOI: 10.1109/CVPR42600.2020.00740.
Zhao, L., Peng, X., Tian, Y., Kapadia, M., & Metaxas, D. N. (2019). Semantic Graph Convolutional Networks for 3D Human Pose Regression. CVPR. DOI: 10.48550/arXiv.1904.03345.
Pavlakos, G., Zhou, X., & Daniilidis, K. (2018). Ordinal depth supervision for 3D human pose estimation. CVPR. DOI: 10.48550/arXiv.1805.04095.
Artzi, Y., & Zettlemoyer, L. (2013). Weakly supervised learning of semantic parsers for mapping instructions to actions. Trans. Assoc. Comput. Linguist., (1), 49–62. DOI: 10.1162/tacl_a_00209.
Lassner, C., Romero, J., Kiefel, M., Bogo, F., Black, M. J., & Gehler, P. V. (2017). Unite the people: Closing the loop between 3D and 2D human representations. CVPR. DOI: 10.48550/arXiv.1701.02468.
Li, K., Jiao, N., Liu, Y., Wang, Y., & Yang, J. (2018). Shape and pose estimation for closely interacting persons using multi-view images. Computer Graphics Forum, 37(7), 361–371. DOI: 10.1111/cgf.13574.
Bojarski, M., Del Testa, D., Dworakowski, D., Firner, B., Flepp, B., Goyal, P., … Zieba, K. (2016). End-to-end learning for self-driving cars. CVPR. DOI: 10.48550/arXiv.1604.07316.
Ye, L., Rochan, M., Liu, Z., & Wang, Y. (2019). Cross-modal self-attention network for referring image segmentation. CVPR. DOI: 10.48550/arXiv.1904.04745.
Yeh, R. A., Hu, Y.-T., & Schwing, A. G. (2019). Chirality nets for human pose regression. CVPR. DOI: 10.48550/arXiv.1911.00029.
Zeng, A., Sun, X., Huang, F., Liu, M., Xu, Q., & Lin, S. (2020). SRNet: Improving generalization in 3D human pose estimation with a split-and-recombine approach. ECCV. DOI: 10.48550/arXiv.2007.09389.
Liang, J., & Lin, M. C. (2019). Shape-aware human pose and shape reconstruction using multi-view images. ICCV. DOI: 10.48550/arXiv.1908.09464.