日前,在美国长滩举行的计算机视觉顶级会议CVPR 2019上,首日举办的Workshop on Long-Term Visual Localization under Changing Conditions公布了本年度Long-Term Visual Localization Challenge(大时间跨度视觉定位竞赛)的排名情况,由实验室机器人视觉课题组申抒含副研究员所带领的团队(团队成员包括研究生时天欣、高翔、朱灵杰、田雨润)获得本次视觉定位竞赛冠军。
该比赛由来自瑞士苏黎世联邦理工学院、瑞典查尔姆斯理工大学、英国帝国理工学院等高校的多位三维计算机视觉领域知名学者联合举办,旨在提高不同场景下的大时间跨度视觉定位能力。本次竞赛吸引了来自苏黎世理工学院、东京工业大学、韩国浦项科技大学、INRIA、Google、微软等高校和企业的多个知名三维视觉团队参与。
视觉定位是指利用单张图片和三维场景信息,精确地估计出拍摄图像的相机三维位置和三维朝向。在许多计算机视觉和机器人的应用场景中,比如自动驾驶、增强/混合现实、三维重建和SLAM等,视觉定位都是其中一项十分重要的基础技术。近年来,针对大规模室内外场景进行视觉定位的主流方法是首先离线构建场景三维地图,之后根据定位图像和三维地图的匹配对应关系在线计算相机位姿。这一流程的核心难点在于,由于光照、天气、季节、场景结构变化等因素影响,构图图像和定位图像可能存在显著差异,给图像匹配和位姿计算带来了巨大挑战。
本次比赛所提供的5个数据集均来自于实际场景,包含近6万张图像用于三维地图构建和8万张图像用于视觉定位。数据集涵盖了室外定位可能遇到的各类天气、季节、光照变化,如雨、雪、雾、春夏秋冬、黄昏、黎明、正午、黑夜等。除此之外,还有城市、郊区、停车场等区域变化。除了室外场景,数据集还涵盖了室内定位可能出现的重复纹理、弱纹理、视角狭窄、动态物体遮挡等常见问题。除了竞赛的定量评估外,本次竞赛还要求参赛队伍提交相关论文,以评估算法的理论创新性和可复现性。
机器人视觉课题组参赛团队凭借其在三维计算机视觉领域多年的研究积累,在本次竞赛中以图像检索和PnP算法为核心,利用图像高层的语义特征不随环境变化而改变的特点,将图像的高层语义信息纳入视觉定位流程中,能够显著克服环境变化所带来的影响,有效提高定位精确度。最终,团队提交的定位结果在5个评测数据集上获得4个第一,1个第二,总分排名第一,夺得冠军。
论文链接:Tianxin Shi, Shuhan Shen, Xiang Gao, Lingjie Zhu. Visual Localization Using Sparse Semantic 3D Map. https://arxiv.org/abs/1904.03803v2
|