北京时间今天上午,在世界杯E组西班牙队与日本队的一场关键比赛中,上半场0-1落后的日本队在下半场6分钟内连进2球逆转对手。游戏。其中,日本队的第二粒进球,三咲薰在底线附近扑出球时,球已经非常接近出界,值班边裁也举旗示意该球无效。不过,本次杯赛采用了全新的三维摄像技术(多视角成像),在高科技的帮助下,裁判最终确认了进球有效。日本队也凭借这粒金球击败对手取得小组第一,同时将德国队送出小组。
那么,多视点成像的原理是什么呢?为什么这项技术会成为裁判判罚的重要助手?请阅读鹏程实验室助理研究员焦树明博士带来的最新解读。
光科学论坛出品
作者|焦树明(鹏程实验室)
审稿人|左超(南京理工大学)
日本队急转弯,将足球从底线追回
日本队第二个进球时,球在底线的最小镜头距离达到了1.88毫米。根据足球规则,球是否出界是根据球正上方的垂直投影是否完全越过界线来判断,而不是根据球的实体是否压线来判断。因此,球并没有出界。
3D摄像技术分析结果
另一方面,进球的定义要求整个球越过球门线。如果碰巧撞到了球门线,那就只能失败了。有些情况下,进球与否确实很难判断,诞生了一个又一个“魔鬼进球”悬而未决的案例。
世界杯历史上最悬而未决的进球无疑是英格兰前锋赫斯特在1966年世界杯决赛中打进的进球。从比赛视频来看,球正好击中球门线附近,但到底进还是没进呢?尽管裁判判定进球有效,并且英格兰队最终在比赛中以4:2击败联邦德国,夺得当年的世界杯奖杯,但几十年来争议一直没有停止。
视频1:1966年世界杯决赛中的未解进球[1]
大多数时候,足球是在三维空间中运动的,摄像机或摄像机捕捉到的画面只是三维世界在一定视角下的二维平面投影。这种“盲人摸象”往往给足球位置的准确判断带来麻烦。这将是非常困难的。在下面的视频中,您可以看到一个奇怪的装置,它似乎违反了物理重力定律。相当于苹果没有从树上落到牛顿的头上,而是从他的头上飘回树上,但只要旋转一下视角,就会发现一切正常,有该设备“没有问题”。
视频2:一种“违反物理定律”的奇怪装置[2]
一方面,这表明从单一角度观看三维物体必然会产生错觉。另一方面,它也启示我们,更好地感知三维世界的有效方法是从多个不同的角度进行观察。
本届世界杯,每场比赛都有进球判定系统(也称为球门线技术)[3]:体育场内安装了14个不同角度的高速高清摄像机。将他们各自的图片组合起来,可以更准确地确定足球的三维位置,并尽可能避免1966年世界杯的争议。 2018年俄罗斯世界杯和2014年巴西世界杯也使用了类似的系统。
而且即使没有14个摄像头,即使只有两个不同视角的图像,相比单个视角也会获得更多的三维信息。 1996年,也就是1966年世界杯30年后,牛津大学的两位计算机视觉研究人员Ian Reid和Andrew Zisserman试图再次从科学角度分析这个未解决的进球[4,5]。
他们收集了两段比赛过程中从不同角度拍摄的视频。从单一视频中,他们发现很难判断足球的精确位置。他们只能确定足球在一条线上,但却不确定它在线上的哪个位置。很多可能性。他们提取了两个视频的共同图像特征,包括场边线、罚球区线和球门框线等,然后根据图像特征将两个视频匹配在一起,得到了“可能线”的唯一交点。在各自的视频中。作为估计的足球位置。
图1:牛津大学计算机视觉研究人员对1966年世界杯进球之谜的重新分析[5]
最终的结论是,球距离进球至少还有6厘米。也就是说,他们认为当时球没有进,裁判失误了。两人正式确定了这项研究工作,并撰写了一篇题为“目标导向视频计量”的论文,该论文发表在 1996 年欧洲计算机视觉会议 (ECCV 1996) 上。 、ECCV与ICCV、CVPR并称为世界计算机视觉研究领域三大顶级学术会议之一。
多视点拍摄是3D相机的典型实现方式。许多手机的背面安装有多个摄像头。每个摄像头都可以从不同的角度获取3D场景信息。对于人类来说,他们生来就有左右眼,而不是一只眼睛,以便更好地感知三维世界。虽然左右眼的距离比较近,但在观看同一物体时,左眼透视图像和右眼透视图像仍然会略有不同,这有助于我们定位物体的大小。
在《亮剑》中,李云龙将军向我们展示了他的绝招:他可以立即看到敌人阵地上的士兵距离他有500米。
他伸直手臂,抬起一根手指,分别只睁开左眼和右眼,看向对方的目标。他会指出两个不同的观点。如果目标距离自己较近,则两点之间的距离会较小,反之则较大,由此可以估算出目标与自己之间的距离。
除了多视点成像之外,常见的3D相机技术还有两种,即结构光和飞行时间(timeofflight,tof)。使用结构光技术时,我们分别需要投影仪和相机。投影仪将均匀分布的平行条纹图案投射到物体表面,然后相机将从另一个角度观察并捕捉条纹。如果物体表面是平坦的,相机看到的条纹仍将是均匀且平行的规则形状。但如果物体表面是三维的、凹凸不平的,条纹就会变得扭曲,而且对于不同的形状,扭曲和变形的方法也会不同。相同的。从曲线中,我们可以推断出三维物体的形状。
图2:结构光三维相机技术[6,7]
在飞行时间(TOF)技术中,如果你想测量目标物体上某个点到你的距离,你向该点发射一束光,然后光束击中该物体点,而你“撞南墙”就得回头。 ,然后使用探测器接收反射光信号并查看时间间隔。光速是恒定的,到那一点的距离自然可以从这个“回程”的长度计算出来。当然,三维场景中会有很多不同的物体,每个物体上会有很多点。为了完成测量,需要逐点扫描,让光束“往返运行”多次(当然也不怕累)。
图3:飞行时间(TOF)3D相机技术(本文作者制作)
目前,一些新型手机和平板电脑还包含了结构光或时间飞行的三维成像功能,这在很多情况下可以起到很大的帮助。
2021年,清华大学RealAI团队在20部手机上进行了人脸识别系统破解实验[8],并根据真实用户照片制作了一个眼睛和鼻子的面具,虽然这个面具只是粗制滥造地打印在一张A4纸上。方式。从纸面上看,测试人员仍然可以假装成真实用户,并成功解锁 20 部手机中的 19 部。这与人脸识别的人工智能系统的缺点有关,但也利用了很多手机只具备二维平面摄像功能的限制。如果手机通过结构光或者时间飞行获得人脸的三维模型,就会很容易发现口罩部分是平的。正常人的眼睛和鼻子都不会长成这个形状,这自然导致冒充者无法通过认证。
图4:RealAI团队针对手机人脸识别的解锁实验[8]
日常电子产品上的三维人脸成像功能一般采用非可见光波段,在不知不觉中完成测量。使用方便快捷,技术测量精度也在不断提高。当然,各种新的担忧也随之出现[9]。例如,如果一个人长着一张“鬼脸”或者做鬼脸,他的表情就会发生巨大的变化,脸型也会变得明显不同。 3D识别会出现错误吗?当从纸质口罩“升级”到利用3D打印打造“有鼻子有眼睛”的逼真假脸模型时,伪装者如何应对?人脸识别面临泄露个人隐私的风险。与二维人脸识别相比,三维人脸识别会让隐私更加消失吗?
多角度拍摄、结构光和时间飞行是目前3D相机的几个常见“套路”,研究人员也在寻找新的方法来开发感知3D世界的新方式。
我们可以在相机镜头上做文章。普通相机镜头也称为镜头。形状对称规整,表面光滑。不过,研究人员巧妙地优化了设计,使镜片各部分的厚度不均匀。如果放大看,这些凹凸不平、奇形怪状的形状被称为“相位编码孔径”。通过此类镜头拍摄的照片会存在轻微瑕疵,例如某些地方轻微模糊或色彩失真,但这不会对整体图像质量产生太大影响,人眼不易察觉。但这些微小的瑕疵中却隐藏着玄机,蕴藏着“巨大的信息量”,因为不同距离的物体通过此类镜头获得的图像瑕疵是不同的,而人工智能算法可以直接从中提取图像如此不完美的照片。直接提取照片对应的远近深度信息[10,11]。
图5:三维相机不同方形区域具有不同厚度的特殊镜头[11]
我们还可以对蜘蛛做文章。自然界中有一种跳蛛,称为跳蛛(Salticidae)。他们每次都可以准确地跳到他们想去的地方。科学家们想知道为什么它具有如此强大的三维能力。立体定向能力?后来人们发现,这种蜘蛛的眼睛有四层视网膜[12],而人眼只有一层视网膜。
视网膜相当于老式相机中的胶片或数码相机中的传感器。它是人眼获取图像的载体。单层视网膜决定了人眼获得的图像只能是平面的。多层视网膜并不简单。由于不同层视网膜之间存在距离,所以不同距离物体的投影有的会汇聚在第一层视网膜上,有的会穿过透明的第一层视网膜而汇聚。在视网膜的第二层上,还有第三层、第四层……也许在视网膜的某一层上,聚焦的那层呈现出清晰的图像,而视网膜的其他层则呈现出不同程度模糊的图像。物体的不同模糊程度的图像在视网膜多层上的分布显示了它的距离,因此三维视网膜系统也可以给我们三维感知。
密歇根大学的研究人员模仿了这种蜘蛛的眼睛,用一种非常薄的新型石墨烯材料处理相当于四层视网膜的四层传感器,构造了一种新型三维“打蜘蛛”相机[13、 14]。
图6:不同距离的物体会在多层视网膜上投射出不同程度锐焦和模糊的图像[13]
我们平时生活在三维世界中,每天都能体验到“远近不同高度”。平面二维图像记录设备永远无法满足我们记录现实世界的愿望和我们对各种真实三维成像技术的追求。也将永无止境。
焦树明,鹏城实验室助理研究员,香港城市大学电子工程博士。从事全息三维显示算法、单像素成像、光学计算、图像处理、信息安全、机器学习等方面的研究。曾获得香港特别行政区政府和广东省博士研究生奖学金计划“珠江人才计划”海外青年引进计划(博士后资助项目)。以第一或通讯作者在Optics Letters、Optics Express、IEEE Transactions on Industrial Informatics、Engineering等期刊发表论文20余篇,荣获2020年显示技术国际会议(ICDT 2020)优秀论文奖。
曾任《Applied Optics》、《Liquid Crystal and Display》杂志青年编委,中国光学学会全息与光信息处理专业委员会委员,中国光学学会3D成像与显示专业委员会委员中国图像图形学会、中国图像图形学会3D视觉专业委员会。委员。现任中国科普作家协会会员、光科普论坛科学家顾问团成员。曾在国科网、科学大院、南方都市报、读者原创版等网络及平面媒体撰写科普文章,2013年出版《十万》第六版。 《为什么》书数学卷和电子信息卷。
[1]
[2] 年度最佳错觉大赛
[3] 国际足联官网
[4] I. Reid 和 A. Zisserman,“目标导向视频计量”,1996 年欧洲计算机视觉会议 (ECCV) (1996)
[5]~ian/wc66.html
[6] 左超、张小雷、胡岩、尹伟、沈德同、钟金鑫、郑静、陈茜,“3D真的来了吗?——三维结构光传感器讲座”,红外与激光工程, 49(3),45(2020)。
[7] 图片由湖南大学黄伟博士提供
[8]
[9] 罗昌伟,于军,于凌云,李亚丽,王胜金,“3D人脸识别研究进展综述”,清华大学学报:自然科学版,61(1), 12(2021)。
[10] H. Haim、S. Elmalem、R. Giryes、AM Bronstein 和 E. Marom,“使用深度学习相位编码掩模对单个图像进行深度估计”,IEEE 计算成像汇刊 4(3), 298- 310(2018)。
[11] Y. Wu、V. Boominathan、H. Chen、A. Sankaranarayanan 和 A. Veeraraghavan,“PhaseCam3D — 用于被动单视图深度估计的学习相位掩模”,2019 年 IEEE 国际计算摄影会议 (ICCP),1- 12(2019)。
[12] Q.Guo、Z.Shi、YWHuang、E.Alexander、CWQiu、F.Capasso 和 T.Zickler,“受跳蛛眼睛启发的紧凑型单次超透镜深度传感器”,PNAS 116(46) ),22959-22965(2019)。
[13] M.-B。连恩,C.-H。 Liu, IY Chun, S. Ravishankar, H. Nien, M. Zhou, JA Fessler, Z.zhong 和 TB Norris, “利用透明光电探测器进行测距和光场成像”,Nature Photonics 14, 143–148 (2020)
[14] K. Shehzad 和 Y. Xu,“石墨烯光场相机”,《自然光子学》14,134–136(2020)
制作编辑|利万
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:http://lokesharyan.com/html/tiyuwenda/7125.html