2021年12月10日,由广东省游戏产业协会、广东省虚拟现实产业技术创新联盟、深圳市科学技术协会、深圳市互联网文化市场协会指导,陀螺科技主办,深圳市科技开发交流中心、恒悦创客魔方协办,行业头部媒体游戏陀螺、VR陀螺、陀螺电竞、陀螺财经、陀螺传媒联合主办的2021未来商业生态链接大会暨第六届金陀螺奖颁奖典礼(简称“FBEC2021”)在深圳大中华喜来登酒店6楼宴会厅盛大开幕!
在中国力量•2021 5G XR产业峰会现场,欢创科技创始人周琨:以“从双目到四目,XR空间定位技术的发展”为主题发表了演讲。
以下为演讲实录:
今天我演讲的题目是“从双目到四目,XR空间定位技术的发展”,内容由四个部分组成:
首先介绍一下AR/VR视觉空间定位的技术。空间定位主要分为外定位和自定位两个技术流派,外定位叫Outside-in,将传感器和摄像机安装在外部,从外向内来观察活动的物体或者人物。它的特点:安装和使用比较复杂,但是精度比较高,视角有限,容易被遮挡。比较常见的像OptiTrack,应用领域是影视动捕、VR、工业机器人等等。
第二种叫自定位(inside-Out),相机或传感器往往设置在头盔上,从内向外观测视觉,比如vSlam,特点是便携、视角理论无限大、定位精度相对较低,应用领域是移动机器人等。在VR方面应用得比较广泛的就是Oculus第一代产品Oculus Rift,采用外定位技术来做定位,把相机安装在应用环境的外部,通过相继观测使用者头部或者手部所佩戴物体上面的Marker来定位头部和手部的空间位置。
前几年的时候已经逐渐被后面Inside-Out所替代了,替代的主要原因就是成本和安装便捷性的问题。这些年越来越多的公司采用自定位。自定位方案有两种细分的流派:
一种是基于Marker,手部定位就是Marker,特点是定位精度比较高,适用于高速和高精度的定位场景;
另外一种是基于无marker,头部的定位就是无marker的方式,安装比较方便,精度低一些,容易受到环境的影响。从外定位和自定位比较起来看,有很多指标说明它们的区别.
从精度上看,外定位高一些,可以做到毫米级;自定位只能做到厘米级。两者延迟差不多。可移动范围,外定位一定要在环境中布置一圈摄像头,在此基础上才能实现外定位;成本,外定位的安装成本和使用成本比较高,比较麻烦.
自定位非常方便,所以在C端应用上非常受欢迎,这也是为什么Inside-Out越来越流行的原因。外部传感器,外定位需要设置摄像机,自定位不需要;抗遮挡方面,外定位会受到影响,而自定位是不受影响。
说一下公司在inside-Out上的一些积累。公司从2015开始研究AR/VR的定位,开始研究的是外定位,后来切换到了自定位,我们基于双目做的自定位技术,在研究Inside-Out的时候我们面临了几个方面的挑战。
第一,手柄上面光带方案的设计难度很大,别小看Oculus上面小小的光带,有很多LED,LED的数量、布局都有讲究,另外它的大小和尺寸很关键。做技术的人都喜欢光带设计得大一点,大一点容易识别,但是作为消费者场景来讲不太好,安装不方便,用起来也不美观,对于C端产品的销售肯定不利的,因此两者之间需要形成平衡,而且我们作为技术公司,开发的时候还要时时刻刻注意专利的问题。因为AR/VR是一个全球竞争的舞台,Oculus和微软在这个领域布局已经很多年了,因此要注意专利的规避,这是第一个难点。
第二,初始化的问题。因为CV方案最大的痛点和难点就是视场角的问题,Controller会超过视线范围,超出范围回来之后,要对于摄像机进行初始化,初始化做得不好就会延迟初始化或者卡顿,最好在摄像机一帧的时间内完成初始化的工作。这对于初始化的算法有很高的要求,需要快速初始化才能让消费者感觉不到延迟和卡顿,很快自然而然追踪手柄正确的位置。
第三,多个Controller交叉、重叠、遮挡的情况的处理,出现重叠之后不能让它出现漂移和出错,这在算法设计当中是非常大的难题。
前面这些是五星级的难题。后面还有三个难题:
第一,为了降低成本和功耗,不可能把头部追踪的Camera和手部的Camera分开,Camera既要实现头部追踪,也要进行手部追踪,要十分复用,这需要做到切换,这就要避开专利的问题;
第二,高速跟踪的问题,手里拿的Controller最快达到7秒,高速运动之下,咱们手部的算法是否适合运动的姿态;
第三,把算法移动到嵌入平台的问题。现在都要跑一体机,像高通、麒麟海思这样的平台,处理性能还是有区别的,怎么让算法跑到平台上,不再占用CPU,需要把DSP用好,这也是一个挑战。
现在已经完成了第一代XR双目定位方案的一个研发,推出来的产品实现了inside-Out双目的追踪,FOV是170度,而且可以使用低成本,Camera微机分布就可以了。
这是我们在实践过程中得到的参数,包括传感器数量、分辨率、帧率、视场角、最大距离、动态的角度、精度、动态的位置精度、预算延迟以及占用的实际功耗和CPU占用率,这是我们实际测量出来的结果。
从双目开始到四目是一个趋势。因为我们在研发过程中和与客户的对接过程中发现一个问题:双目有一个局限性,FOV不够大,FOV小的话会不断超出FOV的视野范围,导致用户经常遇到初始化的问题。
总之,它的效果体验不如四目方案好,因此我们往四目方案演进。但演进并非简单地把两个摄像头换成四个摄像头,将摄像头进行堆砌,要处理的问题很多。因为四目扩展了范围,因此交叠的区域小了,镜头的畸变非常厉害,怎么做呢?要做到非常高精度的定位才行,这是难点。二是运算量大了很多,双目变成四目,运动量翻书了一番,但对于四目的处理量又不能很大。
将性能做一个提升,FOV从170度变成220度,垂直视角增加了一倍,另外在动态的角度定位误差和位置定位误差方面也进行了大幅的优化。
我们看一下双目和四目的对比,这是我们的演示视频,左边是双目定位,右边是四目定位方案。每一幅图左边是原始图象,右边是它所还原出来的六轴的姿态,我们看一下演示的视频。
演示过程中,用户会出现各种各样的动作,比如有遮挡、交叉、重叠,还会把手伸到后方再拿出来,让我们实现初始化的过程。追踪系统还是能够非常灵活和稳定地追踪它的效果和位置。右侧是我们四目的追踪系统,运动起来使它的范围大幅扩大了,这样使得用户体验更好,避免它超出这个基线之后需要用IMU来追踪的问题,使得它的体验会更加流畅和连贯。
另外,这里面要解决好的问题还包括,用户使用过程中或者参加展会,会遇到环境光干扰的问题,这需要在我们的算法上进行比较好的处理。这是我们的对比结果,从视场角到定位精度再到延迟,能看到我们有很大的提升。
我们公司2014年成立,是一个专注于做高精度定位传感器的公司,公司成立以来一直做高精度定位的算法以及算法芯片的研发。目前我们主要的产品线是在机器人层面的产品线,做激光雷达,里面的芯片也是我们设计的。
目前我们在行业里是头部供应商的定位。同时,第二条线是在AR/VR领域,从2015年开始做AR/VR的工作,2015年的时候与爱奇艺合作,为它们提供外定位方案的解决方案。今年年初的时候完成了2亿的B轮融资。
这是我们公司的主营业务:
第一,机器人里面的激光雷达,包括这里面的三大厂商,石头、科沃斯、小米,其中有两家都是我的客户,出货量今年达到将近200万台;
第二,VR领域,专门为客户提供高精度6DoF的模组;
第三,工业医疗领域提供高精度定位系统,中国商用飞机公司也是我们的用户。
这是我们公司的愿景,致力于成为全球计算机视觉空间定位领先的企业。
迷失攻略组
迷失攻略组更多攻略等你来看!