先是传出Vision Pro开发者实验室冷清,开发者兴趣不大。后有库克在财报电话会上为自己产品站台:我每天都用Vision Pro,体验者用了都说好。近期,知名近眼显示专利专家对Vision Pro功能演示中虚拟屏代替物理屏提出质疑,称“太荒谬”,文章还获得很多行业人士的支持。
Vision Pro亮相之后,虽然许多数码博主和Vision Pro开发者都抢先体验了它,并发表了体验感受,但仅凭这些还是回答不了关于产品的疑问,总是有点“隔靴搔痒”的意味。从数千项专利中找答案,看清苹果的深层玩法和布局,远比激烈对线更有价值。
就在一个月以前,苹果公司的人机界面设计副总裁艾伦·戴伊(Alan Dye)接受采访时称,设计团队为Vision Pro申请了5000项左右的专利,同时,在研发过程中,最难就是在专利公开的情况下设计Vision Pro。
目前每周仍许多有关于Vision Pro的专利流出,这些专利有的解答人们对于发布会上某些功能演示中存在的疑惑,还有的彻底放飞了大家的想象力,原来一款产品未来还可能会让人“闻到花香等各种味道”。
这也不禁让人思考:设计团队在专利中为Vision Pro埋下了哪些伏笔?Vision Pro又是否实现了苹果“最初的梦想”?
智东西通过对Patently Apple网站中有关Vision Pro的专利深扒后发现:原来看着简单两指指尖互相触碰实现的手动控制原来需要相机对手部各个关节端的识别;实现人物自动淡入、淡出的EyeSight功能使用了具有支撑结构的红外透明单向镜;来实现3D摄像,需要先让相机的POV模拟人眼的POV。
深扒专利为我们的解答的疑问远不及此,在对WWDC23发布会演示视频逐帧回顾后美区苹果idd,智东西还发现,苹果“精心选择”了Vision Pro的演示功能,这背后藏着苹果多年布下的“一盘大棋”。
由于篇幅限制,我们选择了手动控制、空间窗口、眼动交互、Optic ID、空间音频、计算机生成现实体验、空中观看动作电影、AR体育赛事、沉浸式远程电线D摄影、影像拍摄通知、EyeSight等13项功能演示背后关系最为紧密的17项专利进行一轮“赛博拆机”。
在WWDC23上,最先映入观众眼帘的就是Vision Pro的手动控制功能。
从目前来看,Vision Pro与手势结合可用于玩视频游戏、导航菜单、控制媒体播放等。Vision Pro的计算机系统(computer system)允许用户使用微手势来与三维环境进行交互。
Vision Pro可以识别到对应的指关节、指尖、手掌中心、连接到手腕的手端等的点。Vision Pro的相机安装在远离用户的地方。微手势的不同运动和位置以及各种运动参数用于确定在三维环境中执行的操作。由于微手势不易引人注目,所以可以在公共场合中进行该操作。
目前,Vision Pro的手动控制还无法对实体设备进行操作,因此苹果还在继续研发智能戒指系统(smart ring system)。
从目前苹果的专利信息来看,该戒指具有包括滑动、点击、旋转等在内的16种交互方式。戒指中的传感器可以感知到用户的指令信息,然后根据指令控制虚拟物体和现实物体的交互。
同时需要明确的是,专利仅仅是技术保护的一种手段,这并不意味着苹果会在短期内推出智能戒指产品,但从该专利为未来可能的交互方式提供了新的可能性。
如果说,上一个专利与识别手部运动有关,那么这个与Vision Pro头显的3D“无限画布”(infinite canvas)有关的专利就与识别头部运动有关。
苹果早在2022年12月就申请了这项专利美区苹果idd,并于今年6月在欧洲发布。从苹果的专利描述上看,Vision Pro的混合现实(XR)系统可以检测头部运动,并相应地调整呈现给人的图形内容和声场。
上图是真实和虚拟组件的分层在Vision Pro内呈现完成的增强现实(AR)视图。根据苹果的说法,对于每一个用户界面(UI),头显都会分配一个边界,该边界定义了某个用户界面应该处于的物理环境。
接着应用程序会向操作系统发送请求(request),然后操作系统接着会反馈给应用程序哪些是受限制的信息(constrained information)。
随后,操作系统会将处理好的场景信息、各个应用程序也会将应用数据传送到渲染引擎(rendering engine)之中。渲染引擎将加工好的信息传送到合成引擎之中,与最初由传感器和摄像机捕捉到的信息进行最终合成,最终各个应用程序界面就会显示在用户面前。
除了手动识别、头动识别、Vision Pro还能针对眼部运动进行识别。产品评论家Marques Brownlee在看到Vision Pro的产品称,你一旦开始使用Vision Pro后,一定会关注它的眼动追踪功能(eye tracking),“我通常不会评价科技产品的功能为“魔法”或者“超现实”,但是这是我接触过最接近魔法的事情。”
从美国专利商标局的公开信息来看,Vision Pro的眼动追踪功能和一项“用于注视端点确定的方法和装置”的专利有关。该专利可以用于确定主体在空间中注视三维物体的端点。听起来似乎很复杂,事实上就是一个“眼动控制装置”。
该专利将用户头部及其周围环境定义为一个系统,并将其分为了多个单元区,其中包括眼睛跟踪单元、头部跟踪单元、3D场景结构表示单元(3D scene structure representation unit)、计算单元等。
Vision Pro会追踪用户的眼睛的注视方向,头部、眼部跟踪单元相对于整个参考坐标系的位置和取向,接着,Vision Pro在就会在3D场景结构表示单元中,通过参考坐标系中的坐标通过线D结构来表示真实世界场景和场景中包含的对象。最后,计算单元会基于用户眼部的凝视方向、眼动仪的位置、3D场景结构表示等来计算出用户的凝视端点。
8月初,Vision Pro虹膜生物识别系统Optic ID背后的专利也“浮出水面”。
从苹果的描述来看,这项专利可以理解为“生物信息辨识算法”,Vision Pro的摄像机可以用于捕捉用户的虹膜、眼睛、眼眶周围区域的生物特征图像,然后摄像机中的控制器(controller)上执行的算法可以动态地确定这些被捕获的图像中哪个可以用于生物识别认证。
Vision Pro摄像机中控制器选择图像的客观标准包括:图像的曝光度、对比度、阴影面积、清晰度、是否有遮挡物体、是否有反射光等。
在结束身体部位识别板块后,想必大家在观看WWDC23时,都会对上面动图中演示的“空间音频”的功能有所印象,同时因为没有亲身体验过“空间音频”,所以并不清楚“空间音频”会如何提高沉浸感。
传统上,当声音沿间接路径传播时,耳道入口接收到的声学信号中可能会存在伪影,通过使用空间音频滤波器的信号处理算法,可以将用户特定的伪影合并到双耳的音频中去。
为了实现准确的空间音频再现,虚拟音频系统可以使用HRTF来创建声音来自空间中某处的错觉。声音可以使用射线进行追踪,这种方式被称为几何声学(GA),几何声学的方法可用于模仿合成声波的某些现实行为带来的听觉刺激。
目前的空间音频合成软件可以管理实时模拟移动接收器周围的移动声源的计算负荷,然而,这些模拟往往是基于静态混响的,在现实世界的场景中,声波和反射性/阻碍性表面之间存在着显著的相互作用。房间的建筑或场景构成中的每一变化都会对房间里的声波在任何给定瞬间的实时模拟方式产生重大影响。
这就需要改进虚拟三维环境中的实时物理听觉化技术,这包括其中任何(或全部)的环境:声源、声音接收器和虚拟环境中的几何/表面可能在声源被模拟时的动态变化。
当用户走到虚拟空间中的哪个位置,都能听到实时处理的遍布于空间内拟真的声音效果,这些声音会根据空间内物体位置、甚至材质,以及实时移动的人产生变化,从而更加线 生成用户化身,支持计算机生成现实体验
在提供CGR体验之前,需要了解用户的姿势。一些CGR体验呈现模仿用户行为的用户化身,如果用户移动身体的一部分,化身就会移动相应的部分。
从FIG18可以看到,Vision Pro的传感器可以对用户身体的姿势及其进行捕捉,然后分别在用户的左肩美国id苹果哪个牌子好、右肩、上下左右臂、躯干、左右腿等位置进行定位,Vision Pro会将这些身体姿势信息反馈到用户的神经网络训练系统中,然后用户会产生计算机生成现实体验。
要知道,一般情况下,当身体运动和视野所观测到的运动不匹配或者头部运动和视觉观测的头部运动不匹配时,人很容易产生晕动症。而当用户在空中佩戴VR/AR头显时,
使用者眼前看到的图像是眼球通过扫视、跳动等微动作捕捉并拼凑在一起的结果。在Karl Guttag的分析中可以看到,在通常情况下,人体主要通过三种感官来保持平衡,其中内耳器官的前庭感知(VOR)可识别头部的方向,以及哪个方向是上下方,如果人眼前看到的运动与前庭系统感知到的运动不相符,那么就容易引起恶心、眩晕等症状。
由于AR/VR头显主要根据用户眼球和头部运动来动态渲染图像,显示的内容可能会导致内耳、眼球检测到的数据不一致,从而眩晕。R1芯片宣称可以大幅消除传感器和显示器之间的延迟。
Karl Guttag称,在飞机等长途移动场景中,与前庭相关的晕动问题可能还会加重,因此,Karl Guttag得出结论,Vision Pro还需要识别用户内耳前庭感知到的运动,才能很好地减少运动症状。
同时,Vision Pro还会在通过传感器获得用户的生理数据和运动数据等的基础上,向用户提供相关联的视觉和听觉体验。
总的来说,该专利的创新之处在于,在具有处理器的电子设备上,首先确定了显示器的第一区和第二区,然后根据第一区和第二区生成3D环境的图像,识别对应于显示器第二区的每个图像的内容,以及对应于显示器第二区的每个图像的图像内容的对比度或空间频率中的至少一个。
上图列出了用户瞳孔和瞳孔的视野图,其中展现了眼窝,即视网膜中心凹下的部分、副眼窝(parafoved)和周边视觉区域(peripheral)。
Karl Guttag对于Vision Pro也有疑惑的问题:在长时间空气不流通的场景下,如果让人一直佩戴有一定重量、贴脸、且会散发热量的头显来看电影,体验感可能并不理想。飞机上的空乘人员、乘客可能会来回走动,每当有人靠近的时候,都可能触发Vision Pro的透视模型,打破观影的沉浸感。
也对乘坐交通工具时产生的晕动症的解决有所帮助。从苹果的介绍来看,传统的VR和AR设备无法将用户身体部分的运动与用户所处的参照系(reference frame)分离开来。
举例来说,佩戴传统VR和AR设备的用户在乘坐交通工具时,在交通工具从停止状态加速直到高速的过程中,用户并不会在交通工具内进行运动。这样VR和AR设备显示的图像,在用户看来就像是他正在以相同的速度和方向通过车辆行驶的场景。由于眼前庭不匹配,用户因此出现恶心等症状。
苹果的相对惯性测量技术可以确定用户设备相对于非固定参考系(用户乘坐的交通工具)相对的运动,从而将用户身体部分的运动与所处的参照系分离。
从上图来看,体育赛事的视频内容会通过网络传输到Vision Pro上,经由Vision Pro的通信模块,一部分信息就会进入数据缓冲区,然后在显示在目镜上。另一部分信息会经由处理模块、以及传感器显示在目镜上。
如果说第一个专利强调增强了用户对体育视频内容的沉浸感受,那么第二个专利则为用户实时提供体育赛事现场情况信息,
。将时间倒回2022年6月,苹果和美国职业足球大联盟(MLS)宣布,Apple TV应用程序将独家播放2023以后的每场MLS比赛直播。为了进军视频业,苹果正希望将拓展MLS的呈现方式,使用户可以在Vision Pro中观看MLS比赛直播,同时感受到现场比赛的氛围。
苹果在专利背景信息中指出,目前用户已经习惯在电视中观看体育赛事中队伍名称、得分等补充信息,例如,在足球比赛转播期间,在球场上显示黄色的先下线,篮球比赛中,比分一般显示在右下角。
Vision Pro的传感器可以捕捉物理环境中的视频或者图像,而此时,Vision Pro的显示器处于透明或半透明状态,图像或视频的光线会通过这层透明或半透明的介质导入眼睛之中。此外,
从下图可以看到,例如“玩家A进球”、“47:46”这样的场上比分、“射击速度66千米/小时”等“‘增强现实”内容的信息都会以黄色来突出显示。
同时,系统的实时跟踪和定位性能也需要高精度和稳定性,以确保在真实世界中的精准重叠。
从美国专利局的信息来看,该专利申请涉及了基于会话描述协议(session description)和实时传输协议的程序。下图描述了沉浸式电话会议和远程呈现系统的简化结构,图中可以看到,一群同时正在会议室中开会,房间中含有会议桌,以供实际出席的参与者使用。
此外,Vision Pro的相机能够以相对于相机不同的角度或视场捕获视频的多个单独的相机或镜头。
未佩戴Vision Pro的参与者可以使用iPad和iPhone在远程来加入会议。
从上图的105b可以看到,远程参与会议的人可以使用ipad和iPhone等设备观看会议室的360度全景视图,还可以使用ipad或iPhone的手机摄像头拍摄视频。
查阅苹果的专利,在过去几年中,有多个专利涉及到虚拟键盘的“隔空打字”功能。苹果今年3月发布了一项关于“用户扩展现实(XR)系统的多设备连续性”的专利,
该专利允许使用iPhone、iPad、Mac的用户将正在操作的文档传输到Vision Pro之中,允许用户在扩展现实中完成该文档。接着Vision Pro可以通过检测用户手指运动来进行输入。
从FIG5中可以看到,Vision Pro上的摄像头和传感器可以捕捉到iPhone的用户界面,然后
当Vision Pro接管了该文档的控制权之后,iPhone的显示屏可能会关闭或更改为低功耗状态。同时V
苹果在2020年被授予了一项名为“自适应输入表面”(Adaptive Input Surface )的专利,该专利与触敏输入(touch-sensitive)有关,可以代替具有触觉反馈的虚拟键盘。触觉反馈可以通过静电电极的可控阵列提供给用户,这可以使用户感知到表面上不同水平的摩擦力。就可以有针对性地进行输入。同时输入表面移动感的致动器还会进一步为用户提供附加的触觉反馈。
一般而言,这个输入表面会接近于Vision Pro的传感器,该传感器会捕捉用户手指的位置。
在传统的VR/AR头显中,场景摄像机(scene cameras)安装在头显的前面。但通常情况下,场景摄像机的入瞳以及视点(POV)与用户眼睛的POV存在很大的偏移,因此,摄像机的POV并不能代表人眼的POV。
Vision Pro的相机的二维阵列(two-dimensional arrays)可以捕获眼前真实世界场景的各个部分的图像,摄像机沿球面曲线或曲面定位(spherical curve or surface),以使摄像机具有不重叠的相邻视场(FOV)。同时,为了准确表示用户的视角,Vision Pro相机中的光学器件被配置为使阵列中相机的入射光瞳位于图像传感器处所形成相机图像平面的后面。同时,Vision Pro的相机也在传感器上形成优化的图像。因此,每个相机阵列都能从与用户眼睛基本相同的视角捕捉场景的视图。
在苹果发布会的展示中,使用者可以与图片中场景进行交互一直让人好奇,从苹果发布的专利中可以看到,虚拟现实系统可以向用户显示立体场景以创建深度错觉,并且计算机可以实时调整场景内容。
每个相机按照从物侧到像侧的顺序包括:第一透镜组,其中包括一个或多个透镜元件;孔径光阑(apertue stop)其中包括针孔(pinhole);第二透镜组,其中包括一个或多个透镜元件、多个镜头元件和传感器,同时,第一组透镜组中的透镜之间的间隙最小或者没有间隙。
这样安排的原因是希望使一个场景的光被反射到两个或多个摄像机上,这些摄像机分别为捕捉场景的各个部分的图像,镜子的作用是使摄像机的光圈更接近被摄者的眼睛。所捕获的图像经过处理后生成图像。用户在由自己的左右眼来查看所显示的图像。
苹果在2021年4月公布一项关于360摄影和后期制作相关的专利,或许可以更好地解释Vision Pro如何实现了体验者们所言的“3D立体景观”。苹果在专利中称,传统的180度和360度视频和图像都以平面存储格式(in flat storge formats)进行存储,同时使用等距柱状投影(equirectangular projections)或立方投影(cubic projections)来表示球面空间(sphrical space)。如果这些视频或图像在传统的编辑或图形应用程序中进行编辑,同时当这些视频或图像以圆顶投影、立方体或球面映射的方式分布和呈现时,容易出现大量问题。
此外,在对用球面合成或编辑的图像或视频进行处理后,容易出现后续镜头未对准或立体视觉不匹配等情况。然而苹果的专利弥补了这一遗憾。
目前Vision Pro获得专利会将单视场(monoscopic)或立体180度或360度的静态图像或视频图像从主机编辑或视觉效果软件作为等距柱状投影或其他球面投影传输同时运行的输入的方法和系统。
简单来讲,Vision Pro使用GPU缓冲区来接收图像数据,同时这个GPU缓冲区还与媒体操作的应用程序相关联,可以获取到显示设备的方向数据(orientation data),这样利用获得的图像数据和方向数据,Vision Pro的屏幕上就可以显示出预览图像。需要指出的是,当媒体操作应用程序并修改图像数据时,所述的预览图像会被动态修改。
从专利信息来看,苹果在Vision Pro安装上许多传感器,首先是,三维传感器,三维传感器下面又分为多个类别,例如三维图像传感器(three-dimensional sensors)、结构光传感器(structured light sensors),当目标被光束照射产生的光点的三维图像数据被三维图像传感器捕捉到,这时Vision Pro中的相机就会对图像进行拍摄。
13 双向镜和单向镜间自由切换,EyeSight可实现自动自动淡入、淡出功能
,在WWDC23小组讨论中,Vision Pro的首席开发人员Mike Rockwell谈到了EyeSight背后的技术。据悉,Eyesight的想法可以追溯到苹果前首席设计师Jony Ive,事实上Meta曾在2021年展示过带有假视觉的原型。
EyeSight功能简单来说,就是外部的显示屏可以实时显示用户的眼睛。然而实现该功能并非容易苹果外区id账号共享每天更新,一方面传统的2D显示器在显示眼睛时会显得不自然。于是以Mike Rockwell为代表的开发人员想到了制造一种弯曲的透镜显示器,这种显示器可以为每个观察Vision Pro外显示屏的人呈现独特视图。
在WWDC23中,Vision Pro的效果展示部分,也可以听到该头显屏幕使用了一种名为“Lenticur ”的透镜。2021年,Patenltly Apple发布了三篇关于相关的专利报告。
今年5月,在一项在Lenticur透镜显示图像的方法的专利被公布出来。从专利信息来看,Vision Pro离线后会生成静态网格,传感器会实时将拍摄对象的纹理信息映射到固定的网格之中。在离线的过程中,被拍摄对象的纹理信息和3D网格信息(3D mesh information)可以用于渲染对象多个视点的UV贴图(UV map),这样就完成了3D建模。
Vision Pro开发人员在分享中曾提及,而这些视图数据有两大主要数据源,一是头显中眼动追踪摄像头捕捉到的画面信息,二是苹果使用数字角色,这个数字角色是佩戴者的3D面部扫描的帮助下预先生成的。
从图1A和图1B分别显示了Lenticur显示器的3D前视图和顶视图。Lenticur显示器包括显示面板、该面板的材质可以是LCD、OLED、DLP、LCoS(硅基液晶)。同时,可以看出Lenticur使用了柱面透镜,这种透镜本质上一组放大透镜,特点是可以改变图像的宽高比,为每个观察Vision Pro外显示屏的人呈现独特视图。
图210可以是视网膜投影仪系统(retinal projector system),其将左图像和右图像逐像素扫描到用户的眼睛之中。为了扫描图像,投影仪还会·生成光束,这些光束被引导反射组件(reflective components),反射组件会将光束重新引导到用户的眼睛之中。
Vision Pro的镜片中带有涂层,就像太阳镜和滑目镜这类产品一样,可以产生单向镜面效果。但是这也就造成一个问题,
同时,光学器件可以与材料层重叠,这样可以实现该效果的光学组件包括可见相机的可光组件和诸如红外发光器件、光红外发射器的、红外光传感器的红外组件等可以穿过材料层,同时被红外透明单向镜的反射外观隐藏而不被看到。
14 结语:打造虚拟交互新模式,Vision Pro有望掀起XR领域热潮
从上文深扒Vision Pro 13项功能展示中背后专利可以看到,无论是空间窗口、空间音频等都为用户带来了“空间计算”新体验,同时,EyeSigtht功能一改传统XR设备“隔绝式”交互方式,使得佩戴者既能实时看到外部情况,还能在有人靠近的情况下,与现实中的人进行交互,打造了虚拟交互新模式。
XR发展已有10余年的时间,这期间虽然一直缺少爆款级产品出现,但是由于以苹果、Meta、谷歌为首的科技巨头的“押注”,XR领域一直受关注度较高,与之相关的新专利、新产品、新场景也在持续发布。作为苹果“十年磨一剑”打造出来的现象级产品Vision Pro有望掀起XR领域的热潮,进一步扩大XR设备的市场规模。苹果美区苹果idd外区id账号共享每天更新