为了更好地理解,我们可以用一个简单的比喻:

- VR 是让你“进入”一个完全由计算机创造的世界,你看到的、听到的都是假的,但感觉是真的,就像你戴上头盔,瞬间被“传送”到游戏里的奇幻世界或虚拟会议室。
- AR 是在你“眼前”的真实世界上叠加一层虚拟信息,就像你用手机摄像头对准一条街道,屏幕上会显示出店铺的评分、历史信息,或者在你的客厅里“放”一个虚拟的恐龙。
下面我们从核心技术原理、系统组成和关键技术点三个方面来详细拆解。
VR (Virtual Reality) 虚拟现实技术原理
VR的核心目标是创造一个完全沉浸式的虚拟环境,让用户感觉身临其境,从而“欺骗”大脑,使其相信虚拟世界是真实的,为了实现这一点,VR系统需要解决以下几个核心问题:
核心技术原理:沉浸感与交互
- 视觉沉浸:这是最核心的部分,通过在用户眼前显示两幅略有差异的图像(分别对应左右眼),利用人眼的视差原理,大脑会将这两幅图像合成为具有深度感的立体图像,这就是3D视觉的来源。
- 追踪定位:系统需要实时、精确地知道你的头部、手部和身体的位置和朝向,当你转头时,看到的虚拟世界画面必须同步转动;当你向前走时,视野中的虚拟景象也相应变化,这种“你动,世界也动”的实时反馈是沉浸感的关键。
- 多感官反馈:除了视觉,还可以加入听觉(3D空间音频)、触觉(手柄震动、力反馈服)等,进一步增强沉浸感。
VR系统主要组成
一个典型的VR系统包括:
- 头戴式显示器:这是VR设备的核心,也就是我们常说的“头盔”或“眼镜”,它内部集成了:
- 显示屏:通常为两块OLED屏幕,分别显示左右眼的图像,刷新率通常为90Hz或120Hz,以减少眩晕感。
- 光学透镜:用于将屏幕上近距离的图像放大并调整到合适的焦距,让你能看清整个画面。
- 传感器:内置陀螺仪、加速度计、磁力计等惯性测量单元,用于追踪头部的旋转和加速运动。
- 定位系统:这是实现“空间定位”的关键,它分为两种:
- Inside-Out(由内向外):在头显和手柄上安装摄像头,通过摄像头捕捉周围环境中的特征点,然后计算出设备自身的位置和姿态,代表设备是 Meta Quest 系列,优点是无须外部设备, setup方便。
- Outside-In(由外向内):在空间中安装外部基站(如Lighthouse基站或红外摄像头),这些基站会向头显和手柄发射信号,通过信号到达的时间差来精确计算设备的位置,代表设备是 Valve Index 和HTC Vive,优点是定位精度极高,延迟低。
- 输入设备:通常是两个带有位置追踪功能的手柄,用于在虚拟世界中进行交互、抓取物体、移动等。
VR关键技术点
- 延迟:指从你转动头部,到屏幕上画面更新完成所需要的时间,如果延迟过高(>20ms),大脑和视觉信息不同步,就会导致严重的眩晕感。低延迟是VR的生命线。
- 分辨率与视场角:分辨率越高,画面越清晰,像素点越不明显;视场角越接近人眼(约200度),沉浸感越强,越不容易感觉自己是透过一个“窗户”在看世界。
- 帧率:单位时间内画面刷新的次数,通常需要90fps或120fps的高帧率来保证画面的流畅性,进一步降低眩晕感。
AR (Augmented Reality) 增强现实技术原理
AR的核心目标是将虚拟信息无缝地叠加到真实世界之上,它不是创造一个新世界,而是在你现有的世界里“增强”信息,AR的实现原理可以概括为三个步骤:感知、计算、显示。

核心技术原理:虚实融合
- 环境感知:AR设备首先需要“看懂”它所处的真实环境,这包括识别平面(如地面、桌面)、理解空间结构、检测和追踪物体(如一张人脸、一个杯子)。
- 空间计算:在理解了真实环境后,系统需要进行计算,它需要确定虚拟物体应该放置在哪个位置(把一个虚拟花瓶放在真实桌面上),以及这个虚拟物体应该以何种姿态、大小出现(虚拟花瓶应该随着你走动而保持在桌面上)。
- 虚实融合显示:将计算好的虚拟图像叠加到摄像头捕捉到的真实世界画面上,并显示给用户,这个过程要做到无缝,让虚拟物体看起来就像是真实世界的一部分。
AR系统主要组成
AR设备形态多样,从手机到专用眼镜,其核心组件原理相似:
- 传感器:这是AR的“眼睛”和“耳朵”。
- 摄像头:捕捉真实世界的视频流。
- IMU(惯性测量单元):与VR一样,追踪设备的移动和旋转。
- 深度传感器:非常重要!用于测量环境中物体与设备之间的距离,从而构建3D空间地图,技术包括 结构光(如早期的Kinect)、ToF(飞行时间法)(如现代高端手机)和 LiDAR(激光雷达)(如iPad Pro, Vision Pro)。
- 处理器:强大的SoC芯片,负责实时处理摄像头数据、运行SLAM算法、渲染3D虚拟图像并进行融合。
- 显示器:
- 手机/平板屏幕:最常见的AR显示方式,通过屏幕“窗口”看到虚实融合的画面。
- 光学显示模组:在专用AR眼镜中,需要将图像投射到人眼中,主流技术有 Birdbath(光波导) 和 Pancake(折叠光路),它们通过特殊的光学设计,将微型显示屏的图像反射到人眼,同时保持设备轻薄。
- 交互方式:从触摸屏、手势识别(如苹果的Vision Pro)、眼动追踪到语音控制,方式更加多样化。
AR关键技术点
- SLAM(即时定位与地图构建):这是AR的核心技术,它允许设备在未知环境中,一边移动一边实时构建环境的3D地图,并同时确定自身在这张地图中的精确位置,没有SLAM,AR就无法稳定地将虚拟物体“钉”在真实世界的某个位置上。
- 环境理解与3D重建:比SLAM更进一步,不仅要建图,还要理解地图中的语义信息,这是一个平面”、“这是一把椅子”,从而实现更高级的交互。
- 光学显示技术:如何将清晰、明亮、无畸变的虚拟图像叠加到真实视野中,同时保持设备小巧、轻便、续航长,是AR眼镜面临的最大挑战之一。
- 交互技术:如何让用户自然、直观地与虚拟物体进行交互,而不依赖手柄,是提升AR体验的关键。
VR与AR核心原理对比总结
| 特性 | VR (虚拟现实) | AR (增强现实) |
|---|---|---|
| 核心目标 | 创造一个全新的、完全沉浸的虚拟世界 | 增强现实世界,在其上叠加虚拟信息 |
| 视觉呈现 | 封闭式,用户看到的是纯虚拟画面,与真实世界隔绝 | 开放式或半开放式,用户看到的是真实世界+虚拟画面的融合 |
| 关键技术 | 头部/手部6DoF追踪、低延迟渲染、高刷新率 | SLAM(即时定位与地图构建)、环境理解、光学显示 |
| 核心挑战 | 眩晕感(由延迟、帧率不足引起)、硬件重量与成本 | 环境理解精度、光学模组小型化与轻量化、自然交互 |
| 用户感知 | “我在虚拟世界里” | “虚拟物体在我身边” |
| 典型设备 | Meta Quest 3, PlayStation VR2, HTC Vive | Apple Vision Pro, Microsoft HoloLens (第一代), 手机AR应用 |
补充概念:MR (Mixed Reality)
很多人还会提到MR(混合现实),可以把它看作是AR的高级阶段,在AR中,虚拟物体更像是一个“贴纸”,无论你从哪个角度看,它都固定在那里,而在MR中,虚拟物体是真实地存在于3D空间中的,它可以被真实物体遮挡,你甚至可以绕着它走,从不同角度观察它,MR中的虚拟杯子可以放在真实桌子后面,你只能看到露出的部分,苹果的Vision Pro就是一款典型的MR

