晟辉智能制造

数字图像处理与分析技术的核心是什么?

这是一个非常庞大且重要的领域,广泛应用于计算机视觉、医学影像、遥感、工业检测、自动驾驶、人脸识别等方方面面,我们可以将其分为两大核心板块:数字图像处理数字图像分析,它们既有紧密联系,又有明确的目标差异。

数字图像处理与分析技术的核心是什么?-图1
(图片来源网络,侵删)

核心概念:图像处理 vs. 图像分析

为了更好地理解,我们先做一个简单的类比:

  • 数字图像处理:好比是“美图秀秀”,它的主要目标是改善图像的视觉效果对图像进行某种变换,以便于人眼观察或为后续分析做准备,输入是图像,输出也仍然是图像。

    • 目标:改善质量、增强特征、压缩数据、变换格式。
    • 例子:去噪、锐化、调整亮度/对比度、缩放、旋转。
  • 数字图像分析:好比是“AI识图”,它的主要目标是从图像中提取有用的信息、识别出目标或理解场景内容,输入是图像,输出是描述、测量或决策(这是一只猫、这个零件有瑕疵、这张照片里有5个人)。

    • 目标、识别目标、分类、测量、检测。
    • 例子:人脸识别、车牌识别、癌细胞检测、自动驾驶中的障碍物检测。

数字图像处理

图像处理技术通常在图像分析的预处理阶段使用,目的是为了“清洗”和“准备”图像数据。

数字图像处理与分析技术的核心是什么?-图2
(图片来源网络,侵删)

基础操作

  • 点运算:对图像中的每个像素点独立进行操作,不依赖于其邻域像素。
    • 灰度变换:调整图像的亮度、对比度,线性变换 g(x,y) = a*f(x,y) + b
    • 直方图处理
      • 直方图均衡化:通过重新分布像素的灰度值,来增强图像的整体对比度,使图像细节更清晰。
      • 直方图规定化:将图像的直方图变成预先指定的形状。
  • 邻域运算:处理一个像素时,需要考虑其周围邻域像素的值。
    • 图像平滑:用于消除噪声,但可能会使图像边缘模糊。
      • 均值滤波:用邻域像素的平均值代替中心像素值。
      • 高斯滤波:用高斯函数作为权重进行加权平均,效果更自然。
      • 中值滤波:用邻域像素的中值代替中心像素值,对“椒盐噪声”效果特别好。
    • 图像锐化:增强图像的边缘和细节,与平滑效果相反。
      • 拉普拉斯算子:二阶微分算子,对边缘非常敏感。
      • Sobel/Prewitt/Canny算子:一阶微分算子,常用于边缘检测。

几何变换

改变图像中像素的排列位置,而不改变像素值。

  • 缩放:放大或缩小图像。
  • 旋转:将图像绕某一点旋转一定角度。
  • 平移:将图像在x和y方向上移动。
  • 仿射变换/透视变换:更复杂的变换,用于校正图像的畸变(如从斜拍角度拍摄的正方形校正成正方形)。

图像复原

旨在退化(模糊、噪声等)的图像中恢复出原始的、清晰的图像,它需要了解图像退化的物理模型。

  • 逆滤波:在频域中,用退化函数的倒数进行滤波。
  • 维纳滤波:在存在噪声的情况下,最小化均方误差的一种最优滤波方法。

彩色图像处理

  • 彩色模型
    • RGB模型:显示器等发光设备使用的模型,由红、绿、蓝三原色混合而成。
    • HSV/HSL模型:更符合人眼感知的模型,色相、饱和度、明度/亮度,在图像分割和色彩调整中非常有用。
  • 伪彩色处理:将灰度图像映射为彩色图像,以增强人眼对细节的分辨能力。

图像压缩

以较少的比特数表示图像,同时保持可接受的视觉质量。

  • 无损压缩:可以完全恢复原始图像,压缩率较低,如 PNGGIF
  • 有损压缩:允许一定的信息丢失,但压缩率很高,如 JPEGJPEG 2000

数字图像分析

这是从“像素”到“感知”的关键一步,更侧重于理解和解释图像内容。

数字图像处理与分析技术的核心是什么?-图3
(图片来源网络,侵删)

图像分割

将图像划分为多个互不重叠的区域,每个区域具有相似的特征(如颜色、纹理、灰度),这是图像分析中至关重要的一步。

  • 阈值分割:根据灰度直方图,选择一个或多个阈值,将图像分为前景和背景,简单快速,适用于目标和背景灰度差异大的情况。
  • 基于区域的分割
    • 区域生长:从“种子”点开始,将具有相似邻域的像素逐步合并成区域。
    • 区域分裂与合并:将图像不断分裂成子区域,再根据相似性准则合并。
  • 基于边缘的分割:先检测出图像中的边缘,再将边缘连接起来形成区域的边界。
  • 基于聚类的分割:如 K-Means聚类,将像素点根据其特征(如RGB值)聚成K类,每一类对应一个区域。
  • 深度学习方法:如 U-NetMask R-CNN,是目前最先进、效果最好的分割方法,能实现像素级别的精确分割。

图像特征提取与分析

从分割出的区域或整幅图像中提取有意义的数值或符号描述,用于后续的分类和识别。

  • 颜色特征
    • 颜色直方图:描述图像中颜色分布的全局特征。
    • 颜色矩:用颜色的均值、方差、三阶矩等统计量来表示颜色特征。
  • 纹理特征:描述图像中灰度或颜色的空间分布规律。
    • 灰度共生矩阵:通过计算像素对出现的概率来提取纹理特征。
    • 局部二值模式:一种简单高效的纹理描述算子。
  • 形状特征:描述目标区域的几何形状。
    • 区域描述子:面积、周长、圆形度、矩形度、离心率等。
    • 边界描述子:傅里叶描述子、链码等。
  • 局部特征描述子:用于描述图像中关键点周围的局部区域,对旋转、尺度、光照变化具有不变性。
    • SIFT (Scale-Invariant Feature Transform):尺度不变特征变换。
    • SURF (Speeded Up Robust Features):加速的鲁棒特征。
    • ORB (Oriented FAST and Rotated BRIEF):一种快速的二值特征描述子。

目标识别与分类

根据提取的特征,对图像中的目标进行识别和分类。

  • 传统机器学习方法
    1. 特征提取:人工设计或使用上述方法提取特征。
    2. 特征降维:使用 PCA (主成分分析)LDA (线性判别分析) 等方法减少特征维度,消除冗余。
    3. 分类器训练:使用 SVM (支持向量机)Adaboost决策树K-近邻 等分类器进行训练和预测。
  • 深度学习方法 (主流)
    • 卷积神经网络:是图像识别领域的革命性技术,它能自动从原始像素中学习和提取层次化的特征,无需人工设计特征。
      • 经典模型:LeNet, AlexNet, VGG, GoogLeNet, ResNet。
      • 应用:图像分类、目标检测、图像分割、人脸识别等。

高级图像分析

  • 目标检测:不仅要识别出图像中有什么,还要用边界框标出它们的位置,如 R-CNN 系列、YOLOSSD
  • 图像语义分割:对图像中的每个像素进行分类,属于哪个语义类别(如天空、道路、汽车、行人),如 FCNU-NetDeepLab
  • 实例分割:在语义分割的基础上,进一步区分出同一类别的不同实例,如 Mask R-CNN
  • 目标跟踪:在视频序列中,持续跟踪一个或多个感兴趣的目标。

技术流程与应用

一个典型的图像分析流程

  1. 图像采集:通过相机、扫描仪等设备获取数字
分享:
扫描分享到社交APP
上一篇
下一篇