计算机视觉概述

1 图像的基本概念

1.1 图像和图形

图像是摄影机、照相机等输入设备捕捉实际的画面产生的数字图像,是由像素构成的位图,是对客观世界的反映。

而图形呢?图形则是通过数学规则产生的、具有一定规则的团,一般是矢量图。图形通过一组指令集来描述内容,因而不会失真。

图像 图形
产生 从真实世界记录 由数学规则生成
存储 点阵值 属性
类型 位图 矢量图
是否会失真

1.2 数字图像及其特点

数字图像也叫做数码图像或者数位图像,存储方式一般是数组或者矩阵,光照位置和强度都是离散的。数字图像一般是由模拟图像数字化得到,以像素为基本单元。

一般我们对于数字图像的研究,就是研究其变换算法。

数字图像具有以下几个特点:

1️⃣ 信息量大

一幅图像一般有三个基本属性:长h、宽w、通道c。为了让数字图像逼近真实情况,我们还需要使用额外的空间存储它的色彩信息。例如8-bit图像就表示一个像素点的强度量将会由8个比特控制。所以一幅图像的数据大小为:O+hwcbO+h*w*c*b,其中OO是其他信息,包括文件头、元数据等。

2️⃣ 占用带宽大

大的信息量当然要更大的带宽啦~普通电视的标准带宽为6.5MHz,是电话、传真等标准带宽的14倍。

3️⃣ 相关性大

图像之间的像素非常不独立,具有很大的相关性!这导致图像信息的压缩潜力非常大!

4️⃣ 非客观性

这个特性跟人有关系,最后对图像上的信息做解译的是人,一千个人眼中有一千个哈姆雷特。


1.3 相关名词介绍

名词 含义
像素 数字图像的基本离散单元
分辨率 每英寸图像内的像素点数(控制像元大小)
灰度级 按照对数关系将色彩分级
灰度值 用于量化图像的亮度
深度 图像深度指的是存储每个像素的位数,它确定了图像每个像素可能有的颜色数量会灰度级数
通道 即第三个维度,例如RGB就是三通道,高光谱则有上百个通道

2 图像噪声

所谓图像噪声,可以理解为妨碍人的视觉器官或系统传感器对所接受图像源信息进行理解或分析的各种因素。一般的噪声是不可预测的随机信号,可能出现在图像采集、图像处理的全过程。

图像噪声有很多种,主要有高斯噪声、瑞丽噪声、伽马、脉冲噪声。一般来说,脉冲噪声(椒盐噪声)是最常见的。产生噪声的原因有很多,譬如:

  • 光和电子的基本性质所引起的噪声
  • 电器的机械运动产生的噪声
  • 器材本身产生的噪声
  • 系统内部产生的噪声

图像噪声的滤除

一般来说,通过图像平滑可以有效减少和消除图像中的噪声,以改善图像质量,抽取对象特征进行分析。

通常图像滤波和平滑可以分为线性滤波和非线性滤波两种,线性滤波一般通过做离散卷积核来实现,非线性滤波譬如高斯滤波、中值滤波,显然并不对线性这个概念封闭(齐次、数乘)。中值滤波一般用来处理噪声,但也会改变未被噪声污染的像素(均摊了)。

3 图像处理

图像作为人类感知世界的视觉基础,是人类获取信息、表达信息和传递信息的重要手段,计算机时代所说的图像处理通常是指数字图像处理,最早可以溯源到20世纪20年代,从伦敦通过海底电缆传到纽约的第一张压缩照片。这项技术可以帮助人们更加准确、客观地认识世界,获取更多的信息。

3.1 图像处理的分类

  • 光学模拟处理
    • 也称光信息处理,建立在傅里叶光学上
  • 电学模拟处理
    • 将光强度信号转化为电信号,成本投入相对较低,具有明显的优势,可以在短时间内完成滤波处理。
  • 计算机数字处理
    • 在计算机上,将连续的模拟图像信号转化为离散的数字图像进行处理。

3.2 数字图像处理

数字图像处理的生命周期包括四个过程:

  • 图像信息的获取
  • 图像信息的存储与交换
  • 图像处理
    • 图像预处理
    • 特征抽取
    • 识别分析
  • 图像输出与显示

3.3 图像处理方法

这一小节我们会介绍图像变换、图像增强、图像分割、图像描述、图像分类和图像重建这几个热点领域。


图像变换

进行图像变换的原因在于,离散图像占用的信息量是在太大,对其的操作十分费时和费内存。通过傅里叶变换、沃尔什变换、离散余弦变换等空间转换技术,可以将空域转为变换域处理。在减少计算量的同时,增加了可行的处理手段。

图像编码压缩也可以属于图像变换的一种,这种方式可以减少描述图像的数据量,节省图像传输、处理时间和占用存储的空间。


图像增强

图像增强的目的在于提高图像的质量,比如去除噪声、提高清晰度等。一般来说,图像增强会突出研究人员所感兴趣的部分,例如通过高通滤波强化边缘、低通滤波减少噪声等。在深度学习中,往往需要使用图像增强来模拟多种视角、多种尺度的图像信息,从而提高模型的泛化能力。图像增强是图像预处理中不可或缺的一环,图像预处理的实质在于突出重点信息,抑制无用信息。

下图是图像增强的一些处理方法

image-20230321170750055

图像分割

图像分割是数字图像处理中的关键技术之一,它可以将图像中有意义的特征部分提取出来,包括图像中的边缘、区域,这是进一步进行图像识别、分析和理解的基础。


图像描述

图像描述是图像识别和理解的前提。一般来说,图像的描述方法可以有边界描述、区域描述、体积描述、纹理描述、表面描述等。


图像分类(识别)

图像分类识别属于模式识别的范畴,主要内容是图像经过预处理后进行图像分割和特征提取,从而进行判决分类。


图像重建

对于一些三维物体,可以通过X射线、超声波等物理方法,获取物体内部结构数据,再讲这些数据进行处理而构成物体内部部位的图像。目前最成功的的栗子就是CT(计算机断层扫描成像技术)。

4 计算机视觉概述

计算机视觉是一门研究机器如何“看”的科学,换句话说,就是通过摄影机等输入设备代替人眼、计算机代替视觉中枢,从而模拟人类对图像目标的识别与分析。

计算机视觉本质上是对生物视觉的模拟,核心任务在于对采集的图像或视频数据处理,以获得相应场景的信息。其最终的研究目标,在于使计算机能像人那样通过视觉观察和理解世界,具有自主适应环境的能力。

与相关学科的区别

  • 计算机视觉(Computer Vision): 计算机视觉是研究如何让计算机模拟人类视觉系统进行处理、理解和解释数字图像或视频的科学。计算机视觉的目标是从视觉数据中提取有意义的信息,并为进一步的决策和处理提供依据。这一领域包括了诸如目标检测、目标跟踪、图像分割、三维重建等多个子领域。
  • 图像处理(Image Processing): 图像处理是研究如何对数字图像进行操作和分析的技术。图像处理主要关注对图像的预处理,以便更好地理解和分析图像。这包括图像增强、滤波、去噪、压缩和特征提取等技术。图像处理是计算机视觉的基础技术之一。
  • 机器视觉(Machine Vision): 机器视觉主要关注为工业自动化领域提供解决方案。机器视觉系统通常由图像采集设备(如摄像头)、光源、处理器和执行设备组成。机器视觉系统的目标是通过自动化的方式提取图像中的信息,以便用于检测、测量、识别、分类等工业应用。机器视觉通常包含计算机视觉和图像处理技术。
  • 模式识别(Pattern Recognition): 模式识别关注的是从原始数据中识别和分类特定模式的问题。模式识别可以应用于多种数据类型,如图像、音频、文本等。该领域主要研究如何设计和优化算法,以实现对不同数据类型中的模式进行识别。计算机视觉和机器视觉都可以看作是模式识别的具体应用场景。

总结一下,计算机视觉、图像处理、机器视觉和模式识别都涉及到从数据中提取信息的过程,但它们关注的领域和应用场景有所不同。计算机视觉关注对视觉数据的理解和解释,图像处理关注对图像的操作和分析,机器视觉关注工业自动化领域的视觉系统,而模式识别关注从多种数据类型中识别和分类特定模式的问题。