晟辉智能制造

传真通信游程编码技术如何提升压缩效率?

游程编码,在传真通信中通常指一维Modified Huffman (MH) 编码,是国际电报电话咨询委员会为传真机(特别是Group 3标准)制定的一种无损压缩算法,它的核心思想是利用传真图像中大面积的白色或黑色区域,将连续的相同颜色像素(称为“游程”)用一个“游程长度”和“颜色”的组合来表示,从而极大地减少数据量,提高传输效率。

传真通信游程编码技术如何提升压缩效率?-图1
(图片来源网络,侵删)

为什么需要游程编码?—— 传真图像的特点

要理解游程编码的必要性,首先要了解传真图像的特性:

  • 二值图像:早期的传真机只传输黑白两种颜色,每个像素点只有0(白)和1(黑)两种状态。
  • 高冗余度:传真页面(如文件、表格)通常包含大量的空白区域,这意味着图像中会存在大量连续的白色像素,也可能存在一些连续的黑色像素(如粗线条、填充区域)。
  • 数据量大:一张标准的A4纸,以标准扫描分辨率(如204x98或204x196 dpi)扫描后,会产生几十万甚至上百万个像素点,如果直接传输这些原始的“黑/白”序列,效率极低。

传真图像的数据中包含了大量的“冗余”信息,即连续的相同像素,游程编码正是为了消除这种冗余而设计的。


游程编码的基本原理

游程编码的本质是一种统计编码,它不关心像素的具体位置,只关心“连续多少个相同颜色的像素”出现了。

基本公式(颜色, 长度)

传真通信游程编码技术如何提升压缩效率?-图2
(图片来源网络,侵删)
  • 颜色:用 EOL (End of Line) 之外的代码表示,0 代表白,1 代表黑。
  • 长度:连续相同颜色像素的个数。

简单示例: 假设有一行扫描数据(从左到右):白白白白黑黑白白白白白白白白 原始数据需要记录15个符号:W W W W B B W W W W W W W W W

使用游程编码后,可以表示为:

  • 4个白色
  • 2个黑色
  • 9个白色

编码序列变为:(W,4), (B,2), (W,9),这比原始数据简洁得多。


传真标准中的游程编码:Modified Huffman (MH) 编码

直接使用 (颜色, 长度) 对进行编码还不够高效,因为长度本身也需要用二进制数表示,可能很长,为了进一步压缩,国际标准(ITU-T T.4)定义了Modified Huffman (MH) 编码,它为不同的“颜色+长度”组合分配了固定长度的霍夫曼码字

传真通信游程编码技术如何提升压缩效率?-图3
(图片来源网络,侵删)

1 核心特点

  1. 一维编码:只对当前扫描行进行编码,不考虑上一行的信息,这使得实现简单,但压缩效率不如二维编码(如MR编码)。
  2. 霍夫曼编码:根据“颜色+长度”组合在传真图像中出现的概率来分配码字,出现概率越高的组合,分配的码字越短。
    • 白色游程:空白区域非常多,所以短长度的白色游程(如1个白像素、2个白像素)出现概率最高,因此分配了最短的码字。
    • 黑色游程:黑色区域相对较少,但为了完整覆盖所有可能情况,也为其分配了码字。
  3. 特殊码字
    • EOL (End of Line):行结束码,每行数据编码结束后,都必须发送一个EOL码,它也用于标识新页的开始(连续发送6个EOL)和文件结束(连续发送6个以上EOL)。
    • 填充码:当数据传输速率与调制解调器速率不匹配时,用于填充时间。

2 编码表(简化版)

MH编码表非常庞大,因为它需要覆盖从1到1728个像素的游程长度(标准A4纸宽度),这里我们看一个简化的例子,帮助你理解其编码逻辑:

颜色 游程长度 霍夫曼码字 码字长度
白色 64 11011 5
白色 128 10010 5
白色 1 0000111111 10
... ... ... ...
黑色 64 0000001111 10
黑色 128 000011001000 12
黑色 1 010 3
... ... ... ...
EOL - 000000000001 12

观察上表可以发现规律

  • 短游程的黑色(如1个黑像素)码字很短(010),因为单个黑像素比单个白像素更常见。
  • 长游程的白色(如64个白像素)码字也很短(11011),因为大面积空白是常态。
  • 短游程的白色(如1个白像素)码字较长(0000111111),因为单个白像素出现的概率相对较低。
  • 长游程的黑色码字很长,因为长条黑色区域非常罕见。

3 编码流程(一行的处理)

  1. 初始化:假设一行以白色开始(如果实际以黑色开始,则先编码一个长度为0的白色游程)。
  2. 扫描:从左到右扫描一行像素。
  3. 检测游程:检测连续的白色或黑色像素,计算其长度 Run Length
  4. 查表编码:根据当前颜色和游程长度,在MH编码表中查找对应的霍夫曼码字,并发送。
  5. 切换颜色:遇到颜色变化时,切换颜色(白->黑 或 黑->白),重复步骤3和4。
  6. 结束行:扫描完一行所有像素后,发送一个EOL码字,表示本行结束,然后开始下一行的编码。

优缺点分析

优点

  • 压缩率高:对于包含大量空白区域的文档(如信件、报告),压缩效果非常显著,通常可以将数据量压缩到原来的1/10甚至更低。
  • 算法简单,速度快:编码和解码过程都是线性的,计算量小,非常适合当时硬件性能有限的传真机。
  • 无损压缩:可以完美地重建原始图像,不会丢失任何信息。
  • 标准化:作为Group 3传真机的国际标准,保证了不同品牌传真机之间的互操作性。

缺点

  • 对复杂图像效果差:如果图像本身没有大面积的同色区域(如照片、半色调图像),游程编码几乎无法压缩,甚至可能因为码字比原始像素更长而导致“负压缩”(数据膨胀)。
  • 一维局限性:它只利用了行内冗余,没有利用行间的相关性,两行相同的像素,它会对每一行都进行重复编码,后来的Modified READ (MR)Modified Modified READ (MMR) 二维编码通过参考上一行来进一步压缩,效率更高。

技术演进与现状

随着技术的发展,游程编码在传真领域的地位有所变化:

  1. 从MH到MR/MMR:为了提高压缩率,特别是对于照片等复杂图像,ITU-T T.6标准引入了二维编码(MR和MMR),它们在游程编码的基础上,增加了对上一行扫描模式的参考,能利用垂直方向的冗余,压缩效率远超一维的MH编码。
  2. 从二值到彩色:现代传真(如Group 4标准)和多功能一体机已经支持灰度和彩色图像,通用的压缩算法如JBIG(用于二值图像)和JPEG(用于灰度/彩色图像)成为主流,它们比单纯的游程编码更强大、更灵活。
  3. 应用场景变化:随着电子邮件、即时通讯和云存储的普及,物理传真机的使用量大幅下降。传真作为一项“法律上可接受的文件传输方式”,在某些行业(如医疗、法律、金融)仍然保留,许多现代传真服务实际上是基于IP网络的,它们在传输前依然会使用包括游程编码在内的压缩技术来优化带宽。

传真通信中的游程编码(以MH编码为代表)是一项开创性的数据压缩技术,它巧妙地利用了传真图像固有的高冗余特性,通过将连续的同色像素块编码为短码字,极大地提高了数据传输效率,是传真技术能够普及和实用化的关键基石,尽管现在它已被更先进的算法所补充或替代,但其在通信和数据压缩发展史上的地位是不可磨灭的。

分享:
扫描分享到社交APP
上一篇
下一篇