精华内容
下载资源
问答
  • 行业资料-电子功用-动态图像专家组数据接口之间的处理和后续路由的集成电路.pdf.zip
  • 动态图象专家组 MPEG-4

    2011-02-01 00:49:00
    MPEG4于1998 年11 月公布,...MPEG专家组的专家们正在为MPEG-4的制定努力工作。MPEG-4标准主要应用于视像电话(Video Phone),视像电子邮件(Video Email)和电子新闻(Electronic News)等,其传输速率要求较低,在480...

    MPEG4于1998 年11 月公布,原预计1999 年1月投入使用的国际标准MPEG4不仅是针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。MPEG专家组的专家们正在为MPEG-4的制定努力工作。MPEG-4标准主要应用于视像电话(Video Phone),视像电子邮件(Video Email)和电子新闻(Electronic News)等,其传输速率要求较低,在4800-64000bits/sec之间,分辨率为176X144。MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求以最少的数据获得最佳的图像质量。

    一、MPEG-4简介

      与 MPEG-1MPEG-2相比, MPEG-4的特点是其更适于交互AV服务以及远程监控。MPEG-4是第一个使你由被动变为主动(不再只是观看,允许你加入其中,即有交互性)的动态图像标准,它的另一个特点是其综合性。从根源上说,MPEG-4试图将自然物体与人造物体相溶合(视觉效果意义上的)。MPEG-4的设计目标还有更广的适应性和更灵活的可扩展性。  MPEG全称是Moving Pictures Experts Group,它是“动态图象专家组”的英文缩写,该专家组成立于1988年,致力于运动图像及其伴音的压缩编码标准化工作,原先他们打算开发MPEG1、MPEG2、MPEG3和MPEG4四个版本,以适用于不同带宽和数字影像质量的要求。  目前,MPEG1技术被广泛的应用于VCD,而MPEG2标准则用于广播电视和DVD等。MPEG3最初是为HDTV开发的编码和压缩标准,但由于MPEG2的出色性能表现, MPEG3只能是死于襁褓了。而我们今天要谈论的主角——MPEG4于1999年初正式成为国际标准。它是一个适用于低传输速率应用的方案。与MPEG1和MPEG2相比,MPEG4更加注重多媒体系统的交互性和灵活性。下面就让我们一起进入多彩的MPEG4世界。

    二、MPEG-4目标

      ( 一)、 低比特率下的多媒体通信;  ( 二)、 是多工业的多媒体通信的综合。  据此目标,MPEG4 引入AV 对象(Audio/Visual Objects), 使得更多的交互操作成为可能。  MPEG-4是为在国际互联网络上或移动通信设备(例如移动电话)上实时传输音/视频讯号而制定的最新MPEG标准,MPEG4采用Object Based方式解压缩,压缩比指标远远优于以上几种,压缩倍数为450倍(静态图像可达800倍),分辨率输入可从320 ×240到1280 ×1024,这是同质量的MPEG1和MJEPG的十倍多。  MPEG4使用「图层」(layer)方式,能够智能化选择影像的不同之处,是可根据图像内容,将其中的对象(人物、物体、背景)分离出来分别进行压缩,使图文件容量大幅缩减,而加速音/视频的传输,这不仅仅大大提高了压缩比,也使图像探测的功能和准确性更充分的体现出来。  在网络传输中可以设定MPEG4的码流速率,清晰度也可在一定的范围内作相应的变化,这样便于用户根据自己对录像时间、传输路数和清晰度的不同要求进行不同的设置,大大提高了系统使用时的适应性和灵活性。也可采用动态帧测技术,动态时快录,静态时慢录,从而减少平均数据量,节省存储空间。而且当在传输有误码或丢包现象时,MPEG4受到的影响很小,并且能迅速恢复。  MPEG4的应用前景将是非常广阔的。 它的出现将对以下各方面产生较大的推动作用:数字电视、动态图像、万维网(WWW)、实时多媒体监控、低比特率下的移动多媒体通信、于内容存储和检索多媒系统、Internet/Intranet上的视频流与可视游戏、基于面部表情模拟的虚拟会议、DVD上的交互多媒体应用、基于计算机网络的可视化合作实验室场景应用、演播电视等。  当然,除了MPEG 4外,还有更先进的下一个版本MPEG 7 ,准确来说, MPEG-7并不是一种压缩编码方法,而是一个多媒体内容描述接口。继MPEG4之后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜索。MPEG 7就是针对这个矛盾的解决方案。MPEG7力求能够快速且有效地搜索出用户所需的不同类型的多媒体材料。预计这个方案于2001年初最终完成并公布。按照以往 MPEG-4的经验,MPEG-7起码要再过两年才能进入实际应用阶段。

    三、多媒体视频编码

      运动图像专家组MPEG 于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版本。同年年底MPEG-4第二版亦告底定,  且于2000年年初正式成为国际标准。  MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料撷取与分散)等整合及压缩技术的需求而制定的国际标准。MPEG -4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。  MPEG-4的编码理念是:MPEG-4标准同以前标准的最显著的差别在于它是采用基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。这样既方便我们对不同的对象采用不同的编码方法和表示方法,又有利于不同数据类型间的融合,并且这样也可以方便的实现对于各种对象的操作及编辑。例如,我们可以将一个卡通人物放在真实的场景中,或者将真人置于一个虚拟的演播室里,还可以在互联网上方便的实现交互,根据自己的需要有选择的组合各种视频音频以及图形文本对象。  MPEG-4系统的一般框架是:对自然或合成的视听内容的表示;对视听内容数据流的管理,如多点、同步、缓冲管理等;对灵活性的支持和对系统不同部分的配置。

    四、MPEG-4的优点

    (1) 基于内容的交互性

      MPEG-4提供了基于内容的多媒体数据访问工具,如索引、超级链接、上传、下载、删除等。利用这些工具,用户可以方便地从多媒体数据库中有选择地获取自己所需的与对象有关的内容,并提供了内容的操作和 位流编辑功能,可应用于交互式家庭购物,淡入淡出的数字化效果等。MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。

    (2) 高效的压缩性

      MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比,在相同的比特率下,它基于更高的视觉听觉质量,这就使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为最终数据流。这可用于 虚拟三维游戏、三维电影、飞行仿真练习等。

    (3) 通用的访问性

      MPEG-4提供了易出错环境的鲁棒性,来保证其在许多无线和有线网络以及存储介质中的应用,此外,MPEG-4还支持基于内容的的可分级性,即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求,支持具有不同带宽,不同存储容量的传输信道和接收端。  这些特点无疑会加速多媒体应用的发展,从中受益的应用领域有:因特网多媒体应用;广播电视;交互式视频游戏;实时可视通信;交互式存储媒体应用;演播室技术及电视后期制作;采用面部动画技术的虚拟会议;多媒体邮件;移动通信条件下的多媒体应用;远程视频监控;通过ATM网络等进行的远程数据库业务等。

    (4)MPEG4的技术特点

      MPEG1、MPEG2技术当初制定时,它们定位的标准均为高层媒体表示与结构,但随着计算机软件及网络技术的快速发展,MPEG1.MPEG2技术的弊端就显示出来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时传播。而MPEG4技术的标准是对运动图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频,术语称为“AV对象”,而连续的AV对象组合在一起又可以形成AV场景。因此,MPEG4标准就是围绕着AV对象的编码、存储、传输和组合而制定的,高效率地编码、组织、存储、传输AV对象是MPEG4标准的基本内容。  在视频编码方面,MPEG4支持对自然和合成的视觉对象的编码。(合成的视觉对象包括2D、3D动画和人面部表情动画等)。在音频编码上,MPEG4可以在一组编码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。  由于MPEG4只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大大减少了合成多媒体文件的体积。应用MPEG4技术的影音文件最显著特点就是压缩率高且成像清晰,一般来说,一小时的影像可以被压缩为350M左右的数据,而一部高清晰度的DVD电影, 可以压缩成两张甚至一张650M CD光碟来存储。对广大的“平民”计算机用户来说, 这就意味着, 您不需要购置 DVD-ROM就可以欣赏近似DVD质量的高品质影像。而且采用MPEG4编码技术的影片,对机器硬件配置的要求非常之低,300MHZ 以上CPU,64M的内存和一个 8M显存的显卡就可以流畅的播放。在播放软件方面,它要求也非常宽松,你只需要安装一个 500K左右的 MPEG4 编码驱动后,用 WINDOWS自带的媒体播放器就可以流畅的播放了(下面我们会具体讲到)。

    编辑本段五、视频编码研究与MPEG标准演进

      人类获取的信息中70%来自于视觉,视频信息在多媒体信息中占有重要地位;同时视频数据冗余度最大,经压缩处理后的视频质量高低是决定多媒体服务质量的关键因素。因此数字视频技术是多媒体应用的核心技术,对视频编码的研究已成为信息技术领域的热门话题。  视频编码的研究课题主要有数据压缩比、压缩/解压速度及快速实现算法三方面内容。以压缩/解压后数据与压缩前原始数据是否完全一致作为衡量标准,可将数据压缩划分为无失真压缩(即可逆压缩)和有失真压缩(即不可逆压缩)两类。  传统压缩编码建立在香农信息论基础之上的,以经典集合论为工具,用概率统计模型来描述信源,其压缩思想基于数据统计,因此只能去除数据冗余,属于低层压缩编码的范畴。  伴随着视频编码相关学科及新兴学科的迅速发展,新一代数据压缩技术不断诞生并日益成熟,其编码思想由基于像素和像素块转变为基于内容 (content-based)。它突破了仙农信息论框架的束缚,充分考虑了人眼视觉特性及信源特性,通过去除内容冗余来实现数据压缩,可分为基于对象(object-based)和基于语义(semantics-based)两种,前者属于中层压缩编码,后者属于高层压缩编码。  与此同时,视频编码相关标准的制定也日臻完善。视频编码标准主要由ITU-T和ISO/IEC开发。ITU-T发布的视频标准有H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公布的MPEG系列标准有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,并且计划公布MPEG-21。  MPEG即Moving Picture Expert Group(运动图像专家组),它是专门从事制定多媒体视音频压缩编码标准的国际组织。MPEG系列标准已成为国际上影响最大的多媒体技术标准,其中MPEG-1和MPEG-2是采用以仙农信息论为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术;MPEG-4(ISO/IEC 14496)则是基于第二代压缩编码技术制定的国际标准,它以视听媒体对象为基本单元,采用基于内容的压缩编码,以实现数字视音频、图形合成应用及交互式多媒体的集成。MPEG系列标准对VCD、DVD等视听消费电子及数字电视和高清晰度电视(DTV&&HDTV)、多媒体通信等信息产业的发展产生了巨大而深远的影响。

    六、MPEG-4视频编码核心思想及关键技术

      MPEG-4视频编码核心思想及技术研究"

    摘要

      MPEG-4是新一代基于内容的多媒体数据压缩编码国际标准,它与传统视频编码标准的最大不同在于第一次提出了基于对象的视频编码新概念。基于内容的交互性是MPEG-4标准的核心思想,这对于视频编码技术的发展方向及广泛应用都具有特别重要的意义。  刘达 毛加轩 文章来源:中国数据通信

    关键词

      MPEG-4 数据压缩 视频编码 视听对象 基于内容编码 视频对象提取 运动估计与补偿

    1 引言

      当今时代,信息技术和计算机互联网飞速发展,在此背景下,多媒体信息已成为人类获取信息的最主要载体,同时也成为电子信息领域技术开发和研究的热点。多媒体信息经数字化处理后具有易于加密、抗干扰能力强、可再生中继等优点,但同时也伴随海量数据的产生,这对信息存储设备及通信网络均提出了很高要求,从而成为阻碍人们有效获取和使用信息的重大瓶颈。  因此研究高效的多媒体数据压缩编码方法,以压缩形式存储和传输数字化的多媒体信息具有重要意义。作为多媒体技术的核心及关键,多媒体数据压缩编码近年来在技术及应用方面都取得了长足进展,它的进步和完善正深刻影响着现代社会的方方面面。

    2 视频编码研究与MPEG标准演进

      人类获取的信息中70%来自于视觉,视频信息在多媒体信息中占有重要地位;同时视频数据冗余度最大,经压缩处理后的视频质量高低是决定多媒体服务质量的关键因素。因此数字视频技术是多媒体应用的核心技术,对视频编码的研究已成为信息技术领域的热门话题。  视频编码的研究课题主要有数据压缩比、压缩/解压速度及快速实现算法三方面内容。以压缩/解压后数据与压缩前原始数据是否完全一致作为衡量标准,可将数据压缩划分为无失真压缩(即可逆压缩)和有失真压缩(即不可逆压缩)两类。  传统压缩编码建立在仙农信息论基础之上的,以经典集合论为工具,用概率统计模型来描述信源,其压缩思想基于数据统计,因此只能去除数据冗余,属于低层压缩编码的范畴。  伴随着视频编码相关学科及新兴学科的迅速发展,新一代数据压缩技术不断诞生并日益成熟,其编码思想由基于像素和像素块转变为基于内容 (content-based)。它突破了仙农信息论框架的束缚,充分考虑了人眼视觉特性及信源特性,通过去除内容冗余来实现数据压缩,可分为基于对象(object-based)和基于语义(semantics-based)两种,前者属于中层压缩编码,后者属于高层压缩编码。  与此同时,视频编码相关标准的制定也日臻完善。视频编码标准主要由ITU-T和ISO/IEC开发。ITU-T发布的视频标准有H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公布的MPEG系列标准有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,并且计划公布MPEG-21。  MPEG即Moving Picture Expert Group(运动图像专家组),它是专门从事制定多媒体视音频压缩编码标准的国际组织。MPEG系列标准已成为国际上影响最大的多媒体技术标准,其中MPEG-1和MPEG-2是采用以香农信息论为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术;MPEG-4(ISO/IEC 14496)则是基于第二代压缩编码技术制定的国际标准,它以视听媒体对象为基本单元,采用基于内容的压缩编码,以实现数字视音频、图形合成应用及交互式多媒体的集成。MPEG系列标准对VCD、DVD等视听消费电子及数字电视和高清晰度电视(DTV&&HDTV)、多媒体通信等信息产业的发展产生了巨大而深远的影响。

    3 MPEG-4视频编码核心思想及关键技术

      3.1 核心思想  在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代压缩编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷:  · 将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应;  · 不能对图像内容进行访问、编辑和回放等操作;  · 未充分利用人类视觉系统(HVS,Human Visual System)的特性。  MPEG-4则代表了基于模型/对象的第二代压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。  AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互操作的特性,它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。  MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。  MPEG-4 采用了新一代视频编码技术,它在视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视频对象,从而实现了从基于像素的传统编码向基于对象和内容的现代编码的转变,因而引领着新一代智能图像编码的发展潮流。  3.2 关键技术  MPEG-4除采用第一代视频编码的核心技术,如变换编码、运动估计与运动补偿、量化、熵编码外,还提出了一些新的有创见性的关键技术,并在第一代视频编码技术基础上进行了卓有成效的完善和改进。下面重点介绍其中的一些关键技术。  1. 视频对象提取技术  MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视频对象分割,是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点。  视频对象分割涉及对视频内容的分析和理解,这与人工智能、图像理解、模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善,计算机还不具有观察、识别、理解图像的能力;同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此,尽管MPEG-4 框架已经制定,但至今仍没有通用的有效方法去根本解决视频对象分割问题,视频对象分割被认为是一个具有挑战性的难题,基于语义的分割则更加困难。  目前进行视频对象分割的一般步骤是:先对原始视频/图像数据进行简化以利于分割,这可通过低通滤波、中值滤波、形态滤波来完成;然后对视频/图像数据进行特征提取,可以是颜色、纹理、运动、帧差、位移帧差乃至语义等特征;再基于某种均匀性标准来确定分割决策,根据所提取特征将视频数据归类;最后是进行相关后处理,以实现滤除噪声及准确提取边界。  在视频分割中基于数学形态理论的分水岭(watershed)算法被广泛使用,它又称水线算法,其基本过程是连续腐蚀二值图像,由图像简化、标记提取、决策、后处理四个阶段构成。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感,且未利用帧间信息,通常会产生图像过度分割。  2. VOP视频编码技术  视频对象平面(VOP,Video Object Plane)是视频对象(VO)在某一时刻的采样,VOP是MPEG-4视频编码的核心概念。MPEG-4在编码过程中针对不同VO采用不同的编码策略,即对前景VO的压缩编码尽可能保留细节和平滑;对背景VO则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应,而且使用户可与场景交互,从而既提高了压缩比,又实现了基于内容的交互,为视频编码提供了广阔的发展空间。  MPEG-4支持任意形状图像与视频的编解码。对于任意形状视频对象。对于极低比特率实时应用,如可视电话、会议电视,MPEG-4则采用VLBV(Very Low Bit-rate Video,极低比特率视频)核进行编码。  传统的矩形图在MPEG-4中被看作是VO的一种特例,这正体现了传统编码与基于内容编码在MPEG-4中的统一。VO概念的引入,更加符合人脑对视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化,从而提高了视频信号的交互性和灵活性,使得更广泛的视频应用及更多的内容交互成为可能。因此VOP视频编码技术被誉为视频信号处理技术从数字化进入智能化的初步探索。  3. 视频编码可分级性技术  随着因特网业务的巨大增长,在速率起伏很大的IP(Internet Protocol)网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多。在这种背景下,视频分级编码的重要性日益突出,其应用非常广泛,且具有很高的理论研究及实际应用价值,因此受到人们的极大关注。  视频编码的可分级性(scalability)是指码率的可调整性,即视频数据只压缩一次,却能以多个帧率、空间分辨率或视频质量进行解码,从而可支持多种类型用户的各种不同应用要求。  MPEG-4通过视频对象层(VOL,Video Object Layer)数据结构来实现分级编码。MPEG-4提供了两种基本分级工具,即时域分级(Temporal Scalability)和空域分级(Spatial Scalability),此外还支持时域和空域的混合分级。每一种分级编码都至少有两层VOL,低层称为基本层,高层称为增强层。基本层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。  在随后增补的视频流应用框架中,MPEG-4提出了FGS(Fine Granularity Scalable,精细可伸缩性)视频编码算法以及PFGS(Progressive Fine Granularity Scalable,渐进精细可伸缩性)视频编码算法。  FGS编码实现简单,可在编码速率、显示分辨率、内容、解码复杂度等方面提供灵活的自适应和可扩展性,且具有很强的带宽自适应能力和抗误码性能。但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足。  PFGS则是为改善FGS编码效率而提出的视频编码算法,其基本思想是在增强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿,以使运动补偿更加有效,从而提高编码效率。  4. 运动估计与运动补偿技术  MPEG-4采用I-VOP、P-VOP、B-VOP三种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索(half pixel searching)技术和重叠运动补偿(overlapped motion compensation)技术,同时又引入重复填充(repetitive padding)技术和修改的块(多边形)匹配(modified block (polygon)matching)技术以支持任意形状的VOP区域。  此外,为提高运动估计算法精度,MPEG-4采用了MVFAST(Motion Vector Field Adaptive Search Technique)和改进的PMVFAST(Predictive MVFAST)方法用于运动估计。对于全局运动估计,则采用了基于特征的快速顽健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。  在MPEG-4视频编码中,运动估计相当耗时,对编码的实时性影响很大。因此这里特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类,前者复杂度很高,实际中应用较少,后者则在H.263和MPEG中广泛采用。在块匹配法中,重点研究块匹配准则及搜索方法。目前有三种常用的匹配准则:  (1)绝对误差和(SAD, Sum of Absolute Difference)准则;  (2)均方误差(MSE, Mean Square Error)准则;  (3)归一化互相关函数(NCCF, Normalized Cross Correlation Function)准则。  在上述三种准则中,SAD准则具有不需乘法运算、实现简单方便的优点而使用最多,但应清楚匹配准则的选用对匹配结果影响不大。  在选取匹配准则后就应进行寻找最优匹配点的搜索工作。最简单、最可靠的方法是全搜索法(FS, Full Search),但计算量太大,不便于实时实现。因此快速搜索法应运而生,主要有交叉搜索法、二维对数法和钻石搜索法,其中钻石搜索法被MPEG-4校验模型(VM, Verification Model)所采纳,下面详细介绍。  钻石搜索(DS, Diamond Search)法以搜索模板形状而得名,具有简单、鲁棒、高效的特点,是现有性能最优的快速搜索算法之一。其基本思想是利用搜索模板的形状和大小对运动估计算法速度及精度产生重要影响的特性。在搜索最优匹配点时,选择小的搜索模板可能会陷入局部最优,选择大的搜索模板则可能无法找到最优点。因此DS算法针对视频图像中运动矢量的基本规律,选用了两种形状大小的搜索模板。  · 大钻石搜索模板(LDSP, Large Diamond Search Pattern),包含9个候选位置;  · 小钻石搜索模板(SDSP, Small Diamond Search Pattern),包含5个候选位置。  DS算法搜索过程如下:开始阶段先重复使用大钻石搜索模板,直到最佳匹配块落在大钻石中心。由于LDSP步长大,因而搜索范围广,可实现粗定位,使搜索不会陷于局部最小,当粗定位结束后,可认为最优点就在LDSP 周围8 个点所围菱形区域中。然后再使用小钻石搜索模板来实现最佳匹配块的准确定位,以不产生较大起伏,从而提高运动估计精度。  此外Sprite视频编码技术也在MPEG-4中应用广泛,作为其核心技术之一。Sprite又称镶嵌图或背景全景图,是指一个视频对象在视频序列中所有出现部分经拼接而成的一幅图像。利用Sprite可以直接重构该视频对象或对其进行预测补偿编码。  Sprite视频编码可视为一种更为先进的运动估计和补偿技术,它能够克服基于固定分块的传统运动估计和补偿技术的不足,MPEG-4正是采用了将传统分块编码技术与Sprite编码技术相结合的策略。

    4 结束语

      多媒体数据压缩编码的发展趋势是基于内容的压缩,这实际上是信息处理的高级阶段,更加向人自身的信息处理方式靠近。人的信息处理并不是基于信号的,而是基于一个比较抽象的、能够直接进行记忆和处理的方式。  MPEG-4作为新一代多媒体数据压缩编码的典型代表,它第一次提出了基于内容、基于对象的压缩编码思想。它要求对自然或合成视听对象作更多分析甚至是理解,这正是信息处理的高级阶段,因而代表了现代数据压缩编码技术的发展方向。  MPEG-4实现了从矩形帧到VOP的转变以及基于像素的传统编码向基于对象和内容的现代编码的转变,这正体现了传统视频编码与新一代视频编码的有机统一。基于内容的交互性是MPEG-4的核心思想,这对于视频编码技术的发展方向及广泛应用都具有特别重要的意义。

    MPEG-4的应用

    (1)应用于因特网视音频广播

      由于上网人数与日俱增,传统电视广播的观众逐渐减少,随之而来的便是广告收入的减少,所以现在的固定式电视广播最终将转向基于TCP/IP的因特网广播,观众的收看方式也由简单的遥控器选择频道转为网上视频点播。视频点播的概念不是先把节目下载到硬盘,然后再播放,而是流媒体视频(streaming video),点击即观看,边传输边播放。  现在因特网中播放视音频的有:Real Networks公司的 Real Media,微软公司的 Windows Media,苹果公司的 QuickTime,它们定义的视音频格式互不兼容,有可能导致媒体流中难以控制的混乱,而MPEG-4为因特网视频应用提供了一系列的标准工具,使视音频码流具有规范一致性。因此在因特网播放视音频采用MPEG-4,应该说是一个安全的选择。

    (2)应用于无线通信

      MPEG-4高效的码率压缩,交互和分级特性尤其适合于在窄带移动网上实现多媒体通信,未来的手机将变成多媒体移动接收机,不仅可以打移动电视电话、移动上网,还可以移动接收多媒体广播和收看电视。

    (3)应用于静止图像压缩

      静止图像(图片)在因特网中大量使用,现在网上的图片压缩多采用JPEG技术。 MPEG-4中的静止图像(纹理)压缩是基于小波变换的,在同样质量条件下,压缩后的文件大小约是JPEG压缩文件的十分之一。把因特网上使用的JPEG 图片转换成MPEG-4格式,可以大幅度提高图片在网络中的传输速度。

    (4)应用于电视电话

      传统用于窄带电视电话业务的压缩编码标准,如H261,采用帧内压缩、帧间压缩、减少象素和抽帧等办法来降低码率,但编码效率和图像质量都难以令人满意。MPEG-4的压缩编码可以做到以极低码率传送质量可以接受的声像信号,使电视电话业务可以在窄带的公用电话网上实现。

    (5)应用于计算机图形、动画与仿真

      MPEG-4特殊的编码方式和强大的交互能力,使得基于MPEG-4的计算机图形和动画可以从各种来源的多媒体数据库中获取素材,并实时组合出所需要的结果。因而未来的计算机图形可以在MPEG-4语法所允许的范围内向所希望的方向无限发展,产生出今天无法想象的动画及仿真效果。

    (6)应用于电子游戏

      MPEG-4可以进行自然图像与声音同人工合成的图像与声音的混合编码,在编码方式上具有前所未有的灵活性,并且能及时从各种来源的多媒体数据库中调用素材。这可以在将来产生象电影一样的电子游戏,实现极高自由度的交互式操作。

    (7)硬件产品上面的应用

      目前,MPEG4技术在硬件产品上也已开始逐步得到应用。特别是在视频监控、播放上,这项高清晰度,高压缩的技术得到了众多硬件厂商的钟爱,而市场上支持MPEG4技术的产品也是种类繁多。下面笔者就列举一些代表性的产品,旨在让读者了解MPEG4技术在今天应用范围之广。  (1)、摄像机:日本夏普公司推出过应用在互联网上的数字摄像机VN-EZ1。这台网络摄像机利用MPEG4格式,可把影像文件压缩为ASF(高级流格式),用户只要利用微软公司的MediaPlayer播放程序,就可以直接在电脑上进行播放。  (2)、播放机:飞利浦公司于今年八月份推出了一款支持DivX的DVD播放机DVD737。它可以支持DivX 3.11、4.xx、5.xx等MPEG4标准,而对于新标准的支持则可以通过升级固件来实现。(3)、数码相机:日本京瓷公司在11月中旬发售其最新款数码相机Finecam L30,这款是采用300万像素、3倍光学变焦设计的数码相机产品, L30采用了MPEG4格式动态视频录制,可以让动态视频录制画面效果比传统数码相机更出色。  (4)、手机:在手机领域,MPEG4技术更是得到了广泛的应用,各大手机厂商也都推出了可拍摄MPEG4动态视频的手机型号,如西门子ST55、索尼爱立信P900/P908、LG 彩屏G8000等。  (5)、MPEG4数字硬盘:在今年深圳举行的安防展览会上,开发数字录像监控产品的厂家纷纷推出了他们的最新产品,而支持MPEG4的DVR压缩技术也成为改展会上的亮点。

    综述

      如北京华青紫博科技推出的"E眼神MPEG4数字视频王"便是一款基于网络环境的高清晰数字化监控报警系统。内置多画面处理器,集现场监控、监听、多路同时数字录像与回放等多种功能为一体。  其实,市场上还有许多基于MPEG4技术的硬件产品,笔者这里就不一一列举了,不过笔者相信,随着视频压缩技术的不断发展,MPEG4技术的产品会越来越多的出现在我们生活,工作中。

    展开全文
  • 图像质量是 MPEG-1 无法比拟的)。 MPEG  系列标准已成为国际上影响最大的多媒体技术标准,其中 MPEG-1  和  MPEG-2  是采用相同原理为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术;...
    这类格式包括了MPEG-1,MPEG-2 MPEG-4在内的多种视频格式。MPEG-1 相信是大家接触得最多的了,因为其正在被广泛地应用在VCD 的制作和一些视频片段下载的网络应用上面,大部分的VCD 都是用 MPEG1 格式压缩的(刻录软件自动将MPEG1 转换为DAT格式,使用MPEG-1 的压缩算法,可以把一部120 分钟长的电影压缩到 1.2 GB 左右大小。MPEG-2 则是应用在DVD 的制作,同时在一些HDTV(高清晰电视广播)和一些高要求视频编辑、处理上面也有相当多的应用。使用MPEG-2 的压缩算法压缩一部120 分钟长的电影可以压缩到5-8 GB 的大小(MPEG2 的图像质量是MPEG-1无法比拟的)。MPEG 系列标准已成为国际上影响最大的多媒体技术标准,其中MPEG-1 和 MPEG-2 是采用相同原理为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术;MPEG-4ISO/IEC 14496)则是基于第二代压缩编码技术制定的国际标准, 它以视听媒体对象为基本单元, 采用基于内容的压缩编码,以实现数字视音频、图形合成应用及交互式多媒体的集成。MPEG 系列标准对VCDDVD 等视听消费电子及数字电视和高清晰度电视(DTV&&HDTV)、多媒体通信等信息产业的发展产生了巨大而深远的影响。
    展开全文
  • PHP动态图像处理zc

    2017-08-20 21:43:00
    在PHP中,通过GD库处理图像,大致的形式就是现在内容里面生成图像, 然后绘制图像,最后输出到浏览器或者将其保存到服务器的磁盘上。...如果想要动态绘制图像,首先就必须要有画布。创建画布的过程事实上就是在...

    PHP中的GD库的使用

    PHP中,通过GD库处理图像,大致的形式就是现在内容里面生成图像, 然后绘制图像,最后输出到浏览器或者将其保存到服务器的磁盘上。

    创建一个图片大致的步骤如下:

    1. 创建画布

    所有的绘图都需要在一个画布上面进行绘制。所谓创建画布,事实上就是在内存里面开辟一个区域,用来存储图像的信息的。

     

    如果想要动态绘制图像,首先就必须要有画布。创建画布的过程事实上就是在内存中开辟一个区域。

     

    PHP里面创建画布有两个函数:

     

    imagecreate(宽,高):新建一幅指定宽高的基于调色板的画布

     

    imagecreatetruecolor(宽,高):新建一幅真彩色的画布

     

    两个函数创建的画布基本上是一样的,唯一的区别在于容纳颜色的数量不一样。真彩色所能容纳的颜色总数要多一些。但是真彩色也有一个缺点:不能用于GIF文件格式

     

     

    1. 绘制图像

    画布创建完之后,可以通过这个画布资源,使用各种画像函数来设置图像的颜色,填充画布,画点,画线,添加文本等

     

    在绘制图像之前,我们需要创建颜色,然后才能通过相应的颜色进行绘画。这里创建颜色我们可以理解为创建颜料的过程,需要什么颜色,就创建什么颜色即可。

    PHP里面创建颜色的函数为:

    imagecolorallocate(图像资源,红值,绿值,蓝值)

    1. 输出图像

    完成整个图像的绘制以后,需要将图像以某种格式保存到服务器指定的下面,或者将其直接输出到浏览器上面,不需要保存。在输出图像之前,一定要使用header()函数来设置MIME信息,通知浏览器这次发送的是上面文件

     

    1. 释放资源

    图像被输出以后,画布中的内容也就没用了,所以我们需要释放所占有的资源,节约内容

     

    关于使用PHP动态生成图像,一般不会用来生成很复杂的图片。一般就是用来生成简单的图片:验证码,给图片加水印

     

     

    关于图像的格式

     

    这里先来介绍一下图像的格式:

     

    (1) GIF

     

    中文名叫做:图形文件交换格式(Graphics Interchange Format).该格式是一种无损的压缩格式,该格式的缺点是支持的颜色较少,但是有一个优点:可以制作动画

     

    (2) JPEG

     

    翻译成中文为:联合图像专家组(Joint Photographic Expert Group)。该格式的文件扩展名一般为jpeg或者jpg

     

    该格式的优点在于能够存储颜色丰富的色彩和色彩层次的图像。该格式使用了有损压缩,但是压损的程度人眼是可以忍受的。Jpg不适合绘制像线条,文本,颜色这些较为简单的图片

     

    (3) PNG

     

    翻译成中文:可移植网络图像,首先该格式的图像使用的是无损压缩。该格式就比较适合绘制像线条,文本,颜色这些较为简单的图片

     

    PNG还有一个最大的优点,支持透明

     

    (4) WBMP

     

    翻译成中文为无线位图,是专门为无线通信设备设计的格式,但是并没有得到广泛的使用

     

     

     

    总结:GIF的优点在于可以制作动画图片,JPEG的优点在于颜色丰富,PNG的优点在于支持透明色

     

     

     

    图像的输出

     

    PHP中,可以动态绘制完图像,然后利用函数直接生成GIFJPEGPNGWBMP格式的图像。

     

    imagegif(图像资源,[输出文件])

     

    imagejpeg(图像资源,[输出文件,品质])

     

    imagepng (图像资源,[输出文件])

     

    imagewbmp(图像资源,[输出文件,前景色])

     

     

     

    如果第二参数填写了,则保存在填写的路径下面,如果没有填写第二个参数,则直接向浏览器输出。

     

    转载于:https://www.cnblogs.com/1028422TL/p/7401599.html

    展开全文
  • 本实验对象为34脑血管狭窄患者的HRMR图像,通过与专家手动分割结果对比,斑块的平均分割准确度达到90.16%。研究结果表明,本方法不仅能够提高斑块的分割精度,完整地保留颅内斑块的弱边缘信息,同时还可以避免不同...
  • 图像处理基本算法 动态阈值分割

    万次阅读 多人点赞 2012-02-11 16:18:32
    图像处理时,受外界光线的干扰一般比较大,假如在阈值分割时采用固 定阈值,那么在环境改变时分割效果受影响极大,那么为了避免此影响就 必须采用动态阈值,自动求出合适的阈值进行分割。 本文的介绍几...

    在图像处理时,受外界光线的干扰一般比较大,假如在阈值分割时采用固


    定阈值,那么在环境改变时分割效果受影响极大,那么为了避免此影响就


    必须采用动态阈值,自动求出合适的阈值进行分割。
    本文的介绍几种主要的图像分割方法,并给出自动阈值分割的源代码




    图像分割是图像处理与计算机视觉领域低层次视觉中最为基础和重要的领域之一,它是对图像进行视觉分析和模式识别的基本前提.阈值法是一种传统的图像分割方法,因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术.已被应用于很多的领域。本文是在阅读大量国内外相关文献的基础上,对阈值分割技术稍做总结,分三个大类综述阈值选取方法,然后对阈值化算法的评估做简要介绍。


    1.引言
    所谓图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内,表现出一致性或相似性,而在不同区域间表现出明显的不同[37].简单的讲,就是在一幅图像中,把目标从背景中分离出来,以便于进一步处理。图像分割是图像处理与计算机视觉领域低层次视觉中最为基础和重要的领域之一,它是对图像进行视觉分析和模式识别的基本前提.同时它也是一个经典难题,到目前为止既不存在一种通用的图像分割方法,也不存在一种判断是否分割成功的客观标准。
    阈值法是一种传统的图像分割方法,因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术.已被应用于很多的领域,例如,在红外技术应用中,红外无损检测中红外热图像的分割,红外成像跟踪系统中目标的分割;在遥感应用中,合成孔径雷达图像中目标的分割等;在医学应用中,血液细胞图像的分割,磁共振图像的分割;在农业工程应用中,水果品质无损检测过程中水果图像与背景的分割。在工业生产中,机器视觉运用于产品质量检测等等。在这些应用中,分割是对图像进一步分析、识别的前提,分割的准确性将直接影响后续任务的有效性,其中阈值的选取是图像阈值分割方法中的关键技术。


    2.阈值分割的基本概念
    图像阈值化分割是一种最常用,同时也是最简单的图像分割方法,它特别适用于目标和背景占据不同灰度级范围的图像[1]。它不仅可以极大的压缩数据量,而且也大大简化了分析和处理步骤,因此在很多情况下,是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。图像阈值化的目的是要按照灰度级,对像素集合进行一个划分,得到的每个子集形成一个与现实景物相对应的区域,各个区域内部具有一致的属性,而相邻区域布局有这种一致属性。这样的划分可以通过从灰度级出发选取一个或多个阈值来实现。
    阈值分割法是一种基于区域的图像分割技术,其基本原理是:通过设定不同的特征阈值,把图像像素点分为若干类.常用的特征包括:直接来自原始图像的灰度或彩色特征;由原始灰度或彩色值变换得到的特征.设原始图像为f(x,y),按照一定的准则在f(x,y)中找到特征值T,将图像分割为两个部分,分割后的图像为


     
    若取 :b0=0(黑),b1=1(白),即为我们通常所说的图像二值化。


       
              (原始图像)    (阈值分割后的二值化图像)


    一般意义下,阈值运算可以看作是对图像中某点的灰度、该点的某种局部特性以及该点在图像中的位置的一种函数,这种阈值函数可记作
        T(x,y,N(x,y),f(x,y))
    式中,f(x,y)是点(x,y)的灰度值;N(x,y)是点(x,y)的局部邻域特性.根据对T的不同约束,可以得到3种不同类型的阈值[37],即
        点相关的全局阈值T=T(f(x,y))  
    (只与点的灰度值有关)
    区域相关的全局阈值T=T(N(x,y),f(x,y))  
    (与点的灰度值和该点的局部邻域特征有关)
        局部阈值或动态阈值T=T(x,y,N(x,y),f(x,y))
    (与点的位置、该点的灰度值和该点邻域特征有关)


    图像阈值化这个看似简单的问题,在过去的四十年里受到国内外学者的广泛关注,产生了数以百计的阈值选取方法[2-9],但是遗憾的是,如同其他图像分割算法一样,没有一个现有方法对各种各样的图像都能得到令人满意的结果,甚至也没有一个理论指导我们选择特定方法处理特定图像。
    所有这些阈值化方法,根据使用的是图像的局部信息还是整体信息,可以分为上下文无关(non-contextual)方法(也叫做基于点(point-dependent)的方法)和上下文相关(contextual)方法(也叫做基于区域(region-dependent)的方法);根据对全图使用统一阈值还是对不同区域使用不同阈值,可以分为全局阈值方法(global thresholding)和局部阈值方法(local thresholding,也叫做自适应阈值方法adaptive thresholding);另外,还可以分为双阈值方法(bilever thresholding)和多阈值方法(multithresholding)
    本文分三大类对阈值选取技术进行综述:
    1) 基于点的全局阈值方法;
    2) 基于区域的全局阈值方法
    3) 局部阈值方法和多阈值方法




    3.基于点的全局阈值选取方法
    3.1  p-分位数法
    1962年Doyle[10]提出的p-分位数法(也称p-tile法)可以说是最古老的一种阈值选取方法。该方法使目标或背景的像素比例等于其先验概率来设定阈值,简单高效,但是对于先验概率难于估计的图像却无能为力。
    例如,根据先验知识,知道图像目标与背景象素的比例为PO/PB,则可根据此条件直接在图像直方图上找到合适的阈值T,使得f(x,y)>=T的象素为目标,f(x,y)<T的象素为背景。


    3.2  迭代方法选取阈值[11]
    初始阈值选取为图像的平均灰度T0,然后用T0将图像的象素点分作两部分,计算两部分各自的平均灰度,小于T0的部分为TA,大于T0的部分为TB
    计算   ,将T1 作为新的全局阈值代替T0,重复以上过程,如此迭代,直至TK 收敛,即TK+1 =TK 
    经试验比较,对于直方图双峰明显,谷底较深的图像,迭代方法可以较快地获得满意结果。但是对于直方图双峰不明显,或图像目标和背景比例差异悬殊,迭代法所选取的阈值不如最大类间方差法。


    3.3  直方图凹面分析法
    从直观上说,图像直方图双峰之间的谷底,应该是比较合理的图像分割阈值,但是实际的直方图是离散的,往往十分粗糙、参差不齐,特别是当有噪声干扰时,有可能形成多个谷底。从而难以用既定的算法,实现对不同类型图像直方图谷底的搜索。
    Rosenfeld和Torre[12]提出可以构造一个包含直方图 的最小凸多边形 ,由集差 确定 的凹面。若 和 分别表示 与 在灰度级之处的高度,则 取局部极大值时所对应的灰度级可以作为阈值。也有人使用低通滤波的方法平滑直方图,但是滤波尺度的选择并不容易[13]。
    但此方法仍然容易受到噪声干扰,对不同类型的图像,表现出不同的分割效果。往往容易得到假的谷底。但此方法对某些只有单峰直方图的图像,也可以作出分割。如:
     


    3.4 最大类间方差法
    由Otsu[14]于1978年提出的最大类间方差法以其计算简单、稳定有效,一直广为使用。从模式识别的角度看,最佳阈值应当产生最佳的目标类与北京类的分离性能,此性能我们用类别方差来表征,为此引入类内方差 、类间方差 和总体方差 ,并定义三个等效的准则测量:
     ,  ,  .                 (3)
    鉴于计算量的考量,人们一般通过优化第三个准则获取阈值。此方法也有其缺陷,kittler和Illingworth[15]的实验揭示:当图像中目标与背景的大小之比很小时方法失效。
     在实际运用中,往往使用以下简化计算公式:
       (T) = WA(μa-μ)2  + Wb(μb-μ)2 
    其中, 为两类间最大方差,WA 为A类概率,μa为A类平均灰度,Wb 为B类概率,μb为B类平均灰度,μ为图像总体平均灰度。
    即阈值T将图像分成A,B两部分,使得两类总方差 (T)取最大值的T,即为最佳分割阈值。


    3.5 熵方法
    八十年代以来,许多学者将Shannon信息熵的概念应用于图像阈值化,其基本思想都是利用图像的灰度分布密度函数定义图像的信息熵,根据假设的不同或视角的不同提出不同的熵准则,最后通过优化该准则得到阈值。Pun[16]通过使后验熵的上限最大来确定阈值。Kapur等人[17]的方法假定目标和背景服从两个不同的概率分布 和 定义
                     (4)
    使得熵
                               (5)
    达到最大求得最佳阈值。
    此方法又称为KSW熵方法。


    3.6 最小误差阈值
    此方法来源于Bayes最小误差分类方法。
     
    Eb(T)是目标类错分到背景类的概率,Eo(T)是背景类错分到目标类的概率
    总的误差概率 E(T) = Eb(T) + Eo(T)
    使E(T)取最小值,即为最优分类方法。


    在Kittler和Illingworth[18]于1986年提出的最小误差法中,直方图被视为目标与背景混合集概率密度函数 的估计
                     (9)
    其中, 为先验概率, ,求解下列方程可得到Bayes最小误差阈值
                            (10)
    遗憾的是上式中 , 和 通常是未知的,Nakagawa和Rosenfeld[19]提倡用拟合方法从直方图中估计这些参数,但是算法相当复杂,不易实现。




    3.7 矩量保持法
    矩量保持(moment-preserving)法[20] ,即矩守恒阈值法,是1985年提出的,其基本思想是最佳的阈值应该使分割前后图像的矩量保持不变,由此可以得到一组矩量保持方程,求解该方程组就可以得到最佳阈值。


    3.8 模糊集方法
    模糊集理论较好的描述了人类视觉中的模糊性和随机性,因此在图像阈值化领域受到了广泛的关注。模糊集阈值化方法的基本思想是,选择一种S状的隶属度函数定义模糊集,隶属度为0.5的灰度级对应了阈值,当然在上述隶属度函数的表达式中阈值是一个未知的参数;然后在此模糊集上定义某种准则函数(例如整个图像的总体模糊度),通过优化准则函数来确定最佳阈值。
    Pal等[21]首先,他们把一幅具有 个灰度级的 图像看作一个模糊集 ,其中隶属函数 定义如下:
                   (11)
    参数 称之为交叉点(即 )。由此从图像 的空间 平面得到模糊特性 平面。然后,基于此模糊集定义了图像的线性模糊度 、二次模糊度 和模糊熵 ,使这三个量取最小值时的交叉点 即为最佳阈值。
    文献[21]指出模糊隶属度函数在该算法中的作用仅在于将图像由灰度数据空间转换为模糊空间 ,其函数的形式对增强结果几乎没有影响。这就使我们有理由使用一些形式简单的函数形式。例如国内学者发表的一种模糊阈值方法[22]:
     
    隶属度μ(x)表示灰度x具有明亮特性的程度,c为隶属函数窗宽,q对应隶属度为0.5的灰度级。设灰度级 的模糊率为:
      = min{μ(l),1-μ(l)}
    则得到整幅图像的模糊率[44] 
     
    其中,MN为图像尺寸,L为图像总灰度级, 图像中灰度为 的象素个数。
    对应于不同的q值,就可以计算出相应的图像模糊率,选取使得 最小的q值,作为图像分割的最佳阈值即可。


    3.9 小结
    对于基于点的全局阈值选取方法,除上述主要几种之外还许多,但大多都是以上述基本方法为基础,做出的改进方法或者对算法的优化,如使用递推方法以降低算法复杂性。
    例如在文献[42]中,提出一种使目标和背景差距最大的阈值求取方法,类似于最大类间方差阈值法。是它的一种简化算法。
    又如1984年Dunn等人[23]提出了均匀化误差阈值选取方法,这种方法实质上是要使将背景点误分为目标点的概率等于将目标点误分为背景点的概率。类似于最小误差阈值法。
    近年来有一些新的研究手段被引入到阈值选取中。比如人工智能,在文献[24] 中,描述了如何用人工智能的方法,寻找直方图的谷底点,作为全局阈值分割。其它如神经网络,数学形态学[39][46],小波分析与变换[40]等等。
    总的来说,基于点的全局阈值算法,与其它几大类方法相比,算法时间复杂度较低,易于实现,适合应用于在线实时图像处理系统。由于我的研究方向为机器视觉,所作的项目要求算法具有良好的实时性,因此针对基于点的全局阈值方法,阅读了较多的文献,在综述里叙述也相对比较详细。


    4 基于区域的全局阈值选取方法
    对一幅图像而言,不同的区域,比如说目标区域或背景区域,同一区域内的象素,在位置和灰度级上同时具有较强的一致性和相关性。
    而在上述基于点的全局阈值选取方法中,有一个共同的弊病,那就是它们实际上只考虑了直方图提供的灰度级信息,而忽略了图像的空间位置细节,其结果就是它们对于最佳阈值并不是反映在直方图的谷点的情况会束手无策,不幸我们通常遇到的很多图像恰恰是这种情况。另一方面,完全不同的两幅图片却可以有相同的直方图,所以即使对于峰谷明显的情况,这些方法也不能保证你得到合理的阈值。于是,人们又提出了很多基于空间信息的阈值化方法。
    可以说,局域区域的全局阈值选取方法,是基于点的方法,再加上考虑点领域内象素相关性质组合而成,所以某些方法常称为“二维xxx方法”。由于考虑了象素领域的相关性质,因此对噪声有一定抑止作用[41]。
    4.1 二维熵阈值分割方法[25]
    使用灰度级-局域平均灰度级形成的二维灰度直方图[43]进行阈值选取,这样就得到二维熵阈值化方法。
     
    (二维灰度直方图: 灰度-领域平均灰度)
    如图,在0区和1区,象素的灰度值与领域平均灰度值接近,说明一致性和相关性较强,应该大致属于目标或背景区域;2区和3区一致性和相关性较弱,可以理解为噪声或边界部分。二维熵阈值分割,就是选择(S,T)对,使得目标类和背景类的后验熵最大。(具体方法是一维熵阈值分割的推广,可参见上一节)
    Abutaleb[26],和Pal]结合Kapur]和Kirby的方法,分别提出了各自的二维熵阈值化方法,其准则函数都是使目标熵和背景熵之和最大化。Brink[27]的方法则是使这两者中的较小者最大化,该方法的计算复杂度为 ,后来有人改进为递推快速算法将时间复杂度降为 (其中 为最大灰度级数)。 


    4.2  简单统计法
    Kittler等人[28],[29]提出一种基于简单的图像统计的阈值选取方法。使用这种方法,阈值可以直接计算得到,从而避免了分析灰度直方图,也不涉及准则函数的优化。该方法的计算公式为
                             (19)
    其中, 
        
        
    因为e(x,y)表征了点(x,y)领域的性质,因此本方法也属于基于区域的全局阈值法。


    4.3  直方图变化法
    从理论上说,直方图的谷底是非常理想的分割阈值,然后在实际应用中,图像常常受到噪声等的影响而使其直方图上原本分离的峰之间的谷底被填充,或者目标和背景的峰相距很近或者大小差不多,要检测他们的谷底就很难了。
    在上一节基于点的全局阈值方法中,我们知道直方图凹面分析法的弊病是容易受到噪声干扰,对不同类型的图像,表现出不同的分割效果。往往容易得到假的谷底。这是由于原始的直方图是离散的,而且含噪声,没有考虑利用象素领域性质。
    而直方图变化法,就是利用一些象素领域的局部性质变换原始的直方图为一个新的直方图。这个新的直方图与原始直方图相比,或者峰之间的谷底更深,或者谷转变成峰从而更易于检测。这里的象素领域局部性质,在很多方法中经常用的是象素的梯度值。
     例如,由于目标区的象素具有一定的一致性和相关性,因此梯度值应该较小,背景区也类似。而边界区域或者噪声,就具有较大的梯度值。最简单的直方图变换方法,就是根据梯度值加权,梯度值小的象素权加大,梯度值大的象素权减小。这样,就可以使直方图的双峰更加突起,谷底更加凹陷。


    4.4 其它基于区域的全局阈值法
    松弛法利用邻域约束条件迭代改进线性方程系统的收敛特性,当用于图像阈值化时其思想是:首先根据灰度级按概率将像素分为“亮”和“暗”两类,然后按照领域像素的概率调整每个像素的概率,调整过程迭代进行,使得属于亮(暗)区域的像素“亮(暗)”的概率变得更大。
    其它还有许多方法利用灰度值和梯度值散射图,或者利用灰度值和平均灰度值散射图。


    5 局部阈值法和多阈值法


    5.1 局部阈值(动态阈值)
    当图像中有如下一些情况:有阴影,照度不均匀,各处的对比度不同,突发噪声,背景灰度变化等,如果只用一个固定的全局阈值对整幅图像进行分割,则由于不能兼顾图像各处的情况而使分割效果受到影响。有一种解决办法就是用与象素位置相关的一组阈值(即阈值使坐标的函数)来对图像各部分分别进行分割。这种与坐标相关的阈值也叫动态阈值,此方法也叫变化阈值法,或自适应阈值法。这类算法的时间复杂性可空间复杂性比较大,但是抗噪能力强,对一些用全局阈值不易分割的图像有较好的效果。
    例如,一幅照度不均(左边亮右边暗)的原始图像为:

    如果只选择一个全局阈值进行分割,那么将出现下面两种情况,都不能得到满意的效果。


                    
    (阈值低,对亮区效果好,则暗区差)          (阈值高,对暗区效果好,则亮区差)


    若使用局部阈值,则可分别在亮区和暗区选择不同的阈值,使得整体分割效果较为理性。


     
    (按两个区域取局部阈值的分割结果)
    进一步,若每个数字都用不同的局部阈值,则可达到更理想的分割效果。

    /************************************************************************/
    /* 全局阈值分割  自动求取阈值        */
    /************************************************************************/
    //自动求取阈值,增加对场景的适应性
    //只需求取一次,之后就可以一直使用
    #include<cv.h>
    #include <highgui.h>
    #include <iostream>
    #include <math.h>
    using namespace std;
    int main(){
    	IplImage * image,* image2;
    	image = cvLoadImage("E:\\image\\dowels.tif",0);
    	cvNamedWindow("image",1);
    	cvShowImage("image",image);
    	image2 = cvCreateImage(cvSize(image->width,image->height),image->depth,1);
    	double T = 0;
    	double dT0 = 1.0;//阈值求取结束标志
    	double dT = 255.0;
    
    	//求取平均灰度,作为阈值T的初始值T0
    	  int i, j;
         double T0 = 0,T1 = 0,T2 = 0;//初始阈值
    	 int count1,count2;
    	 unsigned char * ptr,*dst;
    	 for (i = 0 ; i< image->height ; i++)
    	 {
    		 for (j =0 ; j < image->width;j++)
    		 {
    			 ptr = (unsigned char *)image->imageData + i*image->widthStep + j;
    			 T0 += ((double)(*ptr))/image->width/image->height;
    		 }
    	 }
    	 cout<<"T0:     "<<T0<<endl;
    	 T = (int)(T0 + 0.5); 
    	 //计算T两侧的灰度平均值,然后把二者的均值赋值给T
    	 while (dT > dT0)
    	 {
    
    		 T1 = 0;
    		 T2 = 0;
    		 count1 = 0;
    		 count2 = 0;
    		 for (i = 0 ; i< image->height ; i++)
    		 {
    			 for (j =0 ; j < image->width;j++)
    			 {
    				 ptr = (unsigned char *)image->imageData + i*image->widthStep + j;
    				if (*ptr > T)
    				{
    					T1 += ((double)(*ptr))/image->width/image->height;
    					count1++;
    				} 
    				else if(*ptr < T)
    				{
    					T2 +=  ((double)(*ptr))/image->width/image->height;
    					count2++;
    				}
    			 }
    		 }
    
    		 T1 = T1*image->width*image->height/count1;
    		 T2 = T2*image->width*image->height/count2;
    		 dT = fabs(T - (T1 + T2)/2);
    		  
    		 cout<<"T1"<<T1<<endl;
    		 cout<<"T2"<<T2<<endl;
    		 cout<<"dT  " << dT<<endl;
    		 T = (T1 + T2)/2;
    		 cout<<"T:     "<<T<<endl;
    	 }
    	 
    
    
    	 //根据求取的阈值进行分割
    	 for (i = 0 ; i< image2->height ; i++)
    	 {
    		 for (j =0 ; j < image2->width;j++)
    		 {
    			 ptr = (unsigned char *)image->imageData + i*image->widthStep + j;
    			  dst = (unsigned char *)image2->imageData+i*image2->widthStep+j;
    			if (*ptr > T)
    			{
    				*dst = 255;
    			} 
    			else
    			{
    				*dst =0;
    			}
    		 }
    	 }
    
    	 cvNamedWindow("image2",1);
    	 cvShowImage("image2",image2);
    	 cvSaveImage("E:\\image\\dowels2.tif",image2);
    	 cvWaitKey(0);
    	 return 0;
    }




    5.1.1 阈值插值法
     首先将图像分解成系列子图,由于子图相对原图很小,因此受阴影或对比度空间变化等带来的问题的影响会比较小。然后对每个子图计算一个局部阈值(此时的阈值可用任何一种固定阈值选取方法)。通过对这些子图所得到的阈值进行插值,就可以得到对原图中每个象素进行分割所需要的合理阈值。这里对应每个象素的阈值合起来构成的一个曲面,叫做阈值曲面。


    5.1.2 水线阈值算法
    水线(也称分水岭或流域,watershed)阈值算法可以看成是一种特殊的自适应迭代阈值方法,它的基本思想是:初始时,使用一个较大的阈值将两个目标分开,但目标间的间隙很大;在减小阈值的过程中,两个目标的边界会相向扩张,它们接触前所保留的最后像素集合就给出了目标间的最终边界,此时也就得到了阈值。


    5.1.3 其它的局部阈值法
    文献[30]提出了一种基于阈值曲面的二维遗传算法。遗传算法是基于进化论中自然选择机理的、并行的、统计的随机化搜索方法,所以在图像处理中常用来确定分割阈值。
     文献[31] [32]中提出一种基于局部梯度最大值的插值方法。首先平滑图像,并求得具有局部梯度最大值的像素点,然后利用这些像素点的位置和灰度在图像上内插,得到灰度级阈值表面。
    除此之外,典型的局部阈值方法还有White和Rohrer[33]的加权移动平均阈值方法,Perez和Gonzalez[34]的适用于非均匀照射下图像的局部阈值方法以及Shio[35]的与照射无关的对比度度量阈值方法等。总的来说,这类算法的时间和空间复杂度都较大,但是抗噪能力强,对一些使用全局阈值法不宜分割的图像具有较好的效果。


    5.2 多阈值法
    很显然,如果图像中含有占据不同灰度级区域的几个目标,则需要使用多个阈值才能将它们分开。其实多域值分割,可以看作单阈值分割的推广,前面讨论的大部分阈值化技术,诸如Otsu的最大类间方差法, Kapur的最大熵方法、矩量保持法和最小误差法等等都可以推广到多阈值的情形。以下介绍另外几种多阈值方法。
    5.2.1 基于小波的多域值方法。
    小波变换的多分辨率分析能力也可以用于直方图分析[36],一种基于直方图分析的多阈值选取方法思路如下:首先在粗分辨率下,根据直方图中独立峰的个数确定分割区域的类数,这里要求独立峰应该满足三个条件:(1)具有一定的灰度范围;(2)具有一定的峰下面积;(3)具有一定的峰谷差。然后,在相邻峰之间确定最佳阈值,这一步可以利用多分辨的层次结构进行。首先在最低分辨率一层进行,然后逐渐向高层推进,直到最高分辨率。可以基于最小距离判据对在最低层选取的所有阈值逐层跟踪,最后以最高分辨率层的阈值为最佳阈值。
    5.2.2 基于边界点的递归多域值方法。
    这是一种递归的多阈值方法。首先,将象素点分为边界点和非边界点两类,边界点再根据它们的邻域的亮度分为较亮的边界点和较暗的边界点两类,然后用这两类边界点分别作直方图,取两个直方图中的最高峰多对应的灰度级作为阈值。接下去,再分别对灰度级高于和低于此阈值的像素点递归的使用这一方法,直至得到预定的阈值数。


    5.2.3 均衡对比度递归多域值方法。
    首先,对每一个可能阈值计算它对应于它的平均对比度
                                             
    其中, 是阈值为 时图像总的对比度, 是阈值 检测到的边界点的数目。然后,选择 的直方图上的峰值所对应的灰度级为最佳阈值。对于多阈值情形,首先用这种方法确定一个初始阈值,接着,去掉初始阈值检测到的边界点的贡献再做一次 的直方图,并依据新的直方图选择下一个阈值。这一过程可以这样一直进行下去,直到任何阈值的最大平均对比度小于某个给定的限制为止。


    6 阈值化算法评价简介
    尽管人们在图像分割方面做了许多研究工作,但由于尚无通用的分割理论,现已提出的分割算法大都是针对具体问题的,并没有一种适合于所有图像的通用的分割算法。另一方面,给定一个实际图像分割问题要选择合用的分割算法也还没有标准的方法。为解决这些问题需要研究对图像分割的评价问题。分割评价是改进和提高现有算法性能、改善分割质量和指导新算法研究的重要手段。
     然而,如同所有的图像分割方法一样,阈值化结果的评价是一个比较困难的问题。事实上对图像分割本身还缺乏比较系统的精确的研究,因此对其评价则更差一些。人们先后已经提出了几十个评价准则。这些准则中又有定性的,也有定量的;有分析算法的,也有检测实验结果的,文献[37]将它们大致分为13类。
    文献[4] 中选择摄影师、建筑物和模特三幅图像作为标准图像,并采用趋于一致性度量和形状参数对几种常用的全局阈值方法的分割结果进行了评价。结果表明对于这三幅图像,如果希望得到的二值图像比较均匀且目标的形状较好,推荐使用最大熵方法、矩量保持方法和最大类间方差法。
    文献[38] 中以磁盘及鹤模型作标准图像,在噪声条件下用错分概率、形状和均匀性度量作为标准评估了五种常见的整体阈值选取方法的性能。这五种方法是四元树方法、矩量保持法、最大类间方差法、最大熵方法和简单统计法。结果表明各种方法的性能不仅与所处理的图像有关,而且也和所选用的准则有关。该文献也指出,对于一般实时应用来说,可以选择最大类间方差方法和简单统计法。
    最后,评价的目的是为了能指导、改进和提高分割,如何把评价和分割应用联系起来尚有许多工作要做。一个可能的方法是结合人工智能技术,建立分割专家系统[45],以有效的利用评价结果进行归纳推理,从而把对图像的分割由目前比较盲目的试验阶段推进到系统地实现的阶段。
    展开全文
  • 当今我们正处于数字图像处理新纪元的开始,图像文件不再是像二十年前一样,根据传统显示器技术的要求,仅仅编码有限的子空间,而是将包含原始场景的色域和动态范围的编码内容。为了达成该目标,针对高动态范围图像...
  • 在这篇文章,提出了一种针对灰色直方图短时能量的高动态工业x射线图像的自动窗口算法。我们首先计算高位图像中短时帧直方图的平均能量值,然后使用双阈值来检测(inspection)包含有用信息的帧。最后,将检测到的帧...
  • 阿里巴巴高德地图AMAP-TECH算法大赛于7月8日开启初赛,赛题为「基于车载视频图像动态路况分析」,活动邀请了业界权威专家担任评委,优秀选手不仅可以瓜分丰厚的奖金,领取荣誉证书,还有机会进入高德地图【终面...
  • 欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ ...从2012年开始,深度学习席卷了图像识别领域,在图像分类、目标检测、语义分割等领域秒杀了传统的方法。之前也有人写过如何20分钟内得到猫狗分类大...
  • 动态图处理

    2019-10-04 18:36:16
    ①创建画布 所谓创建画布,其实就是在内存里面开辟一个空间,用于存储图像信息 ②绘制图像 ...完成整个图像绘制以后,需要输出图像或者将图片保存至某一个指定的文件夹下面 ④释放资源 图像被使用...
  • 做机器视觉和图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最高成就的几个超级专家(看看他们都在...
  • 深度动态序列人脸表情识别——论文笔记

    千次阅读 多人点赞 2018-07-12 14:47:31
    原文已上传Deep Facial Expression Recognition: A Survey (IEEE) 人脸表情识别分为动态序列识别和静态图片识别,本文只与动态序列有关这里也有一篇推送解析的这篇文章,但是不全,很多提到的文章没有翻译,不过...
  • MPG?是运动图像压缩算法的国际标准 目录 1?简介 2?标准 3?历史 4?...Group即动态 图像专家组由国际标准化组织?ISO(International Standards?Organization)与?IEC(International?Electronic Committee)于?
  • 机器学习(ML)、深度学习(DL)和图像处理(opencv)专用英语词典 百度翻译 http://fanyi.baidu.com/ A AAN (Active Appearance Model)主动外观模型 Adam(adaptive moment estimation,适应性矩估计),Adam是一...
  • 纹理 图像格式

    千次阅读 2013-08-17 20:02:35
    ■ 联合图像专家组(.jpg) ■ Windows位图(.bmp) ■ 光栅图像文件存储格式(.tga) ■ 可移植的网络图像文件格式(.png) ■ 直接绘图表面格式(.dds) ■ 可移植的像素映射格式(.ppm) ■ Windows设备无关位图格式(.dib) ■...
  • 信息融合动态与发展趋势

    千次阅读 2018-09-16 01:55:45
    摘 要:描述了信息融合理论与技术当前研究动态,提出了第三代信息融合概念、模型、特征和功 能模式,强调了人在感知观测—判断—决策—行动(OODA)环中的主导作用,为情报战博...
  •  MPEG是Moving Pictures Experts Group(动态图像专家组)的缩写。是一个致力于数字 视频、音频技术发展及标准化的杰出组织,它是ISO(International Standard Organization) 与IEC(International Electronic ...
  • ViewletCam:ViewletCam 是由 Qarbon 公司推出的使用极其容易,内容又丰富精彩的多媒体制作工具,使用它可以快速的录制、编辑与修改由计算机屏幕上录制下来的完整动态图像,再制作出不可抗拒的互动 Viewlet 内容来...
  • JPEG是由ISO和IEC两个组织机构联合组成的一个专家组,负责制定静态和数字图像数据压缩编码标准,这个专家组地区性的算法称为JPEG算法,并且成为国际上通用的标准,因此又称为JPEG标准。JPEG是一个适用范围很广的静态...
  • 动态Wide Dynamic Recording技术摄像机

    千次阅读 2010-06-09 11:12:00
     当在强光源(日光、灯具或反光等)照射下的高亮度区域及阴影、逆光等相对亮度较低的区域在图像中同时存在时,摄像机输出的图像会出现明亮区域因曝光过度成为白色,而黑暗区域因曝光不足成为黑色,严重影响...
  • 图像拼接

    万次阅读 2017-02-13 11:18:33
    图像拼接的基本流程 ...其基本思想是:首先找到待配准图像与参考图像的模板或特征点的对应位置,然后根据对应关系建立参考图像与待配准图像之间的转换数学模型,将待配准图像转换到参考图像
  • 信息融合发展沿革与技术动态

    千次阅读 2017-12-22 00:00:00
    最后,给出了信息融合领域的当前技 术发展动态。关键词:信息融合;JDL数据融合过程模型;用户-融合模型1 信息融合发展历程 信息融合起源于军事需求,是随信息源类型扩 展、信息类别增加(不仅是传感器数据)...
  •  MPEG标准的发展 MPEG是Moving Pictures Experts Group(动态图像专家组)的缩写。是一个致力于数字 视频、音频技术发展及标准化的杰出组织,它是ISO(International Standard Organization) 与IEC...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,021
精华内容 5,608
关键字:

动态图像专家组英文