《多媒体技术第二讲.ppt》由会员分享,可在线阅读,更多相关《多媒体技术第二讲.ppt(31页珍藏版)》请在三一办公上搜索。
1、第二讲 多媒体处理理论及共性技术基础,信号的数字化理论主要媒体形式介绍信号的线性变换技术信号的统计编码技术多媒体系统特点,Why Digital?,Universal storage,transmission format CD,internetPrecision(Range of values,number of bits,floating point)Lossless transmission/storageBUT:sampling rate distorts informationsize requirements may be large compared to analog,Digi
2、tization Process,Sampling from an analog signal Sampling Errors relate to signal frequencies Quantization Errors,Sampling:Nyquist sampling theorem目的 用最少的时间离散信号样本来精确表示原来的连续信号。Nyquist采样标准 采样频率至少为连续信号带宽的两倍。如果采样频率小于这个标准,就会产生“混叠”现象,即采样后离散信号不能重构原连续信号。,Nyquist System:,Quantization:Linear and Non-linearLine
3、ar quantization:均匀量化Non-linear quantization:非均匀量化(大信号采用大间隔,小信号用小间隔),举例:图象非均匀量化,Types of multimedia dataTextGraphicsPicture/imageAudioSpeechVideoGenerated media,Text,ASCII,UnicodeFormatted Text,Rich TextDocument Formats:Structured:Tex,HTMLPage Descriptions:Postscript,PDF,Graphics,Objectscircles,splin
4、es,rectangles,linesEditableresize,reshape,move,colorizeSynthetic,Images(Pictures),Fixed digitized representationbitmap,colors per pixelEditable in limited waysretouch,cut and paste,remap colors,filter Photoshop toolsno model of the thingCapturednot just from real life,clip art,screen dump,Audio,Soun
5、dshear 15 Hz to 20 kHzSpeech is 50 Hz to 10 kHzSpeech RecognitionIt is hard to wreck a nice beachIce cream I scream SynthesisSpeechMusic MIDI for 127 instruments,47 percussion soundsNotes,timing,Speech Recognition Issues,Continuous vs DiscreteVocabulary SizeChannel(Microphone)Environment(Location of
6、 mike and Speaker)Speaker Dependent/Speaker IndependentContext(Language Model)Interactivity(Dialog Model),Speech Recognition Knowledge Sources,Speech Variations,Style Variationscareful,clear,articulated,formal,casualspontaneous,normal,read,dictated,intimate,Voice Qualitybreathy,creaky,whispery,tense
7、,lax,modal,Contextsport,professional,interview,free conversation,man-machine dialogue,Speaking Ratenormal,slow,fast,very fast,Stress in noise,with increased vocaleffort(Lombard reflex),emotional factors(e.g.angry),under cognitive load,Video,Frames comprise the videoFrame rate=delay between successiv
8、e framesminimal change between framesSequencing creates the illusion of movement 16 fps is“smooth”Standards:29.97 is NTSC,25 is PAL,60 is HDTVInterlacingDisplay scan rate is different monitor refresh rate60-70 Hz(=1/s),Orthogonal Transforms 从理论上讲正交变换本身不能对信号产生任何影响,但正交变换改变了信号的表现域或表现形式,为某些信号处理和分析如压缩提供了
9、另一种可能更方便的手段.,Discrete Fourier Transform(DFT),Discrete Cosine Transform(DCT),Wavelet Transform(WT),Coding从信息论角度看:描述信源的数据由有效信息和冗余量两部分组成,去除冗余量能够节省存储和传输中的开销,同时又不损失信源的有效信息量.从生理角度看:一定限度的失真是允许的,如人眼对图象灰度分辨率的局限性,监视器显示分辨率的限制,因此可以对图象信源做一定的甚至很大程度的压缩.编码压缩的分类:1)冗余度压缩:基于统计模型,减少或完全去除数据流中的冗余,同时保持信息不变.(Statistical Co
10、ding).2)熵(entropy)压缩:以牺牲部分信息量为代价而换取缩短平均码长的方法,即有损压缩.,Statistical Coding统计编码是根据信源的概率分布特性,分配可变长码字(其具有唯一可译性),降低平均码字长度.Shannon CodingHuffman CodingArithmetic Coding,Shannon Coding Log2(1/pi)表示包含在 si 中的信息量,即编码所需的位数,如果信息出现的概率不同,那么用非一致位表示不同的信息比用同一位表示更有效率.Shannon and Fano 提出由上到下的编码方法:图象灰度级 xi 按概率递减排序.将 xi 分成
11、2组,每组的概率和相等或相似,对第一组分配代码“0”,对第二组分配“1”.执行步骤2后,如果每组还是由2个或2个以上灰度级组成,就重复上述步骤,知道每组只有一个灰度级.,Huffman Coding与Shannon Coding相反,它是一种从下到上的编码方法:将灰度等级按概率从大到小排序.取两个最小概率相加之和取代这两个概率,然后所有概率构成一个新的概率集合(新概率集合的元素个数比执行前少1个),新概率元素在集合中还是遵循由大到小规则确定自己所处的位置.被相加的2个最小概率所对应的灰度级成为Huffman树的一个叶节点,这2个节点构造一个父节点.重复2,3步骤直到只有2个概率为止,这时Huf
12、fman树达到了根节点.设所有节点的左后代为“0”,右后代为“1”,那么从根开始经各中间节点到叶节点的路径代码就是叶节点的Huffman码.,Huffman coding的效率优于其它统计编码,是一种最佳变长码.当数据成分复杂时,码表生成困难,编码速度较慢.(排序复杂)Huffman码无错误保护功能.(error propagation)Huffman和Shannon都自含同步码,无需添加标记符号.,Arithmetic Coding 通过把信息转换为0,1实数实现编码,已知参数包括每个符号的概率和它的编码间隔.,算术编码的问题:精度有限,但可采用位数放大法或分段编码解决.译码器要在接受这个实数的所有值后译码.对错误敏感.要加终止符.动态建模:实时精确知道信源概念是困难的.,The characteristics of multimediaHigh data volumeContent-based retrievalQuality of serviceSynchronizationDevice managementData modeling primitivesInteractivity of multimedia applications,Thank you,