当前位置:首页 > 多媒体技术课程整理
第一章多媒体导论 1.1什么是多媒体
概念:多媒体技术是由使用多模态技术(包括文本、图像、图形、动画、视频和音频等,以及交互活动)的应用程序构成的。 1.3.2~5
HTTP:超文本传输协议(HyperText Transfer Protoco), 一种”无状态”的请求/响应协议。
HTML:超文本标记语言(HyperText Markup Language), 用来在World Wide Web上发布超媒体信息的语言 XML:可扩展标记语言(Extensible Markup Languag), 定义文档中的标记(结构)以及他们之间的关系。
SMIL:同步多媒体集成语言(Synchronized Multimedia Intergration Language)
SMIL的基本目标和主要功能:支持对不同多媒体元素的调度和同步,并定义这些元素和用户之间的交互。
第二章多媒体编著和工具
2.1 sprite animation分镜(精灵)动画
假设我们已经创造了一个动画图,那么可以很容易地得到一位(黑-白)的掩模M,并得到分镜S;
现在我们可以将这个分镜覆盖在彩色的背景B上:先将B和M作“与”运算,然后将得到的结果和S作“或”运算,将这些简单的操作组合以一定的速率执行,就可以生成一个简单的二维动画。
Video transition视频切换
常用的切换类型包括:剪切、擦拭、融化、淡入(出)
剪切,顾名思义,是在两个连续的视频帧之间执行对图像内容的剧烈变化。这是最为简单也最为常用的切换方式。
擦拭是用另一段视频中的内容来代替可视区域的像素。如果两个视频的边界在屏幕中缓慢移动,那么第二段视频将逐渐替代第一段视频。方式有从左到右,从上到下、钟表式等等。 融化的方式用两段视频的混合来代替原图中的像素,以实现两段视频之间的渐变。融化分为交叉融化和抖动融化两类。
在第一类(交叉融化)中,像素点是渐变的,它可以被定义为:D=(1-α(t))·A +α(t)·B A和B是表示视频A和B的三元颜色向量。α(t)是颜色切换的函数,通常它和时间t具有线性关系:α(t) =kt,ktmax≡1
第二类(抖动融化)则完全不同,根据α(t),视频A中的像素点将突然被视频B所取代,这种变化是非连续的。变化的像素点的位置可以是随机的,也可以遵循一定的模式。 很明显,淡入淡出是第一类融化方式(视频A或B为黑色(或白色))的特例,而擦拭是第二类融化方式(采用某种几何模式来改变像素的特例)。 2.3 VRML
什么是VRML,全称,干什么的
Virtual Reality Modeling Language,虚拟现实建模语言
VRML是用来在Web环境中创建3D环境的工具,目标是将有色彩的对象置于3D环境中。
第三章图形和图像的数据表现
3.1.1 二值图像图形的每个像素作为一个位存储(0或者是1),是1位单色图像。
1
3.1.2 8位灰度图像图像的每个像素有一个在0~255之间的灰度值。每个像素由一个字节表示,政府图像可以看作由像素值组成的二维数组,即位图(bitmap)。
3.1.4 24位彩色图像在一个24字节的彩色图像中,每个像素用三个字节表示,通常表示为RGB。
伪彩色:使用了查找表概念来存储颜色信息,基本上,图像存储的不是颜色而仅仅是字节的组合,每个字节是指向一个表的索引。该表表项具有三字节值,指明了带有查找表索引的像素的颜色。颜色查找表通常被称为调色板(palette)。
3.2.3 PNG 基本技术特点(针对GIF)最多可支持48位的色彩信息。文件可能还包含用于正确显示彩色图像的伽马校正信息以及用于透明控制的阿尔法通道信息。与GIF基于宽展行的渐进显示不同,PNG的显示在7通道上对图像的每个8X8块一次同时在二维空间显示一些像素。
3.2.7 PS和PDF 了解,是干什么的
PostScript,用于排版的重要语言,PS文件是用ASCII保存的,本身没有提供压缩。 Portable Document Format,便携式文档格式中包含了LZW压缩。
第四章图像和视频中的颜色 4.1.6 伽马校正干什么的
图像文件中的RGB数值被转换回模拟信号并驱动阴极射线管(CRT)中的电子枪。电子的发射与驱动电压成正比,并且我们希望CRT系统产生的光线与电压线性相关。但是CRT产生的光线实际上与典电压的指数大致呈正比,这个指数称为“gamma”(伽马),符号为γ。 如果文件在红色通道的值是R,则屏幕发射的光线与 R?成正比。通常是对需“伽马校正”的信号在发射前将其指数变为1/γ,这样,我们就有:R→R’= R??→(R’) ?→R 因此可以获得“线性信号”。
4.1.12 XYZ RGB Lab 为什么提出这些颜色模型
XYZ:为了产生与设备无关的颜色,通过与设备相关的颜色值RGB来指定(x,y)色度值来协商解决
L*a*b(CIELAB):要看出明亮光线中的变化,它们之间的变化必须比在昏暗光线中得到同样效果的变化大许多.
4.2 两大类颜色模型
增色模型:当两条光线照射到一个目标上时,他们的颜色会加起来. 红色光源+绿色光源=黄色光
减色模型:对于沉积到纸上的墨水,会从纸的白色光源减去反色,反射出剩下的光. 黄墨水从白色光源中减去蓝色,反射出红+绿,最终看起来是黄色 4.3.2~4 了解
Y’=0.299·R’+0.587·G’+ 0.114·B’(下面的公式我觉得都不用背,了解即可) YUV:YUV编码用于PAL模拟视频中,U=B’-Y’ ; V=R’-Y’
YIQ:(实际上是Y’IQ)用于NTSC彩色电子广播中,灰度像素产生(I,Q)色度信号
YCbCr:分量数字视频的国际标准Rec.601使用的颜色空间,用于JPEG图像压缩和MPEG视频压缩,与YUV变换紧密相关。Cb=((B’-Y’)/1.772)+0.5 Cr=((R’-Y’)/1.402)+0.5
第五章视频中的基本概念 5.1 模拟视频概念 参数、计算
视频信号可以分成三类:分量视频(Component Video)、复合视频(Composite Video)和S-Video。
2
分量视频:高端视频系统(例如视频工作室)分别使用三路视频信号来表示红、绿、蓝三种图像平面,这类视频称为分量视频。一般来说,现代的数字视频都采用分量视频。
复合视频:在复合视频中,颜色(色度)信号和强度(亮度)信号混合成一个的载波。色度是由两种颜色分量(I和Q或U和V)构成的。复合视频用于彩色电视广播,兼容黑白电子广播。
S-视频:作为折中方案,S-Video使用两条电线,一条用于亮度信号,一条用于混合的色度信号。这样,颜色信息与关键的灰度信息之间的色度亮度干扰会少一些。
模拟信号f(t)对时变的图像进行采样,渐进扫描按照时间间隔逐行进行跟踪完整的图像,计算机显示器的时间间隔一般为1/72秒;在电视、显示器或多媒体标准中,采用隔行扫描,先扫描奇数行,然后扫描偶数行,产生“奇数域”和“偶数域”,组成一帧图像。
由于隔行扫描的作用,奇数行和偶数行交替显示。一般情况下我们感觉不到这种交替过程,除非在屏幕上有快速动作发生时,可能产生模糊的图像(此处可能考判断)。 5.3 数字视频优势
视频的数字显示技术的优点有很多,它允许
·在内存或者数字设备上存储视频以便于进一步的处理(去噪、剪切和粘贴等操作)以及集成到各种各样的多媒体应用程序中。
·直接访问,这样使得非线性视频编辑更加简单。 ·重复记录而不降低图像的质量
·便于加密,对信道噪声的容忍度更高。 5.3.1 色度的亚采样
图形亚采样(Sub-Sampling)的依据是什么? 它是根据人的视觉系统所具有的两条特性:一是人眼对色度信号的敏感程度比对亮度信号的敏感程度底,利用这个特色可以把图像中表达颜色的信号去掉一些而使人察觉不出;二是人眼对图像细节的分辨能力有一定限度,利用这个特性可以把图像中的高频信号去掉一些。 5.3.3 HDTV技术参数高清标准
高清电视(HDTV)不是增加每个单元区域的清晰度,而是增加可视域,特别是宽度。
HDTV的另一个特点是它朝着渐进扫描(非隔行扫描)的方向发展。原因是隔行扫描会给运动物体引入锯齿边,给水平边带来摇摆。
第六章数字音频基础 6.1.3 奈奎斯特理论
如果使用了足够的正弦函数,我们可以把信号分解成一系列正弦函数的和
如果采样频率和语音的真实频率一致,我们会检测到一个错误的信号,它仅仅是一个常数,频率为0。如果使用语音频率的1.5倍频率采样,我们会得到一个频率为真实频率一半的假频。基于以上原因,为了得到正确的采样,我们需要使用的采样频率至少是信号中最高频率的两倍,这就是奈奎斯特采样率。
更一般地,对于一个限带信号(band-limited signal,即信号的频率分量的下界为f1,上界为f2),那么采样频率至少是2(f2-f1)。
习惯上人们把奈奎斯特采样频率的一半称作奈奎斯特频率。 6.1.4~ SNR/PSNR/SQNR/PSQNR概念
信噪比(Signal-to-Noise Ratio,SNR)正确信号的能量和噪声能量的比,是信号质量的衡量标准之一。
SNR=10 log10(V2信号/V2噪声)=20 1og10(V信号/V噪声)
SQNR 信号量化噪声比量化噪声(或量化误差)是指某个采样时间点的模拟值和最近的量化值
3
之间的差。
6.2 MIDI 数据的基本特点、和波形的区别、公式 Musical Instrument Digital Interface,乐器数字化接口
MIDI是一种脚本语言,它对代表某种声音产品的“事件”编码。
举个例子:一个MIDI事件可能会包含一个音符的音调、延时、音量等数据。 MIDI文件可以存储波形数据。 6.3 什么是PCM/DPCM/ADPCM
PCM:脉冲编码调制 Pulse Code Modulation
DPCM:差分脉冲编码调制Differential Pulse Code Modulation DPCM是量化的预测编码,是一种有损编码
ADPCM:自适应差分脉冲编码调制Adaptive Differential Pulse Code Modulation
第七章无损压缩算法(必考) 7.3 游长编码 7.4 变长编码
7.4.1香农-凡诺算法 7.4.2 霍夫曼编码 7.5 LZW
7.6 算术编码
7.7 无损图像压缩
第八章有损压缩算法
8.1当图形的直方图相对平坦时,对图像数据采用无损压缩技术(如霍夫曼编码、算术编码和LZW),其压缩率很低;而在多媒体应用中的图像压缩技术需要较高的压缩率,因而通常采用有损压缩方法。在有损压缩中,被压缩的图像和原图像一般不完全相同,而是得到一个感觉上与原图像接近的近似结果。
8.2失真量度是一个说明在某种失真标准下一个近似值与原值的接近程度的数学量 如果关心的是像素的平均差异,常常采用均方差(Mean Square Error,MSE) 如果关心的是相对于信号的误差大小,则可以采用信噪比(SNR)量度
另一个常用的失真量度是峰值信噪比(Reak-Signal-to-Noise Ratio,PSNR)它测量的是相对于信号峰值的误差大小。
8.3比率失真理论有损压缩中永恒的问题就是比率和失真之间的权衡。比率就是重现原信号所需的平均位数
8.4对于任何有损方法,量化都是其核心 8.5 变换编码 DCT作用 变换编码:从信息理论的基本原理可知,矢量编码比标量编码效率更高。为了实现这个目的,我们需要将源输入中的连续样本块聚合成矢量。
离散余弦变换(DCT)是一种广泛应用的变换编码方法。它能够以数据无关的方式解除输入信号之间的相关性。
JPEG2000 采用的是离散小波变换(DWT)、EZW替代了JPEG 中采用的离散余弦变换DCT
第九章图像压缩标准
9.1 JPEG标准是由联合图像专家组Joint Photographic Experts Group开发的一种图像压缩标准 JPEG是有损的图像压缩方法。在JPEG中,DCT变换的编码效率基于下述3个特性
4
共分享92篇相关文档