当前位置:首页 > 2014冲剌班计算机复习要点(第五讲)
2014冲剌班计算机复习要点(第五讲)
多媒体
一、文本及文本处理
文本准备(即:文本输入)、文本编辑、文本处理、文本传输、文本展现(即:文本输出)。 组成文本的基本元素是____字符____。 常用字符的集合称为______字符集_____。 二、字符编码 1、ASCII码
美国标准信息交换码是________ASCII 码/___________。 以下数据要记住:基本ASCII字符集中数据: 96个可打印字符。32个控制字符。共128个。 字符‘A’的ASCII码值是:65 字符‘a’ 的ASCII码值是:97 数字‘0’字符ASCII码值是:48
目的:用于计算题。如:’A’是65,求’d’ASCII码值 空格字符ASCII码值是:32
一个标准ASCII字符需要7位二进制位表示。在内存中存储时要占用一个字节,即8位,但只用到7位,最高位总是0。
2、汉字编码
①GB2312-80一共分94区、94位。
第一部分:字母、数字和各种符号共682个。称为GB2312图形符号。如:汉字的标点符号、全角方式下的英文字符如’A’。都是两个字节,而且高位都是1。 第二部分:一级常用汉字(共3755个),按汉语拼音排列 第三部分:二级常用汉字(共3008个),按偏旁部首排列 汉字一共有:3755+3008=6763个。
没有繁体字。与ASCII码不兼容(因为:ASCII是最高位为0,而一个汉字是2个字节,它们的最高位都是1)
汉字区位码:汉字‘啊’在16区1位上,故:汉字‘啊’的区位码是:16 01 (两个字节)。
区位码是汉字输入码。
汉字国标码:由区位码中的区+32、位+32得到。如:汉字‘啊’的区位码是:16(区) 01(位),则国标码是:48 33 (两个字节)。国标码用于不同系统间交流用。
汉字机内码:是汉字输入到电脑后的编码。在计算机内部处理汉字时,都是使用机内码进
行的。(汉字在内存中、存储在硬盘等外存中都是使用的机内码) 国标码每一个字节加上128(即:每一个字节高位置1),就是机内码。 如: 汉字‘啊’的区位码是:16(区) 01(位),则国标码是:48 33 (两个字节)。则相应机内码是:48+128=176 33+128=161 ,因此汉字‘啊’的机内码是:176 161 (两个字节且高位都是1)
归纳:区位码=?机内码:区+160 位+160 区位码=?国标码:区+32 位+32 国标码=?区位码:字节-32 字节-32
第 1 页 共 9 页
机内码=?区位码:字节-160 字节-160
国标码=?机内码:字节+128 字节+128 (等价于高位置1) 机内码=?国标码:字节-128 字节-128
注意:若是用十六进制计算,A0就是十进制的160.
测试:若中文Windows环境下西文使用标准ASCII码,汉字采用GB2312编码,设有一段文字的内码为CB F5 D0 B4 50 43 CA C7 D6 B8,则在这段文字中,含有多少个汉字和多少个西文字符
思路:因为:一个汉字是两个字节且高位都是1. 因此:CB F5(这两个字节CB F5高位都是1,因而是一个汉字) D0 B4 (这两个字节D0 B4高位都是1,因而是一个汉字)50(一个英文字符) 43(一个英文字符) CA C7(一个汉字) D6 B8(一个汉字)。结果:4个汉字,2个英文字符。
②GBK:在GB2312基础上扩充了大量汉字。包括大量繁体。大约2万1千多个汉字。因此:GBK向下兼容GB2312,
? 与GB2312相同的字符,其编码保持相同。(一个汉字2个字节,且高位都是1)
? 新扩充的符号与汉字,则也是2个字节,第1个字节高位必须是1,第2个字节的高位可
以是0也可以是1。 与ASCII码仍不兼容。
③GB18030:对UNICODE中的10万个字符重新按我国情况进行编码。向下兼容GBK(自然也就兼容GB2312了)。是不等长编码。即:单字节编码表示ASCII字符,双字节编码表示汉字(向下兼容GBK),大约2万3千多个汉字,四字节编码表示其它字符。向下兼容ASCII(因为是不等长编码)。与UNICODE不兼容。
④台湾繁体BIG5: 与所有的GBXXX标准都不兼容。
⑤UNICODE中的UTF-8编码(与GB18030编码的字符集是一样的,即:字符相同,但编码的方式不同): UTF-8编码也是不等长编码。与GB系列编码都不兼容,但与ASCII码兼容。
⑥ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码,称为__UCS标准___ 对应的工业标准称为____Unicode____,它的实现有____UTF-8_______和____UTF-16____ ⑦UTF-8:单字节可变长编码。标准ASCII字符是一个字节。我国汉字是3个字节。UTF-8与ASCII向下兼容。与我国所有的GB系列汉字编码标准均不兼容。 ⑧Unicode编码文本的交换标准是______UTF-8__________。在LINUX系统中广泛使用(即LINUX下一个汉字是3个字节)。
测试:P38
三、文本准备
输入汉字的方式有许多种。人工和自动(扫描仪扫成图像,然后通过OCR识别)。
第 2 页 共 9 页
字符信息的输入
人工输入 自动识别输入
汉字键盘输入编码:数字编码(如:区位码)、字音编码、字形编码和形音编码,汉字的输
入编码与汉字的机内码是不同的概念,同一个汉字可以有多种输入编码,但机内码都是相同的。
好的汉字输入编码方案:易学、易记、效率高、重码少、容量大。
汉字OCR输入:将印刷或打印在纸上的中西文字输入计算机并经过识别转换为编码表示的一
种技术,这种输入方式适合需要处理大批量文字资料的文档管理、图书情报等应用。
四、文本分类
一) 按是否具有编辑排版格式分: 1. 简单文本 1) 即纯文本。只包含文本本身。几乎没有格式信息(如:字体、字型、字号等) 扩展名是:.txt。用记事本程序可制作。
2) 特点:没有字体、字号的变化,不能插入图片、表格、超链接 2. 丰富格式文本 1) 文本中除了文本自身之外,还包含有表示格式控制和结构说明信息的各种“标记”。 2) 常见的富文本扩展名有:.doc、.pdf、.rtf、.html。
富文本文档中,除了文本,若还含有声音、视频、图像,则称为:多媒体文档。 WORD、Adobe Acrobat、FrontPage都可以编辑富文本。
各个软件公司的富文本中的“标记”互不兼容,因此,提出一种大家都比较认可的中间的标准“标记”,就是:.rtf。
注意:.html文档是富文本,其富文本格式是用纯文本的“标记”来标注的。因而也可以用记事本程序来制作.html文档。
二) 按文本内容的组织方式分:
线性文本、超文本(带超连接的,信息的组织方式是网状结构)。
超文本中超连接是有向的。是从链源指向链宿。链源可以是:句子、单词、图形、图像、音标。链宿可以是:任何文档(程序、数据文件、电影、声音文件、其它网页)、或者是其它网页文件中内部中的一个位置(叫:书签)。(记住:书签 这个名字)
HTML标记语言中用A标签可以制作超链接。其实任何编辑器,都可以制作HTML文档。
五、文本编辑与文本处理
文本编辑:文本插入、删除、修改、插入超链接、删除超链接、设置字体等。特点:文本的
内容、格式等受到影响。
第 3 页 共 9 页
键盘输入
联机手写输入 语音输入
印刷体识别 手写体识别
文本处理:统计字数。语法检查、文本朗读、文本压缩等。特点:文本的信息没有丢失(不
受影响)。
文本编辑是解决文本的外观问题,文本处理强调对文本所含的文字信息进行形、音、义等待进行分析处理。
常用文字处理软件:WPS、Microsoft Word、FrontPage、PDF Writer等。所有的文本编辑
软件的用户界面都可以做到“所见即所得”,即一方面所有的编辑操作其效果可以立即在屏幕上看到,另一方面在屏幕上看到的效果与打印机输出结果相同。
文本检索:将文本按照一定的方式进行组织、存储、管理,并根据用户的要求查找所需文本
的技术和应用。主要有两类,一是书目型的标引检索系统;一是全文检索系统。目前常用的web信息检索系统(搜索引擎)有 google、yahoo、新浪、天网、百度、搜狗等。
常用文本处理软件:面向通信的文本处理软件,如 Outlook Express ;面向办公的文本
处理软件,如word、Wps;面向出版的文本处理软件,如方正公司的“飞腾”排版软件、美国 Adobe公司的PageMaker和PDF Writer;面向网络信息发布和电子出版的文本处理软件,如FrontPage,Adobe Acrobat。
测试:P38
插入表格的操作,是文本编辑还是文本处理?
五、文本的展现
文本的图像如何输出到屏幕或打印机上。 一) 展现过程:
1. 对文本的格式描述进行解释 2. 生成文字和图表的映像 3. 传送到显示器或打印机输出
二) 承担上述文本输出任务的软件称为:文本阅读器(或浏览器)。如:Word、Acrobat Reader、IE
三) 字型库
1. 即字库,同一种字体的所有字符的形状描述信息的集合。 使用场合:输出文本时使用。
2. 不同的字体(宋体、仿宋、楷体、黑体等)对应不同的字库,且数据量可能不同 3. 字符的字型描述方法:
? 点阵描述和轮廓描述。点阵描述是用一组矩形阵列的点表示一个字符;
? 轮廓描述是用一组直线和曲线来勾画字符的轮廓,这种方式精度高,字的大小变化时能保持字形不变。Windows中TrueType字库采用的是轮廓描述方法。
? 点阵字形占用字库量大,但使用简单;轮廓字形占用字库量较小,但在输出之前要通过
复杂的处理转换为点阵形式。
第 4 页 共 9 页
共分享92篇相关文档