当前位置:首页 > 习题一
※<习题一>
1. 简述信息的特征以及信息处理的过程。
2. 什么是中文信息处理?它包含哪些主要内容? 3. 什么是汉字的属性?它包含哪些内容?
4. 什么是字频、词频?什么是高频字和高频词? 5. 简述汉字XYZ模型的作用和意义。 6. 中文信息处理的主要研究对象有哪些?
7. 结合实际,举例说明中文信息处理的重要性和必要性。 8. 软件的国际化和本地化对中文信息处理有何意义?
※<习题二>
1. 在ISO/IEC2022标准中汉字字符编码空间是如何定义的?这种定义方式有何不足之处? 2. 简述中文信息处理系统中的汉字代码体系及其相互关系。 3. 什么是代码页?其作用是什么?
4. 试设计一个汉字属性数据库,并描述各个字段的作用。
5. 字符在ISO 10646中如何编码的?ISO 10646中的基本位平面的作用是什么? 6. 设计一个实现按照姓名的笔画数排序和按姓的拼音序进行排序的程序。 7. 简述GB2312-80汉字编码标准的特点。 8. 简述ISO 10646-2000字符编码标准的特点。 9. 简述GBK汉字字符编码标准的特点。
10.简述GB18030-2000字符编码标准的特点。
11.从字符编码标准的角度谈谈计算机中文信息处理的特点。 12.什么是Unicode字符编码标准?其特点是什么?
※<习题三>
1. 从《简化字总表》和汉字字符编码标准谈谈汉字简-繁转换中计算机信息处理时所遇到的困难。
2. 提出一种实现汉字简-繁转换方法,并讨论如何采取措施提高其转换的准确率? 3. Internet上的字符编码是如何产生的?
4. UUENCODE、QP、HZ等编码主要解决什么问题? 5. 简述UTF7和UTF8编码的特点。
6. 分析邮件产生“乱码”的原因,并提出相应的解决方法。
※<习题四>
1. 汉字“熵”的概念对汉字编码有何指导意义? 2. 什么是信息量和平均信息量?
3. 海曼公式对汉字编码有何指导意义?
4. 从“规范、易学、快速”六字方针讨论汉字编码的评价体系。 5. “小键盘编码”和“大键盘编码”各有哪些优缺点?
6. 从用户使用的角度,举例说明设计一个台式机上的汉字输入法与设计一个手机上的汉字输入法的不同点。
7. 如何理解汉字编码技术中的“以字为基础,以词为主导”? 8. 如何理解汉字编码的静态平均码长和动态平均码长? 9. 汉字的编码方案对汉字智能输入技术有何影响?
10.汉字编码中“简码”的作用是什么?每个汉字编码方案是否一定都需要设“简码”? 11.试对4.4中的三种数字编码方案进行总结,结合4.5中的国家标准给出一个通用的数字编码方案,说明其特点。
12.给出一种汉字键盘编码的码本对照表设计方案,使之能实现“动态调频”和“高频先见”,并给出该检索引擎的检索算法和相关数据结构,评价码本对照表的结构方案对检索的效率有何影响?
※<习题五>
1. 中文操作系统有哪几种设计方法?各有什么特点?
2. 汉字信息处理系统中从信息的输入到信息的输出过程中各个模块的作用是什么? 3. 字符型界面的操作系统和图形界面的操作系统对中文信息的处理有何不同之处? 4. 嵌入式操作系统和台式机上的操作系统有何不同?
※<习题六>
1. 试述汉语语音输入、键盘输入和扫瞄输入的各自特点和应用领域。 2. 什么是键盘扫瞄码?它与ASCII码之间有何关系? 3. Windows中的键盘消息是指什么? 4. 阐述Windows中的钩子机制。
5. 输入码对照表在汉字输入系统中的作用是什么?
6. 一个汉字编码与其输入系统之间的关系是如何体系的? 7. 什么是XIM服务器?它包含哪些功能? 8. Windows中的IMM的作用是什么?
9. 对比Windows和Linux操作系统下的输入法的实现,论述输入法接口的重要性。
10.试分析提示行重码汉字的排列与对照表设计之间关系。给出一种“码码出字”的能快速实现查表的对照表设计方案。
11.在一个具体的汉字输入法中是如何实现“动态调频”和“联想”功能的。在输入程序和对照表的设计中如何合理解决这一问题?
12.在一个输入系统中输入码缓冲区和重码缓冲区能否共用?为什么?
※<习题七>
1. 什么是字形?什么是字型?
2. 什么是横向点阵字库?什么是纵向点阵字库?它们各有什么用途? 3. 什么是点阵字库、矢量字库和曲线字库?它们各有什么特点? 4. “黑白段表示法”和“线形增量表示法”各有哪些特点? 5. 什么叫字形压缩技术?设计字形压缩算法是应考虑哪些因素?
6. 点阵字形压缩技术、矢量字形压缩技术和骨架向量字形压缩技术各有哪些优点和缺点? 7. 防止字形放大和缩小失真有哪些方法?TrueType字形是如何防止放大和缩小时产生的失真?
8. 汉字的字频属性在字库管理中有何作用? 9. 什么是字形描述语言?它有何作用?
10.若在系统中造了一个字库中没有的生僻字,请问有几种方法使用它? 11.设计一种点阵汉字的压缩和还原算法,并分析其优缺点。
12.设计一种矢量汉字的放大和缩小算法,并分析如何解决缩小算法中防止字形的失真问题。
※<习题八>
1. 什么叫显示器的显示模式?字符显示模式和图形显示模式有何不同? 2. 什么是VRAM?什么是字符ROM?它们各有什么作用? 3. 什么是显示器的分辨率?什么是象元?什么是灰级度? 4. 简述汉字显示输出的基本过程。
5. 在CRT上显示一个ASCII字符和显示一个汉字,其工作过程有何不同? 6. DOS下的汉字显示技术与Windows下的汉字显示技术有何不同? 7. 汉字显示终端和PC机上的显示器有哪些何异同之处? 8. 什么是打印机的打印分辨率? 9. 简述汉字打印输出的基本过程。
10.试分析打印输出中有哪些因素将影响汉字打印输出的速度?提出一种提高汉字输出速度的方法,并说明相应的原理。
※<习题九>
1. 什么是汉语分词?其特点是什么?
2. 什么叫歧义?歧异有哪几种?歧义切分是指什么? 3. 什么是未登录词?
4. 什么是真歧义?什么是伪歧义?
5. 基于词典的分词系统与无词典的分词系统有何异同?
6. 在基于词典的分词系统中,词典的数据结构对分词速度有何影响?为什么? 7. 衡量一个分词系统的性能指标有哪些?
8. 简述分词系统在中文语言信息处理中的地位和作用。 9. 如何提高交集型歧义的切分效果?
10.基于规则的分词系统和基于统计的分词系统各有哪些优缺点? 11.试提出一种分词系统的规则库设计方案,并讨论该方案的特点? 12.简述基于统计的最短路径分词算法的基本思想。
※<习题十>
1. 信息检索的基本含义是什么?
2. 什么是结构化文档?什么是半结构化文档和非结构化文档? 3. 一个信息检索系统的评测指标有哪些?其含义是什么? 4. 什么是信息检索模型?一般分哪两类? 5. 什么是“倒排检索项表”?其有何特点? 6. 什么是特征项?什么是文档的特征?
7. 简述布尔模型、扩展布尔模型、向量空间模型的特点。 8. LSI模型的特点是什么? 9. 语义检索的特点是什么?
10. 什么是搜索引擎?一般包含哪些部分组成?
11. Google中的PageRank算法和Clever中的Hits算法各有什么特点? 12. 如何提高信息检索系统的检索的准确率和召回率?
※<习题十一>
1. 什么是信息抽取?它与信息检索有何不同? 2. 一个信息抽取系统的性能评价指标有哪些?
3. 信息抽取有哪些主要的研究对象?其特点是什么?
4. 一个信息抽取系统应该包含哪些部分?各部分的功能是什么? 5. 根据图11.8,利用HMM模型实现一个简单的信息抽取系统。
6. Web信息抽取有哪些特点?目前有哪几种常用的Web信息抽取方法?
7. 什么是Wrapper技术?查阅相关资料,简述一种Wrapper的学习方法,并说明其优缺点。 8. 什么是Ontology技术?查阅相关资料,简述它在Web信息抽取中的应用。
※<习题十二>
1. 什么是文本分类?
2. 文档特征的描述有哪几种方法?
3. 采用不同的文档特征,对同一个文档分类器而言有何不同的影响? 4. 简述Rocchio分类方法的基本原理。 5. 简述Naive Bayes分类方法的基本原理。 6. 简述KNN分类方法的基本原理。 7. 简述SVM分类方法的基本原理。 8. 简述决策树分类方法的基本原理。
9. 文本分类中选择阈值的策略有哪些?各有什么特点? 10.文本分类的评价指标有哪些?
共分享92篇相关文档