当前位置:首页 > 基于公安业务的全文检索系统的设计与实现
龙源期刊网 http://www.qikan.com.cn
基于公安业务的全文检索系统的设计与实现
作者:郭松青 何鹏
来源:《无线互联科技》2015年第20期
摘要:随着计算机技术、网络技术和通信技术的发展和应用,公安信息化也得到了突飞猛进的发展。近年来,各地公安机关建设了大量的服务各警种的信息化系统,随着公安信息化系统的广泛引用,数据量以几何级开始增长。如何在庞大的数据中快速、精确地检索数据,已经成为公安信息化发展的重点,建立基于公安业务的全文检索系统能够有效地满足这个需求。文章首先对全文检索技术进行简要的介绍,对业务需求进行了深入分析,重点进行了全文检索系统的数据分析和功能模块设计。
关键词:全文检索;公安信息化;公安业务
全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。全文检索是以文本数据为主要处理对象,根据数据资料的内容而不是外在特征实现的信息检索手段。全文检索就是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立索引,当用户查询时,检索程序就根据事先建立好的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。
1 关键技术
建立一个全文检索系统,首先要将源文档转化为能够进行文本查找的全文数据库,包括全文的分割处理以及检索标识的提取,这称为全文本的前处理工作。众所周知,英文是以词为单位的,单词之间以空格作为自然分界符,而中文是字的序列,词之间没有间隔标记,使得词的界定缺乏自然标准。而“词”又是自然语言处理的一个基本单位,是最小的能够独立活动的有意义的语言成分。显而易见,自动识别词的边界,将书面汉字序列切分成正确的词串的中文分词问题无疑是实现中文信息处理的首要问题。 2 全文检索系统设计 2.1 业务需求分析
全文检索系统依附于具体的公安业务系统,全文检索数据库与业务数据库进行数据对接,同步更新。
目前来说,系统的索引范围按照对象的物理分布不同分为2类:第1类是业务数据库中存在的相关数据记录内容。第2类是系统上传的各类文档附件,包括WORD,EXCEL,PDF,TXT等格式的文档。
共分享92篇相关文档