当前位置:首页 > 基于Web的文本分类挖掘的研究
首都师范大学
Capital Normal University
(1)数据采集:主要是采集Web网页,即检索所需的网络文档。Web使用记录挖掘通过挖掘Web日志记录,这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。直接对Web Server的日志文件或日志行为进行统计分析处理,包括了几乎所有的LOG属性项,如client host、remote user、request time、server name/server ip、time length、byte received、bytes ended、status、request、URL,这些属性项之间可以单独进行统计分析,也可以适当以一定的逻辑关系组合起来进行统计分析。
(2)信息筛选和预处理:从获取的网页中自动筛选和预处理特定的信息。预处理过程是Web挖掘过程中最关键的一环,处理的质量关系到后面挖掘过程和模式分析过程的质量。Web产生的日志数据细节程度非常高,它们太过详细,既不能用于分析也不能装入数据库。要使之能够进入数据库,必须对日志数据进行读取和提炼。如下图所示,Web日志数据在进入数据仓库环境之前,必须经过一个“粒度管理器“的处理。粒度管理器对数据进行编辑、过滤、汇总、转换和重组之后,进入数据仓库。
(3)模式发现:通过实施算法挖掘,例如关联规则挖掘算法,序列模式挖掘算法和分类、聚类算法,发现存在于单个网站或跨越多个网站的潜在的、有用的模式。
(4)分析:对所挖掘的模式进行评估和解释。主要是利用一些方法和工具对挖掘出来的模式、规则进行分析,找出我们感兴趣的模式和规则。可以采用可视化的信息导航机制、Web路径图,OLAP技术例如数据立方和类SQL语言机制来可视化,解释挖掘出来的规则和模式。发现用户访问模型、提供网站描述性统计、网络用户聚类、页面聚类、频繁访问路径发现以及基于其上的网络用户个性化推荐服务。
1.3.4 Web挖掘的方法
Web内容挖掘常用的方法有:页面内容摘要、分类、聚类以及关联规则发现等。 Web使用挖掘常用的方法有:路径分析、分类、聚类、关联规则和序列模式发现等。 Web结构挖掘常用的方法有:Page-rank方法和HITS方法等。
1.4 Web挖掘的研究现状与发展
将数据挖掘的技术应用到文本处理的领域进行文本挖掘是一个重要的研究课题,目前受到关注的问题如下:
33 页 第 8 页 共
首都师范大学
Capital Normal University
(1) 基于关键字的关联分析
基于关键字的关联分析的目标是找出经常一起出现的关键字或词汇之间的关联或相互关系。一组经常连续出现或紧密相关的关键字可以形成一个词或词组,关联挖掘可以找出复合关联,即领域相关的词或词组。利用这种词和词组的识别,可以进行更高层次的关联分析,找出词或关键字间的关联。
(2) 文档分类分析
自动文档分类是一种重要的文本挖掘工作,由于现在存在大量的联机文档,自动对其分类组织以便于对文档的检索和分析,是至关重要的。文本文档的分类与关系数据的分类存在本质区别:关系数据是结构化的,每个元组定义为一组属性值对。而文档则不是结构化的,它没有属性值对的结构,与一组文档相关的关键字并不能用一组属性或维化。因此通常面对关系数据的分类方法并不适用于对文档的分类。
Web内容挖掘研究主要集中在基于文本内容的检索、信息过滤的提炼、重复数据消除、数据模式抽取、中间形式表示、异构集成、文本分类和聚类、文档总结和结构提取、数据仓库及OLAP等几个方面,尤其是基于XML的上述专题研究。
Web结构挖掘主要的研究集中在网络虚拟视图生成与网络导航、信息分类与索引结构重组、文本分类、文本重要性确定等几个方面。
文本分类为识别来自于蕴藏在电子形式中的大量的文本的类别,是进一步进行文本挖掘的准备。随着互联网及其信息服务的飞速发展,网络信息资源的获取更加棘手,而基于Web 的文本分类挖掘的发展及应用对于解决这一问题将会起到至关重要的作用。
1.5 本文的主要研究内容与组织结构
本文的结构以如下的方式进行组织。全文共有五章。 本文内容安排如下:
第一章 本章对选题的研究背景、意义和当前的发展状况进行了叙述,介绍了Web挖掘的过程,所采用的方法与技术, Web挖掘的现状,最后给出了整个论文的组织结构。
第二章 介绍了几种常用的分类算法,包括:K-最近邻参照分类算法(K-Nearest Neighbor, KNN)、支持向量机分类算法(Support Vector Machine SVM)等,并对本文提到的各种分类算法的特点进行了分析比较。
第三章 针对对朴素贝叶斯分类方法中的条件独立性假设问题进行了研究,尝试通过改善条件独立性的限制来提高分类性能。
第四章 在现有文本分类系统的基础上,设计并实现了一个Web 文本分类系统。 第五章 对本文的工作进行了全面的总结,并讨论了今后需要进一步研究的问题。
第二章 基于Web的文本分类挖掘
2.1
引言
33 页 第 9 页 共
首都师范大学
Capital Normal University
Web的数据挖掘要考虑Web的特征因素。首先,Web上的网页数量巨大。第二,网页的格式非常灵活,有html、asp、xml 等多种格式并存;而且由于任何人、任何单位都可以把自己制作的网页发布到互联网上,因此网页的写作风格、网页的内容变化很大。第三,一个网页内的内容也不单一,通常包含了许多与主题无关的内容,如版权信息、欢迎信息、广告信息等,这些对网页分类来说都构成了噪声。最后,网页的结构信息、万维网上的链接信息以及日益丰富的一些其他网络资源如查询日志又为Web的数据挖掘提供了有利的信息。
2.2 Web文本的预处理
在数据挖掘中,数据的预处理包括数据集成,数据清洗,数据变换,数据简化。 对于普通文本,预处理的过程为首先排除出现频率高但是含义虚泛的词语,例如英文中的a ,the ,each ,for ,汉语中的“地、得、的、这、虽然”等;然后排除那些在文档集合中出现频率很低的单字;在英文中还可以去除前缀、后缀等,找到词根,如walker ,walking ,walked 都可以是同一个词walk。
而Web文本的预处理则要考虑到它自身的结构特点等,比如为了去除噪声数据和无关数据要进行标记的过滤等。
2.2.1 Web文本数据采集
如1-2 图,Web挖掘首先要进行数据采集,也就是从网络收集数据的过程。它是进行后续挖掘处理的基础。如何快速、准确地获取所需要的信息,是数据采集研究的主要内容。在大规模内容计算中,信息获取分为主动获取和被动获取。被动获取通常是将设备介入网络的特定部位进行获取。而主动获取主要是指基于Web的信息采集,即直接从Web上采集或下载信息。下面介绍几种Web信息采集技术。
WEB信息采集技术可以分成:基于整个Web的信息采集(Scalable WC),增量式Web信息采集(Incremental WC),基于主题的Web信息采集(Focused WC),基于用户个性化的Web信息采集(Customized WC),基于Agent的信息采集(Agent-based WC),迁移的信息采集(Relocatable WC)等等。实际的系统往往是以上几个采集技术的组合。
采集系统主要研究的是:如何高效稳定地以较小的代价获取最相关的信息。为了提高采集速度,大规模的采集系统往往采用并行采集结构。为了降低采集的空间代价,更新策略是研究的重点之一。最理想的是采集系统能够自动学到每个网站或站点的更新规律,从而能够指导采集器的刷新策略,尽量做到没有变化的网页不采集,只采集那些更新的网页。
2.2.2 文本分词
中文文本(text,HTML)挖掘技术成败的关键在于文本中词汇切分的成功与否。由于汉语语言的特殊性和复杂性,使中文词汇的切分成为一个很伤脑筋的问题。而如果不进行分
33 页 第 10 页 共
首都师范大学
Capital Normal University
词,中文信息处理的其它很多研究就无法进行。
中文与英文不同,句子中各词条之间没有固定的分隔符(空格),进行中文文本的词频统计前,首先需要对中文文本进行分词处理。中文文本的分词就是在中文文本的各词条间加入分隔符,将中文文本的连续字流形式转化为离散的词流形式。
分词技术中基于词库的算法目前使用较广,也较为成熟,如最佳匹配法、最大匹配法、逆向最大匹配法、联想-回溯法。这类算法分词的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完全性两个方面,建立一个同时满足这两个要求的词库具有很大的难度 。所以,对于中文文本挖掘来说,基于词库的分词技术可能会使某些具有重要意义的词汇被疏漏,从而导致挖掘的内容不是十分准确。
最大匹配法(Maximum Matching method, MM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。
逆向最大匹配法(Reverse Maximum method, RMM法):匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。双向匹配法(Bi-direction Matching method, BM法):比较MM法与RMM法的分词结果,从而决定正确的分词。
最佳匹配法(Optimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。
联想-回溯法(Association-Backtracking method, AB法):采用联想和回溯的机制来进行匹配。
2.2.3 文本特征库
文档特征是指关于文本的元数据,分为描述性特征(如文本的名称、日期、大小、类型等)和语义性特征(如文件的作者、机构、标题、内容等)。描述性特征较易获取,语义性特征获取较难。W3C(互联网联合组织)制定的XML(eXtendable Markup Language),RDF(Resource Description Framework)等规范提供了对Web文档资源进行描述的语言和框架。
文献[6]中给出了一些可能的特征抽取方法:用网页内的文本来表示网页(纯本文,网页内不同域中的文本),用网页内图像、音频、视频的信息来表示网页,用网页中存在的模式来表示网页,用网页间的链接信息来表示网页,用网页的URL 信息来表示网页,用网页的布局来表示网页,用网页的摘要来表示网页。
2.3 文本分类
33 页 第 11 页 共
共分享92篇相关文档