云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 基于Web的文本分类挖掘的研究

基于Web的文本分类挖掘的研究

  • 62 次阅读
  • 3 次下载
  • 2025/6/23 22:01:49

首都师范大学

Capital Normal University

文本分类是指按照预先定义的主体类别,为每个文档确定一个类别。文本分类是一种典型的有教师的机器学习,一般分为训练和分类两个阶段,具体过程如下:

(1) 定义阶段

定义类别集合C??c1,?ci,?cm?,这些类别可以是层次式的,也可以是平行式的;

s给出训练文档集合S??s1,?,si,?,sn?,每个训练文档i被标上所属的类别属性ci;

统计S中所有文件的特征矢量V?si?,确定代表C中每个类别的特征矢量V?ci?;该步是训练阶段的一个关键。

(2) 分类阶段

对于测试文件集合I??d1,?,dk,?,dt?中的每个尚待分类的文件dk,计算其特征矢量

V?dk?与每个V?cj??cj?C?之间的相似度Sim?dk,cj?

选取相似度最大的一个类别ct?max sim?dk,cj??ct,cj?C?作为的类别。在计算

Sim?dk,cj?时有多种方法,最简单的方法就是进考虑两个特征是两种所包含词条的重叠程

度,最常用的方法是考虑两个特征矢量间的夹角余弦。

2.3.1 常用的文本分类方法

在Web挖掘出现之前,人们已经研究过许多普通文本分类的方法,例如朴素贝叶斯(Naive Bayes,简称NB), k最近邻( k -Nearest Neighbor,简称KNN ),线性最小方差匹配(Linear Least Squares Fit,简称LLSF)、神经网络(Neural Network,简称NN)、支持向量机(Support Vector Machine,简称SVM)等,形成了各种文本自动分类技术。

(1)支持向量机(Support Vector Machines,SVM)

由Vapnik 在1995 年提出,用于解决二分类模式识别问题。Joachims 最早将SVM 方法用于文本分类。支持向量机将文本分类问题变为一系列二分类问题。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误的识别任意样本的能力)之间寻求最佳折中,以期获得最好的推广能力(Generalization Ability)。

从几何上说,支持向量机就是要在r 维空间中寻找最佳决策面,该决策面能最好的区分正例和反例,使正例和反例之间的分类间隔最大。SVM 的基本思想可用正例和反例线性可分的情况来说明,对于非线性问题,可以通过非线性变换转化为某个高维空间中的线性问题,在变换空间中寻找最优分类面。

SVM 方法具有很坚实的理论基础,SVM 训练的本质是解决一个二次规划(QP)问题,得到全局最优解,这使它有着其他统计学习技术难以比拟的优越性。SVM 分类器的文本分

33 页 第 12 页 共

首都师范大学

Capital Normal University

类效果很好,是最好的分类器之一。其缺点是其核函数的选择缺乏指导,难以针对具体的问题选择最佳的核函数;另外SVM 训练速度极大的受到训练集规模的影响,计算开销比较大。

(2)朴素贝叶斯算法(Naive Bayes,NB)

它是一种基于概率模型进行网页分类的算法。该算法首先提出一些关于待分类网页产生方式的假设,然后建立一个能体现这些假设的随机模型,再根据训练集估计这个随机模型的参数,最后把待分类网页按贝叶斯规则标记为最有可能产生这个网页的类。朴素贝叶斯算法是所有贝叶斯算法中最简单一种,它基于“朴素贝叶斯”假设,也就是“表示网页的各个特征分量之间是相互独立的”。朴素贝叶斯算法主要包括以下两个计算步骤:

第一步,计算特征词属于每个类别的几率向量。

第二步,在新Web 网页到达时,根据特征词分词,然后按公式计算该文本di 属于类cj 的几率。

(3)K近邻分类器(KNN)

KNN是目前广泛应用的统计方法,是与LLSF、决策树、神经网络同级的分类算法。其过程如下:给定一个测试文本,系统在训练文本集中找到K个最近邻,用K个近邻分配权重,每个近邻文本与测试文本的近似程度作为权重,如果几个近邻是一类,则每个权重相加,总和作为与测试文本的近似度。为了方便,使用余弦值来表示向量间的相似度,也可以使用欧式距离作为相似度的测量。此方法的缺点是K值定义比较困难,一般采用不同的K值进行一系列试验才能决定哪个取值较好。

文档d属于C类文档的概率为:

KP(c/d)=

?sim(d,d)p(c/d)iii?1??jKi?1sim(d,di)p(cj/di)

sim(d,di)表示文档d与di的相似度。di为与d最邻接的K个文档之一,它可属于同一类别文档,也可属于不同类别文档。

2.3.2 文本分类方法的比较

1) KNN是没有学习过程,只是存放所有的训练例,直到接到未知文本的时候才建立分类。KNN的训练过程较快,而且可以随时添加或更新训练例来调整。但它分类的开销会很大,因为需要很大的空间来保存训练例,而且分类效率很差。有看法认为在小数据集上KNN的表现优异。

2) 支持向量机(SVM )是公认的分类效果最好的算法之一,但在大数据集上训练速

33 页 第 13 页 共

首都师范大学

Capital Normal University

度比较慢;朴素贝叶斯法(NB) 的训练速度和分类速度都很快,是很多研究中常用的分类算法之一。

3) NB对于有较大噪音和非均匀的超文本集难以稳定和最有利的发挥性能。从理论上讲,贝叶斯分类的出错率最小,就试验结果来看,朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。并且如果特征选取做的好,减少了无关或不重要的特征值,会使得朴素贝叶斯算法在计算时减少很多运算量。可见,朴素贝叶斯算法是一个简单易实现的算法,因此很多研究围绕着怎样改进朴素贝叶斯算法的条件独立性假设来进行。鉴于它在大数据集上的准确性,它也很适合于Web文本挖掘。

2.3.3 Web文本分类的特点

Web上的文本分类的特点: 1) 巨大的数据资源

结合HTML的特点来看,基于Web的文本分类具有优势在于,您所感兴趣的数据通常可以用 HTML 树中深度嵌套的单 个 或 标记隔离开来。这使得分类过程可以专门在文档的一小部分内执行。但是,HTML中有很多格式编排,并且由于要动态添加标题以及编写其它服务器端脚本,所以文档结构可能在每次连接到页面时都需要进行更改,所以使分类问题变得更为复杂,其结果是现在的 Web 浏览器在进行 HTML 语法分析时非常不严谨。

2) 半结构化的数据结构

Web的文本分类最根本的特点在于它所处理的对象是网页中的文本。网页的特征直接影响了文本分类的性能。多数的网页是用HTML表示,因此导致了网页自身成为半结构化的数据,并且网页间的关系也由于链接的存在而清晰,可以利用这些特点改进文本分类算法,提高分类性能。

3) 动态的信息源

Web上的信息每时每刻都有可能被更新,信息源的静止是相对的,变化是绝对的。这就在速度和准确率上给Web挖掘算法提出了更高的要求。只有效率高的挖掘才能更好的适应动态的信息源。

4)重要的文本预处理

由于Web的大量,复杂等特点,文本预处理更为重要,过滤掉无关的信息,有效的表示文本,为后面的工作节约运算时间。其中,特征提取也起到相当重要的作用,可以有效降低运算次数。

2.4 分类性能评价方法

通常采用以下五种标准在不同的方面来评价一个分类器:

(1) 精度(precision),分类器在一个类别中做出的正确分类与分类器在该类上做出的所有分类的百分比,精度越高表明分类器在该类上出错的概率越小;

33 页 第 14 页 共

首都师范大学

Capital Normal University

(2) 查全率(recall),分类器在一个类别中做出的正确分类与该类实际应有分类数目的百分比,查全率越高表明分类器在该类上可能漏掉的分类越少;

(3) F1标准综合了精度和查全率,将两者赋予同样的重要性来考虑, F1(r,p)=

2rp,其中r代表查全率,p代表精度。 r?p这三个标准都只用于分类器在单个类别上分类准确度的评价。

(4) 宏观平均值(macro-averaged score),用于评价分类器的整体表现。将precision, recall及F标准在单个类别上的数值进行平均则分别得到它们的宏观平均值。宏观平均值更多的受到稀有类别(包含实例较少,出现概率较小的类别)的影响。

(5) 微观平均值(micro-averaged score),也用于评价分类器的整体表现,它是分类器在整个测试集上做出的分类中正确的比率,即在整体上来平均。

2.5 本章小结

本章介绍了基于Web的文本分类的特点,也结合了传统的文本分类算法,考虑到根据HTML格式的网页的特点,即都有由“<”和“>”组成的标记,可以很容易地过滤掉标记,成为纯文本,再进行文本分类。提出了下一章的改进方法。

第三章 朴素贝叶斯分类方法的研究

3.1 朴素贝叶斯分类简介

贝叶斯分类是一种统计学分类方法,它基于贝叶斯定理,可以用来预测类成员关系的可能性,给出文本属于某特定类别的概率。分类时根据预测结果将该样本分到概率最高的

33 页 第 15 页 共

搜索更多关于: 基于Web的文本分类挖掘的研究 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

首都师范大学 Capital Normal University 文本分类是指按照预先定义的主体类别,为每个文档确定一个类别。文本分类是一种典型的有教师的机器学习,一般分为训练和分类两个阶段,具体过程如下: (1) 定义阶段 定义类别集合C??c1,?ci,?cm?,这些类别可以是层次式的,也可以是平行式的; s给出训练文档集合S??s1,?,si,?,sn?,每个训练文档i被标上所属的类别属性ci; 统计S中所有文件的特征矢量V?si?,确定代表C中每个类别的特征矢量V?ci?;该步是训练阶段的一个关键。 (2) 分类阶段 对于测试文件集合I??d1,?,dk,?,dt?中的每个尚待分类的文件dk,计算其特征矢量V?dk?与每个V?cj??c

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com