云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 基于Web的文本分类挖掘的研究

基于Web的文本分类挖掘的研究

  • 62 次阅读
  • 3 次下载
  • 2025/6/24 2:11:19

首都师范大学

Capital Normal University

4.3 本章小结

本系统是建立在李荣陆的svmcls文本分类系统2.0版的基础上,并利用multieval.exe显示图形化结果。我做的工作主要是实现朴素贝叶斯文本分类,结合svmcls文本分类系统的特征选择和中文分词算法进行分类。

本系统训练阶段需要导入大量文本数据,并对每篇文本进行分词和特征提取处理,调用文本训练算法产生分类规则,所以运行时间较长,分类阶段运行时间短,对未知类别文本分类速度较快。

33 页 第 24 页 共

首都师范大学

Capital Normal University

第五章 结论及进一步的工作

5. 1 论文总结

在Web信息大量充斥的今天,文本分类挖掘以及基于Web的文本分类挖掘是一个具有极大潜力的研究方向。一些国际会议,例如KDD, IJCAI等,已经举行了有关Web挖掘的专题讨论,对其理论、体系结构、算法等展开研究,很多实验室在也开展对中文网页的挖掘研究。

本文基于Web对朴素贝叶斯算法进行改进,加深对算法以及文本分类挖掘系统的认识,了解了自然语言理解领域对文本处理的研究成果,在此基础上尝试了朴素贝叶斯文本分类的实验,并对结果进行分析。在学习了李荣陆的svmcls文本分类系统2.0版的代码后,用朴素贝叶斯文本分类对此系统进行丰富。

5.2进一步的工作

第三章实验结果充分表明,朴素贝叶斯分类算法是一个易于掌握和实现的算法,但很难充分改善其不足。在以后的研究中,还需要进一步改进在第三章中提出的对于实验没有达到良好的预期效果的原因。

在对于文本分类系统的学习中,可以看出中文分词技术和特征选择对于分类的重要意义,它们使得对于中文文本,包括中文网页等的挖掘更加切实可行,并且能够帮助文本分类算法提高准确率和速率。但是以上的工作都不是在真实的数据集上进行,下一步工作可以多了解一些数据挖掘的有关应用,汲取其中处理真实数据的有效方法。

33 页 第 25 页 共

首都师范大学

Capital Normal University

附录(附图)

附表

图表:

Web挖掘 内容挖掘 使用挖掘 结构挖掘 文本挖掘 多媒体 挖掘 超链挖掘 URL 挖掘 内部结构挖掘

图1-1 Web挖掘的分类

模式分析

模式发现

预处理

数据采集

图1-2 Web挖掘过程

33 页 第 26 页 共

首都师范大学

Capital Normal University

图3-2 seleinfile.exe 的使用界面

图3-3 朴素贝叶斯文本分类器界面

33 页 第 27 页 共

搜索更多关于: 基于Web的文本分类挖掘的研究 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

首都师范大学 Capital Normal University 4.3 本章小结 本系统是建立在李荣陆的svmcls文本分类系统2.0版的基础上,并利用multieval.exe显示图形化结果。我做的工作主要是实现朴素贝叶斯文本分类,结合svmcls文本分类系统的特征选择和中文分词算法进行分类。 本系统训练阶段需要导入大量文本数据,并对每篇文本进行分词和特征提取处理,调用文本训练算法产生分类规则,所以运行时间较长,分类阶段运行时间短,对未知类别文本分类速度较快。 33 页 第 24 页 共首都师范大学 Capital Normal University 第五章 结论及进一步的工作 5.

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com