当前位置:首页 > 基于Web的文本分类挖掘的研究
首都师范大学
Capital Normal University
4.3 本章小结
本系统是建立在李荣陆的svmcls文本分类系统2.0版的基础上,并利用multieval.exe显示图形化结果。我做的工作主要是实现朴素贝叶斯文本分类,结合svmcls文本分类系统的特征选择和中文分词算法进行分类。
本系统训练阶段需要导入大量文本数据,并对每篇文本进行分词和特征提取处理,调用文本训练算法产生分类规则,所以运行时间较长,分类阶段运行时间短,对未知类别文本分类速度较快。
33 页 第 24 页 共
首都师范大学
Capital Normal University
第五章 结论及进一步的工作
5. 1 论文总结
在Web信息大量充斥的今天,文本分类挖掘以及基于Web的文本分类挖掘是一个具有极大潜力的研究方向。一些国际会议,例如KDD, IJCAI等,已经举行了有关Web挖掘的专题讨论,对其理论、体系结构、算法等展开研究,很多实验室在也开展对中文网页的挖掘研究。
本文基于Web对朴素贝叶斯算法进行改进,加深对算法以及文本分类挖掘系统的认识,了解了自然语言理解领域对文本处理的研究成果,在此基础上尝试了朴素贝叶斯文本分类的实验,并对结果进行分析。在学习了李荣陆的svmcls文本分类系统2.0版的代码后,用朴素贝叶斯文本分类对此系统进行丰富。
5.2进一步的工作
第三章实验结果充分表明,朴素贝叶斯分类算法是一个易于掌握和实现的算法,但很难充分改善其不足。在以后的研究中,还需要进一步改进在第三章中提出的对于实验没有达到良好的预期效果的原因。
在对于文本分类系统的学习中,可以看出中文分词技术和特征选择对于分类的重要意义,它们使得对于中文文本,包括中文网页等的挖掘更加切实可行,并且能够帮助文本分类算法提高准确率和速率。但是以上的工作都不是在真实的数据集上进行,下一步工作可以多了解一些数据挖掘的有关应用,汲取其中处理真实数据的有效方法。
33 页 第 25 页 共
首都师范大学
Capital Normal University
附录(附图)
附表
图表:
Web挖掘 内容挖掘 使用挖掘 结构挖掘 文本挖掘 多媒体 挖掘 超链挖掘 URL 挖掘 内部结构挖掘
图1-1 Web挖掘的分类
模式分析
模式发现
预处理
数据采集
图1-2 Web挖掘过程
33 页 第 26 页 共
首都师范大学
Capital Normal University
图3-2 seleinfile.exe 的使用界面
图3-3 朴素贝叶斯文本分类器界面
33 页 第 27 页 共
共分享92篇相关文档