云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 网络爬虫的设计与实现

网络爬虫的设计与实现

  • 62 次阅读
  • 3 次下载
  • 2025/5/4 2:14:04

天津大学2007届本科生毕业设计(论文)

4.2.7 附加功能

为了检测网络环境,防止因为不良的网络环境影响网络爬虫的爬取效率和正确略,额外添加了实时的ping功能,调用windows的命令解释器的ping功能,测试用户输入网址与当前主机的连接状况,测试当前网络状况是否良好。

4.2.8 整体流程

爬虫代码文件构成如图4-1:

图4-1 代码结构构成截图

HtmlParser.java这个类是改写HTMLEditorKit.Parser getParser()方法为public

HTTP.java是根据输入URL获取网页文档

Parser.java是继承ParserCallback获得网页内容 Relative.java是判断主题与网页内容的相关性 Segment.java是对网页主题和正文进行分词

18

天津大学2007届本科生毕业设计(论文)

Download.java是下载网页所用,Pagepro.java是为Download.java生成存储对象。

JDBCTest.java对数据库进行操作 mainF.java整合了网络爬虫的功能 Ui.java是界面

Ping.java是调用Ping程序的类 具体流程:

第一步: 调用HtmlParser.java,Parser.java,获得起始URL的内容,并存储到String中。

第二步:调用Parser.java获得网页下面所有的URL,同时去除重复的部分。 第三步:对以上两步进行递归循环,获得指定深度的所有URL列表。 第四步:调用Relative.java,Segment.java得到每个URL对应的网页内容与给定主题的阈值,大于给定值则相关,小于给定值则不相关,丢弃该URL。

第五步:调用Download.java和JDBCTest.java将与主题相关的网页下载并存储入数据库。

19

天津大学2007届本科生毕业设计(论文)

第五章 测试

设定只爬取前5个网页,程序运行后的界面如图5-1

图5-1 测试图1

预设目录为,D:test 按下START后,查看目录,可见如图5-2:

20

天津大学2007届本科生毕业设计(论文)

图5-2 测试图2

查看数据库可见,如图5-3:

图5-3 测试图3

测试Ping功能,分别对正确网址ping和不正确网址ping,如图5-4

21

搜索更多关于: 网络爬虫的设计与实现 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

天津大学2007届本科生毕业设计(论文) 4.2.7 附加功能 为了检测网络环境,防止因为不良的网络环境影响网络爬虫的爬取效率和正确略,额外添加了实时的ping功能,调用windows的命令解释器的ping功能,测试用户输入网址与当前主机的连接状况,测试当前网络状况是否良好。 4.2.8 整体流程 爬虫代码文件构成如图4-1: 图4-1 代码结构构成截图 HtmlParser.java这个类是改写HTMLEditorKit.Parser getParser()方法为public HTTP.java是根据输入URL获取网页文档 Parser.java是继承ParserCallback获得网页内容 Rela

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com