云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 毕业论文final-金雨欢

毕业论文final-金雨欢

  • 62 次阅读
  • 3 次下载
  • 2025/5/4 9:58:40

上海大学硕士学位论文 2008年5月

传递、表达有关的生物过程,并解释生物过程中出现的故障与疾病的关系,帮助发现新药物作用目标,设计新药物分子,为进一步的研究和应用打下基础。目前生物信息学的主要研究对象是基因和蛋白质。在蛋白质分析方面,着重分析蛋白质序列与蛋白质结构及功能之间的关系,预测蛋白质的功能,研究蛋白质家族关系开展进化分析。面对大量蛋白质序列数据,传统的计算方法越来越显示出不足,借助机器学习模式识别的方法弥补传统试验方法的不足,是目前生物信息学领域普遍使用的方法[2]。本论文研究基于机器学习理论和算法,通过对蛋白质序列分析,进而实现亚细胞位置预测的工作。

第三, 开发分析工具和实用软件解决具体问题,为生物信息学的应用服务,

如生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具等。到目前为止,各国研究人员开发了许多有应用价值的软件产品,如用于生物信息数据库检索的SRS和Entrez,用于序列同源性分析的BLAST[3,4]和FASTA[5,6],以及用于多序列比对的Clustw[7]等。为方便同行使用,本论文的部分研究工作已经通过Internet向全世界生物学家提供开放性服务。

1.2 机器学习算法在生物信息学中的应用

机器学习的研究主旨是使用计算机模拟人类的学习活动,它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。这里的学习意味着从数据中学习,它包括有指导学习(Supervised Learning)、无指导学习(UnsupervisedLearning)和半指导学习(Semi-Supervised Learning)三种类别。常见的有指导学习包括:决策树、Boosting与Bagging算法、人工神经网络和支持向量机等。[8]

机器学习算法在生物信息学中的应用主要包括四个方面:[9]

第一, 在序列比对分析中的应用。序列比对是生物信息学的基础。基

本问题是比较两个或两个以上符号序列的相似性。从20世纪80年代以来,人们发展了半经验的直观算法。它们可以很快地给出较好的结果,但不能保证所得结果是最优的。另外,还有动

2

上海大学硕士学位论文 2008年5月

态规划算法、神经网络和隐马尔科夫算法。目前已用于序列对比分析的方法主要有:NeedlimanWunsch动态规划算法, Smith Waterman算法及Blast Fasta等相似性比较程序。通过它们可进行两序列、多序列、局部序列乃至完整基因组的比较。目前,基因的比较研究也必须从基因的比较上升到对不同进化水平的生物在整个基因层面上的比较研究。

第二, 在人类基因组研究中的应用。随着人类基因组研究的发展,利用

机器学习方法进行基因识别被广泛使用。这些方法包括神经网络算法、基于规则的方法、决策树和概率推理等。此外,基于隐马尔科夫模型EM训练算法、Viterbi序列分析算法以及FDR(False DiscoveryRate)方法都有成功的应用成果。发现新基因和单核苷酸多态是当前国际上基因组研究的热点。生物信息学的方法是发现新基因的重要手段。

第三, 在蛋白质组研究中的应用。这里包含两个方面,蛋白质功能预

测和蛋白质结构预测:

a, 蛋白质功能预测主要是分析目标蛋白质是否和具有功能信息的已知蛋白质的相似性。一般步骤为先通过蛋白质序列数据库比较来确定其功能。利用Blast和Fasta工具与蛋白质序列库中的序列进行同源性比较。然后通过组成蛋白质的20种氨基酸的物理和化学性质,分析已知或未知蛋白质的性质,如等电点/分子量、疏水性、跨膜螺旋、卷曲螺旋及信号肽等。最后与保守的基序和图形数据库比较判断功能。

b, 蛋白质结构预测的目的是利用已知的一级序列来构建出蛋白质的立体结构模型,对蛋白质进行结构预测需要具体问题具体分析,在不同的已知条件下对于不同的蛋白质采取不同的策略。目前利用机器学习方法预测蛋白质空间结构的方法主要有折叠识别以及神经网络、隐马尔科夫、支持向量机、AdaBoost等方法。如Cai等人[10]使用支持向量机网络模型对蛋白质二级结构分类。

3

上海大学硕士学位论文 2008年5月

第四, 在生物芯片研究中的应用。生物芯片技术检测及分析技术是生

物信息学中目前实用性较强的研究领域。生物芯片主要包括基因芯片(GeneChip)或称DNA芯片(DNAChip)、蛋白芯片(ProteinChip)和芯片实验室(Lab-on-a Chip)等。基因芯片是生物芯片中研究最早、最先形成商品化产品,并已取得广泛应用。机器学习的许多方法都可以直接应用于基因芯片分析,如序列比较方法、贝叶斯神经网络方法和聚类方法等。

1.3 QSAR简介

化合物的性质/活性是化学的基本研究内容之一,徐光宪先生将物质结构与性

能的定量关系称为化学的第二根本规律,并将其列为二十一世纪化学的四大难题(中长期)之一[10]。化学家们普遍认为,化合物所表现出来的各种性质/活性与化合物的结构密不可分,即性质/活性是结构的函数。这也是结构性质/活性关系(Structure Property/Activity Relationship, SPR/SAR)的基本假设。

早在1868年,Crum-Brown和Fraser提出了化合物的分子结构C和生物活性

[11]

?可由方程表示:??f(C),这是QSAR方面的第一个方程

。后来人们发现,

化合物拓扑结构是决定其化学性质的重要因素。当时只研究了少部分的化合物结构参数与其活性关系,如取代基的电子效应(Hammett的σ常数),立体参数(Taft参数)以及疏水性参数(Hansch的分配常数)。到二十世纪30年代,Hammett在其经典著作《Physical Organic Chemistry》中提出了线性自由能关系LFER(Linear Free Energy Relationship),推动了化合物构效关系研究的深入发展。20世纪40年代起,化学家开始发现分子和其它化学物质可以很方便地用多种不同的矩阵表示[12,13],化学图的概念及拓扑指数(图论指数)[14,15]的引入使表征分子结构并进行化合物的构效关系研究有了一个基本工具。而后在二十世纪60年代,Hansch[16,17]和Free、Wilson[18,19]的研究开始建立在定量的基础之上。他们用统计方法对实验数据进行归纳总结并建立结构-活性关系表达式,探讨结构变化与生化活性之间的关系,标志着QSAR时代的开始。

二十世纪70年代以后,随着生物化学、分子生物学、统计学和计算机科学

的快速发展,SPR/SAR研究提高到了一个新的水平。一方面,表征分子的结构

4

上海大学硕士学位论文 2008年5月

参数不断丰富,在传统物理化学参数以外,更多地使用拓扑参数[15,20-23]、电子参数[24-26]来表征基团结构;另一方面,一些新的建模方法也被引入到SPR/SAR的研究中,除了传统的多元线性回归、偏最小二乘回归和主成分分析等算法以外,遗传算法[27,28]、人工神经网络[29,30]和支持向量机方法[31,32]等逐步引入了定量构效关系研究。二十世纪80年代后,考虑分子三维构象的3D-QSAR也逐步引起了研究者的关注。1979年Crippen提出的距离几何学方法[33]、1980年Hopfinger等人提出的分子形状分析方法[34]、1988年Cramer等人提出的比较分子场方法(CoMFA) [35]是3D-QSAR中最常用的手段。但在化学领域,由于研究体系与数据量的差异,2D-SPR/SAR仍占主导地位。

1.4 论文的主要内容

本文运用机器学习技术对蛋白质序列的亚细胞定位数据集以及一类有机同系物进行研究,建立起了用于蛋白质序列亚细胞定位的预测模型和用于5-脂氧化酶抑制活性预测的QSAR模型。并运用J2EE技术,实现基于上述模型的在线预报功能。

本文的主要内容分为三个部分,第一部分介绍了常用的机器学习算法,以及

它们的原理。第二部分介绍了预测模型的具体构建方法与构建过程。第三部分介绍了在线预报系统的实现原理与具体实现方法。

本文的主要工作成果在于:1.建立起了用于蛋白质序列亚细胞定位预报模型

和5-脂氧化酶抑制活性预测模型;2.通过构建基于上述模型的在线预报服务器,使预报模型能够为领域专家,特别是实验工作者所用。

5

搜索更多关于: 毕业论文final-金雨欢 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

上海大学硕士学位论文 2008年5月 传递、表达有关的生物过程,并解释生物过程中出现的故障与疾病的关系,帮助发现新药物作用目标,设计新药物分子,为进一步的研究和应用打下基础。目前生物信息学的主要研究对象是基因和蛋白质。在蛋白质分析方面,着重分析蛋白质序列与蛋白质结构及功能之间的关系,预测蛋白质的功能,研究蛋白质家族关系开展进化分析。面对大量蛋白质序列数据,传统的计算方法越来越显示出不足,借助机器学习模式识别的方法弥补传统试验方法的不足,是目前生物信息学领域普遍使用的方法[2]。本论文研究基于机器学习理论和算法,通过对蛋白质序列分析,进而实现亚细胞位置预测的工作。 第三, 开发分析工具和实用软件解决具体问题,为生物信息学的应用服务,如生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具等。到目前为止,各国研究人员开发

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com