当前位置:首页 > 基于卷积神经网络的深度学习算法与应用研究 - 图文
第一章绪论本章首先介绍了本课题的背景、研究意义和国内外研究现状,主要介绍深度学习的发展历程和国内外研究现状,然后介绍了深度学习存在的问题和不足之处,最后概述本文的主要工作。1.1课题研究背景和意义深度学习是机器学习的一个分支领域。而在很多情况下,机器学习几乎成了人工智能的替代概念。简单地说,就是通过机器学习算法,使计算机有能力从大量已有数据中学习出潜在的规律和特征,以用来对新的样本进行智能识别或者预期未来某件事物的可能性【1】。自上世纪1980年代以来,从机器学习算法模型层次结构的角度来看,机器学习的发展历程大致经历了两个阶段:浅层学习阶段和深度学习阶段【2】。应该指出的是,机器学习的历史发展阶段划分问题并不是只有唯一的答案,从不同的角度看也会得到不同结论。第一个发展阶段:浅层学习(shallowlearning)上世纪1980年代后期,反向传播算法(即BackPropagation算法,简称BP)的出现及其在人工神经网络学习过程中的应用13】,极大推进了机器学习的发展,引领了基于统计机器学习模型的发展浪潮。这个热潮一直延续至今。研究人员发现,反向传播算法的采用,可以使人工神经网络模型在训练过程中自动修正自身参数,使得网络模型能够更大程度拟合训练数据,从而通对使用大量的训练样本对神经网络进行训练学习得到统计规律,以预测未知事件的可能。和以往基于人工规则的方式相比,这种基于统计规律的机器学习模式在诸多方面显示出极大优越性。尽管这个时期的人工神经网络也可以称为多层感知器(MultilayerPerceptron)【4】,但实际上它是一种浅层模型只包含一层隐藏层节点。进入1990年代以后,各种浅层机器学习模型陆续问世,比如最大熵法(如LogisticRegression,逻辑回归)15]Boosting【6|、支持向量机(SVM,SupportVectorMachines)17]等。这些机器学习模型架构大都可以看作不含隐藏层节点(如逻辑回归),或只有一层隐层节点(如Boosting、SVM)。此类模型无论是在理论研究上还是在实际应用中都取得很大成功。然而与之相反的是,浅层人工神经网络由于在理论分析上存在的困难,网络模型在训练过程中需要特定的技巧和很多经验知识,所以在这个阶段浅层人工神经网络的发展显得相对落后。进入21世纪以后,随着互联网的快速发展,人们可以接触到越来越多的信息,大型互联网企业每天也会产生海量的数据。于是如何从海量数据提取出高价值的信息成为人们需要面对的问题,这使得对大量数据进行智能分析和预测成为一种迫切需求。这个时期,浅层学习算法模型在很大程度上满足了这种需求,在互联网应用领域取得巨大成功。其中最成功的应用有网页搜索排序系统(如微软bing和雅虎的搜索引擎)、搜索广告系统(如百度的“凤巢”和谷歌的AdWords)、内容推荐系统、广告点击率预估、垃圾邮件过滤等【8】。第二个发展阶段:深度学习(deeplearning)2006年,机器学习大师、多伦多大学教授GeoffreyHinton及其学生Ruslan发表在世界项级学术期刊《科学》上的一篇论文引发了深度学习在研究领域和应用领域的发展热潮[91。这篇文献提出了两个主要观点:1.多层人工神经网络模型有很强的特征学习能力,深度学习模型学习得到的特征数据对原数据有更本质的代表性,这将大大便于分类和可视化问题;2.对于深度神经网络很难训练达到最优的问题,可以采用逐层训练方法解决。将上层训练好的结果作为下层训练过程中的初始化参数。在这一文献中深度模型的训练过程中逐层初始化采用无监督学习方式。自2006年起,学术界对于深度学习的研究持续升温。加拿大多伦多大学、蒙特利尔大学和美国纽约大学、斯坦福大学等成为深度学习的研究重镇。2010年,深度学习项目首次获得来自美国国防部f-jDARPA计划的资助,参与方有美国NEC研究院、纽约大学和斯坦福大学【101。大脑神经系统是由丰富的层次结构组成,这是深度学习获得支持的一个重要理论依据。Hubel和Wiesel通过对猫的视觉系统进行了大量实验的基础上揭示了视觉神经系统的运作机理,也因此获得1981年的诺贝尔生理学或医学奖【111。而在仿生角度之外,由于数学论证的难度和深度模型的复杂度,关于深度学习理论方面的研究工作现在还停留在初始阶段。但在工程应用方面深度学习模型已显现出极大潜力。自2011年起,谷歌和微软研究院的语音识别方向研究专家先后采用深度神经网络技术将语音识别的错误率降低20%.30%,这是长期以来语音识别研究领域取得的重大突破。2012年,深度神经网络在图像识别应用方面也获得重大进展,在ImageNet评测问题中将原来的错误率降低了9%112]。同年,制药公司将深度神经网络应用于药物活性预测问题取得世界范围内最好结果,《纽约时报》也报道了这一显著成果113】。斯坦福大学机器学习教授AndrewNg是OoogleBrain项目领导者,致力于在谷歌推动深度学习算法的应用。2012年6月,AndrewNO带领的科学家们在谷歌神秘的x实验室创建了一个有16000个处理器的大规模神经网络,包含数十亿个网络节点,让这个神经网络处理大量随机选择的视频片段。经过充分的训练以后,机器系统开始学会自动识别猫的图像。这是深度学习领域最著名的案例之一,引起各界极大的关注[14】。如今谷歌、微软和百度等拥有大数据资源的知名高科技公司在深度学习领域纷纷加大投入,力争夺取该技术领域的制高点,在以后的竞争中抢占先机。在大数据时代,这正是由于他们看到了更加复杂强大的深度学习模型能从根本上揭示海量数据中潜在的复杂而又丰富的数据信息,并对即将发生的某些事件可能性做出更精确预测。深度学习和大数据处理工业界中一直广为流传的观点是:在大数据情况下,使用简单机器学习模型比复杂算法模型更有效。简单的线性回归模型是在大数据处理分析中用的最多的。而现在深度学习在各个领域取得的成果使人们对此观点有了新的认识。简而言之,大数据条件下,也许只有更复杂、表达能力更强的模型,才能充分挖掘出海量数据中隐藏的丰富信息。或许我们只有使用更强大的深度学习模型,才能从海量信息中寻找到更多有价值的潜在信息。我们以语音识别为例来说明上述观点。语音识别是一个典型的大数据机器学习问题,在语音数据声学建模过程中,通常需要处理数十亿以上规模的数据样本。谷歌公司曾进行过一个语音识别实验,在实验中深度神经网络对训练和测试样本数据预测误差相差不大【‘5】。这个结果和常识是相反的,在正常情况下深度模型对训练数据的误差通常会比测试数据的误差大得多。对此,只有一个合理解释,这是因为大数据样本里含有大量的信息维度,即使是像深度神经网络这样高容量的复杂模型对大数据样本也是欠拟合的,传统的混合高斯声学模型的效果更差,训练结果无法和大数据样本拟合。这也显示了深度学习对于大数据处理的重要性。浅层模型的一个重要特点是假设依靠人工经验预先提取出样本数据的特征,强调浅层模型主要职责是作出分类或预测。在浅层模型的运用不会出现差错的前提下,特征提取的好坏就成为左右整个模型系统性能的重要因素。为此,通常一个开发团队在提取更好的数据特征的工作上要花费更多的人力,这需要开发人员深入地理解待解决的问题才能对样本提取出合适的特征以便浅层模型进行处理。这需要反复地摸索才能达到这种程度,有时可能会花数年的时间,研究进度会大大延迟。因此,采用人工设计特征提取方式得到样本特征,是一个不可扩展的途径。深度学习本质上是构建含有多隐层的机器学习架构模型,通过大规模数据进行训练,得到大量更具代表性的特征信息。从而对样本进行分类和预测,提高分类和预测的精度【l61。这个过程是通过深度学习模型的手段达到特征学习的目的。深度学习模型和传统浅层学习模型的区别在于:1.深度学习模型结构含有更多的层次,包含隐层节点的层数通常在5层以上,有时甚至包含多达10层以上的隐层节点;2.明确强调了特征学习对于深度模型的重要性,即通过逐层特征提取,将数据样本在原空问的特征变换到一个新的特征空问来表示初始数据,这使得分类或预测问题更加容易实现。和人工设计的特征提取方法相比,利用深度模型学习得到的数据特征对大数据的丰富内在信息更有代表性。所以,未来的发展趋势是深度学习模型在大数据分析中将得到更多的关注。1.2国内外研究现状深度学习极大地促进了机器学习的发展,受到世界各国相关领域研究人员和高科技公司的重视,语音、图像和自然语言处理是深度学习算法应用最广泛的三个主要研究领域,我们分别介绍深度学习在各个领域理论和应用层面的研究现状。1.2.1深度学习在语音识别领域研究现状长期以来,语音识别系统大多是采用混合高斯模型(GMM)来描述每个建模单元的统计概率模型‘171。由于这种模型估计简单,方便使用大规模数据对其4
共分享92篇相关文档