Deeplab,deeplab( 五 )


深度学习引爆的这场革命,将人工智能带上了一个新的台阶,不仅学术意义巨大,而且实用性很强,工业界也开始了大规模的投入,一大批产品将从中获益 。2006年,机器学习泰斗、多伦多大学计算机系教授Geoffery Hinton在Science发表文章[1],提出基于深度信念网络(Deep Belief Networks, DBN)可使用非监督的逐层贪心训练算法,为训练深度神经网络带来了希望 。
2012年,Hinton又带领学生在目前最大的图像数据库ImageNet上,对分类问题取得了惊人的结果[2],将Top5错误率由26%大幅降低至15% 。2012年,由人工智能和机器学习顶级学者Andrew Ng和分布式系统顶级专家Jeff Dean领衔的梦幻阵容,开始打造Google Brain项目,用包含16000个CPU核的并行计算平台训练超过10亿个神经元的深度神经网络,在语音识别和图像识别等领域取得了突破性的进展[3] 。
该系统通过分析YouTube上选取的视频,采用无监督的方式训练深度神经网络,可将图像自动聚类 。在系统中输入“cat”后,结果在没有外界干涉的条件下,识别出了猫脸 。2012年,微软首席研究官Rick Rashid在21世纪的计算大会上演示了一套自动同声传译系统[4],将他的英文演讲实时转换成与他音色相近、字正腔圆的中文演讲 。
同声传译需要经历语音识别、机器翻译、语音合成三个步骤 。该系统一气呵成,流畅的效果赢得了一致认可,深度学习则是这一系统中的关键技术 。2013年,Google收购了一家叫DNN Research的神经网络初创公司,这家公司只有三个人,Geoffrey Hinton和他的两个学生 。这次收购并不涉及任何产品和服务,只是希望Hinton可以将深度学习打造为支持Google未来的核心技术 。
同年,纽约大学教授,深度学习专家Yann LeCun加盟Facebook,出任人工智能实验室主任[5],负责深度学习的研发工作,利用深度学习探寻用户图片等信息中蕴含的海量信息,希望在未来能给用户提供更智能化的产品使用体验 。2013年,百度成立了百度研究院及下属的深度学习研究所(IDL),将深度学习应用于语音识别和图像识别、检索,以及广告CTR预估(Click-Through-Rate PredicTIon,pCTR),其中图片检索达到了国际领先水平 。
2014年又将Andrew Ng招致麾下,Andrew Ng是斯坦福大学人工智能实验室主任,入选过《时代》杂志年度全球最有影响力100人,是16位科技界的代表之一 。如果说Hinton 2006年发表在《Science》杂志上的论文[1]只是在学术界掀起了对深度学习的研究热潮,那么近年来各大巨头公司争相跟进,将顶级人才从学术界争抢到工业界,则标志着深度学习真正进入了实用阶段,将对一系列产品和服务产生深远影响,成为它们背后强大的技术引擎 。
目前,深度学习在几个主要领域都获得了突破性的进展:在语音识别领域,深度学习用深层模型替换声学模型中的混合高斯模型(Gaussian Mixture Model, GMM),获得了相对30%左右的错误率降低;在图像识别领域,通过构造深度卷积神经网络(CNN)[2],将Top5错误率由26%大幅降低至15%,又通过加大加深网络结构,进一步降低到11%;在自然语言处理领域,深度学习基本获得了与其他方法水平相当的结果,但可以免去繁琐的特征提取步骤 。
可以说到目前为止,深度学习是最接近人类大脑的智能学习方法 。2深层模型的基本结构深度学习采用的模型为深层神经网络(Deep Neural Networks,DNN)模型,即包含多个隐藏层(Hidden Layer,也称隐含层)的神经网络(Neural Networks,NN) 。深度学习利用模型中的隐藏层,通过特征组合的方式,逐层将原始输入转化为浅层特征,中层特征,高层特征直至最终的任务目标 。

推荐阅读