
图像标注新方法 肖天骏时间:2012.12.26主要内容图像标注任务简介图像预处理与表示单标签自动标注SVMANNDecision Tree两个先进的标注系统展示与比较Oxford VGGSupervision多标签自动标注图像标注任务形式:目的:图片检索,监控等图像检索的需要图像预处理图像分割特征提取利用SVM进行图像标注SVM优缺点人工神经网络神经网络的优缺点神经元的种类以及hidden-layer神经元的个数选取基本靠经验;运行过程是一个“黑盒”训练时间很长;容易进入局部最优?容易过拟合(overfit)?决策树State-of-art系统Oxford Vgg Slides Courtesy: Karen SimonyanOxford Vgg Slides Courtesy: Karen SimonyanOxford Vgg Slides Courtesy: Karen SimonyanOxford Vgg Slides Courtesy: Karen SimonyanOxford Vgg Slides Courtesy: Karen SimonyanOxford Vgg Slides Courtesy: Karen SimonyanOxford Vgg Slides Courtesy: Karen SimonyanDeep Neural NetworkDeep Neural NetworkDeep Neural NetworkWhy not deep before?OverfitThe limitation of the back-propogation algorithmWhy it works now?RegularizationPre-trainingDataAnd too much engineering tricksregularzationPre-trainingPre-trainingDreamPre-training之后的网络,已经有”做梦”的能力。Pre-training从模型的角度看,是使得模型更好地初始化,从特征的角度看,是学了一个很好的特征表示Pre-training之后,不知道是什么,但已经知道像什么,参数的初始化不再是随机,而是已经包含了数据信息,后面的监督学习只是传入标签信息,BP算法 能算的动了。思考深度神经网络给图像标注甚至是机器学习来了一个“逆袭”;由pre-training引发了科研人员对于:feature engineering的重视。SVM与DNN对峙新的局面。DNN评SVM:too shallow;SVM评DNN:regularization起作用是因为有bug接下来图像标注新方法也很可能是在这两大阵营的对抗与互相批判中产生。谢谢接下来,我主要按照这个顺序为大家进行介绍。先是了解一下图像标注任务。看看图像的预处理与特征表示方法。以单标签标注为切入点了解图像标注的机器学习方法。之后的重点是介绍比较当前最先进的图像标注系统:我选的是pascal visual recognition challenge评测中,评测结果前两名的系统。最后,如果时间允许,为大家简介多标签标注首先我们来了解一下图片标注任务:拿到一张图片,标出图片里有什么,比如我们要给ppt中这张图片标出car这个标签,再要求高一些,不仅知道有什么,还要知道在哪里,那么需要系统自动地把这个汽车给框出来。扩展一下,对于多标签标注任务,给一张图片,要把图中所有出现的都标出来。图片标注本身是计算机视觉的一项基础性工作,很多时候光把物体标出来时不够的。标出来,是为了好找出来。所以,图像标注一个很重要的应用是图像检索。当前图像检索最重要的依据是人工给图片贴上的标签然而互联网上图片太多了,人标不过来,人工标注的结果也经常具有很大的噪声。因此,一个高效,准确的自动图片标注系统,就显得很有研究价值,训练好了模型上传多少标多少。然而由于图像本身易受角度,光照的影响,图像标注一直是一个比较困难的问题,研究人员还在做着不懈的努力。在讲标注方法之前,我们看一下图像的预处理工作。预处理为什么重要?图片刚拿到手就是一堆像素点,怎么去处理。大家可以看ppt:研究人员:利用颜色,纹理,边缘,关键点等各种特征将图片表示为维数有限信息紧凑的向量。还有研究人员专门研究图像中物体的定位与分割,这样去除不需要的背景噪声。这些工作都可以为图像标注提供帮助。下面针对单标签标注任务,介绍三种标注方法。首先介绍利用svm进行图像标注我们将预处理得到的特征向量来表示图像,为每一个需要标注的概念选取一定规模的正负样本。训练出svm模型。便可用该模型去预测未标注的图片是否含有某一个概念。如图是一个典型地用svm进行标注的系统流程,由于一个集合有多个需要标注的概念,那么我们可以训练多个模型,用每一个模型对同一个样本进行预测,每次预测算出该模型对于这个样本的决定概率。选概率最高的作为该图片的标注结果。(不一定说)Svm的优点就是训练需要的样本少,不幸的是他经常会被类间不平衡的问题折磨。特别像图像标注这个问题,有多少个概念就得有多少个模型。训练模型时相当于是一个一多的策略,当概念数量增多时,不平衡问题加重。而且训练时负样本其实来自不同的类,这一点也会影响标注效果。第二个方法是用神经网络来进行标注我们将图片特征作为输入,传入神经网络的input layer,中间根据所选神经元的种类,进行一系列线性非线性的运算,得到output layer的取值。有多少个待标注的概念就可以设置多少个输出,选用类似于soft-max的输出节点,最大取值节点对应概念就是标注结果。神经网络前些年基本都在被批判,缺点讲得多,有点讲得少。其被指出的缺点包括:该方法一度被svm压制得很惨。最近神经网络有了新的研究成果,大有扬眉吐气的意思。这个后面会说一些。第三个方法是用决策树进行标注:决策树是根据特征定义一系列的attribute,每张图片根据一系列attribute的判断情况,从树根一直落到树叶。训练过程就是将标注好的图片依次落到树叶,每一个树叶根据标注信息判断出该树叶最可能代表哪标签。这样预测阶段,落到该节点的图片就被打上该标签。为了提高效果,科研人员引入随机性,在决策树的基础上发明了随即森林。也在图像标注任务上取得了不错的效果接下来,为大家介绍一下当前state of art的图片标注系统。我选取的是今年pascal voc LSVR评测排前两名的系统做介绍。首先看看牛津大学的系统他们的方法其实是这些年来的主流。简单看一下,分类器加探测器,再两者融合进行评分第一步在图像层面做分类;和之前提到的方法一样,提取出图片的特征表示采用1对剩余的策略训练出svm模型进行标注评分。接下来进行对象检测与定位,用bounding box把对象框从这一部开始,便开始共用detection与classification的结果因为bounding box的detection非常费时。那么我们对于每一个类,只返回classification结果前5000的来detection这里,classification相当于detection的预处理再进一步,把detection作为classification的预处理。对于标了bounding box的图片,再以bouding box里面的内容来进行分类。诶,这回没有背景噪声了,算是object-level的classification最后把三步得分做一个融合。那么我们得到的便是一个当前来看性能出色的图像标注系统最后为大家介绍的是在这个比赛中获得冠军的系统。采用的方法就是最近火起来的深度神经网络。我们来简单看一下这个系统。这个系统是一个9层的深度神经网络,前五层是卷积神经层,最上面三层是全相联层。巨多参数,参数初始化是高斯白噪声以及一些从数据学到的信息。注意这里hinton教授打了个马虎眼。那什么叫learned from data?这里就是深度神经网络一个重要的trick了,后面给大家介绍一下。就是这样一个系统,输入直接是图片的rgb值,最上层能够得到标签。之前说神经网络一直被svm压制。再细细探究一下为什么之前不用深层次的模型?简单的说,深了,训练不了,神经网络的训练算法backpropogation层数一多,gradient从上算下来要么vanish,要么explode?(前面的系数)参数多了,overfit严重。现在为什么可以了呢?1.发明了一些正规化方法对抗overfit;2.使用pre-training参数初始化方法,bp算法在层数较多的时候也可以用了。3.现在数据够了,机器快了,能练的动了。下面就来看一下上面这个系统中用到的重要trickDropout就是一种典型的regularization trick。训练过程中随机地选一些neuron让他不工作,或者变弱。你说这是什么道理,只能说从正规化的角度讲,就是限制参数的作用,防止它过拟合。目前没有特别好的数学推论,不过在工程中发挥了很好的作用。再来看一下刚刚提到的参数初始化方法:pre-training。从data中学习这实际上是一种无监督学习,可以采用受限波尔兹曼机这种具有记忆能力的网络结构,将样本的分布信息学进了参数里。简单看一下它的学习方法。该学习算法被称为:contrastive Divergence我们从图片得到visual layer的值,然后根据boltzman机的运算法则,算出hidden layer的值。再从hidden layer用同样的运算重构visual layer的值。这样我们便有了两组visual layer的值。如此一来我们便有了优化函数,即这两组visual layer之间的差距,可以采用梯度下降法进行训练了。刚刚那种有hidden layer回推到visual layer的运算。非常类似于人类做梦。怎么说呢?其实在那一步,根本是没有任何输入的,该网络实际上是通过存在他参数中的记忆“回放”了这样的画面。Pretraining从模型的角度看,是使得模型更好地初始化,从特征的角度看,是学了一个很好的特征表示BP算法已经能算得动了。所有,这样一个九层的神经网络能取得很好的效果。最后是我的一些总结与展望。由于深度神经网络的“逆袭”,图像标注可关注的研究热点更多了,比如pre-training引发了科研人员对于feature engineering,而不仅仅是关注
2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
启动器说明书-QJZ16-120、80、60、30(N)(A).pdf
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者