VALSE2015
5月8日至10日在成都参加了VALSE2015,VALSE是国内计算机视觉青年学者的盛会。大会程序安排 / 会议手册详细版
5月8日活动:
8日活动,王晓刚和王乃岩给了tutorial,是关于deep learning的经验指导,以及他们最近的工作。王晓刚主要是用deep learning做人脸,众所周知,CUHK在这方面做得很出色,特别是ILSVRC竞赛中获得了很好的成绩。关于王晓刚的slides,我看到了某位同学整理的PDF版本, 我自己也整理了一份slides的拍照版公布在百度网盘链接 。王晓刚本人主页上也有公布slides内容。下面我简单的整理一下王晓刚给的talk的内容,王晓刚talk中谈到以下一些内容:
1)Overfitting:训练集很好,测试集很差的情况。
2)针对人脸识别中人脸数据集太规矩的情况,介绍了LFW数据集,并且讲了他们小组在这个数据集上面识别率的提高。
3)为什么DL取得成功。因为imagenet数据集的公布以及hinton2012结构的提出,还有evaluation task的提出。大数据才适合做deep learning,小数据及不适合做deep learning。特别是人与非人的问题,用深度学习去做会很难,因为神经网络面对非人的场景会confused。
4)总结了经典的深度学习模型:CNN,auto-encoder,deep belief net
5)为什么深度学习会work。首先是深度学习能够学习到比较好的feature,而且这些feature在CNN中是能够通过pool后,从小的pixel获得局部区域的信息的。而且深度比宽度更重要。
6)joint learning和separate learning的对比,同时简述了end-to-end的大趋势。同时也讲了他的work里面是如何用到joint learning的。
7)domain knowledge在深度神经网络里的利用。
8)花了很大功夫介绍DeepID到底学到了什么样的特征。
9)深度学习就是大数据的机器学习,特征学习,end-to-end以及上下文的学习。深度学习的表示是sparse,selective,robust的。
王乃岩博士的工作主要是tracking,他的slides的前半部分对我很有启发作用,他对神经网络的multi-level进行了分析。对于我这种深度学习的新手,很有效果。提出新模型的时候,可以借鉴王乃岩的工作。他的slides在此链接可以找到。
王乃岩talk中的内容大概可以分为以下几点:
1)pixel labeling应用的几个场景以及问题。比如image segmentation、boundary detection、saliency detection、3D scene understanding。
2)王博士提到的最重要的DL里面的两个趋势是,end-to-end learning以及multi-level fusion的问题。对于我这种新手来说,这方面的指导是很重要的。关于end-to-end也就是把处理一类问题的几个步骤结合起来进行参数的优化,(比如说对于object detection问题,可以将提取特征、分类器等操作的参数一起优化。)具体可以参考一下图示:
而对于multi-level fusion,我可以用下面几张图展示一下:
3)接下来,王乃岩博士讲了他的work:object detection,Image Caption Generation,Surface Normal Estimation,Visual Tracking以及用到的模型细节。
5月9日活动:
9日活动,周志华和王立威的工作都比较偏机器学习的理论,对于我这个深度学习方向的,我有很多东西都不是很懂。因此不列举出来了,不过周志华老师的ppt一般会在会议后给出链接,具体可以参考周志华老师微博。
王立威老师的talk内容大致为:证明margin这一机器学习经典结论并不完全正确,SVM性能并非仅由margin决定而与特征空间维数无关。具体的,我将证明一个基于与特征空间维数相关的margin上界。该上界一致紧于经典的维数无关margin上界;当特征空间维数是无穷大时,新上界等价于传统维数无关margin上界。这一margin理论表明,核方法为了提高margin而增加特征空间维数时,一定程度上付出了性能的代价。实验结果显示该理论对于SVM核函数的选择具有指导意义。
王瑞平的工作是我最近打算研究的视频里面的人脸识别,王瑞平老师也是山世光教授课题组的。他的talk内容是《Learning on Riemannian Manifold for Video-Based Face Recognition》。王瑞平老师talk的slides可以参考这里。
比较有意思的是下午微软MSRA孙剑博士和百度IDL美国黄畅博士的talk。他们分别讲述了两个工业界巨头近期关于深度学习的工作。
MSRA孙剑老师的VALSE2015 slides首先讲述了deep learning的initialization algorithm,network designs,parametric neurons。其中初始化算法主要是讲设计一个好的算法来得到神经网络的初始化参数,网络设计主要是关于模型结构的讲解,最后一个孙剑博士主要讲了一下PReLu的performance的变化。然后讲了MSRA最近关于deep的很多工作,包括how-old.net、object detection中的SPP-net。slides网盘地址。
百度IDL美国黄畅博士得slides讲述了IDL美国这两年的工作以及对deep learning未来发展趋势的预测、经验总结。百度的工作主要是OCR的end-to-end,人脸识别,face detection。slides网盘地址
黄畅博士总结的深度学习的经验是:
1)数据扩充用来引入输入图片的低维度知识。
2)结构化loss利用系统输出的高维度规则。
3)稀疏参数和特征,变化size的卷积,多任务的joint学习,低秩的规则化都是有帮助的。
黄畅博士谈到的深度学习的未来是:
1)大规模的weak、部分标注的数据。
2)针对独立的任务设计整体的框架。
3)early vision + high-level vision。
4)硬件和传感器。
5)sequential vs. concurrent。
VALSE2015成都墙报poster环节,我拍了关于object detection,segmentation,image classification,distance metric learning,face recognition,tracking有关的所有poster。里面的poster都是ICCV/CVPR/TIP等顶级会议、期刊的论文。上传网盘地址。
VALSE2016在武汉。bid结果是VALSE2017厦门,VALSE2018大连。
5月10日活动:
VALSE2015之Ladies in VALSE
10日的活动比较无聊,所以不具体说了,放图: