spring|机器学习中的无监督学习应用在哪些领域呢?自动驾驶?医疗影像?卷积神经网络?( 二 )


GAN的核心是通过Discriminator去缩小Generator distribution和real distribution之间的距离 。 GAN的学习过程不需要人为进行数据标注 , 其监督信号也即是优化目标就是使得上述对抗过程趋向平稳 。
以两篇具体的paper为例 , 介绍数据恢复类的自监督任务如何操作实现 。 我们的重点依然是视觉问题 , 这里分别介绍一篇图片上色的文章和一篇视频预测的文章 。 其余的领域比如NLP , 其本质是类似的 , 在弄清楚了数据本身的特点之后 , 可以先做一些低级的照猫画虎的工作 。

图片颜色恢复
设计自监督任务时 , 需要一些巧妙的思考 。 比如图片的色彩恢复任务 , 我们现有的数据集是一张张的彩色图片 。 如果去掉颜色 , 作为感性思考者的我们 , 能否从黑白图片所显示的内容中猜测出原始图片的真实颜色?对于一个婴儿来说可能很难 , 但是对于我们来说 , 生活的经验告诉我们瓢虫应该是红色的 。 我们如何做预测?事实上 , 通过观察大量的瓢虫 , 已经在大脑中建立了一个从“瓢虫”到“红色”的映射 。

这个学习过程扩展到模型 。 给定黑白输入 , 使用正确颜色的原始图像作为学习标签 , 模型将尝试理解原始黑白图像中的每个区域是什么 , 然后建立从什么到不同颜色的映射 。

当我们完成训练 , 模型的中间层feature map就得到以向量形式的类似人脑对于“瓢虫”以及其他物体的记忆 。
视频预测
一般来说 , 视觉问题可以分为两类:图片和视频 。 图片数据可以认为具有i.i.d特征 , 而视频由多个图片帧组成 , 可以认为具有一定的Markov dependency 。 时序关系是他们最大的区别 。 比如 , 最简单的思路是利用CNN提取单个图片的特征进行图像分类 , 然后加入一个RNN或LSTM刻画Markov Dependency , 便可以应用到视频中 。
视频中帧与帧之间有时空连续性 。 同样 , 利用帧与帧之间的连续性 , 当看电影的时突然按下暂停 , 接下来几秒钟会发生什么 , 其实是可以预见的 。
同样 , 这个学习过程也扩展到了模型中 。 给定前一帧或前几帧的情况下 , 使用后续的视频帧作为学习标签 , 从而模型会试着理解给定视频帧中的语义信息(发生了啥?)进而去建立从当前到未来的映射关系 。

二. 基于数据变换的任务
事实上 , 人们现在常常提到的自监督学习通常指的是:这一类自监督任务是比较狭义的概念 。

用一句话说明这一类任务 , 事实上原理很简单 。 对于样本 , 我们对其做任意变换 , 则自监督任务的目标是能够对生成的估计出其变换的参数 。下面介绍一种原理十分简单但是目前看来非常有效的自监督任务——Rotation Prediction 。

给定输入图片