spring|机器学习中的无监督学习应用在哪些领域呢？自动驾驶？医疗影像？卷积神经网络？( 二 ) 切入点|编程|Java

GAN的核心是通过Discriminator去缩小Generator distribution和real distribution之间的距离。 GAN的学习过程不需要人为进行数据标注，其监督信号也即是优化目标就是使得上述对抗过程趋向平稳。
以两篇具体的paper为例，介绍数据恢复类的自监督任务如何操作实现。我们的重点依然是视觉问题，这里分别介绍一篇图片上色的文章和一篇视频预测的文章。其余的领域比如NLP ，其本质是类似的，在弄清楚了数据本身的特点之后，可以先做一些低级的照猫画虎的工作。

图片颜色恢复
设计自监督任务时，需要一些巧妙的思考。比如图片的色彩恢复任务，我们现有的数据集是一张张的彩色图片。如果去掉颜色，作为感性思考者的我们，能否从黑白图片所显示的内容中猜测出原始图片的真实颜色？对于一个婴儿来说可能很难，但是对于我们来说，生活的经验告诉我们瓢虫应该是红色的。我们如何做预测？事实上，通过观察大量的瓢虫，已经在大脑中建立了一个从“瓢虫”到“红色”的映射。

这个学习过程扩展到模型。给定黑白输入，使用正确颜色的原始图像作为学习标签，模型将尝试理解原始黑白图像中的每个区域是什么，然后建立从什么到不同颜色的映射。

当我们完成训练，模型的中间层feature map就得到以向量形式的类似人脑对于“瓢虫”以及其他物体的记忆。
视频预测
一般来说，视觉问题可以分为两类:图片和视频。图片数据可以认为具有i.i.d特征，而视频由多个图片帧组成，可以认为具有一定的Markov dependency 。时序关系是他们最大的区别。比如，最简单的思路是利用CNN提取单个图片的特征进行图像分类，然后加入一个RNN或LSTM刻画Markov Dependency ，便可以应用到视频中。
视频中帧与帧之间有时空连续性。同样，利用帧与帧之间的连续性，当看电影的时突然按下暂停，接下来几秒钟会发生什么，其实是可以预见的。
同样，这个学习过程也扩展到了模型中。给定前一帧或前几帧的情况下，使用后续的视频帧作为学习标签，从而模型会试着理解给定视频帧中的语义信息(发生了啥？)进而去建立从当前到未来的映射关系。

二. 基于数据变换的任务
事实上，人们现在常常提到的自监督学习通常指的是：这一类自监督任务是比较狭义的概念。

用一句话说明这一类任务，事实上原理很简单。对于样本 $\"X\"$ ，我们对其做任意变换，则自监督任务的目标是能够对生成的 $\"Y\"$ 估计出其变换 $\"T\"$ 的参数。下面介绍一种原理十分简单但是目前看来非常有效的自监督任务——Rotation Prediction 。

给定输入图片 $\"X\"$