GAN的核心是通过Discriminator去缩小Generator distribution和real distribution之间的距离 。 GAN的学习过程不需要人为进行数据标注 , 其监督信号也即是优化目标就是使得上述对抗过程趋向平稳 。
以两篇具体的paper为例 , 介绍数据恢复类的自监督任务如何操作实现 。 我们的重点依然是视觉问题 , 这里分别介绍一篇图片上色的文章和一篇视频预测的文章 。 其余的领域比如NLP , 其本质是类似的 , 在弄清楚了数据本身的特点之后 , 可以先做一些低级的照猫画虎的工作 。
图片颜色恢复
设计自监督任务时 , 需要一些巧妙的思考 。 比如图片的色彩恢复任务 , 我们现有的数据集是一张张的彩色图片 。 如果去掉颜色 , 作为感性思考者的我们 , 能否从黑白图片所显示的内容中猜测出原始图片的真实颜色?对于一个婴儿来说可能很难 , 但是对于我们来说 , 生活的经验告诉我们瓢虫应该是红色的 。 我们如何做预测?事实上 , 通过观察大量的瓢虫 , 已经在大脑中建立了一个从“瓢虫”到“红色”的映射 。
这个学习过程扩展到模型 。 给定黑白输入 , 使用正确颜色的原始图像作为学习标签 , 模型将尝试理解原始黑白图像中的每个区域是什么 , 然后建立从什么到不同颜色的映射 。
当我们完成训练 , 模型的中间层feature map就得到以向量形式的类似人脑对于“瓢虫”以及其他物体的记忆 。
视频预测
一般来说 , 视觉问题可以分为两类:图片和视频 。 图片数据可以认为具有i.i.d特征 , 而视频由多个图片帧组成 , 可以认为具有一定的Markov dependency 。 时序关系是他们最大的区别 。 比如 , 最简单的思路是利用CNN提取单个图片的特征进行图像分类 , 然后加入一个RNN或LSTM刻画Markov Dependency , 便可以应用到视频中 。
视频中帧与帧之间有时空连续性 。 同样 , 利用帧与帧之间的连续性 , 当看电影的时突然按下暂停 , 接下来几秒钟会发生什么 , 其实是可以预见的 。
同样 , 这个学习过程也扩展到了模型中 。 给定前一帧或前几帧的情况下 , 使用后续的视频帧作为学习标签 , 从而模型会试着理解给定视频帧中的语义信息(发生了啥?)进而去建立从当前到未来的映射关系 。
二. 基于数据变换的任务
事实上 , 人们现在常常提到的自监督学习通常指的是:这一类自监督任务是比较狭义的概念 。
用一句话说明这一类任务 , 事实上原理很简单 。 对于样本
给定输入图片
- 集度汽车机器人概念车曝光,售价20万元以上,北京车展将亮相!
- 关机|人工智能拓展机器人的能力和功能,推动了机器对人的脑力劳动的替代
- 企业创新评测实验室|含着“金汤匙”出身的海康机器人 启动分拆上市后 能否再造一个海康?| 物流
- 机器人|人工智能越来越先进,未来这些职业或被取代
- 本文转自:视界网1月20日下午|地面整平机器人亮相!为重庆江北机场T3B航站楼建设提速
- 机器人|四轴和六轴机器人的区别是什么,看了就知道!
- 智能生产力|从“酷”到“实用”,猎户星空服务机器人上岗10000+家客户变身智能生产力
- spring|宾得的色彩很好,一机一镜配置真的很值得,性价比很高
- 家长|80后奶爸做榜样陪娃学习、一次性通过法考:孩子成绩稳居班级后半段
- 本文转自:大众网目前|神兽归笼家庭辅导又发愁?碳氧智能硬件解放家长双手让学习更有效率